Utilización y analisis de herramientas de Big Data para el estudio de registros de conexiones a internet

Abstract

El objetivo de la tecnología Big Data es el estudio de grandes cantidades de datos cuyo análisis tomaría demasiado tiempo en una base de datos tradicional. En este trabajo se emplean estas tecnologías para realizar el estudio de una red de tráfico Internet. Para ello se utilizan las herramientas de Big Data pertenecientes a Apache Hadoop: MapReduce, Spark y Hive. Estas herramientas se encuentran funcionando sobre un cluster de ordenadores ubicado en la Universidad Politécnica de Turín. En esta red se genera una monitorización del tráfico perteneciente al protocolo internet (IP) mediante un sniffer que crea los registros de tráfico sobre los que se trabaja. El primer problema que se plantea es realizar un estudio de las características de las herramientas pertenecientes a Apache Hadoop en su uso para el análisis de los registros de tráfico de red almacenados. Para ello se realizan una serie de pruebas que permiten comprobar sus resultados frente a diferentes tipos de análisis. Al finalizar el estudio de estas herramientas, se realiza un análisis sobre el tráfico IP almacenado para caracterizar los protocolos utilizados en la red y el tráfico generado. Debido a que la mayoría del tráfico registrado pertenece al protocolo de transferencia de hipertexto (HTTP), se estudia la relación que tiene en los servicios web modernos el dominio visitado y las direcciones IP utilizadas

    Similar works