824 research outputs found

    Filtrado de spam mediante ajuste lineal por cuadrados mínimos

    Get PDF
    Fil: Vega, Daniel Mario. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Departamento de Computación; ArgentinaFil: Alvarez Alonso, Pablo Alejandro. Universidad de Buenos Aires. Sistema de Bibliotecas y de Informacion; ArgentinaUn problema creciente en las comunicaciones mediante correo electrónico es la práctica de utilizar este medio para el envío de mensajes publicitarios masivos no solicitados, mejor conocidos como "Spam". Distintas soluciones han sido propuestas para atacar este problema, como ser la utilización de técnicas de aprendizaje automático. En este trabajo de tesis, analizaremos un método de clasificación y filtrado basado en ajuste lineal por cuadrados mínimos (LLSF) (YAN/94) en la tarea de filtrado de Spam. Analizaremos distintas variantes y mejoras sobre el algoritmo básico. Entre ellas presentaremos una nueva fórmula de selección de atributos, nuevas alternativas en la representación de los mensajes, un método matemático de determinación del umbral. Finalmente comparemos los resultados con los obtenidos en trabajos anteriores, los cuales utilizaron el algoritmo de Naïve-Bayes (AND/00b)

    Detección automática de tweets no relevantes en streams guiados por consulta

    Get PDF
    Treball final de Màster Universitari en Sistemes Intel.ligents (Pla de 2013). Codi: SIE043. Curs acadèmic 2017-2018Early in the 90s when social networks emerged, the number of users and the amount of information shared and published in them has undergone an exponential growth. In this work we will focus on the social network Twitter, which had at the beginning of 2018 with 330 million users. The goal of this work is to predict which of all the tweets obtained through a domain query are relevant or irrelevant for a subsequent analysis phase. For this, first, a bibliographic search has been made to find out the state of the art on similar topics. Secondly, a semi-manual method has been developed to perform the tagging of the dataset where the tweets have been identified according to the type they belong to, namely: relevant or irrelevant. Then a statistical analysis of the data has been carried out to find an adequate automatic classification method according to the selected evaluation metrics. All the experiments have been carried out with the help of data mining and text processing libraries available for Python.Desde principio de los años 90 cuando surgieron las redes sociales, el número de usuarios y la cantidad de información compartida y publicada en ellas ha experimentado un crecimiento exponencial. En este trabajo nos centraremos en la red social Twitter, que contaba a principios de 2018 con 330 millones de usuarios. El objetivo de este trabajo es conseguir predecir cuáles de todos los tweets recogidos a través de una consulta de dominio son relevantes o irrelevantes para una fase de análisis posterior. Para ello, en primer lugar, se ha realizado un barrido bibliográfico para consultar el estado del arte en temas similares. En segundo lugar, se ha elaborado un método semi-manual para realizar el etiquetado del dataset donde se han identificado los tweets en función de la clase a la que pertenecen, relevantes o irrelevantes. Después se ha realizado un análisis estadístico de los datos para buscar un método de clasificación adecuado según las métricas de evaluación seleccionadas. Todos los experimentos han sido realizados con la ayuda de las librerías de minería de datos y tratamiento de texto disponibles para Python

    Análisis y detección de bots en Twitter

    Full text link
    En la actualidad las redes sociales son una parte fundamental de la vida diaria de las personas. En los últimos años hemos observado como estas han tomado funciones políticas y mediáticas, y se han convertido en herramientas fundamentales para muchas empresas. No es de extrañar, por tanto, que se haya desencadenado un aumento en el pensamiento conspiranoico y la cantidad de noticias falsas distribuidas. Numerosos estudios tratan de atajar este problema centrándose en analizar el contenido publicado, y contrastarlo con diferentes tipos de fuentes verídicas, sin embargo, esta tarea ha probado ser extremadamente compleja y acarrea un importante riesgo de resultar sesgada. Sin embargo, dado que a menudo la popularidad de este tipo de noticias es debida al uso de perfles automatizados o bots, la tendencia en los últimos años ha sido atacar al medio de propagación de dicha información. En este trabajo se detallarán diferentes métodos de detección de usuarios falsos, comparando sus aproximaciones y en algunos casos midiendo sus resultados. Con este fn, se empleará el dataset “cresci-2017”, desarrollado por MIB (My Information Bubble). Este dataset destaca por ser uno de los mas completos hasta la fecha en el ámbito de la detección de bots. Además, se hará uso de diferentes algoritmos y técnicas conocidas en el panorama del aprendizaje automático, tales como Random Forest (RF), Redes Neuronales (MLP), o Clustering no Supervisado (KMeans). En concreto, nos centraremos en analizar si el uso de métodos no supervisados puede ser una alternativa a los actualmente empleados. Finalmente, se propondrán soluciones a los problemas mas relevantes de cara al desarrollo de una solución sostenible y generalizable en el tiempo, y se discutirán las posibles alternativas a explorar en el futur

    Proyecto de Estimación de Niveles de Co Ubicación Comercial para Estaciones Bases de Telefonía Móvil en Tecnología LTE Basado en Algoritmos de Machine Learning

    Get PDF
    El presente trabajo propone una técnica basada en un algoritmo de machine Learning, que determine de una manera supervisada, la estimación para la selección de ubicaciones para la implementación de infraestructura de telefonía móvil

    Filtro anti-spam basado en máquinas de vectores soporte (SVM) y su integración en la herramienta MailScanner

    Get PDF
    En este documento se realiza un estudio sobre la problemática del spam en la sociedad actual (Problemática del Spam). Se describen dos de las herramientas más usadas en la lucha contra el spam (SpamAssassin y MailScanner en los apartados 2.3 y 2.4, respectivamente), y se muestra cómo MailScanner hace uso de SpamAssassin para complementar su análisis del correo electrónico. En apartados posteriores se describe el objetivo del proyecto, consistente en la mejora de las capacidades de detección de correo no deseado de MailScanner y SpamAssassin con el desarrollo de un módulo de detección basado en máquinas de vectores soporte. Se describirá funcional y técnicamente la solución implementada, así como su integración en MailScanner. Asimismo, se describirán las etapas de entrenamiento de la solución, indicando los parámetros principales que la caracterizan. A continuación se describirán las pruebas realizadas y se analizarán los resultados en términos de eficacia y eficiencia, demostrándose que el nuevo motor conseguirá una notable mejora del sistema, contribuyendo de esta forma a la lucha contra el spam. En el apartado de conclusiones tratarán de extraerse los principales parámetros de la solución implementada, y se describirán los pasos futuros para la evolución de la misma.Ingeniería de Telecomunicació

    Arquitectura cloud basada en la técnica fuzzing para la generación de escenarios de pruebas en el sector de desarrollo de software

    Get PDF
    El desarrollo de software está en constante evolución, cada vez son más las nuevas tecnologías que se integran al ciclo de vida del desarrollo software y una de las fases más importantes es el aseguramiento de la calidad. A medida que el sistema va creciendo, son más las casuísticas que se generan y con ello la disminución del % de la cobertura de pruebas. Uno de los problemas en el desarrollo del software es que existen errores de programación no identificados con los métodos de pruebas convencionales durante la fase de desarrollo. Es por esta razón, que en el siguiente documento proponemos la implementación de una arquitectura cloud basada en la técnica fuzzing (AcFGTC) para la generación de escenarios de pruebas, con el fin de prevenir errores en el sistema.Software development is constantly evolving, new technologies are being integrated into the software development life cycle and one of the most important phases is the quality assurance. As the system grows, more cases are generated, and the percentage of test coverage decreases. One of the major issues in the software development is there are bugs not identified with conventional testing methods during the testing phase. For this reason, in the following document we propose the implementation of a cloud architecture based on the fuzzing technique (AcFGTC) for the generation of test scenarios. The objective here is prevent errors in the system.Tesi

    Sistema de detección de anomalías para infraestructuras IoT

    Get PDF
    En el mundo en el que vivimos actualmente, la necesidad de mantener seguros tanto los sistemas que utilizamos, como la información que transmitimos se ha convertido en una de las prioridades imprescindibles para el correcto funcionamiento de la sociedad. Cada día aparecen nuevas vulnerabilidades que pueden ser explotadas, por lo que la preocupación en cuanto a las medidas de seguridad aplicadas en nuestros sistemas nunca cesa. El crecimiento de esta necesidad, ha desencadenado que las propias empresas, entidades investigadoras, e incluso personas por su propia cuenta, desarrollen cada día nuevas técnicas, herramientas y métodos con los que aplicar seguridad a sus ámbitos de trabajo. En el caso de los entornos IoT, han resultado un avance en nuestra vida cotidiana con las facilidades que nos llegan a ofrecer sus dispositivos, sin embargo, su utilización también supone desafíos para la seguridad de la información con la que trabajan. Algunas de las herramientas más utilizadas para mantener seguros estos entornos, son los sistemas de detección de anomalías, con lo que se analizan e identifican patrones inusuales o sospechosos en los datos enviados por los dispositivos IoT. Por ello, con este proyecto, se propone un sistema de detección de anomalías, centrado en el control de infraestructuras de entornos IoT, de manera que se pueda controlar el correcto funcionamiento de las mismas, permitiendo la toma de acciones casi inmediata tras un aviso de funcionamiento anómalo, o simplemente para su análisis y monitorización diario

    Hipervinculación de documentos con Máquinas de Soporte Vectorial

    Get PDF
    En la actualidad el acceso a la información se da por medio de hipervínculos, los cuales interconectan los textos entre si únicamente si contienen una relación. Varios investigadores han estudiado la forma en que los humanos crean los hipervínculos y han tratado de replicar el modo de trabajo específicamente de la colección de Wikipedia. El uso de hipervínculos se ha pensado como un prometedor recurso para la recuperación de información, que fue inspirado por el análisis de citas de la literatura (Merlino-Santesteban, 2003). Según Dreyfus (Dreyfus, 2003) la hipervinculación no tiene ningún criterio específico, ni tampoco jerarquías. Por ello cuando todo puede vincularse indiscriminadamente y sin obedecer un propósito o significado en particular, el tamaño de la red y la arbitrariedad entre sus hipervínculos, hacen extremadamente difícil para un usuario encontrar exactamente el tipo de información que busca. En las organizaciones, la familiaridad y la confianza durante mucho tiempo han sido identificadas como las dimensiones de credibilidad de la fuente de información en publicidad (Eric Haley, 1996). Un hipervínculo, como una forma de información, puede, por lo tanto, tener un mayor impacto cuando se presenta por un objetivo conocido (Stewart & Zhang, 2003). Mientras tanto, los hipervínculos entre los sitios web pueden generan confianza en el remitente y el receptor del enlace, por lo que estas interacciones tienen efectos positivos de reputación para el destinatario (Stewart, 2006) (Lee, Lee, & Hwang, 2014). El estudio de documentos por medio de los hipervínculos es un área importante de investigación en minería de datos, en una red social a menudo lleva una gran cantidad de información estructural formada por los hipervínculos creando nodos compartidos dentro de la comunidad. Algunas importantes aplicaciones de los métodos de minería de datos para redes sociales son la recomendación social mediante las experiencias similares de los usuarios (Alhajj & Rokne, 2014). En marketing y publicidad se aprovechan las cascadas en las redes sociales y se obtienen beneficios sobre modelos de propagación de la información (Domingos & Richardson, 2001). Las empresas de publicidad están interesados en cuantificar el valor de un solo nodo en la red, tomando en cuenta que sus acciones pueden desencadenar cascadas a sus nodos vecinos. Los resultados de (Allan, 1997) (Bellot et al., 2013) (Agosti, Crestani, & Melucci, 1997) (Blustein, Webber, & Tague-Sutcliffe, 1997) sugieren que el descubrimiento de hipervínculos automatizado no es un problema resuelto y que cualquier evaluación de los sistemas de descubrimiento de Hipervínculos de Wikipedia debe basarse en la evaluación manual, no en los hipervínculos existentes

    Acercamiento a las máquinas de soporte vectorial y sus Aplicaciones en proyectos de grado del programa de Ingeniería de Sistemas y Computacion de la universidad Tecnologica de Pereira

    Get PDF
    Las Máquinas de Soporte Vectorial son relativamente nuevas en comparación con otras metodología de reconocimiento de patrones, en este trabajo monográfico presenta un recorrido teórico y matemático de los fundamentos de las Máquinas de Soporte Vectorial, sus aplicaciones a nivel general y las aplicaciones en el programa de Ingeniería de Sistemas y Computación. Las Redes Neuronales, las Redes de Bayer como en los otros métodos, se parte de datos iníciales, estos datos deben ser trabajados como vectores; se debe tener en cuenta que las máquinas soportan un numero finito de datos, a más datos el tiempo Computaciónal aumenta

    Detección de anomalías en tráfico de red con Machine Learning

    Full text link
    Este Trabajo Fin de Grado se enfoca en el problema de detectar anomalías en tráfico de red mediante métodos de aprendizaje automático a partir de datos NetFlow. Si bien se han realizado numerosos esfuerzos en la comunidad para detectar estas anomalías mediante métodos supervisados, esta aproximación presenta el problema de que es necesario tener un conjunto de datos con numerosos ejemplos de ataques para que el algoritmo los aprenda. Esto, debido a que se trata precisamente de anomalías, no es posible en conjuntos de datos de tráfico real. En este sentido, surgen otros dos problemas: los ataques se tendrán que generar de manera artificial para compensar el desequilibrio y, además, los modelos no serán capaces de detectar de forma precisa ataques zero-day que no hayan ocurrido otras veces en el pasado, al no tener ejemplos con los que entrenar. Este trabajo pretende analizar y demostrar de forma práctica esta problemática, investigando otras formas más precisas de resolverla mediante métodos de aprendizaje no supervisado, así como realizar una comparativa con el rendimiento de modelos supervisados cuando el conjunto de datos se equilibra de forma artificial. Se presenta un sistema que no solamente sea capaz de detectar ataques actuales y comunes, además de ataques zero-day sin necesidad de haberlos visto previamente, sino que también sea capaz de no alertar ante tráfico benigno que siga patrones distintos a los que se han conocido hasta el momento. El sistema permitirá recibir datos de fuentes heterogéneas mientras conserven el formato de entrada requerido. Para resolver el problema se ha utilizado parte del dataset UGR’16, sobre el que se han entrenado y evaluado distintos modelos y obtenido los mejores resultados con un IsolationForest, seguido por un perceptrón multicapa. La arquitectura desarrollada permite construir un sistema capaz de detectar con precisión anomalías en tráfico de red de fuentes heterogéneas. Este desarrollo se puede trasladar, posteriormente, a un conjunto mayor de datos y los resultados seguirían siendo correctos
    corecore