78 research outputs found

    Descubrimiento automático de conocimiento

    Full text link
    [ES] En el presente proyecto se proponen, evalúan y estudian soluciones basadas en representaciones vectoriales continuas y discretas de palabras y frases a algunos de los problemas más significativos del descubrimiento automático de conocimiento aplicado al lenguaje natural y en general a lenguajes formales. Entre estos problemas destacan la detección de temática, identificación de idioma, análisis de sentimiento y detección de malware. Además, debido a la complejidad que supone el aprendizaje y la utilización de dichas representaciones vectoriales, se ha desarrollado un sistema que facilita las tareas de evaluación, preprocesamiento, extracción de características y visualización de resultados; generalizando los aspectos comunes a todos los problemas abordados. Destacamos, también, los buenos resultados obtenidos mediante el empleo de las representaciones mencionadas sobre el problema de detección de temática, que constituye el principal problema del proyecto, superando los mejores resultados conocidos, haciendo uso del mismo corpus, que han sido cosechados por investigadores de la Universidad Politécnica de Madrid.[EN] In this project, solutions based on continuous and discrete vector representations of word and sentences are proposed, evaluated and studied by using them in some of the most significant problems in automatic knowledge discovery applied to natural language and generally to formal languages. Among these problems, we highlight topic detection, language identification, sentiment analysis and malware detection. Furthermore, due to the complexity of learning and use of vector representations, a system that facilitates evaluation tasks, preprocessing, feature extraction and results display has been developed; generalizing this way the common aspects to all the addressed problems. We highlight too the good results obtained by means of using these representations on topic detection, which is the main problem of the project, surpassing the best known results that have been reached by Polytechnic University of Madrid researchers which uses the same corpus.[CA] En el present projecte es proposen, avaluen i estudien solucions basades en representacions vectorials contínues i discretes de paraules i frases a alguns dels problemes més significatius del descobriment automàtic de coneixement aplicat al llenguatge natural i en general a llenguatges formals. Entre aquests problemes destaquem la detecció de temàtica, identificació d’idiomes, anàlisi de sentiment i detecció de malware. A més, a causa de la complexitat que suposa l’aprenentatge i la utilització d’aquestes representacions vectorials, s’ha implementat un sistema que facilita les tasques d’avaluació, preprocessament, extracció de característiques i visualització de resultats; generalitzant els aspectes en comú a tots els problemes abordats. Destaquem, també, els bons resultats obtinguts mitjançant l’ús d’aquestes representacions en el problema de detecció de temàtica, que constitueix el principal problema del projecte i se superen els millors resultats coneguts, fent ús del mateix corpus, que han sigut aconseguits per investigadors de la Universitat Politècnica de Madrid.González Barba, JÁ. (2016). Descubrimiento automático de conocimiento. http://hdl.handle.net/10251/69227.TFG

    Técnicas de aprendizaje máquina para análisis de malware

    Get PDF
    [Resumen]: La detección de malware se torna cada vez más importante en el campo de las Tecnologías de la Información. Una de las principales herramientas que sirven para esta tarea es el uso del aprendizaje automático para el desarrollo de modelos de detección. En este trabajo se desarrollan diversos modelos a partir de múltiples algoritmos de aprendizaje supervisado para tres escenarios diferentes. Los resultados obtenidos son muy alentadores, lográndose valores de rendimiento similares e incluso superiores a trabajos previos.[Abstract]: Malware detection is becoming increasingly important in the field of Information Technology. One of the main tools for this task is the use of machine learning for the development of detection models. In this dissertation, several models are developed from multiple supervised learning algorithms for three different scenarios. The results obtained are very encouraging, achieving similar or even higher performance values than previous studies.Traballo fin de grao (UDC.FIC). Enxeñaría Informática. Curso 2021/202

    Electromagnetic signals for malware classification and detection

    Get PDF
    Con este trabajo de fin de grado se trata de comprobar la validez de un método, mediante el análisis de las señales electromagnéticas emitidas por los procesadores (CPU) de dispositivos IoT (Internet of Things), para descubrir amenazas malware que puedan estar afectando a dichos dispositivos, clasificarlas y a su vez realizarlo de una manera indetectable y no invasiva, tratando de no consumir los valiosos y limitados recursos de los que disponen. Se han capturado con un osciloscopio más de 30GB de trazas de diversos tipos, familias y variantes de malware comúnmente utilizados en la actualidad en ataques masivos contra dispositivos IoT y se ha entrenado y validado con ellas dos tipos de redes, de machine learning y neuronal, además de usar para cada una de estas varios métodos. En los resultados obtenidos se ha podido comprobar una exactitud superior al 90 % en la detección y clasificación de tipos de malware, confirmando así que este método de detección puede ser altamente efectivo como medida de protección contra ciberataques y que puede ser expandido para obtener resultados aún mejores en futuras investigaciones

    Análisis comparativo de algoritmos de machine learning para detección de malware en aplicaciones Android

    Get PDF
    El malware en dispositivos móviles Android es muy frecuente hoy en día, ya que este sistema operativo posee un amplio mercado y es el más popular en este ámbito, cabe señalar que en enero de 2021 se obtuvo 71.93% de dispositivos que cuentan con Android, todas sus aplicaciones se basan en el kernel de Linux, el cual es código abierto permitiendo la creación de aplicaciones de fuentes poco confiables. A través de estos dispositivos los usuarios comparten su información personal, confiando en que estas aplicaciones faciliten algunas tareas como pagos, descarga de música, toma de fotos, etc., sin prever que puede ser vulnerable a los ataques de aplicaciones maliciosas que pueden robar esta información. A pesar de los notables esfuerzos de los proveedores de teléfonos Android y Google para implementar mecanismos de seguridad en el software como Bouncer o Google Play Protect, y también en el hardware como Sansung Knox, los autores de malware siempre han encontrado la forma de eludirlos. En este escenario, las técnicas de aprendizaje automático aplicadas en la detección de malware en conjunto con la elaboración de una base de datos con características dinámicas de estas aplicaciones, ha mostrado resultados sobresalientes, superando las limitaciones de métodos de detección tradicionales basadas en firmas, siendo de gran ayuda para la prevención de delitos informáticos. En esta investigación, se propone usar los modelos de aprendizaje automático Random Forest (RF), Decisión Tree (DT) y kNearest Neighbor(k-NN) para la detección de malware utilizando características descriptivas del comportamiento dinámico de un malware basado en el tráfico de flujo de red utilizando enfoque propuesto por NetFlowMeter con una cantidad de 15945 muestras entre malware y goodware. La evaluación de los modelos indica que, en cuanto a exactitud, RF tiene un 96%, DT 91.2% y k-NN 85.4% respectivamente. Lo que demuestra que las características de flujo de red generan una base de datos confiable y que el algoritmo Random Forest es el de mejor desempeño en la identificación de malware en aplicaciones android.TesisInfraestructura, Tecnología y Medio Ambient

    Implementación de un prototipo funcional de aprendizaje de máquina para identificar correos electrónicos de Spear Phishing

    Get PDF
    Trabajo de investigaciónEste trabajo tiene como propósito la detección de correos electrónicos Spear Phishing a mediante un prototipo web, debido a que las técnicas de ingeniería social son muy usadas hoy en día para robar a los usuarios datos de identidad personal y/o credenciales de sus cuentas financieras, por esta razón, todas las personas deben implementar una medida para detectar estos ataques de ingeniería social.2 JUSTIFICACIÓN 3 PLANTEAMIENTO DEL PROBLEMA 4 OBJETIVOS 5 MARCOS DE REFERENCIA 6 ESTADO DEL ARTE 7 METODOLOGÍA 8 DESARROLLO DE LA PROPUESTA 9 INSTALACIÓN Y EQUIPO REQUERIDO 10 RESULTADOS 11 CONCLUSIONES 12 TRABAJOS FUTUROS 13 BIBLIOGRAFÍA 14 ANEXOSPregradoIngeniero de Sistema

    Detección de Malware mediante Aprendizaje Profundo

    Get PDF
    [ES] Resumen Las aplicaciones móviles son una fuente de vulnerabilidad para los hackers. Cada vez son más los ataques realizados a través de ellas. Por ello, es muy importante identificar qué aplicaciones son empleadas para realizar ataques. Esta identificación hace que el usuario evite la instalación de dichas aplicaciones en su dispositivo. Para poder clasificar una aplicación en malware o benignware, se crearán varios sistemas clasificadores mediante diferentes técnicas de Machine Learning. Para la creación de los sistemas, se emplearán técnicas tradicionales de aprendizaje basadas en algoritmos clasificadores y Deep Learning. De todos los sistemas creados con las técnicas tradicionales se elegirán tres de ellos: el que tenga mayor exactitud, el que presente la precisión más elevada y, por último, aquel que más sensibilidad tenga. Finalmente, para cada una de las tres métricas, se decidirá si elegir el sistema entrenado mediante aprendizaje profundo o el entrenado con el aprendizaje tradicional seleccionado anteriormente. Así, se podrá hacer uso de tres herramientas con distintos enfoques capaces de detectar aplicaciones malignas.[EU] Laburpena Aplikazio mugikorrak ahultasun jatorri bat dira hackerrentzat. Haien zehar egiten diren erasoak gero eta gehiago dira. Horregatik, oso garrantzitsua da erasoak egiteko erabiltzen diren aplikazioak ezagutzea. Hori jakitearekin, erabiltzaileak aplikazio horiek bere mugikorr gailuan ez instalatzea lortzen da. Aplikazio mugikor bat malware edo benignware sailkatu ahal izateko, hiru sistema sailkatzaile sortuko dira Machine Learning-eko teknika ezberdinak erabiliz. Sistemak sortzeko algoritmo sailkatzaileetan oinarritutako ohiko teknikak eta Deep Learning erabiliko dira. Ohiko teknikekin sortutako sistema guztietatik, hiru aukeratuko dira: doitasun garaiena duen sistema, sistema zehatzena eta sentikortasun handiena daukana. Azkenik, hiru metrika bakoitzerako, erabakiko da zein sistema aukeratu, sakon entrenamenduarekin sortutako sistema edo lehen aukeratu den ohikoz entrenatutakoa. Honela, aplikazio kaltegarriak sailkatzeko gai diren hiru tresna erabili ahal izango dira hiru ikuspegi ezberdinekin.[EN] Abstract Mobile applications are a source of vulnerability for hackers. Number of attacks performed through them are increasing. That is why It is really important to identify the applications which are mainly used to perform cyber-attacks. This app identification made the user avoid installing those apps on your mobile device. In order to be able to sort an app on malware or benignware, a classifier system will be set up using Machine Learning different methods. Shallow learning Techniques based on classifier algorithms and Deep Learning methods are going to be used so as to create the systems. Three of all of the systems created using shallow learning technics will be chosen: the one which holds the highest accuracy, other which holds the best precision and finally, that which holds the highest recall. In the end, depending on each metric, it will be decided whether to choose between the system trained by Deep Learning and the previously chosen one trained by Shallow Learning. Thereby, three tools capable of detecting malicious apps with different approaches will be available to users

    Implementación y evaluación de algoritmos de detección de botnets basados en técnicas DGA en la red de comunicación de un Instituto de Educación Superior (IES).

    Get PDF
    Con la constante evolución de las redes de telecomunicaciones y el aumento exponencial del tráfico en Internet, es necesario prevenir ataques informáticos cada vez más sofisticados. DGAs es una técnica que permite generar dominios maliciosos de forma automática y encubierta para controlar Bots y ejecutar estos ataques. Se propone implementar dos algoritmos de detección de Botnets basadas en DGAs: MaldomDetector y N-gramas enmascarados. Estos utilizan aprendizaje automático supervisado y se basan en la extracción de características léxicas y estadísticas de los nombres de dominio. Para llevar a cabo la detección de mAGDs, se utilizará el framework BNDF como base. Sin embargo, dado que BNDF no ofrece resultados en tiempo real, se desarrolló un módulo de detección temprana que en base a los algoritmos de detección seleccionados, optimiza el funcionamiento del framework. Se diseñaron distintos escenarios de prueba, en entornos controlados y en una red real. En los escenarios controlados, por medio de diversas métricas de evaluación se determinó el rendimiento de detección de los algoritmos. En las pruebas en redes reales, se analizaron las solicitudes DNS junto con las predicciones realizadas por los algoritmos, con el objetivo de evaluar la veracidad de las predicciones. Por último, se evaluó el uso de los recursos computacionales requeridos por cada algoritmo. N-gramas enmascarados demostró un excelente desempeño en términos de clasificación, con un valor de 85.09 % en todas las métricas. MaldomDetector mostró un mejor tiempo de procesamiento con 1.38 ms por dominio, convirtiéndose en la mejor opción para redes con recursos limitados.With the constant evolution of telecommunications networks and the exponential increase in Internet traffic, it is necessary to prevent increasingly sophisticated cyberattacks. DGAs is a technique that allows for the automatic and covert generation of malicious domains to control Bots and execute these attacks. It is proposed to implement two Botnets detection algorithms based on DGAs: MaldomDetector and masked N-grams. These algorithms use supervised machine learning and rely on the extraction of lexical and statistical features from domain names. To carry out the detection of mAGDs, the BNDF framework will be used as a base. However, as BNDF does not provide real-time results, an early detection module was developed to optimize the framework’s operation based on the selected detection algorithms. Different test scenarios were designed in controlled environments and on a real network. In the controlled scenarios, various evaluation metrics were used to determine the detection performance of the algorithms. In real network tests, DNS requests were analyzed alongside the predictions made by the algorithms, with the aim of evaluating the accuracy of the predictions. Finally, the computational resource usage required by each algorithm was evaluated. Masked N-grams demonstrated excellent performance in terms of classification, achieving a value of 85.09 % in all metrics. MaldomDetector showed a better processing time with 1.38 ms per domain, making it the best option for networks with limited resources.0000-0001-7644-02700000-0002-5274-666

    Herramienta de extracción de información de malware

    Get PDF
    Trabajo Fin de Grado en Ingeniería Informática. Universidad Complutense de Madrid, Facultad de Informática, Departamento de Ingeniería del Software e Inteligencia Artificial. Curso 2017/2018Los ataques de ransomware alrededor del mundo son cada vez más frecuentes debido al incremento en el uso de dispositivos con acceso a Internet. Este hecho provoca que el número de usuarios vulnerables a este tipo de software malicioso aumente vertiginosamente. La información recolectada en tiempo real acerca del comportamiento del ransomware es escasa. Esto se debe a que las herramientas forenses para la extracción de esta información se centran en entornos controlados y la toma de muestras o análisis de los ordenadores de las víctimas reales es muy difícil de realizar. En este trabajo se propone una herramienta que extrae información en tiempo real de un ataque de ransomware para facilitar las tareas de análisis forense, la clasificación del ransomware y la correlación de las cuentas bitcoin asociadas. La herramienta diseñada combina la captura de pantalla del ataque del ordenador victima con el reconocimiento de patrones para determinar si corresponden a una muestra de ransomware. Adicionalmente, se realiza el reconocimiento óptico de caracteres, el volcado de la memoria RAM y la extracción de archivos relevantes para el análisis. Con el fin de evaluar, la herramienta resultante, se realizaron experimentos con distintas muestras de ransomware sobre un ordenador real infectado con dichas muestras.Ransomware attacks around the world are becoming more frequent due to the increase in the use of devices with Internet access. This fact causes that the number of vulnerable users to this type of malicious software increases vertiginously. The information collected in real time about the behavior of ransomware is scarce. This is because the forensic tools for extracting this information focus on the controlled environments and the sampling or analysis of the computers of the actual victims is very difficult to perform. In this work we offer a tool that extracts information in real time from a ransomware attack to facilitate the tasks of forensic analysis, the classification of ransomware and the correlation of the associated bitcoin accounts. The designed tool combines the capture of the computer attack screen with pattern recognition to determine if it corresponds to a sample of ransomware. Additionally, optical character recognition, RAM memory volume and extraction of relevant files for analysis are performed. For the purpose of the evaluation, the resulting tool, an experiment was registered with ransomware samples on a real computer infected with the samples.Depto. de Ingeniería de Software e Inteligencia Artificial (ISIA)Fac. de InformáticaTRUEunpu

    Detección automática de tweets no relevantes en streams guiados por consulta

    Get PDF
    Treball final de Màster Universitari en Sistemes Intel.ligents (Pla de 2013). Codi: SIE043. Curs acadèmic 2017-2018Early in the 90s when social networks emerged, the number of users and the amount of information shared and published in them has undergone an exponential growth. In this work we will focus on the social network Twitter, which had at the beginning of 2018 with 330 million users. The goal of this work is to predict which of all the tweets obtained through a domain query are relevant or irrelevant for a subsequent analysis phase. For this, first, a bibliographic search has been made to find out the state of the art on similar topics. Secondly, a semi-manual method has been developed to perform the tagging of the dataset where the tweets have been identified according to the type they belong to, namely: relevant or irrelevant. Then a statistical analysis of the data has been carried out to find an adequate automatic classification method according to the selected evaluation metrics. All the experiments have been carried out with the help of data mining and text processing libraries available for Python.Desde principio de los años 90 cuando surgieron las redes sociales, el número de usuarios y la cantidad de información compartida y publicada en ellas ha experimentado un crecimiento exponencial. En este trabajo nos centraremos en la red social Twitter, que contaba a principios de 2018 con 330 millones de usuarios. El objetivo de este trabajo es conseguir predecir cuáles de todos los tweets recogidos a través de una consulta de dominio son relevantes o irrelevantes para una fase de análisis posterior. Para ello, en primer lugar, se ha realizado un barrido bibliográfico para consultar el estado del arte en temas similares. En segundo lugar, se ha elaborado un método semi-manual para realizar el etiquetado del dataset donde se han identificado los tweets en función de la clase a la que pertenecen, relevantes o irrelevantes. Después se ha realizado un análisis estadístico de los datos para buscar un método de clasificación adecuado según las métricas de evaluación seleccionadas. Todos los experimentos han sido realizados con la ayuda de las librerías de minería de datos y tratamiento de texto disponibles para Python

    Nuevas perspectivas en el estudio de amenazas persistentes avanzadas

    Get PDF
    [ES] Una amenaza persistente avanzada es un ataque sofisticado, dirigido, selectivo y personalizado, que representa un riesgo para todas las organizaciones, especialmente aquellas que gestionan datos confidenciales o son infraestructuras críticas. En los últimos años, el análisis de estas amenazas ha llamado la atención de la comunidad científica; los investigadores han estudiado el comportamiento de esta amenaza para crear modelos y herramientas que permitan la detección temprana de estos ataques. El uso de la inteligencia artificial y el aprendizaje automático pueden ayudar a detectar, alertar y predecir automáticamente este tipo de amenazas y reducir el tiempo que el atacante puede permanecer en la red de la organización. El objetivo de esta tesis es desarrollar un modelo teórico que permita detectarlas amenazas persistentes avanzadas de manera temprana, basado en el ciclo de vida del ataque y utilizando métodos y técnicas de aprendizaje automático. La metodología que se ha seguido para la realización de este trabajo comenzó con una revisión bibliográfica de los conceptos de amenaza persistente avanzada y de las aplicaciones de detección en el contexto de la ciberseguridad. Además, se analizaron los ciclos de vida existentes que explican el proceso que siguen estas amenazas durante su ejecución. Posteriormente, se desarrolló un modelo para la detección temprana de las amenazas persistentes avanzadas basado en un ciclo de vida de 6 etapas, que han sido divididas en etapas activas, pasivas y recurrentes; además, se han utilizado técnicas de aprendizaje automático para la detección de URL maliciosas, phishing y anomalías en la red. En conclusión, los ataques de amenazas persistentes avanzadas son difíciles de detectar debido a la capacidad y los recursos con los que cuentan los grupos que las desarrollan. El objetivo de estos ataques es permanecer activos el mayor tiempo posible durante la ejecución de la intrusión. Uno de los problemas detectados durante la realización de este trabajo ha sido que no se encuentran disponibles conjuntos de datos reales que permitan el entrenamiento de los algoritmos de aprendizaje automático de forma eficiente, por lo que ha sido necesario crear conjuntos de datos semi reales a partir de muestras de malware. Finalmente, como trabajo futuro, se recomienda que el modelo que ha sido propuesto en este trabajo sea probado en un entorno informático controlado, para evitar ocasionar perjuicios
    corecore