1 research outputs found
Signal processing for malware analysis
This Project is an experimental analysis of Android malware through images. The analysis
is based on classifying the malware into families or differentiating between goodware and
malware. This analysis has been done considering two approaches. These two
approaches have a common starting point, which is the transformation of Android
applications into PNG images. After this conversion, the first approach was subtracting
each image from the testing set with the images of the training set, in order to establish
which unknown malware belongs to a specific family or to distinguish between goodware
and malware. Although the accuracy was higher than the one defined in the
requirements, this approach was a time consuming task, so we consider another
approach to reduce the time and get the same or better accuracy. The second approach
was extracting features from all the images and then using a machine learning classifier
to get a precise differentiation. After this second approach, the resulting time for 100,000
samples was less than 4 hours and the accuracy 83.04%, which fulfill the requirements
specified.
To perform the analysis, we have used two heterogeneous datasets. The Malgenome
dataset which contains 49 kinds of malware Android applications (49 malware families). It
was used to perform the measurements and the different tests. The M0droid dataset,
which contains goodware and malware Android applications. It was used to corroborate
the previous analysis.Este proyecto es un análisis experimental de aplicaciones de Android mediante
imágenes. Este análisis se basa en clasificar las imágenes en familias o en diferenciarlas
entre goodware o malware. Para ello, se han considerado dos enfoques. Estas dos
aproximaciones tienen como punto en común la transformación de las aplicaciones de
Android en imágenes de tipo PNG. Después de este proceso de transformación a
imágenes, la primera aproximación se basó en restar cada imagen perteneciente al
grupo de pruebas con las imágenes del grupo de entrenamiento, de esta forma se pudo
saber la familia a la que pertenecÃa cada malware desconocido o distinguir entre
aplicaciones goodware y malware. Sin embargo, a pesar de que la precisión de acierto
era más alta que la definida en los requisitos, este enfoque era una tarea que consumÃa
mucho tiempo, asà que consideramos otra aproximación para reducir el tiempo y
conseguir una precisión parecida o mejor que la anterior. Este segundo enfoque fue
extraer las caracterÃsticas de las imágenes para después usar un clasificador y asÃ
obtener una diferenciación precisa. Con esta segunda aproximación, conseguimos un
tiempo total menor a las 4 horas para 100000 muestras con una precisión del 83.04%,
cumpliendo y superando de esta forma los requisitos que habÃan sido especificados.
Este análisis se ha llevado a cabo usando dos sets de datos heterogéneos. Uno de ellos
fue el perteneciente a un proyecto llamado Malgenome, éste contiene 49 tipos de
familias de malware en Android. El set de datos de Malgenome se usó para realizar los
diferentes ensayos o pruebas y sobre el que se realizaron las medidas de tiempo y
precisión. El set de datos de M0droid se usó para corroborar el análisis previo y asÃ
establecer una clasificación final.IngenierÃa Informátic