    Class Distribution Estimation in Imprecise Domains Based on Supervised Learning

    cap. 9- pp. 187-202a cuantificación -o estimación de proporciones- desempeña un papel importante en muchos problemas prácticos de clasificación. Por un lado, una máquina que clasifica automáticamente un elemento en un grupo de clases predefinidas, tomará decisiones subóptimas, si la distribución de clases en el dominio de prueba (real) difiere de la que se asume en el aprendizaje. La estimación de la nueva distribución de clases es necesaria para adaptar el clasificador a las nuevas condiciones operativas. Por otro lado, hay algunos dominios reales donde la propia tarea de cuantificación es el objetivo principal. Algunos campos, como el control de calidad, el marketing directo, el estudio de tendencias o algunas tareas de reconocimiento textual, requieren métodos que puedan estimar de forma fiable, la proporción de elementos dentro de cada categoría, sin ninguna preocupación acerca de cómo cada elemento ha sido clasificado individualmente. Describimos varias técnicas de cuantificación que se basan en el aprendizaje supervisado y proporcionan estas estimaciones basadas en: a) la matriz de confusión del clasificador, b) las estimaciones de probabilidad posteriores y c) las medidas de divergencia distribucional. Ilustramos estas técnicas, así como su robustez contra el rendimiento del clasificador base, en un entorno práctico de control de calidad seminal donde el objetivo final es cuantificar la proporción de espermatozoides con acrosoma dañado/intacto

    SIFT (Scale Invariant Feature Transform)

    Cap. 8, pp. 131-157SIFT es un método que permite detectar puntos característicos en una imagen y luego describirlos mediante un histograma orientado de gradientes. Y además, lo hace de forma que la localización y la descripción presenta una gran invarianza a la orientación, la posición y la escala. Cada punto característico queda, por lo tanto, definido mediante su vector de características de 128 elementos, y se obtiene la información de su posición en coordenadas de la imagen, la escala a la que se encontró y la orientación dominante de la región alrededor de dicho punto. En este capítulo se explican los pasos necesarios para obtener descriptores SIFT en una imagen. Se presenta un ejercicio sencillo que sirve para ilustrar numéricamente cómo se obtiene el descriptor a partir de la región que rodea un punto característico. También se comentan las posibilidades de SIFT para realizar reconocimiento de objetos presentes en una imagen. Y, finalmente, se habla brevemente de algunas extensiones del método así como de otros descriptores de imagen relacionados que han surgido posteriormente

    A data augmentation strategy for improving age estimation to support CSEM detection

    [EN] Leveraging image-based age estimation in preventing Child Sexual Exploitation Material (CSEM) content over the internet is not investigated thoroughly in the research community. While deep learning methods are considered state-of-the-art for general age estimation, they perform poorly in predicting the age group of minors and older adults due to the few examples of these age groups in the existing datasets. In this work, we present a data augmentation strategy to improve the performance of age estimators trained on imbalanced data based on synthetic image generation and artificial facial occlusion. Facial occlusion is focused on modelling as CSEM criminals tend to cover certain parts of the victim, such as the eyes, to hide their identity. The proposed strategy is evaluated using the Soft Stagewise Regression Network (SSR-Net), a compact size age estimator and three publicly available datasets composed mainly of non-occluded images. Therefore, we create the Synthetic Augmented with Occluded Faces (SAOF-15K) dataset to assess the performance of eye and mouthoccluded images. Results show that our strategy improves the performance of the evaluated age estimator

    Descripción de textura en imágenes utilizando Local Binary Pattern (LPB)

    Cap. 7, pp. 115-130En este capítulo vamos a estudiar uno de los descriptores de textura más utilizados en la actualidad, llamado Local Binary Pattern (LBP) o patrón binario local, que tiene numerosas aplicaciones en el análisis de imágenes digitales y, en general, en la visión por computador. Previamente, se introducirá el concepto de textura en una imagen digital y los tipos de descriptores que se utilizan para caracterizarla. Posteriormente se explicará con detalle qué es y cómo se obtiene un Patrón Binario Local (LBP), algunas variaciones en su cálculo que fueron propuestas como extensiones al descriptor básico y tres métodos derivados del LBP como son el ALBP (Adaptive Local Binary Pattern), el LBPV (Local Binary Pattern Variance) y el CLBP (Completed Local Binary Pattern). Finalmente se comentan algunas aplicaciones tanto del LBP como de sus métodos derivados

    Application of textural descriptors for the evaluation of surface roughness class in the machining of metals

    La medición de la rugosidad superficial ha sido una cuestión de especial interés en la investigación de mecanizado de metales durante los últimos cincuenta años. El acabado superficial se puede evaluar mediante algunos parámetros de rugosidad definidos en las normas internacionales. Estas normas están orientadas a dispositivos de medición táctiles que proporcionan registros bidimensionales del perfil de la pieza. Sin embargo, en la última década, la mejora de la visión computarizada y la óptica ha animado a muchos grupos a investigar en la aplicación de estas tecnologías. La evaluación de rugosidad de la superficie no es una excepción. La ventaja de la visión por ordenador en esta área es la caracterización de amplias áreas de superficie proporcionando más información (información 3D). En este contexto, este documento propone un método basado en la visión por ordenador para evaluar la calidad superficial delas piezas mecanizadas. El método consiste en el análisis de imágenes de acabado superficial de piezas mecanizadas mediante cinco vectores de características basados en momentos: Hu, Flusser, Taubin, Zernike y Legendre. Atendiendo a estos descriptores las imágenes se clasificaron en dos clases: baja rugosidad y alta rugosidad, utilizando el algoritmo del vecino k-nn y las redes neuronales. Los momentos utilizados como descriptores en este artículo muestran un comportamiento diferente con respecto a la identificación del acabado superficial, concluyendo que los descriptores Zernike y Legendre proporcionan el mejor rendimiento. Se logró una tasa de error del 6,5% utilizando descriptores Zernike con clasificación k-nn

    Phishing websites detection using a novel multipurpose dataset and web technologies features

    [EN] Phishing attacks are one of the most challenging social engineering cyberattacks due to the large amount of entities involved in online transactions and services. In these attacks, criminals deceive users to hijack their credentials or sensitive data through a login form which replicates the original website and submits the data to a malicious server. Many anti-phishing techniques have been developed in recent years, using different resource such as the URL and HTML code from legitimate index websites and phishing ones. These techniques have some limitations when predicting legitimate login websites, since, usually, no login forms are present in the legitimate class used for training the proposed model. Hence, in this work we present a methodology for phishing website detection in real scenarios, which uses URL, HTML, and web technology features. Since there is not any updated and multipurpose dataset for this task, we crafted the Phishing Index Login Websites Dataset (PILWD), an offline phishing dataset composed of 134,000 verified samples, that offers to researchers a wide variety of data to test and compare their approaches. Since approximately three-quarters of collected phishing samples request the introduction of credentials, we decided to crawl legitimate login websites to match the phishing standpoint. The developed approach is independent of third party services and the method relies on a new set of features used for the very first time in this problem, some of them extracted from the web technologies used by the on each specific website. Experimental results show that phishing websites can be detected with 97.95% accuracy using a LightGBM classifier and the complete set of the 54 features selected, when it was evaluated on PILWD dataset.SIINCIBEUniversidad de Leó

    Supervised ranking approach to identify infLuential websites in the darknet

    [EN] The anonymity and high security of the Tor network allow it to host a significant amount of criminal activities. Some Tor domains attract more traffic than others, as they offer better products or services to their customers. Detecting the most influential domains in Tor can help detect serious criminal activities. Therefore, in this paper, we present a novel supervised ranking framework for detecting the most influential domains. Our approach represents each domain with 40 features extracted from five sources: text, named entities, HTML markup, network topology, and visual content to train the learning-to-rank (LtR) scheme to sort the domains based on user-defined criteria. We experimented on a subset of 290 manually ranked drug-related websites from Tor and obtained the following results. First, among the explored LtR schemes, the listwise approach outperforms the benchmarked methods with an NDCG of 0.93 for the top-10 ranked domains. Second, we quantitatively proved that our framework surpasses the link-based ranking techniques. Third, we observed that using the user-visible text feature can obtain comparable performance to all the features with a decrease of 0.02 at NDCG@5. The proposed framework might support law enforcement agencies in detecting the most influential domains related to possible suspicious activities.SIPublicación en abierto financiada por el Consorcio de Bibliotecas Universitarias de Castilla y León (BUCLE), con cargo al Programa Operativo 2014ES16RFOP009 FEDER 2014-2020 DE CASTILLA Y LEÓN, Actuación:20007-CL - Apoyo Consorcio BUCL

    Tool wear monitoring using an online, automatic and low cost system based on local texture

    [EN] In this work we propose a new online, low cost and fast approach based on computer vision and machine learning to determine whether cutting tools used in edge pro le milling processes are serviceable or disposable based on their wear level. We created a new dataset of 254 images of edge pro le cutting heads which is, to the best of our knowledge, the rst publicly available dataset with enough quality for this purpose. All the inserts were segmented and their cutting edges were cropped, obtaining 577 images of cutting edges: 301 functional and 276 disposable. The proposed method is based on (1) dividing the cutting edge image in di erent regions, called Wear Patches (WP), (2) characterising each one as worn or serviceable using texture descriptors based on di erent variants of Local Binary Patterns (LBP) and (3) determine, based on the state of these WP, if the cutting edge (and, therefore, the tool) is serviceable or disposable. We proposed and assessed ve di erent patch division con gurations. The individual WP were classi ed by a Support Vector Machine (SVM) with an intersection kernel. The best patch division con guration and texture descriptor for the WP achieves an accuracy of 90.26% in the detection of the disposable cutting edges. These results show a very promising opportunity for automatic wear monitoring in edge pro le milling processes. Keywords: Tool wear, texture descriptionS

    Detecting emerging products in TOR network based on K-Shell graph decomposition

    En este documento, presentamos un marco semiautomático que permite identificar los más populares y también, algunos de los productos ilegales emergentes que se venden en los mercados que se encuentran en la red oscura (Darknet). Utilizando información textual extraída de los dominios de Darknet, construimos un gráfico de correlaciones de productos (PCG), donde los nodos son productos Darknet y los bordes reflejan una oferta simultánea de dos productos. Aplicando el algoritmo k-Shell para descomponer el gráfico PCG, identificamos los productos contenidos en el núcleo e identificamos los más populares y emergentes. Aplicamos nuestro algoritmo de detección de emergencia al conjunto de datos denominado direcciones de texto de uso de Darknet (DUTA), detectando MDMA y éxtasis como las drogas más relevantes y emergentes, respectivamente, validando estos resultados con el Informe de prestigiosas organizaciones internacionales de drogas. Estos resultados hacen de nuestro marco una herramienta complementaria para extraer información en los mercados ilegales donde no se muestran los registros de transacciones

    Combining shape and contour features to improve tool wear monitoring in milling processes

    [EN] In this paper, a new system based on combinations of a shape descriptor and a contour descriptor has been proposed for classifying inserts in milling processes according to their wear level following a computer vision based approach. To describe the wear region shape we have proposed a new descriptor called ShapeFeat and its contour has been characterized using the method BORCHIZ that, to the best of our knowledge, achieves the best performance for tool wear monitoring following a computer vision-based approach. Results show that the combination of BORCHIZ with ShapeFeat using a late fusion method improves the classification performance significantly, obtaining an accuracy of 91.44% in the binary classification (i.e. the classification of the wear as high or low) and 82.90% using three target classes (i.e. classification of the wear as high, medium or low). These results outperform the ones obtained by both descriptors used on their own, which achieve accuracies of 88.70 and 80.67% for two and three classes, respectively, using ShapeFeat and 87.06 and 80.24% with B-ORCHIZ. This study yielded encouraging results for the manufacturing community in order to classify automatically the inserts in terms of their wear for milling processes.S