thesis

Aprendizaje de similitudes entre pares de objetos mediante clasificación supervisada

Abstract

El uso de medidas de similitud, distancias o métricas se encuentra en la base del funcionamiento de numerosas técnicas estándar de clasificación, resultando además, una tarea fundamental e importante en las áreas de estudio del Aprendizaje Automático (Machine Learning) y el Reconocimiento de Patrones (Pattern Recognition). Dado que el cálculo de la similitud entre dos objetos puede ser muy diferente en función del contexto, la construcción inteligente de estas medidas a partir de los datos disponibles, puede ayudar en la obtención de clasificadores más robustos y mejorar los resultados en la tarea específica que se propone resolver. En los últimos años, el aprendizaje de métricas (Metric Learning) y medidas de similitud (Similarity Learning) ha recibido un creciente interés de la comunidad científica. Dada la información disponible en forma de ejemplos etiquetados con una categoría o clase, el objetivo del aprendizaje de métricas es aprender una distancia métrica de acuerdo al siguiente principio: las distancias entre pares similares (es decir, de la misma clase) han de ser pequeñas, mientras que las distancias entre pares diferentes (es decir, de diferentes clases) han de ser mayores. De la misma manera, el aprendizaje de similitud intenta aprender una función de similitud que asocie grandes puntuaciones (scores) a pares similares y pequeñas puntuaciones a pares diferentes. Un caso particular del aprendizaje de similitudes consiste en el empleo de métodos de clasificación para el aprendizaje de medidas de similitud (Classification-based Similarity Learning). En todos estos métodos, el rendimiento depende en gran medida de la representación de las características de los datos disponibles.Así, en esta Tesis se presenta un método de clasificación enriquecido que sigue un enfoque híbrido que combina la extracción de características (Feature Extraction) y la ampliación de las mismas (Feature Expansion). En particular, se propone una transformación de datos y el uso de un conjunto de distancias métricas y no métricas para complementar y enriquecer la información proporcionada por los vectores de características de los ejemplos de entrenamiento. Si bien es cierto que esto aumenta la dimensión del problema en cuestión, también supone una inyección de conocimiento adicional debido a que el uso de las medidas de distancias supone un emparejamiento implícito entre los vectores de características de dos objetos. Además, se analiza si la nueva información añadida compensa el aumento de dimensión que ello implica, así como la influencia de los diferentes formatos de datos de entrada y el tamaño de entrenamiento sobre el rendimiento del clasificador. La propuesta se compara con métodos de aprendizaje de métricas y los resultados obtenidos muestran rendimientos comparables en favor del método propuesto en distintos contextos y empleando diferentes bases de datos.The use of measures of similarity, distances or metrics is a core central issue for many standard classification techniques, becoming a fundamental and important task in the areas of study of Machine Learning and Pattern Recognition. Since computing the similarity between two objects may be very different depending on the context, the intelligent construction of these measures from the available data can help in obtaining more robust classifiers and improve the results in the specific task that It is proposed to resolve. In recent years, Metric Learning and Similarity Learning techniques have received a growing interest from the scientific community. Given the available information in the form of labeled examples with a category or class, the main goal of Metric Learning is to learn a metric distance according to the following principle: the distances between similar pairs (i.e., pairs of objects with the same class) must be small, while the distances between different pairs (i.e., different classes) must be greater. Likewise, Similarity Learning attempts to learn a similarity function that associates large scores with similar pairs and small scores to different pairs. A particular case of Similarity Learning is the use of classification methods for learning similarity measures known as Classification-based Similarity Learning. In all these methods, the performance depends to a great extent on the features representation of the available data. Thus, this Thesis presents an enriched classification method that follows a hybrid approach combining Feature Extraction and Feature Expansion techniques. In particular, we propose a data transformation and the use of a set of metric and non-metric distances to complement the information provided by the feature vectors of the training examples. While this increases the dimensionality of the problem in question, it also implies an additional injection of knowledge because the use of distance measures implies an implicit match between the characteristics of two objects. In addition, we analyze whether the new information added compensates for the dimensionality increasement involved, as well as the influence of different data input formats and training size on classifier performance. The proposal is compared with metric learning methods and the results obtained show comparable yields in favor of the proposed method in different contexts and using different databases

    Similar works