thesis

Exploiting subsequence matching in Recommender Systems

Abstract

Desde su surgimiento al inicio de la década de los 90, los sistemas de recomendación han experimentado un crecimiento exponencial empleándose en cada vez más aplicaciones debido a la utilidad que tienen para ayudar a los usuarios a elegir artículos en función de sus gustos y necesidades. Actualmente son indispensables en un gran número de empresas que ofrecen su servicio a través de Internet, el medio de intercambio de información más importante que existe. Por esta razón, la continua innovación en estos sistemas resulta imprescindible para poder efectuar recomendaciones que sean capaces de seguir sorprendiendo a los usuarios y mejorar las ya existentes. En este Trabajo Fin de Máster hemos realizado un estudio e investigación acerca del estado actual de estos sistemas, prestando especial atención a los sistemas de filtrado colaborativo basados en vecinos y los basados en contenido. No obstante, debido a las desventajas que puede tener cada sistema por separado normalmente en aplicaciones reales se emplean combinaciones de varios sistemas, creando recomendadores híbridos. Como apoyo a este estudio, se propone como aspecto novedoso el uso del algoritmo de la subcadena común más larga (LCS) para ser utilizada como medida de similitud entre usuarios, introduciendo además, una técnica general y transparente para generar secuencias haciendo uso tanto de información de contenido como de información colaborativa, pudiendo generar recomendadores híbridos de manera sencilla. Complementando a estos nuevos recomendadores, también detallamos otros parámetros auxiliares (confianza, preferencia, normalizaciones y distintas ordenaciones) que tienen como fin mejorar el rendimiento de estos sistemas basados en LCS. Por otro lado, además de la definición de estos nuevos recomendadores, el trabajo se complementa con resultados experimentales haciendo uso de tres conjuntos de datos conocidos en el área: Movielens, Lastfm y MovieTweetings. Cada uno de ellos estará orientado a explotar un aspecto específico de la generación de secuencias. Los resultados han sido obtenidos haciendo uso de métricas de ranking (Precisión, Recall, MAP o nDCG) y de novedad y diversidad (_-nDCG, EPC, EPD, Aggregate diversity, EILD y Gini). Los resultados han tenido como fin comparar el rendimiento de los recomendadores basados en la subsecuencia común más larga frente a otros recomendadores conocidos en el área. Como resumen, se ha observado que los recomendadores propuestos resultan altamente competitivos en las pruebas realizadas siendo incluso mejores en algunas ocasiones a otros recomendadores conocidos en el área, tanto en términos de métricas de ranking como de novedad y diversidad. No obstante, también se ha observado que, en algunos casos, el uso de recomendadores híbridos basados en la subsecuencia común más larga obtiene unos resultados peores que otras versiones puramente colaborativas. En cualquier caso, consideramos que es una propuesta con potencial para seguir siendo investigada.Since their inception in the early 1990s, recommender systems have experienced exponential growth as they are being used in a large number of applications because of their usefulness in helping users choose items based on their tastes and needs. Nowadays, they are indispensable in many companies that o er their service through the Internet, the most important method for information exchange. For this reason, continuous innovation in these systems is essential to make recommendations that are able to continue surprising users, while improving the existing ones. In this Master's Thesis, we have studied and researched on the current state of these systems, paying special attention to collaborative ltering based on neighborhood and content-based algorithms. However, due to the disadvantages that each system may have separately, combinations of these systems are often used in real applications, creating hybrid recommenders. To support this study, we propose the use of the longest common subsequence (LCS) algorithm as a novel aspect to be used as a similarity metric between users, also introducing a general and transparent technique to generate sequences using both content and collaborative information, allowing us to generate hybrid recommenders in a simple way. Complementing these new recommendations, we also detail other auxiliary parameters (con dence, preference, normalization functions, and di erent orderings), whose main goal is to improve the performance of these LCS-based systems. On the other hand, in addition to the de nition of these new recommenders, the study is complemented with experimental results using three well-known datasets in the area: Movielens, Lastfm and MovieTweetings. Each one of them will be oriented to exploit a speci c aspect of the sequence generation process. The results have been obtained by using ranking metrics (Precision, Recall, MAP, or nDCG) and novelty and diversity metrics ( -nDCG, EPC, EPD, Aggregate diversity, EILD, and Gini). With these experiments, we aimed at comparing the performance of recommenders based on the longest common subsequence against other well-known recommenders in the area. As a summary, we have observed in the experiments performed that the proposed recommenders are highly competitive, and sometimes they are even better than other recommenders known in the area, both in terms of ranking quality metrics, and novelty and diversity dimensions. However, we have also observed that, in some cases, the use of hybrid recommenders based on the longest common subsequence results in worse performance than other purely collaborative versions. In any case, we believe this is a proposal with enough potential to be worthy of further investigation

    Similar works