5 research outputs found

    Understanding and improving relational matrix factorization in recommender systems

    Get PDF
    Matrix factorization techniques such as the singular value decomposition (SVD) have had great success in recommender systems. We present a new perspective of SVD for constructing a latent space from the training data, which is justified by the theory of hypergraph model. We show that the vectors representing the items in the latent space can be grouped into (approximately) orthogonal clusters which correspond to the vertex clusters in the co-rating hypergraph, and the lengths of the vectors are indicators of the representativeness of the items. These properties are used for making top-N recommendations in a two-phase algorithm. In this work, we provide a new explanation for the significantly better performance of the asymmetric SVD approaches and a novel algorithm for better diversity in top-N recommendations

    Підходи до обробки природної мови в рекомендаційних системах

    Get PDF
    Магістерська дисертація містить 132 с., 23 табл., 16 рис., 1 дод. та 15 джерел. Обʼєкт дослідження – підходи до обробки природної мови, а саме вектроне представлення тексту за допомогою трансформерних нейронних мереж, та їх використання у рекомендаційних системах з метою підвищення точності рекомендацій. Предмет дослідження – векторне представлення тексту за допомогою трансформерних нейронних мереж та вплив його використання на точність гібридної контентно-колаборативної рекомендаційної моделі. Мета роботи – розробка сервісу рекомендаційної системи, що використовує методи обробки природної мови з метою підвищення точності рекомендацій. У ході виконання роботи було проведено аналіз існуючих підходів до обробки природної мови та порівняння рекомендаційного алгоритму, що використовує векторне представлення тексту з класичними підходами: описано процес проектування сервісу та аналіз створеного програмного продукту. В рамках подальшої роботи доцільно досліджувати інші підходи до обробки природної мови та їх вплив на точність рекомендацій; проводити оптимізацію алгоритмів векторного представлення тексту з метою зниження їх обчислювальної вартості; проводити експерименти з гібридизації рекомендаційних систем.Dissertation includes: 132 p., 23 tables, 16 fig., 1 add. and 15 references. The research objects are the approaches to natural language processing, especially text embedding generation using transformer neural networks and its usage in recommender systems in order to improve recommender efficiency. The research subjects are text embedding generation using transformer neural networks and its impact on recommender system efficiency. The research purpose is the development and analysis of a recommender system that benefits from natural language processing algorithms. During the research there were existing approaches to natural language processing analyzed and recommender algorithms that benefit from the usage of text embeddings and classic recommender algorithms compared; the process of building and analysis of a program product described. As for further research, it is recommended to continue to experiment with alternative natural language processing approaches, to optimize and tune existing text embedding generation algorithms and to experiment with recommender system hybridization

    Сервіс рекомендаційної системи з використанням методів колаборативної фільтрації

    Get PDF
    Дипломна робота містить 116 с., 8 табл., 22 рис., 2 дод. та 16 джерел. Об’єкт дослідження – підходи до рекомендації контенту, а саме методи колаборативної фільтрації та їх гібридних модифікацій для розв’язання проблеми рекомендацій для ресурсів з великими об’ємами інформації. Предмет дослідження – моделі рекомендаційних систем, а саме гібридна контентно-колаборативна модель. Мета роботи – аналіз існуючих підходів до рекомендації контенту та побудова сервісу рекомендаційної системи, що не залежить від предметної області, взаємодія з яким відбуватиметься за допомогою протоколу HTTP. У ході виконання роботи було проведено аналіз існуючих підходів до рекомендації контенту та порівняння гібридної контентно-колаборативно моделі порівняно с класичними підходами; описано процес проектування сервісу рекомендаційної системи та аналіз створеного програмного продукту. В рамках подальшої роботи доцільно покращувати результати існуючої моделі шляхом додавання нових характеристик для користувачів та об’єктів, проводити експерименти з гібридизації системи з іншими підходами та розширювати функціонал системи для більш точного її налаштування.Diploma thesis includes: 116 p., 8 tables, 22 fig., 2 add. And 16 references. The research objects are different approaches to content recommendation, especially collaborative filtering methods and their hybrid modifications in order to solve the recommendation problem of the big data resources. The research subjects are recommender systems models, especially hybrid content-colaborative model. The research purpose is an analysis of the existing approaches to content recommendation and building a subject independent recommender system service that provides RESTful HTTP user interface. During the research there were existing approaches to content recommendations analyzed, hybrid content-colaborative model compared with classic approaches, recommender service designed and created. As for further research, it is recommended to enhance existing model with user and item features, experiment with recommender system hybridization and to expand system functionality in order to tune the system more precisely

    Suite de algoritmos de recomendación en aplicaciones reales

    Full text link
    Internet irrumpió en las sociedades modernas como medio de comunicación y soporte a procesos de información y transacciones. El número de usuarios se extendió rápidamente y desde entonces no ha dejado de aumentar. Debido a la cantidad masiva de información que Internet alberga, se vuelve muy complicado para los usuarios encontrar aquello que le interese entre toda la variedad disponible. Este problema motiva el desarrollo y despliegue de sistemas de recomendación, que estudian el perfil del usuario y le sugieren aquello que puede interesarle según sus gustos (vídeos de Youtube, contactos de LinkedIn o películas en Netflix). Existen diversos algoritmos de recomendación basados en diferentes formas de establecer el posible interés que el usuario pueda tener sobre cada “ítem”, y a lo largo de la literatura se han ido investigando y desarrollando nuevos métodos fundamentados en diferentes bases. El presente trabajo consiste en la realización de un estudio exhaustivo que compara algunos de los algoritmos más destacados de la literatura sobre diferentes conjuntos de datos obtenidos de aplicaciones con usuarios reales (como Twitter o Netflix). La forma de realizar esta comparación ha sido mediante métricas de precisión, novedad y diversidad, que son las que en años recientes han cobrado mayor interés en el campo de la recomendación frente a las tradicionales métricas de error. Asimismo, se analiza la eficiencia de los algoritmos en términos de costes computacionales. Este trabajo incluye asimismo una puesta a punto de los algoritmos a estudiar, tanto configuraciones propias de cada uno como variaciones que mejoren su escalabilidad y eficiencia en el consumo de recursos, a fin de determinar qué elementos y parámetros de los algoritmos son determinantes en la efectividad de los mismos, con vistas a identificar configuraciones óptimas. Además, se han añadido librerías externas a las baterías de prueba, con implementaciones de estos y otros algoritmos en busca del mejor resultado posible para cada algoritmo y poder realizar la comparación entre sus versiones más óptimas (en cuanto a la métricas establecidas). Como conclusión del presente trabajo, se puede decir que para las aplicaciones escogidas (MovieLens, Netflix, Last.fm, Blueknow y Twitter), la familia de algoritmos que mejor resultado ha obtenido en métricas de precisión, novedad y diversidad ha sido la del filtrado colaborativo basado en vecinos próximos. Sin embargo, en muchos casos estos algoritmos resultan inviables para su ejecución, donde toman la ventaja algoritmos basados en contenido como Rocchio o de factorización de matrices como pLSA.Internet and the WWW rose in modern societies as a new communication channel and as a new media for information flow and transactions. The number of users grew dashingly and continuously since then. Given the massive amount of information available on the WWW, it soon became very difficult for users to find what they may be interested in amidst billions of documents and digital objects. This problem motivates the development and deployment of so-called automatic recommendation technologies, which track the user’s actions, identify potential user trends and preferences and, based on this, suggest items and choices the user may find interesting or useful (Youtube videos, LinkedIn contacts or Netflix movies). Many recommendation algorithms, techniques, and theories have been developed in this field, defining different approaches to predict the interest that users may have within huge spaces of available choices. The present work undertakes an extensive study comparing some of the most important algorithms in the literature on different datasets obtained from real user applications (such as Twitter, Eurekakids and Netflix). The comparison is carried out in several dimensions, including accuracy, but also novelty and diversity, which in recent years have raised increasing in the recommender systems field. Furthermore, we study the efficiency of the algorithms in terms of computational cost. This work also includes the development of recommendation algorithms, for some of which we study and compare arrays of configurations in order to understand which elements and parameters of the algorithms are crucial to their effectiveness, and to identify optimal configurations. External libraries implementing the same and different algorithms have also been added to our experimental testbed for comparison in order to observe and find optimal algorithms and versions thereof. For the tested domains (MovieLens, Netflix, Last.fm, Twitter and Blueknow) the family of algorithms that obtained the best results in accuracy, novelty and diversity metrics has been by and large collaborative filtering based on nearest neighbors. However, in some cases these algorithms do not scale to real use because of the computional cost. Simpler content-based algorithms, or matrix factorization methods (as pLSA), take advantage over them in these cases
    corecore