24 research outputs found

    Robust Recommender System: A Survey and Future Directions

    Full text link
    With the rapid growth of information, recommender systems have become integral for providing personalized suggestions and overcoming information overload. However, their practical deployment often encounters "dirty" data, where noise or malicious information can lead to abnormal recommendations. Research on improving recommender systems' robustness against such dirty data has thus gained significant attention. This survey provides a comprehensive review of recent work on recommender systems' robustness. We first present a taxonomy to organize current techniques for withstanding malicious attacks and natural noise. We then explore state-of-the-art methods in each category, including fraudster detection, adversarial training, certifiable robust training against malicious attacks, and regularization, purification, self-supervised learning against natural noise. Additionally, we summarize evaluation metrics and common datasets used to assess robustness. We discuss robustness across varying recommendation scenarios and its interplay with other properties like accuracy, interpretability, privacy, and fairness. Finally, we delve into open issues and future research directions in this emerging field. Our goal is to equip readers with a holistic understanding of robust recommender systems and spotlight pathways for future research and development

    How Fraudster Detection Contributes to Robust Recommendation

    Full text link
    The adversarial robustness of recommendation systems under node injection attacks has received considerable research attention. Recently, a robust recommendation system GraphRfi was proposed, and it was shown that GraphRfi could successfully mitigate the effects of injected fake users in the system. Unfortunately, we demonstrate that GraphRfi is still vulnerable to attacks due to the supervised nature of its fraudster detection component. Specifically, we propose a new attack metaC against GraphRfi, and further analyze why GraphRfi fails under such an attack. Based on the insights we obtained from the vulnerability analysis, we build a new robust recommendation system PDR by re-designing the fraudster detection component. Comprehensive experiments show that our defense approach outperforms other benchmark methods under attacks. Overall, our research demonstrates an effective framework of integrating fraudster detection into recommendation to achieve adversarial robustness

    Contributions to outlier detection and recommendation systems

    Get PDF
    Le forage de données, appelé également "Découverte de connaissance dans les bases de données" , est un jeune domaine de recherche interdisciplinaire. Le forage de données étudie les processus d'analyse de grands ensembles de données pour en extraire des connaissances, et les processus de transformation de ces connaissances en des structures faciles à comprendre et à utiliser par les humains. Cette thèse étudie deux tâches importantes dans le domaine du forage de données : la détection des anomalies et la recommandation de produits. La détection des anomalies est l'identification des données non conformes aux observations normales. La recommandation de produit est la prédiction du niveau d'intérêt d'un client pour des produits en se basant sur des données d'achats antérieurs et des données socio-économiques. Plus précisément, cette thèse porte sur 1) la détection des anomalies dans de grands ensembles de données de type catégorielles; et 2) les techniques de recommandation à partir des données de classements asymétriques. La détection des anomalies dans des données catégorielles de grande échelle est un problème important qui est loin d'être résolu. Les méthodes existantes dans ce domaine souffrnt d'une faible efficience et efficacité en raison de la dimensionnalité élevée des données, de la grande taille des bases de données, de la complexité élevée des tests statistiques, ainsi que des mesures de proximité non adéquates. Cette thèse propose une définition formelle d'anomalie dans les données catégorielles ainsi que deux algorithmes efficaces et efficients pour la détection des anomalies dans les données de grande taille. Ces algorithmes ont besoin d'un seul paramètre : le nombre des anomalies. Pour déterminer la valeur de ce paramètre, nous avons développé un critère en nous basant sur un nouveau concept qui est l'holo-entropie. Plusieurs recherches antérieures sur les systèmes de recommandation ont négligé un type de classements répandu dans les applications Web, telles que le commerce électronique (ex. Amazon, Taobao) et les sites fournisseurs de contenu (ex. YouTube). Les données de classements recueillies par ces sites se différencient de celles de classements des films et des musiques par leur distribution asymétrique élevée. Cette thèse propose un cadre mieux adapté pour estimer les classements et les préférences quantitatives d'ordre supérieur pour des données de classements asymétriques. Ce cadre permet de créer de nouveaux modèles de recommandation en se basant sur la factorisation de matrice ou sur l'estimation de voisinage. Des résultats expérimentaux sur des ensembles de données asymétriques indiquent que les modèles créés avec ce cadre ont une meilleure performance que les modèles conventionnels non seulement pour la prédiction de classements, mais aussi pour la prédiction de la liste des Top-N produits

    Estudio de técnicas de ataques en sistemas de recomendación aplicados al dominio turístico

    Full text link
    Debido a la aparición de la Web2.0, los sistemas de recomendación han tenido un gran desarrollo en las ultimas décadas. Ante la era de la información masiva, los métodos de recomendación se presentan como una manera eficiente de filtrar información y escoger lo que realmente se quiere. El método más común y mejor valorado en la industria y la comunidad científica es el filtrado colaborativo. Este tipo de técnica se basa en la similitud de los ítems o del perfil de usuario, por lo que resulta bastante vulnerable a los ataques externos. En este contexto, el propósito de este trabajo es estudiar los diferentes ataques conocidos hasta ahora y poder detectarlos mediante algoritmos de aprendizaje automático. En este documento se ha estudiado en profundidad la detección de los ataques basado en filtrado colaborativo así como los principales trabajos de investigación, lo cual ha producido las siguientes contribuciones: 1. En base al funcionamiento del filtrado colaborativo, se ha investigado sobre los conceptos de ataques y detecciones en este tipo de mecanismo. 2. Basándose en la estrategia de ataque se puede distinguir dos tipos: los estándares y los de confusión. En este trabajo se van a seleccionar los 3 tipos de ataques estándares más comunes: RandomAttack, AverageAttack, BandwagonAttack. Además, también se va a implementar un tipo de ataque híbrido que resulte de la combinación cualesquiera de los tres. Tras ejecutar las inyecciones de perfiles en sistema, se va a intentar evaluar la efectividad de dicho ataque mediante las métricas de HitRatio y Prediction shift. En esta parte se ha visto que fillerSize es un factor decisivo durante el proceso de ataque, ya que en numerosos escenarios este parámetro define el nivel de similitud entre ítems. En cambio, en aquellos sistemas que tienen una matriz de similitud densa, el factor attackSize es el que domina ya que hay una gran posibilidad de puntar un ítem popular. 3. Entender los algoritmos de detección basados en aprendizaje automático: BayesDetector, SemiSAD, PCASelectUsers. Analizar la idea básica de cada algoritmo y su proceso de implementación. Una vez implementados los modelos de detección se va a intentar realizar una evaluación sobre los distintos tipos de ataques mediante Precision, Recall y F-measure. Tras analizar los resultados obtenidos mediante estas métricas, llegamos a la conclusión de que la técnica de SemiSAD ha sido el mejor método

    Qos-Based Web Service Discovery And Selection Using Machine Learning

    Full text link
    In service computing, the same target functions can be achieved by multiple Web services from different providers. Due to the functional similarities, the client needs to consider the non-functional criteria. However, Quality of Service provided by the developer suffers from scarcity and lack of reliability. In addition, the reputation of the service providers is an important factor, especially those with little experience, to select a service. Most of the previous studies were focused on the user's feedbacks for justifying the selection. Unfortunately, not all the users provide the feedback unless they had extremely good or bad experience with the service. In this vision paper, we propose a novel architecture for the web service discovery and selection. The core component is a machine learning based methodology to predict the QoS properties using source code metrics. The credibility value and previous usage count are used to determine the reputation of the service.Comment: 8 Pages, 3 Figure
    corecore