24 research outputs found
Robust Recommender System: A Survey and Future Directions
With the rapid growth of information, recommender systems have become
integral for providing personalized suggestions and overcoming information
overload. However, their practical deployment often encounters "dirty" data,
where noise or malicious information can lead to abnormal recommendations.
Research on improving recommender systems' robustness against such dirty data
has thus gained significant attention. This survey provides a comprehensive
review of recent work on recommender systems' robustness. We first present a
taxonomy to organize current techniques for withstanding malicious attacks and
natural noise. We then explore state-of-the-art methods in each category,
including fraudster detection, adversarial training, certifiable robust
training against malicious attacks, and regularization, purification,
self-supervised learning against natural noise. Additionally, we summarize
evaluation metrics and common datasets used to assess robustness. We discuss
robustness across varying recommendation scenarios and its interplay with other
properties like accuracy, interpretability, privacy, and fairness. Finally, we
delve into open issues and future research directions in this emerging field.
Our goal is to equip readers with a holistic understanding of robust
recommender systems and spotlight pathways for future research and development
How Fraudster Detection Contributes to Robust Recommendation
The adversarial robustness of recommendation systems under node injection
attacks has received considerable research attention. Recently, a robust
recommendation system GraphRfi was proposed, and it was shown that GraphRfi
could successfully mitigate the effects of injected fake users in the system.
Unfortunately, we demonstrate that GraphRfi is still vulnerable to attacks due
to the supervised nature of its fraudster detection component. Specifically, we
propose a new attack metaC against GraphRfi, and further analyze why GraphRfi
fails under such an attack. Based on the insights we obtained from the
vulnerability analysis, we build a new robust recommendation system PDR by
re-designing the fraudster detection component. Comprehensive experiments show
that our defense approach outperforms other benchmark methods under attacks.
Overall, our research demonstrates an effective framework of integrating
fraudster detection into recommendation to achieve adversarial robustness
Contributions to outlier detection and recommendation systems
Le forage de données, appelé également "Découverte de connaissance dans les bases de données" , est un jeune domaine de recherche interdisciplinaire. Le forage de données étudie les processus d'analyse de grands ensembles de données pour en extraire des connaissances, et les processus de transformation de ces connaissances en des structures faciles à comprendre et à utiliser par les humains. Cette thèse étudie deux tâches importantes dans le domaine du forage de données : la détection des anomalies et la recommandation de produits. La détection des anomalies est l'identification des données non conformes aux observations normales. La recommandation de produit est la prédiction du niveau d'intérêt d'un client pour des produits en se basant sur des données d'achats antérieurs et des données socio-économiques. Plus précisément, cette thèse porte sur 1) la détection des anomalies dans de grands ensembles de données de type catégorielles; et 2) les techniques de recommandation à partir des données de classements asymétriques. La détection des anomalies dans des données catégorielles de grande échelle est un problème important qui est loin d'être résolu. Les méthodes existantes dans ce domaine souffrnt d'une faible efficience et efficacité en raison de la dimensionnalité élevée des données, de la grande taille des bases de données, de la complexité élevée des tests statistiques, ainsi que des mesures de proximité non adéquates. Cette thèse propose une définition formelle d'anomalie dans les données catégorielles ainsi que deux algorithmes efficaces et efficients pour la détection des anomalies dans les données de grande taille. Ces algorithmes ont besoin d'un seul paramètre : le nombre des anomalies. Pour déterminer la valeur de ce paramètre, nous avons développé un critère en nous basant sur un nouveau concept qui est l'holo-entropie. Plusieurs recherches antérieures sur les systèmes de recommandation ont négligé un type de classements répandu dans les applications Web, telles que le commerce électronique (ex. Amazon, Taobao) et les sites fournisseurs de contenu (ex. YouTube). Les données de classements recueillies par ces sites se différencient de celles de classements des films et des musiques par leur distribution asymétrique élevée. Cette thèse propose un cadre mieux adapté pour estimer les classements et les préférences quantitatives d'ordre supérieur pour des données de classements asymétriques. Ce cadre permet de créer de nouveaux modèles de recommandation en se basant sur la factorisation de matrice ou sur l'estimation de voisinage. Des résultats expérimentaux sur des ensembles de données asymétriques indiquent que les modèles créés avec ce cadre ont une meilleure performance que les modèles conventionnels non seulement pour la prédiction de classements, mais aussi pour la prédiction de la liste des Top-N produits
Estudio de técnicas de ataques en sistemas de recomendación aplicados al dominio turÃstico
Debido a la aparición de la Web2.0, los sistemas de recomendación han tenido un gran desarrollo en las ultimas décadas. Ante la era de la información masiva, los métodos de recomendación se
presentan como una manera eficiente de filtrar información y escoger lo que realmente se quiere. El
método más común y mejor valorado en la industria y la comunidad cientÃfica es el filtrado colaborativo. Este tipo de técnica se basa en la similitud de los Ãtems o del perfil de usuario, por lo que resulta
bastante vulnerable a los ataques externos. En este contexto, el propósito de este trabajo es estudiar
los diferentes ataques conocidos hasta ahora y poder detectarlos mediante algoritmos de aprendizaje
automático.
En este documento se ha estudiado en profundidad la detección de los ataques basado en filtrado
colaborativo asà como los principales trabajos de investigación, lo cual ha producido las siguientes
contribuciones:
1. En base al funcionamiento del filtrado colaborativo, se ha investigado sobre los conceptos de
ataques y detecciones en este tipo de mecanismo.
2. Basándose en la estrategia de ataque se puede distinguir dos tipos: los estándares y los de
confusión. En este trabajo se van a seleccionar los 3 tipos de ataques estándares más comunes:
RandomAttack, AverageAttack, BandwagonAttack. Además, también se va a implementar un tipo de
ataque hÃbrido que resulte de la combinación cualesquiera de los tres. Tras ejecutar las inyecciones
de perfiles en sistema, se va a intentar evaluar la efectividad de dicho ataque mediante las métricas
de HitRatio y Prediction shift. En esta parte se ha visto que fillerSize es un factor decisivo durante el
proceso de ataque, ya que en numerosos escenarios este parámetro define el nivel de similitud entre
Ãtems. En cambio, en aquellos sistemas que tienen una matriz de similitud densa, el factor attackSize
es el que domina ya que hay una gran posibilidad de puntar un Ãtem popular.
3. Entender los algoritmos de detección basados en aprendizaje automático: BayesDetector, SemiSAD, PCASelectUsers. Analizar la idea básica de cada algoritmo y su proceso de implementación.
Una vez implementados los modelos de detección se va a intentar realizar una evaluación sobre los
distintos tipos de ataques mediante Precision, Recall y F-measure. Tras analizar los resultados obtenidos mediante estas métricas, llegamos a la conclusión de que la técnica de SemiSAD ha sido el mejor
método
Qos-Based Web Service Discovery And Selection Using Machine Learning
In service computing, the same target functions can be achieved by multiple
Web services from different providers. Due to the functional similarities, the
client needs to consider the non-functional criteria. However, Quality of
Service provided by the developer suffers from scarcity and lack of
reliability. In addition, the reputation of the service providers is an
important factor, especially those with little experience, to select a service.
Most of the previous studies were focused on the user's feedbacks for
justifying the selection. Unfortunately, not all the users provide the feedback
unless they had extremely good or bad experience with the service. In this
vision paper, we propose a novel architecture for the web service discovery and
selection. The core component is a machine learning based methodology to
predict the QoS properties using source code metrics. The credibility value and
previous usage count are used to determine the reputation of the service.Comment: 8 Pages, 3 Figure