12 research outputs found
Graph Enhanced Representation Learning for News Recommendation
With the explosion of online news, personalized news recommendation becomes
increasingly important for online news platforms to help their users find
interesting information. Existing news recommendation methods achieve
personalization by building accurate news representations from news content and
user representations from their direct interactions with news (e.g., click),
while ignoring the high-order relatedness between users and news. Here we
propose a news recommendation method which can enhance the representation
learning of users and news by modeling their relatedness in a graph setting. In
our method, users and news are both viewed as nodes in a bipartite graph
constructed from historical user click behaviors. For news representations, a
transformer architecture is first exploited to build news semantic
representations. Then we combine it with the information from neighbor news in
the graph via a graph attention network. For user representations, we not only
represent users from their historically clicked news, but also attentively
incorporate the representations of their neighbor users in the graph. Improved
performances on a large-scale real-world dataset validate the effectiveness of
our proposed method
NPA: Neural News Recommendation with Personalized Attention
News recommendation is very important to help users find interested news and
alleviate information overload. Different users usually have different
interests and the same user may have various interests. Thus, different users
may click the same news article with attention on different aspects. In this
paper, we propose a neural news recommendation model with personalized
attention (NPA). The core of our approach is a news representation model and a
user representation model. In the news representation model we use a CNN
network to learn hidden representations of news articles based on their titles.
In the user representation model we learn the representations of users based on
the representations of their clicked news articles. Since different words and
different news articles may have different informativeness for representing
news and users, we propose to apply both word- and news-level attention
mechanism to help our model attend to important words and news articles. In
addition, the same news article and the same word may have different
informativeness for different users. Thus, we propose a personalized attention
network which exploits the embedding of user ID to generate the query vector
for the word- and news-level attentions. Extensive experiments are conducted on
a real-world news recommendation dataset collected from MSN news, and the
results validate the effectiveness of our approach on news recommendation
Information Retrieval using applied Supervised Learning for Personalized E-Commerce
Master's thesis in Computer SciencePersonalized E-Commerce Search Challenge issued by the International Conference on Information and Knowledge Management. By analyzing historical data containing browsing logs, queries, user interactions, and static data in the domain of an online retail service, we attempt to extract patterns and derive features from the data collection that will subsequently improve prediction of relevant products. A selection of supervised learning models will utilize an assembly of these features to be trained for prediction of test data. Prediction is performed on the queries given by the data collection, paired with each product item originally appearing in the query. We experiment with the possible assemblies of features along with the models and compare the results to achieve maximum prediction power. Lastly, the quality of the predictions are evaluated towards a ground truth to yield scores.submittedVersio
Recommended from our members
Investigating and Supporting Sensemaking within Online Health Communities
This dissertation focuses on understanding and supporting individual and collective sensemaking within online health communities (OHCs). This major goal was achieved in three aims. In Aim 1, this dissertation contributes a rich descriptive account of collective sensemaking in OHCs forums by describing how it occurs and develops, what triggers it, what elements constitute collective construction of meaning, and what conversational moves positively contribute to this process. Further, it describes how collective sensemaking in OHCs is impacted by the interplay between informational and socio-emotional needs of OHCs members. Moreover, it examines how design of different social computing platforms influences OHCs members’ ability to meet their informational and socio-emotional needs and engage in collective sensemaking. In Aim 2, this dissertation explores the design space of tools for supporting individual sensemaking through optimized information access. Through the design and evaluation of a prototype DisVis it examines the impact of such tools on OHCs members’ ability to understand information within discussion threads. In the final Aim 3, this dissertation proposes a novel approach for meeting the three main needs identified in Aims 1 and 2: promoting individual sensemaking, while at the same time encouraging collective sensemaking, and facilitating development of social awareness and ties among community members. The design and evaluation of the novel solution for visualizing discussion threads that synergistically addresses these three needs—dSense—provides insights for future research and design of interactive solutions for supporting individual and collective sensemaking within OHCs
Contributions to outlier detection and recommendation systems
Le forage de données, appelé également "Découverte de connaissance dans les bases de données" , est un jeune domaine de recherche interdisciplinaire. Le forage de données étudie les processus d'analyse de grands ensembles de données pour en extraire des connaissances, et les processus de transformation de ces connaissances en des structures faciles à comprendre et à utiliser par les humains. Cette thèse étudie deux tâches importantes dans le domaine du forage de données : la détection des anomalies et la recommandation de produits. La détection des anomalies est l'identification des données non conformes aux observations normales. La recommandation de produit est la prédiction du niveau d'intérêt d'un client pour des produits en se basant sur des données d'achats antérieurs et des données socio-économiques. Plus précisément, cette thèse porte sur 1) la détection des anomalies dans de grands ensembles de données de type catégorielles; et 2) les techniques de recommandation à partir des données de classements asymétriques. La détection des anomalies dans des données catégorielles de grande échelle est un problème important qui est loin d'être résolu. Les méthodes existantes dans ce domaine souffrnt d'une faible efficience et efficacité en raison de la dimensionnalité élevée des données, de la grande taille des bases de données, de la complexité élevée des tests statistiques, ainsi que des mesures de proximité non adéquates. Cette thèse propose une définition formelle d'anomalie dans les données catégorielles ainsi que deux algorithmes efficaces et efficients pour la détection des anomalies dans les données de grande taille. Ces algorithmes ont besoin d'un seul paramètre : le nombre des anomalies. Pour déterminer la valeur de ce paramètre, nous avons développé un critère en nous basant sur un nouveau concept qui est l'holo-entropie. Plusieurs recherches antérieures sur les systèmes de recommandation ont négligé un type de classements répandu dans les applications Web, telles que le commerce électronique (ex. Amazon, Taobao) et les sites fournisseurs de contenu (ex. YouTube). Les données de classements recueillies par ces sites se différencient de celles de classements des films et des musiques par leur distribution asymétrique élevée. Cette thèse propose un cadre mieux adapté pour estimer les classements et les préférences quantitatives d'ordre supérieur pour des données de classements asymétriques. Ce cadre permet de créer de nouveaux modèles de recommandation en se basant sur la factorisation de matrice ou sur l'estimation de voisinage. Des résultats expérimentaux sur des ensembles de données asymétriques indiquent que les modèles créés avec ce cadre ont une meilleure performance que les modèles conventionnels non seulement pour la prédiction de classements, mais aussi pour la prédiction de la liste des Top-N produits
Collecte orientée sur le Web pour la recherche d'information spécialisée
Les moteurs de recherche verticaux, qui se concentrent sur des segments spécifiques du Web, deviennent aujourd'hui de plus en plus présents dans le paysage d'Internet. Les moteurs de recherche thématiques, notamment, peuvent obtenir de très bonnes performances en limitant le corpus indexé à un thème connu. Les ambiguïtés de la langue sont alors d'autant plus contrôlables que le domaine est bien ciblé. De plus, la connaissance des objets et de leurs propriétés rend possible le développement de techniques d'analyse spécifiques afin d'extraire des informations pertinentes.Dans le cadre de cette thèse, nous nous intéressons plus précisément à la procédure de collecte de documents thématiques à partir du Web pour alimenter un moteur de recherche thématique. La procédure de collecte peut être réalisée en s'appuyant sur un moteur de recherche généraliste existant (recherche orientée) ou en parcourant les hyperliens entre les pages Web (exploration orientée).Nous étudions tout d'abord la recherche orientée. Dans ce contexte, l'approche classique consiste à combiner des mot-clés du domaine d'intérêt, à les soumettre à un moteur de recherche et à télécharger les meilleurs résultats retournés par ce dernier.Après avoir évalué empiriquement cette approche sur 340 thèmes issus de l'OpenDirectory, nous proposons de l'améliorer en deux points. En amont du moteur de recherche, nous proposons de formuler des requêtes thématiques plus pertinentes pour le thème afin d'augmenter la précision de la collecte. Nous définissons une métrique fondée sur un graphe de cooccurrences et un algorithme de marche aléatoire, dans le but de prédire la pertinence d'une requête thématique. En aval du moteur de recherche, nous proposons de filtrer les documents téléchargés afin d'améliorer la qualité du corpus produit. Pour ce faire, nous modélisons la procédure de collecte sous la forme d'un graphe triparti et appliquons un algorithme de marche aléatoire biaisé afin d'ordonner par pertinence les documents et termes apparaissant dans ces derniers.Dans la seconde partie de cette thèse, nous nous focalisons sur l'exploration orientée du Web. Au coeur de tout robot d'exploration orientée se trouve une stratégie de crawl qui lui permet de maximiser le rapatriement de pages pertinentes pour un thème, tout en minimisant le nombre de pages visitées qui ne sont pas en rapport avec le thème. En pratique, cette stratégie définit l'ordre de visite des pages. Nous proposons d'apprendre automatiquement une fonction d'ordonnancement indépendante du thème à partir de données existantes annotées automatiquement.Vertical search engines, which focus on a specific segment of the Web, become more and more present in the Internet landscape. Topical search engines, notably, can obtain a significant performance boost by limiting their index on a specific topic. By doing so, language ambiguities are reduced, and both the algorithms and the user interface can take advantage of domain knowledge, such as domain objects or characteristics, to satisfy user information needs.In this thesis, we tackle the first inevitable step of a all topical search engine : focused document gathering from the Web. A thorough study of the state of art leads us to consider two strategies to gather topical documents from the Web: either relying on an existing search engine index (focused search) or directly crawling the Web (focused crawling).The first part of our research has been dedicated to focused search. In this context, a standard approach consists in combining domain-specific terms into queries, submitting those queries to a search engine and down- loading top ranked documents. After empirically evaluating this approach over 340 topics, we propose to enhance it in two different ways: Upstream of the search engine, we aim at formulating more relevant queries in or- der to increase the precision of the top retrieved documents. To do so, we define a metric based on a co-occurrence graph and a random walk algorithm, which aims at predicting the topical relevance of a query. Downstream of the search engine, we filter the retrieved documents in order to improve the document collection quality. We do so by modeling our gathering process as a tripartite graph and applying a random walk with restart algorithm so as to simultaneously order by relevance the documents and terms appearing in our corpus.In the second part of this thesis, we turn to focused crawling. We describe our focused crawler implementation that was designed to scale horizontally. Then, we consider the problem of crawl frontier ordering, which is at the very heart of a focused crawler. Such ordering strategy allows the crawler to prioritize its fetches, maximizing the number of in-domain documents retrieved while minimizing the non relevant ones. We propose to apply learning to rank algorithms to efficiently order the crawl frontier, and define a method to learn a ranking function from existing crawls.PARIS11-SCD-Bib. électronique (914719901) / SudocSudocFranceF