46 research outputs found
SĂ©parateurs Ă Vaste Marge pondĂ©rĂ©s en norme l2 pour la sĂ©lection de variables en apprentissage dâordonnancement
National audienceLearning to rank algorithms are dealing with a very large amount of features to automatically learn ranking functions, which leads to an increase of both the computational cost and the number of noisy redundant features. Feature selection is seen as a promising way to address these issues. In this paper, we propose new feature selection algorithms for learning to rank based on reweighted l2 SVM approaches. We investigate a l2-AROM algorithm to solve the l0 norm optimization problem and a generic l2-reweighted algorithm to approximate l0 et l1 norm SVM problems with l2 norm SVM. Experiments show that our algorithms are up to 10 times faster and use up to 7 times less features than state-of-the-art methods, without lowering the ranking performance.Les algorithmes dâapprentissage dâordonnancement utilisent un trĂšs grand nombre de caractĂ©ristiques pour apprendre les fonctions dâordonnancement, entraĂźnant une augmentation des temps dâexĂ©cution et du nombre de caractĂ©ristiques redondantes ou bruitĂ©es. La sĂ©lection de variables est une mĂ©thode prometteuse pour rĂ©soudre ces enjeux. Dans cet article, nous pro- posons de nouvelles mĂ©thodes de sĂ©lection de variables en apprentissage dâordonnancement basĂ©es sur des approches de pondĂ©ration des SVM en norme l2. Nous proposons une adap- tation dâune mĂ©thode l2-AROM pour la rĂ©solution des SVM en norme l0 et un algorithme gĂ©nĂ©rique de pondĂ©ration de la norme l2 qui rĂ©sout les problĂšmes en norme l0 et l1. Nos ex- pĂ©rimentations montrent que les mĂ©thodes proposĂ©es sont jusquâĂ 7 fois plus rapides et 10 fois plus parcimonieuses que lâĂ©tat de lâart, pour des qualitĂ©s dâordonnancement Ă©quivalentes
La sélection de variables en apprentissage d'ordonnancement pour la recherche d'information : vers une approche contextuelle
L'apprentissage d'ordonnancement, ou learning-to-rank, consiste Ă optimiser automatiquement une fonction d'ordonnancement apprise Ă l'aide d'un algorithme Ă partir de donnĂ©es d'apprentissage. Les approches existantes prĂ©sentent deux limites. D'une part, le nombre de caractĂ©ristiques utilisĂ©es est gĂ©nĂ©ralement Ă©levĂ©, de quelques centaines Ă plusieurs milliers, ce qui pose des problĂšmes de qualitĂ© et de volumĂ©trie. D'autre part, une seule fonction est apprise pour l'ensemble des requĂȘtes. Ainsi, l'apprentissage d'ordonnancement ne prend pas en compte le type de besoin ou le contexte de la recherche.
Nos travaux portent sur l'utilisation de la sélection de variables en apprentissage d'ordonnancement pour résoudre à la fois les problÚmes de la volumétrie et de l'adaptation au contexte. Nous proposons cinq algorithmes de sélection de variables basés sur les Séparateurs à Vaste Marge (SVM) parcimonieux. Trois sont des approches de repondération de la norme L2, une résout un problÚme d'optimisation en norme L1 et la derniÚre considÚre des régularisations non convexes. Nos approches donnent de meilleurs résultats que l'état de l'art sur les jeux de données de référence. Elles sont plus parcimonieuses et plus rapides tout en permettant d'obtenir des performances identiques en matiÚre de RI.
Nous évaluons également nos approches sur un jeu de données issu du moteur commercial Nomao. Les résultats confirment la performance de nos algorithmes. Nous proposons dans ce cadre une méthodologie d'évaluation de la pertinence à partir des clics des utilisateurs pour le cas non étudié dans la littérature des documents multi-cliquables (cartes).
Enfin, nous proposons un systĂšme d'ordonnancement adaptatif dĂ©pendant des requĂȘtes basĂ© sur la sĂ©lection de variables. Ce systĂšme apprend des fonctions d'ordonnancement spĂ©cifiques Ă un contexte donnĂ©, en considĂ©rant des groupes de requĂȘtes et les caractĂ©ristiques obtenues par sĂ©lection pour chacun d'eux.Learning-to-rank aims at automatically optimizing a ranking function learned on training data by a machine learning algorithm. Existing approaches have two major drawbacks. Firstly, the ranking functions can use several thousands of features, which is an issue since algorithms have to deal with large scale data. This can also have a negative impact on the ranking quality. Secondly, algorithms learn an unique fonction for all queries. Then, nor the kind of user need neither the context of the query are taken into account in the ranking process. Our works focus on solving the large-scale issue and the context-aware issue by using feature selection methods dedicated to learning-to-rank. We propose five feature selection algorithms based on sparse Support Vector Machines (SVM). Three proceed to feature selection by reweighting the L2-norm, one solves a L1-regularized problem whereas the last algorithm consider nonconvex regularizations. Our methods are faster and sparser than state-of-the-art algorithms on benchmark datasets, while providing similar performances in terms of RI measures. We also evaluate our approches on a commercial dataset. Experimentations confirm the previous results. We propose in this context a relevance model based on users clicks, in the special case of multi-clickable documents.
Finally, we propose an adaptative and query-dependent ranking system based on feature selection. This system considers several clusters of queries, each group defines a context. For each cluster, the system selects a group of features to learn a context-aware ranking function
La prĂ©diction efficace de la difficultĂ© des requĂȘtes : une tĂąche impossible?
National audienceABSTRACT. Search engines found answers whatever the user query is, but some queries are more difficult than others for the system. For difficult queries, adhoc treatments must be applied. Predicting query difficulty is crucial and different predictors have been proposed. In this paper, we revisit these predictors. First we check the non statistical redundancy of predictors. Then, we show that the correlation between the values of predictors and system performance gives little hope on the ability of these predictors to be effective. Finally, we study the ability of predictors to predict the classes of difficulty by relying on a variety of exploratory and learning methods. We show that despite the (low) correlation with performance measures, current predictors are not robust enough to be used in practical IR applications. MOTS-CLĂS : Recherche d'information, requĂȘte difficile, prĂ©diction, analyse de donnĂ©es.RĂSUMĂ. Les moteurs de recherche d'information (RI) retrouvent des rĂ©ponses quelle que soit la requĂȘte, mais certaines requĂȘtes sont difficiles (le systĂšme n'obtient pas de bonne performance en termes de mesure de RI). Pour les requĂȘtes difficiles, des traitements adhoc doivent ĂȘtre ap-pliquĂ©s. PrĂ©dire qu'une requĂȘte est difficile est donc crucial et diffĂ©rents prĂ©dicteurs ont Ă©tĂ© proposĂ©s. Dans cet articlenous Ă©tudions la variĂ©tĂ© de l'information captĂ©e par les prĂ©dicteurs existants et donc leur non redondance. Par ailleurs, nous montrons que les corrĂ©lationsentre les prĂ©dicteurs et les performance des systĂšmes donnent peu d'espoir sur la capacitĂ© de ces prĂ©dic-teurs Ă ĂȘtre rĂ©ellement efficaces. Enfin, nous Ă©tudions la capacitĂ© des prĂ©dicteurs Ă prĂ©dire les classes de difficultĂ© des requĂȘtes en nous appuyant sur une variĂ©tĂ© de mĂ©thodes exploratoires et d'apprentissage. Nous montrons que malgrĂ© les (faibles) corrĂ©lations observĂ©es avec les mesures de performance, les prĂ©dicteurs actuels conduisent Ă des performances de prĂ©diction variables et sont donc difficilement utilisables dans une application concrĂšte de RI
Identification de compatibilités entre tags descripteurs de lieux et apprentissage automatique
International audienceLes travaux présentés dans cet article s'inscrivent dans le paradigme des recherches visant à acquérir des relations sémantiques à partir de folksonomies (ensemble de tags attribués à des ressources par des utilisateurs). Nous expérimentons plusieurs approches issues de l'état de l'art ainsi que l'apport de l'apprentissage automatique pour l'identification de relations entre tags. Nous obtenons dans le meilleur des cas un taux d'erreur de 23,7 % (relations non reconnues ou fausses), ce qui est encourageant au vu de la difficulté de la tùche (les annotateurs humains ont un taux de désaccord de 12%)
Recommandation de sĂ©quences dâactivitĂ©s en contexte mobile et dynamique
National audienceLa recommandation de sĂ©quences d'activitĂ©s spatio-temporelles (Points d'IntĂ©rĂȘts, POIs) est de plus en plus utile et demandĂ©e avec la pĂ©nĂ©tration des systĂšmes de localisation et des rĂ©seaux gĂ©o-sociaux dans la vie quotidienne. Nous proposons une approche personnalisĂ©e de recommandation de sĂ©quences d'activitĂ©s en contexte mobile et dynamique
Recommandation de sĂ©quences dâactivitĂ©s en contexte mobile et dynamique
National audienceLa recommandation de sĂ©quences d'activitĂ©s spatio-temporelles (Points d'IntĂ©rĂȘts, POIs) est de plus en plus utile et demandĂ©e avec la pĂ©nĂ©tration des systĂšmes de localisation et des rĂ©seaux gĂ©o-sociaux dans la vie quotidienne. Nous proposons une approche personnalisĂ©e de recommandation de sĂ©quences d'activitĂ©s en contexte mobile et dynamique
Ăvaluation de la pertinence dans les moteurs de recherche gĂ©orĂ©fĂ©rencĂ©s
National audienceLearning to rank documents on a search engine requires relevance judgments. We introduce the results of an innovating study on relevance modeling for local search engines. These search engines present search results on a map or as a list of maps. Each map contains all the attributes of a place (noun, address, phone number, etc). Most of these attributes are links users can click. We model the relevance as the weighted sum of all the clicks on a result. We obtain good results by fixing the same weight for each component of the model. We propose a relative order between clicks to determine the optimal weights.Optimiser le classement des rĂ©sultats dâun moteur par un algorithme de learning to rank nĂ©cessite de connaĂźtre des jugements de pertinence entre requĂȘtes et documents. Nous prĂ©sentons les rĂ©sultats dâune Ă©tude pilote sur la modĂ©lisation de la pertinence dans les moteurs de recherche gĂ©orĂ©fĂ©rencĂ©s. La particularitĂ© de ces moteurs est de prĂ©senter les rĂ©sultats de recherche sous forme de carte gĂ©ographique ou de liste de fiches. Ces fiches contiennent les caractĂ©ristiques du lieu (nom, adresse, tĂ©lĂ©phone, etc.) dont la plupart sont cliquables par lâutilisateur. Nous modĂ©lisons la pertinence comme la somme pondĂ©rĂ©e des clics sur le rĂ©sultat. Nous montrons quâĂ©quipondĂ©rer les diffĂ©rents Ă©lĂ©ments du modĂšle donne de bons rĂ©sultats et quâun ordre dâimportance entre type de clics peut ĂȘtre dĂ©duit pour dĂ©terminer les pondĂ©rations optimales
ANASTASIA : recommandation de séquences d'activités spatio-temporelles
National audienceAs amount of activities available for users and their variety have grown, personalised recommendation of activities sequences has become an important challenge. However, most of recommender systems do not consider temporal constraints of activities, making the recommendation hard for user to follow. In this article, we describe a novel approach for recommendation of competing activities limited in time. It makes use of historical records of users' activities in order to mine users' behavioral patterns, and combines different contextual elements (popularity, demographic and spatio-temporal information). We present an evaluation framework and a dataset that will allow us to evaluate our approach.Avec lâaugmentation du nombre et de la variĂ©tĂ© des activitĂ©s accessibles par les utilisateurs, la recommandation personnalisĂ©e de sĂ©quences dâactivitĂ©s devient un enjeu important. Or, la plupart des systĂšmes de recommandation ne tiennent pas compte des contraintes temporelles liĂ©es aux activitĂ©s, ce qui rend la recommandation difficile Ă suivre par un utilisateur. Dans cet article, nous dĂ©crivons une nouvelle approche pour la recommandation de sĂ©quences dâactivitĂ©s limitĂ©es dans le temps et concurrentes. Elle sâappuie sur lâhistorique des activitĂ©s des utilisateurs pour extraire des motifs comportementaux et intĂšgre diffĂ©rents Ă©lĂ©ments contextuels (popularitĂ©, informations dĂ©mographiques et spatio-temporelles). Nous prĂ©sentons un protocole dâĂ©valuation et un jeu de donnĂ©es qui permettra lâĂ©valuation de notre approche
DEvIR: Data Collection and Analysis for the Recommendation of Events and Itineraries
Distributed events such as multi-day festivals and conventions attract thousands of attendees. Their programs are usually very dense, which makes it difficult for users to select activities to perform. Recent works have proposed event and itinerary recommendation algorithms to solve this problem. Although several datasets have been made available for the evaluation of event recommendation algorithms, they do not suit well for the case of distributed events or itinerary recommendation. Based on the study of available online resources, we define dataset attributes required to perform event and itinerary recommendations in the context of distributed events, and discuss the compliance of existing datasets to these requirements. Revealing the lack of publicly available datasets with desired features, we describe a data collection process to acquire the publicly available data from a major comic book convention website. We present the characteristics of the collected data and discuss its usability for evaluating recommendation algorithms
Multiple perspectives HMM-based feature engineering for credit card fraud detection
Machine learning and data mining techniques have been used extensively in
order to detect credit card frauds. However, most studies consider credit card
transactions as isolated events and not as a sequence of transactions.
In this article, we model a sequence of credit card transactions from three
different perspectives, namely (i) does the sequence contain a Fraud? (ii) Is
the sequence obtained by fixing the card-holder or the payment terminal? (iii)
Is it a sequence of spent amount or of elapsed time between the current and
previous transactions? Combinations of the three binary perspectives give eight
sets of sequences from the (training) set of transactions. Each one of these
sets is modelled with a Hidden Markov Model (HMM). Each HMM associates a
likelihood to a transaction given its sequence of previous transactions. These
likelihoods are used as additional features in a Random Forest classifier for
fraud detection. This multiple perspectives HMM-based approach enables an
automatic feature engineering in order to model the sequential properties of
the dataset with respect to the classification task. This strategy allows for a
15% increase in the precision-recall AUC compared to the state of the art
feature engineering strategy for credit card fraud detection.Comment: Presented as a poster in the conference SAC 2019: 34th ACM/SIGAPP
Symposium on Applied Computing in April 201