46 research outputs found

    SĂ©parateurs Ă  Vaste Marge pondĂ©rĂ©s en norme l2 pour la sĂ©lection de variables en apprentissage d’ordonnancement

    Get PDF
    National audienceLearning to rank algorithms are dealing with a very large amount of features to automatically learn ranking functions, which leads to an increase of both the computational cost and the number of noisy redundant features. Feature selection is seen as a promising way to address these issues. In this paper, we propose new feature selection algorithms for learning to rank based on reweighted l2 SVM approaches. We investigate a l2-AROM algorithm to solve the l0 norm optimization problem and a generic l2-reweighted algorithm to approximate l0 et l1 norm SVM problems with l2 norm SVM. Experiments show that our algorithms are up to 10 times faster and use up to 7 times less features than state-of-the-art methods, without lowering the ranking performance.Les algorithmes d’apprentissage d’ordonnancement utilisent un trĂšs grand nombre de caractĂ©ristiques pour apprendre les fonctions d’ordonnancement, entraĂźnant une augmentation des temps d’exĂ©cution et du nombre de caractĂ©ristiques redondantes ou bruitĂ©es. La sĂ©lection de variables est une mĂ©thode prometteuse pour rĂ©soudre ces enjeux. Dans cet article, nous pro- posons de nouvelles mĂ©thodes de sĂ©lection de variables en apprentissage d’ordonnancement basĂ©es sur des approches de pondĂ©ration des SVM en norme l2. Nous proposons une adap- tation d’une mĂ©thode l2-AROM pour la rĂ©solution des SVM en norme l0 et un algorithme gĂ©nĂ©rique de pondĂ©ration de la norme l2 qui rĂ©sout les problĂšmes en norme l0 et l1. Nos ex- pĂ©rimentations montrent que les mĂ©thodes proposĂ©es sont jusqu’à 7 fois plus rapides et 10 fois plus parcimonieuses que l’état de l’art, pour des qualitĂ©s d’ordonnancement Ă©quivalentes

    La sélection de variables en apprentissage d'ordonnancement pour la recherche d'information : vers une approche contextuelle

    Get PDF
    L'apprentissage d'ordonnancement, ou learning-to-rank, consiste Ă  optimiser automatiquement une fonction d'ordonnancement apprise Ă  l'aide d'un algorithme Ă  partir de donnĂ©es d'apprentissage. Les approches existantes prĂ©sentent deux limites. D'une part, le nombre de caractĂ©ristiques utilisĂ©es est gĂ©nĂ©ralement Ă©levĂ©, de quelques centaines Ă  plusieurs milliers, ce qui pose des problĂšmes de qualitĂ© et de volumĂ©trie. D'autre part, une seule fonction est apprise pour l'ensemble des requĂȘtes. Ainsi, l'apprentissage d'ordonnancement ne prend pas en compte le type de besoin ou le contexte de la recherche. Nos travaux portent sur l'utilisation de la sĂ©lection de variables en apprentissage d'ordonnancement pour rĂ©soudre Ă  la fois les problĂšmes de la volumĂ©trie et de l'adaptation au contexte. Nous proposons cinq algorithmes de sĂ©lection de variables basĂ©s sur les SĂ©parateurs Ă  Vaste Marge (SVM) parcimonieux. Trois sont des approches de repondĂ©ration de la norme L2, une rĂ©sout un problĂšme d'optimisation en norme L1 et la derniĂšre considĂšre des rĂ©gularisations non convexes. Nos approches donnent de meilleurs rĂ©sultats que l'Ă©tat de l'art sur les jeux de donnĂ©es de rĂ©fĂ©rence. Elles sont plus parcimonieuses et plus rapides tout en permettant d'obtenir des performances identiques en matiĂšre de RI. Nous Ă©valuons Ă©galement nos approches sur un jeu de donnĂ©es issu du moteur commercial Nomao. Les rĂ©sultats confirment la performance de nos algorithmes. Nous proposons dans ce cadre une mĂ©thodologie d'Ă©valuation de la pertinence Ă  partir des clics des utilisateurs pour le cas non Ă©tudiĂ© dans la littĂ©rature des documents multi-cliquables (cartes). Enfin, nous proposons un systĂšme d'ordonnancement adaptatif dĂ©pendant des requĂȘtes basĂ© sur la sĂ©lection de variables. Ce systĂšme apprend des fonctions d'ordonnancement spĂ©cifiques Ă  un contexte donnĂ©, en considĂ©rant des groupes de requĂȘtes et les caractĂ©ristiques obtenues par sĂ©lection pour chacun d'eux.Learning-to-rank aims at automatically optimizing a ranking function learned on training data by a machine learning algorithm. Existing approaches have two major drawbacks. Firstly, the ranking functions can use several thousands of features, which is an issue since algorithms have to deal with large scale data. This can also have a negative impact on the ranking quality. Secondly, algorithms learn an unique fonction for all queries. Then, nor the kind of user need neither the context of the query are taken into account in the ranking process. Our works focus on solving the large-scale issue and the context-aware issue by using feature selection methods dedicated to learning-to-rank. We propose five feature selection algorithms based on sparse Support Vector Machines (SVM). Three proceed to feature selection by reweighting the L2-norm, one solves a L1-regularized problem whereas the last algorithm consider nonconvex regularizations. Our methods are faster and sparser than state-of-the-art algorithms on benchmark datasets, while providing similar performances in terms of RI measures. We also evaluate our approches on a commercial dataset. Experimentations confirm the previous results. We propose in this context a relevance model based on users clicks, in the special case of multi-clickable documents. Finally, we propose an adaptative and query-dependent ranking system based on feature selection. This system considers several clusters of queries, each group defines a context. For each cluster, the system selects a group of features to learn a context-aware ranking function

    La prĂ©diction efficace de la difficultĂ© des requĂȘtes : une tĂąche impossible?

    Get PDF
    National audienceABSTRACT. Search engines found answers whatever the user query is, but some queries are more difficult than others for the system. For difficult queries, adhoc treatments must be applied. Predicting query difficulty is crucial and different predictors have been proposed. In this paper, we revisit these predictors. First we check the non statistical redundancy of predictors. Then, we show that the correlation between the values of predictors and system performance gives little hope on the ability of these predictors to be effective. Finally, we study the ability of predictors to predict the classes of difficulty by relying on a variety of exploratory and learning methods. We show that despite the (low) correlation with performance measures, current predictors are not robust enough to be used in practical IR applications. MOTS-CLÉS : Recherche d'information, requĂȘte difficile, prĂ©diction, analyse de donnĂ©es.RÉSUMÉ. Les moteurs de recherche d'information (RI) retrouvent des rĂ©ponses quelle que soit la requĂȘte, mais certaines requĂȘtes sont difficiles (le systĂšme n'obtient pas de bonne performance en termes de mesure de RI). Pour les requĂȘtes difficiles, des traitements adhoc doivent ĂȘtre ap-pliquĂ©s. PrĂ©dire qu'une requĂȘte est difficile est donc crucial et diffĂ©rents prĂ©dicteurs ont Ă©tĂ© proposĂ©s. Dans cet articlenous Ă©tudions la variĂ©tĂ© de l'information captĂ©e par les prĂ©dicteurs existants et donc leur non redondance. Par ailleurs, nous montrons que les corrĂ©lationsentre les prĂ©dicteurs et les performance des systĂšmes donnent peu d'espoir sur la capacitĂ© de ces prĂ©dic-teurs Ă  ĂȘtre rĂ©ellement efficaces. Enfin, nous Ă©tudions la capacitĂ© des prĂ©dicteurs Ă  prĂ©dire les classes de difficultĂ© des requĂȘtes en nous appuyant sur une variĂ©tĂ© de mĂ©thodes exploratoires et d'apprentissage. Nous montrons que malgrĂ© les (faibles) corrĂ©lations observĂ©es avec les mesures de performance, les prĂ©dicteurs actuels conduisent Ă  des performances de prĂ©diction variables et sont donc difficilement utilisables dans une application concrĂšte de RI

    Identification de compatibilités entre tags descripteurs de lieux et apprentissage automatique

    Get PDF
    International audienceLes travaux présentés dans cet article s'inscrivent dans le paradigme des recherches visant à acquérir des relations sémantiques à partir de folksonomies (ensemble de tags attribués à des ressources par des utilisateurs). Nous expérimentons plusieurs approches issues de l'état de l'art ainsi que l'apport de l'apprentissage automatique pour l'identification de relations entre tags. Nous obtenons dans le meilleur des cas un taux d'erreur de 23,7 % (relations non reconnues ou fausses), ce qui est encourageant au vu de la difficulté de la tùche (les annotateurs humains ont un taux de désaccord de 12%)

    Recommandation de sĂ©quences d’activitĂ©s en contexte mobile et dynamique

    No full text
    National audienceLa recommandation de sĂ©quences d'activitĂ©s spatio-temporelles (Points d'IntĂ©rĂȘts, POIs) est de plus en plus utile et demandĂ©e avec la pĂ©nĂ©tration des systĂšmes de localisation et des rĂ©seaux gĂ©o-sociaux dans la vie quotidienne. Nous proposons une approche personnalisĂ©e de recommandation de sĂ©quences d'activitĂ©s en contexte mobile et dynamique

    Recommandation de sĂ©quences d’activitĂ©s en contexte mobile et dynamique

    No full text
    National audienceLa recommandation de sĂ©quences d'activitĂ©s spatio-temporelles (Points d'IntĂ©rĂȘts, POIs) est de plus en plus utile et demandĂ©e avec la pĂ©nĂ©tration des systĂšmes de localisation et des rĂ©seaux gĂ©o-sociaux dans la vie quotidienne. Nous proposons une approche personnalisĂ©e de recommandation de sĂ©quences d'activitĂ©s en contexte mobile et dynamique

    Évaluation de la pertinence dans les moteurs de recherche gĂ©orĂ©fĂ©rencĂ©s

    Get PDF
    National audienceLearning to rank documents on a search engine requires relevance judgments. We introduce the results of an innovating study on relevance modeling for local search engines. These search engines present search results on a map or as a list of maps. Each map contains all the attributes of a place (noun, address, phone number, etc). Most of these attributes are links users can click. We model the relevance as the weighted sum of all the clicks on a result. We obtain good results by fixing the same weight for each component of the model. We propose a relative order between clicks to determine the optimal weights.Optimiser le classement des rĂ©sultats d’un moteur par un algorithme de learning to rank nĂ©cessite de connaĂźtre des jugements de pertinence entre requĂȘtes et documents. Nous prĂ©sentons les rĂ©sultats d’une Ă©tude pilote sur la modĂ©lisation de la pertinence dans les moteurs de recherche gĂ©orĂ©fĂ©rencĂ©s. La particularitĂ© de ces moteurs est de prĂ©senter les rĂ©sultats de recherche sous forme de carte gĂ©ographique ou de liste de fiches. Ces fiches contiennent les caractĂ©ristiques du lieu (nom, adresse, tĂ©lĂ©phone, etc.) dont la plupart sont cliquables par l’utilisateur. Nous modĂ©lisons la pertinence comme la somme pondĂ©rĂ©e des clics sur le rĂ©sultat. Nous montrons qu’équipondĂ©rer les diffĂ©rents Ă©lĂ©ments du modĂšle donne de bons rĂ©sultats et qu’un ordre d’importance entre type de clics peut ĂȘtre dĂ©duit pour dĂ©terminer les pondĂ©rations optimales

    ANASTASIA : recommandation de séquences d'activités spatio-temporelles

    No full text
    National audienceAs amount of activities available for users and their variety have grown, personalised recommendation of activities sequences has become an important challenge. However, most of recommender systems do not consider temporal constraints of activities, making the recommendation hard for user to follow. In this article, we describe a novel approach for recommendation of competing activities limited in time. It makes use of historical records of users' activities in order to mine users' behavioral patterns, and combines different contextual elements (popularity, demographic and spatio-temporal information). We present an evaluation framework and a dataset that will allow us to evaluate our approach.Avec l’augmentation du nombre et de la variĂ©tĂ© des activitĂ©s accessibles par les utilisateurs, la recommandation personnalisĂ©e de sĂ©quences d’activitĂ©s devient un enjeu important. Or, la plupart des systĂšmes de recommandation ne tiennent pas compte des contraintes temporelles liĂ©es aux activitĂ©s, ce qui rend la recommandation difficile Ă  suivre par un utilisateur. Dans cet article, nous dĂ©crivons une nouvelle approche pour la recommandation de sĂ©quences d’activitĂ©s limitĂ©es dans le temps et concurrentes. Elle s’appuie sur l’historique des activitĂ©s des utilisateurs pour extraire des motifs comportementaux et intĂšgre diffĂ©rents Ă©lĂ©ments contextuels (popularitĂ©, informations dĂ©mographiques et spatio-temporelles). Nous prĂ©sentons un protocole d’évaluation et un jeu de donnĂ©es qui permettra l’évaluation de notre approche

    DEvIR: Data Collection and Analysis for the Recommendation of Events and Itineraries

    Get PDF
    Distributed events such as multi-day festivals and conventions attract thousands of attendees. Their programs are usually very dense, which makes it difficult for users to select activities to perform. Recent works have proposed event and itinerary recommendation algorithms to solve this problem. Although several datasets have been made available for the evaluation of event recommendation algorithms, they do not suit well for the case of distributed events or itinerary recommendation. Based on the study of available online resources, we define dataset attributes required to perform event and itinerary recommendations in the context of distributed events, and discuss the compliance of existing datasets to these requirements. Revealing the lack of publicly available datasets with desired features, we describe a data collection process to acquire the publicly available data from a major comic book convention website. We present the characteristics of the collected data and discuss its usability for evaluating recommendation algorithms

    Multiple perspectives HMM-based feature engineering for credit card fraud detection

    Full text link
    Machine learning and data mining techniques have been used extensively in order to detect credit card frauds. However, most studies consider credit card transactions as isolated events and not as a sequence of transactions. In this article, we model a sequence of credit card transactions from three different perspectives, namely (i) does the sequence contain a Fraud? (ii) Is the sequence obtained by fixing the card-holder or the payment terminal? (iii) Is it a sequence of spent amount or of elapsed time between the current and previous transactions? Combinations of the three binary perspectives give eight sets of sequences from the (training) set of transactions. Each one of these sets is modelled with a Hidden Markov Model (HMM). Each HMM associates a likelihood to a transaction given its sequence of previous transactions. These likelihoods are used as additional features in a Random Forest classifier for fraud detection. This multiple perspectives HMM-based approach enables an automatic feature engineering in order to model the sequential properties of the dataset with respect to the classification task. This strategy allows for a 15% increase in the precision-recall AUC compared to the state of the art feature engineering strategy for credit card fraud detection.Comment: Presented as a poster in the conference SAC 2019: 34th ACM/SIGAPP Symposium on Applied Computing in April 201
    corecore