Search CORE

6 research outputs found

Collecte orientée sur le Web pour la recherche d'information spécialisée

Author: DE GROC Clément
TANNIER Xavier
ZWEIGENBAUM Pierre
Publication venue
Publication date: 01/01/2013
Field of study

Les moteurs de recherche verticaux, qui se concentrent sur des segments spécifiques du Web, deviennent aujourd'hui de plus en plus présents dans le paysage d'Internet. Les moteurs de recherche thématiques, notamment, peuvent obtenir de très bonnes performances en limitant le corpus indexé à un thème connu. Les ambiguïtés de la langue sont alors d'autant plus contrôlables que le domaine est bien ciblé. De plus, la connaissance des objets et de leurs propriétés rend possible le développement de techniques d'analyse spécifiques afin d'extraire des informations pertinentes.Dans le cadre de cette thèse, nous nous intéressons plus précisément à la procédure de collecte de documents thématiques à partir du Web pour alimenter un moteur de recherche thématique. La procédure de collecte peut être réalisée en s'appuyant sur un moteur de recherche généraliste existant (recherche orientée) ou en parcourant les hyperliens entre les pages Web (exploration orientée).Nous étudions tout d'abord la recherche orientée. Dans ce contexte, l'approche classique consiste à combiner des mot-clés du domaine d'intérêt, à les soumettre à un moteur de recherche et à télécharger les meilleurs résultats retournés par ce dernier.Après avoir évalué empiriquement cette approche sur 340 thèmes issus de l'OpenDirectory, nous proposons de l'améliorer en deux points. En amont du moteur de recherche, nous proposons de formuler des requêtes thématiques plus pertinentes pour le thème afin d'augmenter la précision de la collecte. Nous définissons une métrique fondée sur un graphe de cooccurrences et un algorithme de marche aléatoire, dans le but de prédire la pertinence d'une requête thématique. En aval du moteur de recherche, nous proposons de filtrer les documents téléchargés afin d'améliorer la qualité du corpus produit. Pour ce faire, nous modélisons la procédure de collecte sous la forme d'un graphe triparti et appliquons un algorithme de marche aléatoire biaisé afin d'ordonner par pertinence les documents et termes apparaissant dans ces derniers.Dans la seconde partie de cette thèse, nous nous focalisons sur l'exploration orientée du Web. Au coeur de tout robot d'exploration orientée se trouve une stratégie de crawl qui lui permet de maximiser le rapatriement de pages pertinentes pour un thème, tout en minimisant le nombre de pages visitées qui ne sont pas en rapport avec le thème. En pratique, cette stratégie définit l'ordre de visite des pages. Nous proposons d'apprendre automatiquement une fonction d'ordonnancement indépendante du thème à partir de données existantes annotées automatiquement.Vertical search engines, which focus on a specific segment of the Web, become more and more present in the Internet landscape. Topical search engines, notably, can obtain a significant performance boost by limiting their index on a specific topic. By doing so, language ambiguities are reduced, and both the algorithms and the user interface can take advantage of domain knowledge, such as domain objects or characteristics, to satisfy user information needs.In this thesis, we tackle the first inevitable step of a all topical search engine : focused document gathering from the Web. A thorough study of the state of art leads us to consider two strategies to gather topical documents from the Web: either relying on an existing search engine index (focused search) or directly crawling the Web (focused crawling).The first part of our research has been dedicated to focused search. In this context, a standard approach consists in combining domain-specific terms into queries, submitting those queries to a search engine and down- loading top ranked documents. After empirically evaluating this approach over 340 topics, we propose to enhance it in two different ways: Upstream of the search engine, we aim at formulating more relevant queries in or- der to increase the precision of the top retrieved documents. To do so, we define a metric based on a co-occurrence graph and a random walk algorithm, which aims at predicting the topical relevance of a query. Downstream of the search engine, we filter the retrieved documents in order to improve the document collection quality. We do so by modeling our gathering process as a tripartite graph and applying a random walk with restart algorithm so as to simultaneously order by relevance the documents and terms appearing in our corpus.In the second part of this thesis, we turn to focused crawling. We describe our focused crawler implementation that was designed to scale horizontally. Then, we consider the problem of crawl frontier ordering, which is at the very heart of a focused crawler. Such ordering strategy allows the crawler to prioritize its fetches, maximizing the number of in-domain documents retrieved while minimizing the non relevant ones. We propose to apply learning to rank algorithms to efficiently order the crawl frontier, and define a method to learn a ranking function from existing crawls.PARIS11-SCD-Bib. électronique (914719901) / SudocSudocFranceF

OpenGrey Repository

Accès personnalisé à l'information : approche basée sur l'utilisation d'un profil utilisateur sémantique dérivé d'une ontologie de domaines à travers l'historique des sessions de recherche

Author: Daoud Mariam
Publication venue
Publication date: 10/12/2009
Field of study

Notre contribution porte sur la conception d'un système de RI personnalisé intégrant la caractérisation du type de recherche véhiculé par la requête ainsi que la modélisation et construction de profils sémantiques des utilisateurs. Nous exploitons le contexte de la requête dans un mécanisme de prédiction du type de recherche en tant qu'informationnel lié à la recherche par contenu, navigationnel lié à la recherche des sites d'accueil et transactionnel lié à la recherche des services en ligne. Notre approche de prédiction du type de recherche consiste à combiner des sources d'évidences issues des caractéristiques morphologiques de la requête d'une part et le profil de la session défini par le type de recherche porté par la session de recherche d'autre part. Nous nous intéressons ensuite à exploiter le profil de l'utilisateur dans un processus d'accès personnalisé à l'information. Le profil de l'utilisateur traduit généralement un centre d'intérêt de l'utilisateur et est construit en exploitant les documents jugés pertinents par l'utilisateur et une ressource sémantique, en l'occurrence une ontologie de base, servant à la représentation conceptuelle du profil. Le profil de l'utilisateur est utilisé dans le ré-ordonnancement des résultats de recherche des requêtes appartenant à la même session. Nous avons validé notre approche de prédiction du type de recherche sur une collection de requêtes annotées de TREC par comparaison à un classifieur classique. Nous avons exploité des cadres d'évaluation orientés-contexte pour valider notre contribution dans le domaine.Contextual information retrieval aims at combining knowledge about the query context and the user context in the same framework in order to better meet the user information needs. We propose a search personalization approach integrating a user intent prediction and a semantic user profile modelling. We exploit the query context for predicting the user intent as being informational related to the content retrieval, navigational related to the web site retrieval or transactional related to the online service retrieval. Predicting the user intent consists of combining morphologic query characteristics and the session context defined by the user intent held by the associated queries. We proposed then to exploit the user profile in a personalized information access in order to improve the retrieval effectiveness. We defined the user profile by a user interest built by exploiting the user's documents of interests and an external semantic resource, mainly the ODP ontology, which serves to infer a semantic representation of the user profile. The user profile is then used to re-rank search results of related queries in the same search session. We have validated our approach of predicting the user intent behind the query using TREC collections comparatively to a basic classifier based on a supervised learning technique. As there is no standard evaluation protocol for evaluating personalized access retrieval, we have proposed context-oriented evaluation protocols based on enhancing TREC collection with simulated user profiles and search sessions. We have exploited these protocols to evaluate our contribution in the domain

Thèses en Ligne

Scientific Publications of the University of Toulouse II Le Mirail

Thèses en ligne de l'Université Toulouse III - Paul Sabatier

Reconnaissance automatique de la parole de personnes âgées pour les services d'assistance à domicile

Author: Aman Frédéric
Publication venue: HAL CCSD
Publication date: 09/12/2014
Field of study

In the context of the aging population, the aim of this thesis is to include in the living environment of the elderly people an automatic speech recognition (ASR) system, which can recognize calls to alert the emergency services. The acoustic models of ASR systems are mostly learned with non-elderly speech, delivered in a neutral way, and read. However, in our context, we are far from these ideal conditions (aging and expressive voice). So, our system must be adapted to the task. For our work, we recorded corpora made of elderly voices and distress calls. From these corpora, a study on the differences between young and old voices, and between neutral and emotional voice permit to develop an ASR system adapted to the task. This system was then evaluated on data recorded during an experiment in realistic situation, including falls played by volunteers.Dans le contexte du vieillissement de la population, le but de cette thèse est d'inclure au domicile des personnes âgées un système de reconnaissance automatique de la parole (RAP) capable de reconnaître des appels de détresse pour alerter les secours. Les modèles acoustiques des systèmes de RAP sont généralement appris avec de la parole non âgée, prononcé de façon neutre et lue. Or, dans notre contexte, nous sommes loin de ces conditions idéales (voix âgée et émue), et le système doit donc être adapté à la tâche. Notre travail s’appuie sur des corpus de voix âgées et d'appels de détresse que nous avons enregistrés. A partir de ces corpus, une étude sur les différences entre voix jeunes/âgées d'une part, et entre voix neutre/émue d'autre part nous ont permis de développer un système de RAP adapté à la tâche. Celui-ci a ensuite été évalué sur des données issues d'une expérimentation en situation réaliste incluant des chutes jouées

Thèses en Ligne

Hal - Université Grenoble Alpes

La sélection de variables en apprentissage d'ordonnancement pour la recherche d'information : vers une approche contextuelle

Author: Laporte Léa
Publication venue
Publication date: 18/11/2013
Field of study

L'apprentissage d'ordonnancement, ou learning-to-rank, consiste à optimiser automatiquement une fonction d'ordonnancement apprise à l'aide d'un algorithme à partir de données d'apprentissage. Les approches existantes présentent deux limites. D'une part, le nombre de caractéristiques utilisées est généralement élevé, de quelques centaines à plusieurs milliers, ce qui pose des problèmes de qualité et de volumétrie. D'autre part, une seule fonction est apprise pour l'ensemble des requêtes. Ainsi, l'apprentissage d'ordonnancement ne prend pas en compte le type de besoin ou le contexte de la recherche. Nos travaux portent sur l'utilisation de la sélection de variables en apprentissage d'ordonnancement pour résoudre à la fois les problèmes de la volumétrie et de l'adaptation au contexte. Nous proposons cinq algorithmes de sélection de variables basés sur les Séparateurs à Vaste Marge (SVM) parcimonieux. Trois sont des approches de repondération de la norme L2, une résout un problème d'optimisation en norme L1 et la dernière considère des régularisations non convexes. Nos approches donnent de meilleurs résultats que l'état de l'art sur les jeux de données de référence. Elles sont plus parcimonieuses et plus rapides tout en permettant d'obtenir des performances identiques en matière de RI. Nous évaluons également nos approches sur un jeu de données issu du moteur commercial Nomao. Les résultats confirment la performance de nos algorithmes. Nous proposons dans ce cadre une méthodologie d'évaluation de la pertinence à partir des clics des utilisateurs pour le cas non étudié dans la littérature des documents multi-cliquables (cartes). Enfin, nous proposons un système d'ordonnancement adaptatif dépendant des requêtes basé sur la sélection de variables. Ce système apprend des fonctions d'ordonnancement spécifiques à un contexte donné, en considérant des groupes de requêtes et les caractéristiques obtenues par sélection pour chacun d'eux.Learning-to-rank aims at automatically optimizing a ranking function learned on training data by a machine learning algorithm. Existing approaches have two major drawbacks. Firstly, the ranking functions can use several thousands of features, which is an issue since algorithms have to deal with large scale data. This can also have a negative impact on the ranking quality. Secondly, algorithms learn an unique fonction for all queries. Then, nor the kind of user need neither the context of the query are taken into account in the ranking process. Our works focus on solving the large-scale issue and the context-aware issue by using feature selection methods dedicated to learning-to-rank. We propose five feature selection algorithms based on sparse Support Vector Machines (SVM). Three proceed to feature selection by reweighting the L2-norm, one solves a L1-regularized problem whereas the last algorithm consider nonconvex regularizations. Our methods are faster and sparser than state-of-the-art algorithms on benchmark datasets, while providing similar performances in terms of RI measures. We also evaluate our approches on a commercial dataset. Experimentations confirm the previous results. We propose in this context a relevance model based on users clicks, in the special case of multi-clickable documents. Finally, we propose an adaptative and query-dependent ranking system based on feature selection. This system considers several clusters of queries, each group defines a context. For each cluster, the system selects a group of features to learn a context-aware ranking function

Thèses en ligne de l'Université Toulouse III - Paul Sabatier

Actes de la conférence Traitement Automatique de la Langue Naturelle, TALN 2018: Volume 2 : Démonstrations, articles des Rencontres Jeunes Chercheurs, ateliers DeFT

Author: Cellier Peggy
Claveau Vincent
Grouin Cyril
Ligozat Anne-Laure
Minard Anne-Lyse
Paroubek Patrick
Publication venue: HAL CCSD
Publication date: 14/05/2018
Field of study

International audienc

INRIA a CCSD electronic archive server

L'analyse textuelle des idées, du discours et des pratiques politiques

Author: Daigneault Pierre-Marc
Pétry François
Publication venue: Presses de l'Université Laval
Publication date: 01/01/2017
Field of study

L’ouvrage collectif dirigé par Daigneault et Pétry représente l’un des rares efforts systématiques visant à explorer, en français, les méthodes d’analyse de contenu automatisées de textes principalement politiques. Les chapitres couvrent un large éventail de thèmes et de techniques d’analyse de contenu – allant de la compilation des fréquences de mots jusqu’au positionnement idéologique des acteurs à l’aide de Wordfish et Wordscores, en passant par l’analyse de sentiments. À une époque où les textes électroniques sont devenus facilement disponibles, ce volume inspirera de nombreux chercheurs travaillant sur des techniques d’analyse de contenu, à partir d’une gamme de plus en plus large de plateformes et de langues

CorpusUL