6 research outputs found

    Collecte orientée sur le Web pour la recherche d'information spécialisée

    Get PDF
    Les moteurs de recherche verticaux, qui se concentrent sur des segments spĂ©cifiques du Web, deviennent aujourd'hui de plus en plus prĂ©sents dans le paysage d'Internet. Les moteurs de recherche thĂ©matiques, notamment, peuvent obtenir de trĂšs bonnes performances en limitant le corpus indexĂ© Ă  un thĂšme connu. Les ambiguĂŻtĂ©s de la langue sont alors d'autant plus contrĂŽlables que le domaine est bien ciblĂ©. De plus, la connaissance des objets et de leurs propriĂ©tĂ©s rend possible le dĂ©veloppement de techniques d'analyse spĂ©cifiques afin d'extraire des informations pertinentes.Dans le cadre de cette thĂšse, nous nous intĂ©ressons plus prĂ©cisĂ©ment Ă  la procĂ©dure de collecte de documents thĂ©matiques Ă  partir du Web pour alimenter un moteur de recherche thĂ©matique. La procĂ©dure de collecte peut ĂȘtre rĂ©alisĂ©e en s'appuyant sur un moteur de recherche gĂ©nĂ©raliste existant (recherche orientĂ©e) ou en parcourant les hyperliens entre les pages Web (exploration orientĂ©e).Nous Ă©tudions tout d'abord la recherche orientĂ©e. Dans ce contexte, l'approche classique consiste Ă  combiner des mot-clĂ©s du domaine d'intĂ©rĂȘt, Ă  les soumettre Ă  un moteur de recherche et Ă  tĂ©lĂ©charger les meilleurs rĂ©sultats retournĂ©s par ce dernier.AprĂšs avoir Ă©valuĂ© empiriquement cette approche sur 340 thĂšmes issus de l'OpenDirectory, nous proposons de l'amĂ©liorer en deux points. En amont du moteur de recherche, nous proposons de formuler des requĂȘtes thĂ©matiques plus pertinentes pour le thĂšme afin d'augmenter la prĂ©cision de la collecte. Nous dĂ©finissons une mĂ©trique fondĂ©e sur un graphe de cooccurrences et un algorithme de marche alĂ©atoire, dans le but de prĂ©dire la pertinence d'une requĂȘte thĂ©matique. En aval du moteur de recherche, nous proposons de filtrer les documents tĂ©lĂ©chargĂ©s afin d'amĂ©liorer la qualitĂ© du corpus produit. Pour ce faire, nous modĂ©lisons la procĂ©dure de collecte sous la forme d'un graphe triparti et appliquons un algorithme de marche alĂ©atoire biaisĂ© afin d'ordonner par pertinence les documents et termes apparaissant dans ces derniers.Dans la seconde partie de cette thĂšse, nous nous focalisons sur l'exploration orientĂ©e du Web. Au coeur de tout robot d'exploration orientĂ©e se trouve une stratĂ©gie de crawl qui lui permet de maximiser le rapatriement de pages pertinentes pour un thĂšme, tout en minimisant le nombre de pages visitĂ©es qui ne sont pas en rapport avec le thĂšme. En pratique, cette stratĂ©gie dĂ©finit l'ordre de visite des pages. Nous proposons d'apprendre automatiquement une fonction d'ordonnancement indĂ©pendante du thĂšme Ă  partir de donnĂ©es existantes annotĂ©es automatiquement.Vertical search engines, which focus on a specific segment of the Web, become more and more present in the Internet landscape. Topical search engines, notably, can obtain a significant performance boost by limiting their index on a specific topic. By doing so, language ambiguities are reduced, and both the algorithms and the user interface can take advantage of domain knowledge, such as domain objects or characteristics, to satisfy user information needs.In this thesis, we tackle the first inevitable step of a all topical search engine : focused document gathering from the Web. A thorough study of the state of art leads us to consider two strategies to gather topical documents from the Web: either relying on an existing search engine index (focused search) or directly crawling the Web (focused crawling).The first part of our research has been dedicated to focused search. In this context, a standard approach consists in combining domain-specific terms into queries, submitting those queries to a search engine and down- loading top ranked documents. After empirically evaluating this approach over 340 topics, we propose to enhance it in two different ways: Upstream of the search engine, we aim at formulating more relevant queries in or- der to increase the precision of the top retrieved documents. To do so, we define a metric based on a co-occurrence graph and a random walk algorithm, which aims at predicting the topical relevance of a query. Downstream of the search engine, we filter the retrieved documents in order to improve the document collection quality. We do so by modeling our gathering process as a tripartite graph and applying a random walk with restart algorithm so as to simultaneously order by relevance the documents and terms appearing in our corpus.In the second part of this thesis, we turn to focused crawling. We describe our focused crawler implementation that was designed to scale horizontally. Then, we consider the problem of crawl frontier ordering, which is at the very heart of a focused crawler. Such ordering strategy allows the crawler to prioritize its fetches, maximizing the number of in-domain documents retrieved while minimizing the non relevant ones. We propose to apply learning to rank algorithms to efficiently order the crawl frontier, and define a method to learn a ranking function from existing crawls.PARIS11-SCD-Bib. Ă©lectronique (914719901) / SudocSudocFranceF

    AccÚs personnalisé à l'information : approche basée sur l'utilisation d'un profil utilisateur sémantique dérivé d'une ontologie de domaines à travers l'historique des sessions de recherche

    Get PDF
    Notre contribution porte sur la conception d'un systĂšme de RI personnalisĂ© intĂ©grant la caractĂ©risation du type de recherche vĂ©hiculĂ© par la requĂȘte ainsi que la modĂ©lisation et construction de profils sĂ©mantiques des utilisateurs. Nous exploitons le contexte de la requĂȘte dans un mĂ©canisme de prĂ©diction du type de recherche en tant qu'informationnel liĂ© Ă  la recherche par contenu, navigationnel liĂ© Ă  la recherche des sites d'accueil et transactionnel liĂ© Ă  la recherche des services en ligne. Notre approche de prĂ©diction du type de recherche consiste Ă  combiner des sources d'Ă©vidences issues des caractĂ©ristiques morphologiques de la requĂȘte d'une part et le profil de la session dĂ©fini par le type de recherche portĂ© par la session de recherche d'autre part. Nous nous intĂ©ressons ensuite Ă  exploiter le profil de l'utilisateur dans un processus d'accĂšs personnalisĂ© Ă  l'information. Le profil de l'utilisateur traduit gĂ©nĂ©ralement un centre d'intĂ©rĂȘt de l'utilisateur et est construit en exploitant les documents jugĂ©s pertinents par l'utilisateur et une ressource sĂ©mantique, en l'occurrence une ontologie de base, servant Ă  la reprĂ©sentation conceptuelle du profil. Le profil de l'utilisateur est utilisĂ© dans le rĂ©-ordonnancement des rĂ©sultats de recherche des requĂȘtes appartenant Ă  la mĂȘme session. Nous avons validĂ© notre approche de prĂ©diction du type de recherche sur une collection de requĂȘtes annotĂ©es de TREC par comparaison Ă  un classifieur classique. Nous avons exploitĂ© des cadres d'Ă©valuation orientĂ©s-contexte pour valider notre contribution dans le domaine.Contextual information retrieval aims at combining knowledge about the query context and the user context in the same framework in order to better meet the user information needs. We propose a search personalization approach integrating a user intent prediction and a semantic user profile modelling. We exploit the query context for predicting the user intent as being informational related to the content retrieval, navigational related to the web site retrieval or transactional related to the online service retrieval. Predicting the user intent consists of combining morphologic query characteristics and the session context defined by the user intent held by the associated queries. We proposed then to exploit the user profile in a personalized information access in order to improve the retrieval effectiveness. We defined the user profile by a user interest built by exploiting the user's documents of interests and an external semantic resource, mainly the ODP ontology, which serves to infer a semantic representation of the user profile. The user profile is then used to re-rank search results of related queries in the same search session. We have validated our approach of predicting the user intent behind the query using TREC collections comparatively to a basic classifier based on a supervised learning technique. As there is no standard evaluation protocol for evaluating personalized access retrieval, we have proposed context-oriented evaluation protocols based on enhancing TREC collection with simulated user profiles and search sessions. We have exploited these protocols to evaluate our contribution in the domain

    Reconnaissance automatique de la parole de personnes ùgées pour les services d'assistance à domicile

    Get PDF
    In the context of the aging population, the aim of this thesis is to include in the living environment of the elderly people an automatic speech recognition (ASR) system, which can recognize calls to alert the emergency services. The acoustic models of ASR systems are mostly learned with non-elderly speech, delivered in a neutral way, and read. However, in our context, we are far from these ideal conditions (aging and expressive voice). So, our system must be adapted to the task. For our work, we recorded corpora made of elderly voices and distress calls. From these corpora, a study on the differences between young and old voices, and between neutral and emotional voice permit to develop an ASR system adapted to the task. This system was then evaluated on data recorded during an experiment in realistic situation, including falls played by volunteers.Dans le contexte du vieillissement de la population, le but de cette thĂšse est d'inclure au domicile des personnes ĂągĂ©es un systĂšme de reconnaissance automatique de la parole (RAP) capable de reconnaĂźtre des appels de dĂ©tresse pour alerter les secours. Les modĂšles acoustiques des systĂšmes de RAP sont gĂ©nĂ©ralement appris avec de la parole non ĂągĂ©e, prononcĂ© de façon neutre et lue. Or, dans notre contexte, nous sommes loin de ces conditions idĂ©ales (voix ĂągĂ©e et Ă©mue), et le systĂšme doit donc ĂȘtre adaptĂ© Ă  la tĂąche. Notre travail s’appuie sur des corpus de voix ĂągĂ©es et d'appels de dĂ©tresse que nous avons enregistrĂ©s. A partir de ces corpus, une Ă©tude sur les diffĂ©rences entre voix jeunes/ĂągĂ©es d'une part, et entre voix neutre/Ă©mue d'autre part nous ont permis de dĂ©velopper un systĂšme de RAP adaptĂ© Ă  la tĂąche. Celui-ci a ensuite Ă©tĂ© Ă©valuĂ© sur des donnĂ©es issues d'une expĂ©rimentation en situation rĂ©aliste incluant des chutes jouĂ©es

    La sélection de variables en apprentissage d'ordonnancement pour la recherche d'information : vers une approche contextuelle

    Get PDF
    L'apprentissage d'ordonnancement, ou learning-to-rank, consiste Ă  optimiser automatiquement une fonction d'ordonnancement apprise Ă  l'aide d'un algorithme Ă  partir de donnĂ©es d'apprentissage. Les approches existantes prĂ©sentent deux limites. D'une part, le nombre de caractĂ©ristiques utilisĂ©es est gĂ©nĂ©ralement Ă©levĂ©, de quelques centaines Ă  plusieurs milliers, ce qui pose des problĂšmes de qualitĂ© et de volumĂ©trie. D'autre part, une seule fonction est apprise pour l'ensemble des requĂȘtes. Ainsi, l'apprentissage d'ordonnancement ne prend pas en compte le type de besoin ou le contexte de la recherche. Nos travaux portent sur l'utilisation de la sĂ©lection de variables en apprentissage d'ordonnancement pour rĂ©soudre Ă  la fois les problĂšmes de la volumĂ©trie et de l'adaptation au contexte. Nous proposons cinq algorithmes de sĂ©lection de variables basĂ©s sur les SĂ©parateurs Ă  Vaste Marge (SVM) parcimonieux. Trois sont des approches de repondĂ©ration de la norme L2, une rĂ©sout un problĂšme d'optimisation en norme L1 et la derniĂšre considĂšre des rĂ©gularisations non convexes. Nos approches donnent de meilleurs rĂ©sultats que l'Ă©tat de l'art sur les jeux de donnĂ©es de rĂ©fĂ©rence. Elles sont plus parcimonieuses et plus rapides tout en permettant d'obtenir des performances identiques en matiĂšre de RI. Nous Ă©valuons Ă©galement nos approches sur un jeu de donnĂ©es issu du moteur commercial Nomao. Les rĂ©sultats confirment la performance de nos algorithmes. Nous proposons dans ce cadre une mĂ©thodologie d'Ă©valuation de la pertinence Ă  partir des clics des utilisateurs pour le cas non Ă©tudiĂ© dans la littĂ©rature des documents multi-cliquables (cartes). Enfin, nous proposons un systĂšme d'ordonnancement adaptatif dĂ©pendant des requĂȘtes basĂ© sur la sĂ©lection de variables. Ce systĂšme apprend des fonctions d'ordonnancement spĂ©cifiques Ă  un contexte donnĂ©, en considĂ©rant des groupes de requĂȘtes et les caractĂ©ristiques obtenues par sĂ©lection pour chacun d'eux.Learning-to-rank aims at automatically optimizing a ranking function learned on training data by a machine learning algorithm. Existing approaches have two major drawbacks. Firstly, the ranking functions can use several thousands of features, which is an issue since algorithms have to deal with large scale data. This can also have a negative impact on the ranking quality. Secondly, algorithms learn an unique fonction for all queries. Then, nor the kind of user need neither the context of the query are taken into account in the ranking process. Our works focus on solving the large-scale issue and the context-aware issue by using feature selection methods dedicated to learning-to-rank. We propose five feature selection algorithms based on sparse Support Vector Machines (SVM). Three proceed to feature selection by reweighting the L2-norm, one solves a L1-regularized problem whereas the last algorithm consider nonconvex regularizations. Our methods are faster and sparser than state-of-the-art algorithms on benchmark datasets, while providing similar performances in terms of RI measures. We also evaluate our approches on a commercial dataset. Experimentations confirm the previous results. We propose in this context a relevance model based on users clicks, in the special case of multi-clickable documents. Finally, we propose an adaptative and query-dependent ranking system based on feature selection. This system considers several clusters of queries, each group defines a context. For each cluster, the system selects a group of features to learn a context-aware ranking function

    L'analyse textuelle des idées, du discours et des pratiques politiques

    Get PDF
    L’ouvrage collectif dirigĂ© par Daigneault et PĂ©try reprĂ©sente l’un des rares efforts systĂ©matiques visant Ă  explorer, en français, les mĂ©thodes d’analyse de contenu automatisĂ©es de textes principalement politiques. Les chapitres couvrent un large Ă©ventail de thĂšmes et de techniques d’analyse de contenu – allant de la compilation des frĂ©quences de mots jusqu’au positionnement idĂ©ologique des acteurs Ă  l’aide de Wordfish et Wordscores, en passant par l’analyse de sentiments. À une Ă©poque oĂč les textes Ă©lectroniques sont devenus facilement disponibles, ce volume inspirera de nombreux chercheurs travaillant sur des techniques d’analyse de contenu, Ă  partir d’une gamme de plus en plus large de plateformes et de langues
    corecore