    Collecte orientée sur le Web pour la recherche d'information spécialisée

    Les moteurs de recherche verticaux, qui se concentrent sur des segments spécifiques du Web, deviennent aujourd'hui de plus en plus présents dans le paysage d'Internet. Les moteurs de recherche thématiques, notamment, peuvent obtenir de très bonnes performances en limitant le corpus indexé à un thème connu. Les ambiguïtés de la langue sont alors d'autant plus contrôlables que le domaine est bien ciblé. De plus, la connaissance des objets et de leurs propriétés rend possible le développement de techniques d'analyse spécifiques afin d'extraire des informations pertinentes.Dans le cadre de cette thèse, nous nous intéressons plus précisément à la procédure de collecte de documents thématiques à partir du Web pour alimenter un moteur de recherche thématique. La procédure de collecte peut être réalisée en s'appuyant sur un moteur de recherche généraliste existant (recherche orientée) ou en parcourant les hyperliens entre les pages Web (exploration orientée).Nous étudions tout d'abord la recherche orientée. Dans ce contexte, l'approche classique consiste à combiner des mot-clés du domaine d'intérêt, à les soumettre à un moteur de recherche et à télécharger les meilleurs résultats retournés par ce dernier.Après avoir évalué empiriquement cette approche sur 340 thèmes issus de l'OpenDirectory, nous proposons de l'améliorer en deux points. En amont du moteur de recherche, nous proposons de formuler des requêtes thématiques plus pertinentes pour le thème afin d'augmenter la précision de la collecte. Nous définissons une métrique fondée sur un graphe de cooccurrences et un algorithme de marche aléatoire, dans le but de prédire la pertinence d'une requête thématique. En aval du moteur de recherche, nous proposons de filtrer les documents téléchargés afin d'améliorer la qualité du corpus produit. Pour ce faire, nous modélisons la procédure de collecte sous la forme d'un graphe triparti et appliquons un algorithme de marche aléatoire biaisé afin d'ordonner par pertinence les documents et termes apparaissant dans ces derniers.Dans la seconde partie de cette thèse, nous nous focalisons sur l'exploration orientée du Web. Au coeur de tout robot d'exploration orientée se trouve une stratégie de crawl qui lui permet de maximiser le rapatriement de pages pertinentes pour un thème, tout en minimisant le nombre de pages visitées qui ne sont pas en rapport avec le thème. En pratique, cette stratégie définit l'ordre de visite des pages. Nous proposons d'apprendre automatiquement une fonction d'ordonnancement indépendante du thème à partir de données existantes annotées automatiquement.Vertical search engines, which focus on a specific segment of the Web, become more and more present in the Internet landscape. Topical search engines, notably, can obtain a significant performance boost by limiting their index on a specific topic. By doing so, language ambiguities are reduced, and both the algorithms and the user interface can take advantage of domain knowledge, such as domain objects or characteristics, to satisfy user information needs.In this thesis, we tackle the first inevitable step of a all topical search engine : focused document gathering from the Web. A thorough study of the state of art leads us to consider two strategies to gather topical documents from the Web: either relying on an existing search engine index (focused search) or directly crawling the Web (focused crawling).The first part of our research has been dedicated to focused search. In this context, a standard approach consists in combining domain-specific terms into queries, submitting those queries to a search engine and down- loading top ranked documents. After empirically evaluating this approach over 340 topics, we propose to enhance it in two different ways: Upstream of the search engine, we aim at formulating more relevant queries in or- der to increase the precision of the top retrieved documents. To do so, we define a metric based on a co-occurrence graph and a random walk algorithm, which aims at predicting the topical relevance of a query. Downstream of the search engine, we filter the retrieved documents in order to improve the document collection quality. We do so by modeling our gathering process as a tripartite graph and applying a random walk with restart algorithm so as to simultaneously order by relevance the documents and terms appearing in our corpus.In the second part of this thesis, we turn to focused crawling. We describe our focused crawler implementation that was designed to scale horizontally. Then, we consider the problem of crawl frontier ordering, which is at the very heart of a focused crawler. Such ordering strategy allows the crawler to prioritize its fetches, maximizing the number of in-domain documents retrieved while minimizing the non relevant ones. We propose to apply learning to rank algorithms to efficiently order the crawl frontier, and define a method to learn a ranking function from existing crawls.PARIS11-SCD-Bib. électronique (914719901) / SudocSudocFranceF

    Militantisme littéraire, sujets mobiles et poétiques de la figuration dans The Farming of Bones d’Edwidge Danticat et We Need New Names de NoViolet Bulawayo

    Dans cette étude comparée, j’étudie les poétiques figuratives d’Edwidge Danticat et de NoViolet Bulawayo dans The Farming of Bones et We Need New Names. Je démontre que ces écrivaines s’inspirent de techniques d’écriture cinématographique et poétique, menant ainsi un militantisme littéraire pour dénoncer l’extrême brutalité des systèmes de pouvoir national, étatique et économique, leurs modalités de consolidation et leurs impacts sur la subjectivité des sujets mobiles. Dans le premier chapitre de ma recherche, la poétique cinématographique du chaos de Bulawayo et l’imaginaire de l’autorité dictatoriale ficelé à la poétique du corps subjectivé marron et du paysage naturel me permettront d’examiner l’extrême brutalité dans le cadre d’expulsions orchestrées par les formes de pouvoir étatico-national. Le deuxième chapitre portera sur le contexte post-expulsif car j’y étudierai les comportements abusifs des aidants envers les aidés ; révélateurs d’une profonde rupture de communication. J’examinerai aussi les stratégies de survivance des protagonistes dont je révélerai les symboliques et les limites. Dans le dernier chapitre, je compare l’aliénation du travailleur étranger dans les systèmes économiques de la plantation sucrière dominicaine et du néolibéralisme global à l’échelle nationale. S’il n’existe pas d’acteur répressif précis, la brutalité systémique des logiques de productivité et de rentabilité vulnérabilise les individus dépourvus de documents d’immigration. Ainsi, loin d’être déployées à des fins strictement esthétiques, ces poétiques expressives de la figuration constituent des outils de conscientisation qui s’impriment dans l’imagination du lecteur et peuvent l’aider à cheminer dans la maturation de son esprit critique.Throughout this comparative study, I examine the figurative poetics in Edwidge Danticat’s The Farming of Bones and NoViolet Bulawayo’s We Need New Names. The writers draw on cinematic and poetry writing techniques to promote a literary militancy. This creative militancy allows them to critique the extreme brutality rooted in the different structures of power such as the nation-state and the global economy. By elucidating the mechanisms of power, I study their impact on the individuals’ formation of subjectivity. The first chapter of my work examines the mechanisms of brutality visible through the expulsive campaigns orchestrated by the nation-state. Through my close reading, I focus on Bulawayo’s cinematic poetic of chaos and Danticat’s genocidal imaginary. The second chapter deals with the context of post-expulsion. I study the relationship between the political and international helpers and the subaltern migrants and diasporas. The abusive and repressive behavior of the helpers reveals their profound inability to communicate and to act with human values. I also reflect on the value and the limits of the protagonists’ survival strategies. Finally, I compare the alienation of the foreign worker in economic systems such as the Dominican sugar plantation (20th century) and the global neoliberalism at the national scale. Contrary to the other chapters, the brutality is not perpetrated by a repressive actor because it is rooted in the economic system. One of my conclusions is that these figurative poetics are not only aesthetic tools, but they are potential instruments of awareness that help the reader to improve his critical thinking