1,292 research outputs found

    Construction de réponses coopératives : du corpus à la modélisation informatique

    Get PDF
    Les stratĂ©gies utilisĂ©es pour la recherche d’information dans le cadre du Web diffĂšrent d’un moteur de recherche Ă  un autre, mais en gĂ©nĂ©ral, les rĂ©sultats obtenus ne rĂ©pondent pas directement et simplement Ă  la question posĂ©e. Nous prĂ©sentons une stratĂ©gie qui vise Ă  dĂ©finir les fondements linguistiques et de communication d’un systĂšme d’interrogation du Web qui soit coopĂ©ratif avec l’usager et qui tente de lui fournir la rĂ©ponse la plus appropriĂ©e possible dans sa forme et dans son contenu. Nous avons constituĂ© et analysĂ© un corpus de questions-rĂ©ponses coopĂ©ratives construites Ă  partir des sections Foire Aux Questions (FAQ) de diffĂ©rents services Web aux usagers. Cela constitue Ă  notre sens une bonne expĂ©rimentation de ce que pourrait ĂȘtre une communication directe en langue naturelle sur le Web. Cette analyse de corpus a permis d’extraire les caractĂ©ristiques majeures du comportement coopĂ©ratif et de construire l’architecture de notre systĂšme informatique webcoop, que nous prĂ©sentons Ă  la fin de cet article.Algorithms and strategies used on the Web for information retrieval differ from one search engine to another, but, in general, results do not lead to very accurate and informative answers. In this paper, we describe our strategy for designing a cooperative question answering system that aims at producing the most appropriate answers to natural language questions. To characterize these answers, we collected a corpus of cooperative question in our opinion answer pairs extracted from Frequently Asked Questions. The analysis of this corpus constitutes a good experiment on what a cooperative natural language communication on the Web could be. This analysis allows for the elaboration of a general architecture for our cooperative question answering system webcoop, which we present at the end of this paper

    Etude de l'ambiguĂŻtĂ© des requĂȘtes dans un moteur de recherche spĂ©cialisĂ© dans l'actualitĂ© : exploitation d'indices contextuels

    Get PDF
    In this thesis, we consider the question of the ambiguity of queries submitted to a search engine in a particular area that is news.We build on recent work in the field of information retrieval (IR) that showed the addition of contextual information to better identify and address more adequately the information need. On this basis, we make the hypothesis that the elements of information available in an application of IR (contexts in the collection of documents, repetitions and reformulations of queries, diachronic dimension of the search) can help us to examine this problem of ambiguity. We also postulate that ambiguity will manifest in the results returned by a search engine. In this purpose to evaluate these hypotheses, we set up a device to study the ambiguity of queries based on a method of thematic categorization of queries, which relies on an expert categorization. We then show that this ambiguity is different which is indicated by an encyclopedic resources such as Wikipedia.We evaluate this categorization device by setting up two user tests. Finally, we carry out a study based on a set of contextual clues in order to understand the global behavior of a query.Dans cette thĂšse, nous envisageons la question de l’ambiguĂŻtĂ© des requĂȘtes soumises Ă  un moteur de recherche dans un domaine particulier qui est l’actualitĂ©. Nous nous appuyons sur les travaux rĂ©cents dans le domaine de la recherche d’information (RI) qui ont montrĂ© l’apport d’informations contextuelles pour mieux cerner et traiter plus adĂ©quatement le besoin informationnel. Nous faisons ainsi l’hypothĂšse que les Ă©lĂ©ments d’information disponibles dans une application de RI (contextes prĂ©sents dans la base documentaire, rĂ©pĂ©titions et reformulations de requĂȘtes, dimension diachronique de la recherche) peuvent nous aider Ă  Ă©tudier ce problĂšme d’ambiguĂŻtĂ©. Nous faisons Ă©galement l’hypothĂšse que l’ambiguĂŻtĂ© va se manifester dans les rĂ©sultats ramenĂ©s par un moteur de recherche. Dans ce but, nous avons mis en place un dispositif pour Ă©tudier l’ambiguĂŻtĂ© des requĂȘtes reposant sur une mĂ©thode de catĂ©gorisation thĂ©matique des requĂȘtes, qui s’appuie sur unecatĂ©gorisation experte. Nous avons ensuite montrĂ© que cette ambiguĂŻtĂ© est diffĂ©rente de celle repĂ©rĂ©e par une ressource encyclopĂ©dique telle que WikipĂ©dia. Nous avons Ă©valuĂ© ce dispositif de catĂ©gorisation en mettant en place deux tests utilisateurs. Enfin, nous fournissons une Ă©tude basĂ©e sur un faisceau d’indices contextuels afin de saisir le comportement global d’une requĂȘte

    Analyse de l'ambiguĂŻtĂ© des requĂȘtes utilisateurs par catĂ©gorisation thĂ©matique.

    Get PDF
    International audienceDans cet article, nous cherchons Ă  identiïŹer la nature de l'ambiguĂŻtĂ© des requĂȘtes utilisateurs issues d'un moteur de recherche dĂ©diĂ© Ă  l'actualitĂ©, 2424actu.fr, en utilisant une tĂąche de catĂ©gorisation. Dans un premier temps, nous verrons les diffĂ©rentes formes de l'ambiguĂŻtĂ© des requĂȘtes dĂ©jĂ  dĂ©crites dans les travaux de TAL. Nous confrontons la vision lexicographique de l'ambiguĂŻtĂ© Ă  celle dĂ©crite par les techniques de classiïŹcation appliquĂ©es Ă  la recherche d'information. Dans un deuxiĂšme temps, nous appliquons une mĂ©thode de catĂ©gorisation thĂ©matique aïŹn d'explorer l'ambiguĂŻtĂ© des requĂȘtes, celle-ci nous permet de conduire une analyse sĂ©mantique de ces requĂȘtes, en intĂ©grant la dimension temporelle propre au contexte des news. Nous proposons une typologie des phĂ©nomĂšnes d'ambiguĂŻtĂ© basĂ©e sur notre analyse sĂ©mantique. EnïŹn, nous comparons l'exploration par catĂ©gorisation Ă  une ressource comme WikipĂ©dia, montrant concrĂštement les divergences des deux approches

    Du besoin d'informations Ă  la formulation des requĂȘtes : Ă©tude des usages de diffĂ©rents types d'utilisateurs visant l'amĂ©lioration d'un systĂšme de recherche d'informations

    Get PDF
    With the massive and heterogeneous web document collections, IR system must analyze the behaviors of users which are unpredictable and varied. The approach described in this thesis provides a comparison of the verbalizations for both natural language and web query for the same information need by the same user. For this, we used data collected (i.e. users' complaints in natural language and web queries) through a search engine dedicated to economic reports in French over 5 consecutive years totaling a corpus of 1398 natural language requests and 3427 web queries. Then, we compared the expression of the information need and highlighted the contributions in terms of information and clarification, the use of either language used.Devant des collections massives et hĂ©tĂ©rogĂšnes de donnĂ©es, les systĂšmes de RI doivent dĂ©sormais pouvoir apprĂ©hender des comportements d'utilisateurs aussi variĂ©s qu'imprĂ©visibles. L'objectif de notre travail est d'Ă©valuer la façon dont un mĂȘme utilisateur verbalise un besoin informationnel Ă  travers un Ă©noncĂ© de type « expression libre » (appelĂ© langage naturel) et un Ă©noncĂ© de type mots-clĂ©s (appelĂ© langage de requĂȘtes). Pour cela, nous nous situons dans un contexte applicatif, Ă  savoir des demandes de remboursement des utilisateurs d'un moteur de recherche dĂ©diĂ© Ă  des Ă©tudes Ă©conomiques en français. Nous avons recueilli via ce moteur, les deux types d'Ă©noncĂ©s sur 5 annĂ©es consĂ©cutives totalisant un corpus de 1398 demandes en langage naturel et de 3427 requĂȘtes. Nous avons alors comparĂ© l'expression en tant que tel du besoin informationnel et mis en avant ce qu'apportait, en termes d'informations et de prĂ©cisions, le recours Ă  l'un ou l'autre du langage utilisĂ©

    AGEWEB : les agents personnels d'aide Ă  la recherche documentaire sur le Web

    Get PDF

    Chapitre I. La recherche d’information à travers les publics

    Get PDF
    Avec la prĂ©sentation de l’activitĂ© de recherche d’information de diffĂ©rents publics, nous entrons dans les Ă©tudes les plus incertaines du domaine. Les trois publics que nous avons choisis, personnes jeunes, personnes ĂągĂ©es, femmes (le genre) ont pour caractĂ©ristique commune de questionner chacun Ă  leur maniĂšre la problĂ©matique de l’expertise en recherche d’information. Les compĂ©tences informationnelles qu’on leur accorde n’atteignent gĂ©nĂ©ralement pas le stade de l’expertise. Si le cadre exper..

    D'un langage de haut niveau Ă  des requĂȘtes graphes permettant d'interroger le web sĂ©mantique

    Get PDF
    Les modĂšles graphiques sont de bons candidats pour la reprĂ©sentation de connaissances sur le Web, oĂč tout est graphes : du graphe de machines connectĂ©es via Internet au "Giant Global Graph" de Tim Berners-Lee, en passant par les triplets RDF et les ontologies. Dans ce contexte, le problĂšme crucial de l'interrogation ontologique est le suivant : est-ce qu'une base de connaissances composĂ©e d'une partie terminologique et d'une partie assertionnelle implique la requĂȘte, autrement dit, existe-t-il une rĂ©ponse Ă  la question ? Ces derniĂšres annĂ©es, des logiques de description ont Ă©tĂ© proposĂ©es dans lesquelles l'expressivitĂ© de l'ontologie est rĂ©duite de façon Ă  rendre l'interrogation calculable (familles DL-Lite et EL). OWL 2 restreint OWL-DL dans ce sens en se fondant sur ces familles. Nous nous inscrivons dans le contexte d'utilisation de formalismes graphiques pour la reprĂ©sentation (RDF, RDFS et OWL) et l'interrogation (SPARQL) de connaissances. Alors que les langages d'interrogation fondĂ©s sur des graphes sont prĂ©sentĂ©s par leurs promoteurs comme Ă©tant naturels et intuitifs, les utilisateurs ne pensent pas leurs requĂȘtes en termes de graphes. Les utilisateurs souhaitent des langages simples, proches de la langue naturelle, voire limitĂ©s Ă  des mots-clĂ©s. Nous proposons de dĂ©finir un moyen gĂ©nĂ©rique permettant de transformer une requĂȘte exprimĂ©e en langue naturelle vers une requĂȘte exprimĂ©e dans le langage de graphe SPARQL, Ă  l'aide de patrons de requĂȘtes. Le dĂ©but de ce travail coĂŻncide avec les actions actuelles du W3C visant Ă  prĂ©parer une nouvelle version de RDF, ainsi qu'avec le processus de standardisation de SPARQL 1.1 gĂ©rant l'implication dans les requĂȘtes.Graph models are suitable candidates for KR on the Web, where everything is a graph, from the graph of machines connected to the Internet, the "Giant Global Graph" as described by Tim Berners-Lee, to RDF graphs and ontologies. In that context, the ontological query answering problem is the following: given a knowledge base composed of a terminological component and an assertional component and a query, does the knowledge base implies the query, i.e. is there an answer to the query in the knowledge base? Recently, new description logic languages have been proposed where the ontological expressivity is restricted so that query answering becomes tractable. The most prominent members are the DL-Lite and the EL families. In the same way, the OWL-DL language has been restricted and this has led to OWL2, based on the DL-Lite and EL families. We work in the framework of using graph formalisms for knowledge representation (RDF, RDF-S and OWL) and interrogation (SPARQL). Even if interrogation languages based on graphs have long been presented as a natural and intuitive way of expressing information needs, end-users do not think their queries in terms of graphs. They need simple languages that are as close as possible to natural language, or at least mainly limited to keywords. We propose to define a generic way of translating a query expressed in a high-level language into the SPARQL query language, by means of query patterns. The beginning of this work coincides with the current activity of the W3C that launches an initiative to prepare a possible new version of RDF and is in the process of standardizing SPARQL 1.1 with entailments

    Complexification des données et des techniques en linguistique : contributions du TAL aux solutions et aux problÚmes

    Get PDF
    Ce mémoire d'habilitation est l'occasion de faire le bilan de mon activité d'enseignant-chercheur en traitement automatique des langues (TAL) dans un laboratoire de linguistique (CLLE-ERSS) et des principales évolutions de l'outillage informatique de la linguistique au cours des 15 derniÚres années. Mes recherches portent notamment sur le repérage de structures morphosyntaxiques dans les textes, l'analyse des structures du discours et l'acquisition de ressources lexicales à partir de corpus. Certaines se positionnent dans des cadres applicatifs comme la recherche d'information et la classification de textes, mais aussi dans des contextes plus spécifiques en lien avec d'autres disciplines (médecine, psychologie, sociologie...). En m'appuyant sur la diversité de ces travaux et de mes collaborations, j'identifie quatre dimensions d'évolution principales : - l'augmentation de la masse de données langagiÚres disponibles et notamment la part croissante de l'utilisation du Web comme corpus ; - la complexification de l'outillage informatique disponible pour gérer la masse et la variété des données accessibles (outils de constitution et d'interrogation de corpus) ; - la complexification de l'annotation des données langagiÚres, qu'elle soit manuelle, assistée ou automatique ; - la montée en puissance, en TAL mais aussi en linguistique descriptive, des méthodes quantitatives (depuis l'analyse statistique jusqu'aux techniques de fouille de données et d'apprentissage). Si les avancées techniques du TAL ont permis d'accroßtre de façon conséquente les potentialités d'investigation du matériau langagier, et dans certains cas de dégager de nouveaux questionnements, elles ont aussi contribué à creuser un fossé entre les deux composantes (informatique et linguistique) de la discipline. A travers ma propre expérience d'acteur ou d'accompagnateur de ces changements et avec une vocation de "passeur" interdisciplinaire, je cherche à dégager les principaux enjeux actuels pour la linguistique outillée : - doter la linguistique descriptive d'outils de visualisation de données pour aborder la complexité, en exploitant les avancées théoriques et techniques de ce nouveau champ disciplinaire et en les adaptant aux spécificités du matériau langagier ; - rendre abordables aux linguistes les techniques fondamentales de l'analyse statistique, mais aussi les méthodes d'apprentissage artificiel seules capables d'assister l'investigation et l'exploitation de données massives et complexes ; - replacer la linguistique au sein des développements actuels du TAL, notamment par le biais de l'utilisation de descripteurs linguistiques riches dans les outils de traitement par apprentissage, pour un bénéfice mutuel
    • 

    corecore