112 research outputs found

    La lecture assistée par ordinateur : une étude exploratoire

    Get PDF

    De nouveaux facteurs pour l'exploitation de la sémantique d'un texte en recherche d'information

    Get PDF
    Les travaux prĂ©sentĂ©s dans ce mĂ©moire se situent dans le contexte de la recherche d'information. Plus prĂ©cisĂ©ment, nous proposons de nouveaux facteurs " centralitĂ©, frĂ©quence conceptuelle" permettant Ă  notre sens, de mieux caractĂ©riser la dimension sĂ©mantique du contenu des textes, allant au-delĂ  des mĂ©thodes d'indexation classiques basĂ©es exclusivement sur les statistiques. Ces facteurs devraient tirer parti de l'identification de diffĂ©rents types de relations telles que -est-une partie-de, liĂ©s Ă , synonymie, domaine, etc.- qui existent entre les mots d'un texte. L'approche que nous avons proposĂ©e pour calculer la valeur de nos facteurs est bĂątie en trois Ă©tapes : (1) Extraction des concepts issus de WordNet1 associĂ©s aux termes du document puis dĂ©sambigĂŒisation de leurs sens, (2) Regroupement des concepts pour former des clusters de concepts (Ces Ă©tapes construisent la vue sĂ©mantique des documents), (3) A l'intĂ©rieur de chaque cluster, chaque terme possĂšde un degrĂ© de " centralitĂ© ", fonction du nombre de mots du cluster avec lequel il est en relation directe, et une " frĂ©quence conceptuelle " estimĂ©e par la somme des frĂ©quences de ces mots. D'une part, nous menons une Ă©tude sur des mĂ©thodes potentielles basĂ©es sur les facteurs proposĂ©s pour extraire des vues sĂ©mantiques du contenu des textes. L'objectif est de construire des structures de graphes/hiĂ©rarchies offrant une vue du contenu sĂ©mantique des documents. Ensuite, ces vues seront Ă©laborĂ©es Ă  partir de nos nouveaux facteurs, mais aussi de l'utilisation des frĂ©quences d'occurrence, et de la prise en compte de l'importance des mots (en particulier en terme de leur spĂ©cificitĂ©). Le poids relatif des vues partielles, la frĂ©quence et la spĂ©cificitĂ© de leurs composants sont d'autant des indications qui devraient permettre d'identifier et de construire des sous-ensembles hiĂ©rarchisĂ©s de mots (prĂ©sents dans le texte ou sĂ©mantiquement associĂ©s Ă  des mots du texte), et de reflĂ©ter les concepts prĂ©sents dans le contenu du texte. L'obtention d'une meilleure reprĂ©sentation du contenu sĂ©mantique des textes aidera Ă  mieux retrouver les textes pertinents pour une requĂȘte donnĂ©e, et Ă  donner une vue synthĂ©tisĂ©e du contenu des textes proposĂ©s Ă  l'utilisateur en rĂ©ponse Ă  sa requĂȘte. D'autre part, nous proposons une technique de dĂ©sambiguĂŻsation du concept basĂ©e sur la centralitĂ©. En fait, le sens d'un terme est ambigu, il dĂ©pend de son contexte d'emploi. Dans notre proposition, nous utilisons l'ontologie de WordNet, qui est prĂ©cise dans la couverture des sens de termes, oĂč un terme peut ĂȘtre attachĂ© Ă  plusieurs concepts. La mĂ©thode proposĂ©e consiste Ă  trouver le meilleur concept WordNet permettant de reprĂ©senter le sens du terme dĂ©signĂ© par le texte. Le concept choisi est celui qui a un maximum de relations avec les termes du document, autrement dit, celui qui a une valeur maximale de centralitĂ©. L'utilisation d'une mĂ©thode de dĂ©sambiguĂŻsation est une Ă©tape inĂ©vitable dans une indexation conceptuelle, elle permet de mieux reprĂ©senter le contenu sĂ©mantique d'un document. Enfin, nous utilisons nos facteurs dans le cadre de Recherche d'Information comme de nouveaux facteurs pour mesurer la pertinence d'un document vis-Ă -vis d'une requĂȘte (tĂąche de RI ad-hoc). L'utilisation de nos facteurs sĂ©mantiques est intĂ©ressante dans la RI, oĂč nous estimons un degrĂ© de relativitĂ© entre les termes d'une requĂȘte et ceux d'un document indĂ©pendamment de leur prĂ©sence dans ce dernier. Dans ce cadre, nous avons proposĂ© une nouvelle fonction de pondĂ©ration basĂ©e sur la centralitĂ©, ainsi que nous avons intĂ©grĂ© les nouveaux facteurs Ă  des fonctions connues. Dans les diffĂ©rentes expĂ©rimentations menĂ©es, nous avons montrĂ© que l'intĂ©gration de nos facteurs sĂ©mantiques ramĂšne une amĂ©lioration au niveau de prĂ©cision dans un moteur de recherche d'information. TĂąche prometteuse pour une recherche plus ciblĂ©e et plus efficace.The work presented in this paper are in the context of information retrieval. Specifically, we propose new factors "centrality frequebcy conceptual" to our senses, to better characterize the semantic dimension of the text content, going beyond traditional indexing methods based solely on statistics. Theses factors should benefit from the identification of different typesif relationships sich as is-part-of, relating to, synonymy, domain, etc. -between tha words of text

    Un systÚme de question-réponse simple appliqué à SQuAD

    Full text link
    La tĂąche de question-rĂ©ponse (Question-Answering, QA) est bien ancrĂ©e dans la communautĂ© de Traitement Automatique du Langage Naturel (TALN) depuis de nombreuses annĂ©es. De maniĂšre gĂ©nĂ©rale, celle-ci consiste Ă  rĂ©pondre Ă  des questions donnĂ©es Ă  l’aide de documents (textuels ou autres) ou de conversations en faisant au besoin usage de connaissances et en mettant en oeuvre des mĂ©canismes d’infĂ©rence. Ainsi, dĂ©pendamment du jeu de donnĂ©es et de la tĂąche lui Ă©tant associĂ©e, il faut que le systĂšme puisse dĂ©tecter et comprendre les Ă©lĂ©ments utiles pour rĂ©pondre correctement Ă  chacune des questions posĂ©es. De nombreux progrĂšs ont Ă©tĂ© rĂ©alisĂ©s depuis quelques annĂ©es avec des modĂšles neuronaux de plus en plus complexes, ces derniers sont cependant coĂ»teux en production, et relativement opaques. Du Ă  leur opacitĂ©, il est difficile d’anticiper avec prĂ©cision le comportement de certains modĂšles et d’ainsi prĂ©voir quand ces systĂšmes vont retourner de mauvaises rĂ©ponses. Contrairement Ă  la trĂšs grande majoritĂ© des systĂšmes proposĂ©s actuellement, nous allons dans ce mĂ©moire tenter de rĂ©soudre cette tĂąche avec des modĂšles de taille contrĂŽlable, on s’intĂ©ressera principalement aux approches basĂ©es sur les traits (features). Le but visĂ© en restreignant la taille des modĂšles est qu’ils gĂ©nĂ©ralisent mieux. On pourra alors mesurer ce que ces modĂšles capturent afin d’évaluer la granularitĂ© de leur "comprĂ©hension" de la langue. Aussi, en analysant les lacunes de modĂšles de taille contrĂŽlable, on pourra mettre en valeur ce que des modĂšles plus complexes ont capturĂ©. Pour rĂ©aliser notre Ă©tude, on s’évalue ici sur SQuAD: un jeu de donnĂ©es populaire proposĂ© par l’UniversitĂ© Standford.The Question-Answering task (QA) is a well established Natural Language Processing (NLP) task. Generally speaking, it consists in answering questions using documents (textual or otherwise) or conversations, making use of knowledge if necessary and implementing inference mechanisms. Thus, depending on the data set and the task associated with it, the system must be able to detect and understand the useful elements to correctly answer each of the questions asked. A lot of progress has been made in recent years with increasingly complex neural models. They are however expensive in production, and relatively opaque. Due to this opacity, it is diĂżcult to accurately predict the behavior of some models and thus, to predict when these systems will return wrong answers. Unlike the vast majority of systems currently proposed, in this thesis we will try to solve this task with models with controllable size. We will focus mainly on feature-based approaches. The goal in restricting the size of the models is that they generalize better. So we will measure what these models capture in order to assess the granularity of their "understanding" of the language. Also, by analyzing the gaps of controllable size models, we will be able to highlight what more complex models have captured. To carry out our study, we evaluate ourselves here on SQuAD: a popular data set o˙ered by Standford University

    Délit de langue et paternité textuelle : une approche informatisée

    Get PDF
    Cette Ă©tude vise Ă  Ă©valuer l’utilitĂ© d’une assistance informatique lors de l’identification de l’auteur d’un texte en français dans un cadre judiciaire. L’objectif est de proposer un environnement informatique au linguiste oeuvrant en contexte judiciaire et plus spĂ©cifiquement en analyse de paternitĂ© textuelle et de valider la lĂ©gitimitĂ© de cette assistance automatisĂ©e Ă  travers une Ă©tude de cas impliquant des textes courts et trĂšs courts rĂ©digĂ©s en français. L’analyse se scinde en deux parties : une partie quantitative presqu’essentiellement automatisĂ©e et une partie qualitative semi-automatisĂ©e. Les rĂ©sultats provenant de cette Ă©tude suggĂšrent qu’un environnement automatisĂ© est un gain pour le linguiste, non seulement quant au temps et Ă  la neutralitĂ© d’exĂ©cution de l’analyse, mais Ă©galement quant aux rĂ©sultats encourageants obtenus grĂące aux outils crĂ©Ă©s

    COGNITIVE AND NEUROPSYCHOLOGICAL EXPLORATION OF EPISODIC MEMORY FUNCTIONING: RECOGNITION MEMORY PROCESSES AND MEMORY FOR TEMPORAL CONTEXT

    Full text link
    The main objective of our dissertation was to contribute to a better understanding of the cognitive processes involved in episodic memory and their cerebral substrates. More specifically, our work focused on two questions. First, we were interested in the contribution of recollection and familiarity to recognition memory. On the one hand, we examined the performance on recognition tasks when recollection cannot be used anymore (studies 1, 2 and 3) and, on the other hand, the influence of frontal lobe lesions on the processes involved in a recognition memory task (study 4). Second, we explored the processes recruited in an important aspect of episodic memory, namely, memory for the temporal context of events, by studying the nature of the difficulties encountered by older adults on a task assessing memory for temporal information (studies 5 and 6).ARC 99/04-24

    Acquisition de liens sémantiques à partir d'éléments de mise en forme des textes: exploitation des structures énumératives

    Get PDF
    The past decade witnessed significant advances in the field of relation extraction from text, facilitating the building of lexical or semantic resources. However, the methods proposed so far (supervised learning, kernel methods, distant supervision, etc.) don't fully exploit the texts: they are usually applied at the sentential level and they don't take into account the layout and the formatting of texts.In such a context, this thesis aims at expanding those methods and makes them layout-aware for extracting relations expressed beyond sentence boundaries. For this purpose, we rely on the semantics conveyed by typographical (bullets, emphasis, etc.) and dispositional (visual indentations, carriage returns, etc.) features. Those features often substitute purely discursive formulations. In particular, the study reported here is dealing with the relations carried by the vertical enumerative structures. Although they display discontinuities between their various components, the enumerative structures can be dealt as a whole at the semantic level. They form textual structures prone to hierarchical relations.This study was divided into two parts. (i) The first part describes a model representing the hierarchical structure of documents. This model is falling within the theoretical framework representing the textual architecture: an abstraction of the layout and the formatting, as well as a strong connection with the rhetorical structure are achieved. However, our model focuses primarily on the efficiency of the analysis process rather than on the expressiveness of the representation. A bottom-up method intended for building automatically this model is presented and evaluated on a corpus of PDF documents.(ii) The second part aims at integrating this model into the process of relation extraction. In particular, we focused on vertical enumerative structures. A multidimensional typology intended for characterizing those structures was established and used into an annotation task. Thanks to corpus-based observations, we proposed a two-step method, by supervised learning, for qualifying the nature of the relation and identifying its arguments. The evaluation of our method showed that exploiting the formatting and the layout of documents, in combination with standard lexico-syntactic features, improves those two tasks.Ces derniĂšres annĂ©es de nombreux progrĂšs ont Ă©tĂ© faits dans le domaine de l'extraction de relations Ă  partir de textes, facilitant ainsi la construction de ressources lexicales ou sĂ©mantiques. Cependant, les mĂ©thodes proposĂ©es (apprentissage supervisĂ©, mĂ©thodes Ă  noyaux, apprentissage distant, etc.) n’exploitent pas tout le potentiel des textes : elles ont gĂ©nĂ©ralement Ă©tĂ© appliquĂ©es Ă  un niveau phrastique, sans tenir compte des Ă©lĂ©ments de mise en forme.Dans ce contexte, l'objectif de cette thĂšse est d'adapter ces mĂ©thodes Ă  l'extraction de relations exprimĂ©es au-delĂ  des frontiĂšres de la phrase. Pour cela, nous nous appuyons sur la sĂ©mantique vĂ©hiculĂ©e par les indices typographiques (puces, emphases, etc.) et dispositionnels (indentations visuelles, retours Ă  la ligne, etc.), qui complĂštent des formulations strictement discursives. En particulier, nous Ă©tudions les structures Ă©numĂ©ratives verticales qui, bien qu'affichant des discontinuitĂ©s entre leurs diffĂ©rents composants, prĂ©sentent un tout sur le plan sĂ©mantique. Ces structures textuelles sont souvent rĂ©vĂ©latrices de relations hiĂ©rarchiques. Notre travail est divisĂ© en deux parties. (i) La premiĂšre partie dĂ©crit un modĂšle pour reprĂ©senter la structure hiĂ©rarchique des documents. Ce modĂšle se positionne dans la suite des modĂšles thĂ©oriques proposĂ©s pour rendre compte de l'architecture textuelle : une abstraction de la mise en forme et une connexion forte avec la structure rhĂ©torique sont faites. Toutefois, notre modĂšle se dĂ©marque par une perspective d'analyse automatique des textes. Nous en proposons une implĂ©mentation efficace sous la forme d'une mĂ©thode ascendante et nous l'Ă©valuons sur un corpus de documents PDF. (ii) La seconde partie porte sur l'intĂ©gration de ce modĂšle dans le processus d'extraction de relations. Plus particuliĂšrement, nous nous sommes focalisĂ©s sur les structures Ă©numĂ©ratives verticales. Un corpus a Ă©tĂ© annotĂ© selon une typologie multi-dimensionnelle permettant de caractĂ©riser et de cibler les structures Ă©numĂ©ratives verticales porteuses de relations utiles Ă  la crĂ©ation de ressources. Les observations faites en corpus ont conduit Ă  procĂ©der en deux Ă©tapes par apprentissage supervisĂ© pour analyser ces structures : qualifier la relation puis en extraire les arguments. L'Ă©valuation de cette mĂ©thode montre que l'exploitation de la mise en forme, combinĂ©e Ă  un faisceau d'indices lexico-syntaxiques, amĂ©liore les rĂ©sultats

    Apprentissage par renforcement pour la généralisation des approches automatiques dans la conception des systÚmes de dialogue oral

    Get PDF
    Les systĂšmes de dialogue homme machine actuellement utilisĂ©s dans l industrie sont fortement limitĂ©s par une forme de communication trĂšs rigide imposant Ă  l utilisateur de suivre la logique du concepteur du systĂšme. Cette limitation est en partie due Ă  leur reprĂ©sentation de l Ă©tat de dialogue sous la forme de formulaires prĂ©Ă©tablis.Pour rĂ©pondre Ă  cette difficultĂ©, nous proposons d utiliser une reprĂ©sentation sĂ©mantique Ă  structure plus riche et flexible visant Ă  permettre Ă  l utilisateur de formuler librement sa demande.Une deuxiĂšme difficultĂ© qui handicape grandement les systĂšmes de dialogue est le fort taux d erreur du systĂšme de reconnaissance vocale. Afin de traiter ces erreurs de maniĂšre quantitative, la volontĂ© de rĂ©aliser une planification de stratĂ©gie de dialogue en milieu incertain a conduit Ă  utiliser des mĂ©thodes d apprentissage par renforcement telles que les processus de dĂ©cision de Markov partiellement observables (POMDP). Mais un inconvĂ©nient du paradigme POMDP est sa trop grande complexitĂ© algorithmique. Certaines propositions rĂ©centes permettent de rĂ©duire la complexitĂ© du modĂšle. Mais elles utilisent une reprĂ©sentation en formulaire et ne peuvent ĂȘtre appliquĂ©s directement Ă  la reprĂ©sentation sĂ©mantique riche que nous proposons d utiliser.Afin d appliquer le modĂšle POMDP dans un systĂšme dont le modĂšle sĂ©mantique est complexe, nous proposons une nouvelle façon de contrĂŽler sa complexitĂ© en introduisant un nouveau paradigme : le POMDP rĂ©sumĂ© Ă  double suivi de la croyance. Dans notre proposition, le POMDP maitre, complexe, est transformĂ© en un POMDP rĂ©sumĂ©, plus simple. Un premier suivi de croyance (belief update) est rĂ©alisĂ© dans l espace maitre (en intĂ©grant des observations probabilistes sous forme de listes nbest). Et un second suivi de croyance est rĂ©alisĂ© dans l espace rĂ©sumĂ©, les stratĂ©gies obtenues sont ainsi optimisĂ©es sur un vĂ©ritable POMDP.Nous proposons deux mĂ©thodes pour dĂ©finir la projection du POMDP maitre en un POMDP rĂ©sumĂ© : par des rĂšgles manuelles et par regroupement automatique par k plus proches voisins. Pour cette derniĂšre, nous proposons d utiliser la distance d Ă©dition entre graphes, que nous gĂ©nĂ©ralisons pour obtenir une distance entre listes nbest.En outre, le couplage entre un systĂšme rĂ©sumĂ©, reposant sur un modĂšle statistique par POMDP, et un systĂšme expert, reposant sur des rĂšgles ad hoc, fournit un meilleur contrĂŽle sur la stratĂ©gie finale. Ce manque de contrĂŽle est en effet une des faiblesses empĂȘchant l adoption des POMDP pour le dialogue dans l industrie.Dans le domaine du renseignement d informations touristiques et de la rĂ©servation de chambres d hĂŽtel, les rĂ©sultats sur des dialogues simulĂ©s montrent l efficacitĂ© de l approche par renforcement associĂ©e Ă  un systĂšme de rĂšgles pour s adapter Ă  un environnement bruitĂ©. Les tests rĂ©els sur des utilisateurs humains montrent qu un systĂšme optimisĂ© par renforcement obtient cependant de meilleures performances sur le critĂšre pour lequel il a Ă©tĂ© optimisĂ©.Dialog managers (DM) in spoken dialogue systems make decisions in highly uncertain conditions, due to errors from the speech recognition and spoken language understanding (SLU) modules. In this work a framework to interface efficient probabilistic modeling for both the SLU and the DM modules is described and investigated. Thorough representation of the user semantics is inferred by the SLU in the form of a graph of frames and, complemented with some contextual information, is mapped to a summary space in which a stochastic POMDP dialogue manager can perform planning of actions taking into account the uncertainty on the current dialogue state. Tractability is ensured by the use of an intermediate summary space. Also to reduce the development cost of SDS an approach based on clustering is proposed to automatically derive the master-summary mapping function. A implementation is presented in the Media corpus domain (touristic information and hotel booking) and tested with a simulated user.AVIGNON-Bib. numĂ©rique (840079901) / SudocSudocFranceF
    • 

    corecore