119 research outputs found

    Actes de la conférence conjointe JEP-TALN-RECITAL 2016, volume 09 : ELTAL

    Get PDF
    National audienceELTAL is a workshop organized within the JEP-TALN-RECITAL 2016 conference. This workshop brings together papers investigating metdods and applications in NLP applied to language teaching.ELTAL est un atelier organisé au sein de la conférence JEP-TALN-RECITAL 2016 et regroupe des contributions qui étudient les méthodes et les applications en TAL dans le domaine de l'enseignement des langues

    Questions-Réponses en domaine ouvert (sélection pertinente de documents en fonction du contexte de la question)

    Get PDF
    Les problĂ©matiques abordĂ©es dans ma thĂšse sont de dĂ©finir une adaptation unifiĂ©e entre la sĂ©lection des documents et les stratĂ©gies de recherche de la rĂ©ponse Ă  partir du type des documents et de celui des questions, intĂ©grer la solution au systĂšme de Questions-RĂ©ponses (QR) RITEL du LIMSI et Ă©valuer son apport. Nous dĂ©veloppons et Ă©tudions une mĂ©thode basĂ©e sur une approche de Recherche d Information pour la sĂ©lection de documents en QR. Celle-ci s appuie sur un modĂšle de langue et un modĂšle de classification binaire de texte en catĂ©gorie pertinent ou non pertinent d un point de vue QR. Cette mĂ©thode permet de filtrer les documents sĂ©lectionnĂ©s pour l extraction de rĂ©ponses par un systĂšme QR. Nous prĂ©sentons la mĂ©thode et ses modĂšles, et la testons dans le cadre QR Ă  l aide de RITEL. L Ă©valuation est faite en français en contexte web sur un corpus de 500 000 pages web et de questions factuelles fournis par le programme Quaero. Celle-ci est menĂ©e soit sur des documents complets, soit sur des segments de documents. L hypothĂšse suivie est que le contenu informationnel des segments est plus cohĂ©rent et facilite l extraction de rĂ©ponses. Dans le premier cas, les gains obtenus sont faibles comparĂ©s aux rĂ©sultats de rĂ©fĂ©rence (sans filtrage). Dans le second cas, les gains sont plus Ă©levĂ©s et confortent l hypothĂšse, sans pour autant ĂȘtre significatifs. Une Ă©tude approfondie des liens existant entre les performances de RITEL et les paramĂštres de filtrage complĂšte ces Ă©valuations. Le systĂšme de segmentation crĂ©Ă© pour travailler sur des segments est dĂ©taillĂ© et Ă©valuĂ©. Son Ă©valuation nous sert Ă  mesurer l impact de la variabilitĂ© naturelle des pages web (en taille et en contenu) sur la tĂąche QR, en lien avec l hypothĂšse prĂ©cĂ©dente. En gĂ©nĂ©ral, les rĂ©sultats expĂ©rimentaux obtenus suggĂšrent que notre mĂ©thode aide un systĂšme QR dans sa tĂąche. Cependant, de nouvelles Ă©valuations sont Ă  mener pour rendre ces rĂ©sultats significatifs, et notamment en utilisant des corpus de questions plus importants.This thesis aims at defining a unified adaptation of the document selection and answer extraction strategies, based on the document and question types, in a Question-Answering (QA) context. The solution is integrated in RITEL (a LIMSI QA system) to assess the contribution. We develop and investigate a method based on an Information Retrieval approach for the selection of relevant documents in QA. The method is based on a language model and a binary model of textual classification in relevant or irrelevant category. It is used to filter unusable documents for answer extraction by matching lists of a priori relevant documents to the question type automatically. First, we present the method along with its underlying models and we evaluate it on the QA task with RITEL in French. The evaluation is done on a corpus of 500,000 unsegmented web pages with factoid questions provided by the Quaero program (i.e. evaluation at the document level or D-level). Then, we evaluate the methodon segmented web pages (i.e. evaluation at the segment level or S-level). The idea is that information content is more consistent with segments, which facilitates answer extraction. D-filtering brings a small improvement over the baseline (no filtering). S-filtering outperforms both the baseline and D-filtering but not significantly. Finally, we study at the S-level the links between RITEL s performances and the key parameters of the method. In order to apply the method on segments, we created a system of web page segmentation. We present and evaluate it on the QA task with the same corpora used to evaluate our document selection method. This evaluation follows the former hypothesis and measures the impact of natural web page variability (in terms of size and content) on RITEL in its task. In general, the experimental results we obtained suggest that our IR-based method helps a QA system in its task, however further investigations should be conducted especially with larger corpora of questions to make them significant.PARIS11-SCD-Bib. Ă©lectronique (914719901) / SudocSudocFranceF

    Contribution Ă  l’amĂ©lioration de la recherche d’information par utilisation des mĂ©thodes sĂ©mantiques: application Ă  la langue arabe

    Get PDF
    Un systĂšme de recherche d’information est un ensemble de programmes et de modules qui sert Ă  interfacer avec l’utilisateur, pour prendre et interprĂ©ter une requĂȘte, faire la recherche dans l’index et retourner un classement des documents sĂ©lectionnĂ©s Ă  cet utilisateur. Cependant le plus grand challenge de ce systĂšme est qu’il doit faire face au grand volume d’informations multi modales et multilingues disponibles via les bases documentaires ou le web pour trouver celles qui correspondent au mieux aux besoins des utilisateurs. A travers ce travail, nous avons prĂ©sentĂ© deux contributions. Dans la premiĂšre nous avons proposĂ© une nouvelle approche pour la reformulation des requĂȘtes dans le contexte de la recherche d’information en arabe. Le principe est donc de reprĂ©senter la requĂȘte par un arbre sĂ©mantique pondĂ©rĂ© pour mieux identifier le besoin d'information de l'utilisateur, dont les nƓuds reprĂ©sentent les concepts (synsets) reliĂ©s par des relations sĂ©mantiques. La construction de cet arbre est rĂ©alisĂ©e par la mĂ©thode de la Pseudo-RĂ©injection de la Pertinence combinĂ©e Ă  la ressource sĂ©mantique du WordNet Arabe. Les rĂ©sultats expĂ©rimentaux montrent une bonne amĂ©lioration dans les performances du systĂšme de recherche d’information. Dans la deuxiĂšme contribution, nous avons aussi proposĂ© une nouvelle approche pour la construction d’une collection de test de recherche d’information arabe. L'approche repose sur la combinaison de la mĂ©thode de la stratĂ©gie de Pooling utilisant les moteurs de recherches et l’algorithme NaĂŻve-Bayes de classification par l’apprentissage automatique. Pour l’expĂ©rimentation nous avons crĂ©Ă© une nouvelle collection de test composĂ©e d’une base documentaire de 632 documents et de 165 requĂȘtes avec leurs jugements de pertinence sous plusieurs topics. L’expĂ©rimentation a Ă©galement montrĂ© l’efficacitĂ© du classificateur BayĂ©sien pour la rĂ©cupĂ©ration de pertinences des documents, encore plus, il a rĂ©alisĂ© des bonnes performances aprĂšs l’enrichissement sĂ©mantique de la base documentaire par le modĂšle word2vec

    Gestion de l'incertitude dans le processus d'extraction de connaissances Ă  partir de textes

    Get PDF
    The increase of textual sources over the Web offers an opportunity for knowledge extraction and knowledge base creation. Recently, several research works on this topic have appeared or intensified. They generally highlight that to extract relevant and precise information from text, it is necessary to define a collaboration between linguistic approaches, e.g., to extract certain concepts regarding named entities, temporal and spatial aspects, and methods originating from the field of semantics' processing. Moreover, successful approaches also need to qualify and quantify the uncertainty present in the text. Finally, in order to be relevant in the context of the Web, the linguistic processing need to be consider several sources in different languages. This PhD thesis tackles this problematic in its entirety since our contributions cover the extraction, representation of uncertain knowledge as well as the visualization of generated graphs and their querying. This research work has been conducted within a CIFRE funding involving the Laboratoire d'Informatique Gaspard Monge (LIGM) of the UniversitĂ© Paris-Est Marne la VallĂ©e and the GEOLSemantics start-up. It was leveraging from years of accumulated experience in natural language processing (GeolSemantics) and semantics processing (LIGM).In this context, our contributions are the following:- the integration of a qualifation of different forms of uncertainty, based on ontology processing, within the knowledge extraction processing,- the quantification of uncertainties based on a set of heuristics,- a representation, using RDF graphs, of the extracted knowledge and their uncertainties,- an evaluation and an analysis of the results obtained using our approachLa multiplication de sources textuelles sur le Web offre un champ pour l'extraction de connaissances depuis des textes et Ă  la crĂ©ation de bases de connaissances. DerniĂšrement, de nombreux travaux dans ce domaine sont apparus ou se sont intensifiĂ©s. De ce fait, il est nĂ©cessaire de faire collaborer des approches linguistiques, pour extraire certains concepts relatifs aux entitĂ©s nommĂ©es, aspects temporels et spatiaux, Ă  des mĂ©thodes issues des traitements sĂ©mantiques afin de faire ressortir la pertinence et la prĂ©cision de l'information vĂ©hiculĂ©e. Cependant, les imperfections liĂ©es au langage naturel doivent ĂȘtre gĂ©rĂ©es de maniĂšre efficace. Pour ce faire, nous proposons une mĂ©thode pour qualifier et quantifier l'incertitude des diffĂ©rentes portions des textes analysĂ©s. Enfin, pour prĂ©senter un intĂ©rĂȘt Ă  l'Ă©chelle du Web, les traitements linguistiques doivent ĂȘtre multisources et interlingue. Cette thĂšse s'inscrit dans la globalitĂ© de cette problĂ©matique, c'est-Ă -dire que nos contributions couvrent aussi bien les aspects extraction et reprĂ©sentation de connaissances incertaines que la visualisation des graphes gĂ©nĂ©rĂ©s et leur interrogation. Les travaux de recherche se sont dĂ©roulĂ©s dans le cadre d'une bourse CIFRE impliquant le Laboratoire d'Informatique Gaspard Monge (LIGM) de l'UniversitĂ© Paris-Est Marne la VallĂ©e et la sociĂ©tĂ© GEOLSemantics. Nous nous appuyons sur une expĂ©rience cumulĂ©e de plusieurs annĂ©es dans le monde de la linguistique (GEOLSemantics) et de la sĂ©mantique (LIGM).Dans ce contexte, nos contributions sont les suivantes :- participation au dĂ©veloppement du systĂšme d'extraction de connaissances de GEOLSemantics, en particulier : (1) le dĂ©veloppement d'une ontologie expressive pour la reprĂ©sentation des connaissances, (2) le dĂ©veloppement d'un module de mise en cohĂ©rence, (3) le dĂ©veloppement d'un outil visualisation graphique.- l'intĂ©gration de la qualification de diffĂ©rentes formes d'incertitude, au sein du processus d'extraction de connaissances Ă  partir d'un texte,- la quantification des diffĂ©rentes formes d'incertitude identifiĂ©es ;- une reprĂ©sentation, Ă  l'aide de graphes RDF, des connaissances et des incertitudes associĂ©es ;- une mĂ©thode d'interrogation SPARQL intĂ©grant les diffĂ©rentes formes d'incertitude ;- une Ă©valuation et une analyse des rĂ©sultats obtenus avec notre approch

    Enrichissement d'un curriculum par recherche sur Internet

    Full text link
    Mémoire numérisé par la Direction des bibliothÚques de l'Université de Montréal

    Complexification des données et des techniques en linguistique : contributions du TAL aux solutions et aux problÚmes

    Get PDF
    Ce mémoire d'habilitation est l'occasion de faire le bilan de mon activité d'enseignant-chercheur en traitement automatique des langues (TAL) dans un laboratoire de linguistique (CLLE-ERSS) et des principales évolutions de l'outillage informatique de la linguistique au cours des 15 derniÚres années. Mes recherches portent notamment sur le repérage de structures morphosyntaxiques dans les textes, l'analyse des structures du discours et l'acquisition de ressources lexicales à partir de corpus. Certaines se positionnent dans des cadres applicatifs comme la recherche d'information et la classification de textes, mais aussi dans des contextes plus spécifiques en lien avec d'autres disciplines (médecine, psychologie, sociologie...). En m'appuyant sur la diversité de ces travaux et de mes collaborations, j'identifie quatre dimensions d'évolution principales : - l'augmentation de la masse de données langagiÚres disponibles et notamment la part croissante de l'utilisation du Web comme corpus ; - la complexification de l'outillage informatique disponible pour gérer la masse et la variété des données accessibles (outils de constitution et d'interrogation de corpus) ; - la complexification de l'annotation des données langagiÚres, qu'elle soit manuelle, assistée ou automatique ; - la montée en puissance, en TAL mais aussi en linguistique descriptive, des méthodes quantitatives (depuis l'analyse statistique jusqu'aux techniques de fouille de données et d'apprentissage). Si les avancées techniques du TAL ont permis d'accroßtre de façon conséquente les potentialités d'investigation du matériau langagier, et dans certains cas de dégager de nouveaux questionnements, elles ont aussi contribué à creuser un fossé entre les deux composantes (informatique et linguistique) de la discipline. A travers ma propre expérience d'acteur ou d'accompagnateur de ces changements et avec une vocation de "passeur" interdisciplinaire, je cherche à dégager les principaux enjeux actuels pour la linguistique outillée : - doter la linguistique descriptive d'outils de visualisation de données pour aborder la complexité, en exploitant les avancées théoriques et techniques de ce nouveau champ disciplinaire et en les adaptant aux spécificités du matériau langagier ; - rendre abordables aux linguistes les techniques fondamentales de l'analyse statistique, mais aussi les méthodes d'apprentissage artificiel seules capables d'assister l'investigation et l'exploitation de données massives et complexes ; - replacer la linguistique au sein des développements actuels du TAL, notamment par le biais de l'utilisation de descripteurs linguistiques riches dans les outils de traitement par apprentissage, pour un bénéfice mutuel

    Une approche d'ingénierie ontologique pour l'acquisition et l'exploitation des connaissances à partir de documents textuels : vers des objets de connaissances et d'apprentissage

    Full text link
    ThÚse numérisée par la Division de la gestion de documents et des archives de l'Université de Montréal

    Du besoin d'informations Ă  la formulation des requĂȘtes : Ă©tude des usages de diffĂ©rents types d'utilisateurs visant l'amĂ©lioration d'un systĂšme de recherche d'informations

    Get PDF
    With the massive and heterogeneous web document collections, IR system must analyze the behaviors of users which are unpredictable and varied. The approach described in this thesis provides a comparison of the verbalizations for both natural language and web query for the same information need by the same user. For this, we used data collected (i.e. users' complaints in natural language and web queries) through a search engine dedicated to economic reports in French over 5 consecutive years totaling a corpus of 1398 natural language requests and 3427 web queries. Then, we compared the expression of the information need and highlighted the contributions in terms of information and clarification, the use of either language used.Devant des collections massives et hĂ©tĂ©rogĂšnes de donnĂ©es, les systĂšmes de RI doivent dĂ©sormais pouvoir apprĂ©hender des comportements d'utilisateurs aussi variĂ©s qu'imprĂ©visibles. L'objectif de notre travail est d'Ă©valuer la façon dont un mĂȘme utilisateur verbalise un besoin informationnel Ă  travers un Ă©noncĂ© de type « expression libre » (appelĂ© langage naturel) et un Ă©noncĂ© de type mots-clĂ©s (appelĂ© langage de requĂȘtes). Pour cela, nous nous situons dans un contexte applicatif, Ă  savoir des demandes de remboursement des utilisateurs d'un moteur de recherche dĂ©diĂ© Ă  des Ă©tudes Ă©conomiques en français. Nous avons recueilli via ce moteur, les deux types d'Ă©noncĂ©s sur 5 annĂ©es consĂ©cutives totalisant un corpus de 1398 demandes en langage naturel et de 3427 requĂȘtes. Nous avons alors comparĂ© l'expression en tant que tel du besoin informationnel et mis en avant ce qu'apportait, en termes d'informations et de prĂ©cisions, le recours Ă  l'un ou l'autre du langage utilisĂ©
    • 

    corecore