7 research outputs found

    L'utilisation des POMDP pour les résumés multi-documents orientés par une thématique

    Get PDF
    National audienceL’objectif principal du rĂ©sumĂ© multi-documents orientĂ© par une thĂ©matique est de gĂ©nĂ©rer un rĂ©sumĂ© Ă  partir de documents sources en rĂ©ponse Ă  une requĂȘte formulĂ©e par l’utilisateur. Cette tĂąche est difficile car il n’existe pas de mĂ©thode efficace pour mesurer la satisfaction de l’utilisateur. Cela introduit ainsi une incertitude dans le processus de gĂ©nĂ©ration de rĂ©sumĂ©. Dans cet article, nous proposons une modĂ©lisation de l’incertitude en formulant notre systĂšme de rĂ©sumĂ© comme un processus de dĂ©cision markovien partiellement observables (POMDP) car dans de nombreux domaines on a montrĂ© que les POMDP permettent de gĂ©rer efficacement les incertitudes. Des expĂ©riences approfondies sur les jeux de donnĂ©es du banc d’essai DUC ont dĂ©montrĂ© l’efficacitĂ© de notre approche

    From GLÀFF to PsychoGLÀFF: a large psycholinguistics-oriented French lexical resource

    Get PDF
    International audienceIn this paper, we present two French lexical resources, GLÀFF and PsychoGLÀFF. The former, automatically extracted from the collaborative online dictionary Wiktionary, is a large-scale versatile lexicon exploitable in Natural Language Processing applications and linguistic studies. The latter, based on GLÀFF, is a lexicon specifically designed for psycholinguistic research. GLÀFF, counting more than 1.4 million entries, features an unprecedented size. It reports lemmas, main syntactic categories, inflectional features and phonemic transcriptions. PsychoGLÀFF contains additional information related to formal aspects of the lexicon and its distribution. It contains about 340,000 entries (120,000 lemmas) that are corpora-attested. We explain how the resources have been created and compare them to other known resources in terms of coverage and quality. Regarding PsychoGLÀFF, the comparison shows that it has an exceptionally large repertoire while having a comparable quality

    Tagging Occitan using French and Castillan Tree Tagger

    Get PDF
    International audiencePart-Of-Speech (POS) tagging, including tokenization and sentence splitting, is the first step in all Natural Language Processing chain. It usually requires substantial efforts to annotate corpora and produce lexicons. However, when these language resources are missing like in Occitan, rather than concentrate the effort in creating them, methods are settled to adapt existing rich-resourced languages tagger. For this to work, these methods exploit the etymologic proximity of the under-resourced language and a rich-resourced language. In this article, we focus on Occitan, which shares similarities with several romance languages including French and Castillan. The method consists in running existing morpho-syntactic tools, here Tree Tagger, on Occitan texts with first a translation of the frequent words in a rich-resourced language. We performed two distinct experimentations, one exploiting similarities between Occitan and French and the second exploiting similarities between Occitan and Castillan. This method only requires the listing of the 300 most frequent words (based on corpus) to construct two bilingual lexicons (Occitan/French and Occitan/Castillan). Our results are better than those obtained with the Apertium tagger using a larger lexicon

    LITL at CLEF eHealth2016: recognizing entities in French biomedical documents

    Get PDF
    International audienceThis paper describes the participation of master's students (LITL programme, university of Toulouse) and their teachers to the CLEF eHealth 2016 campaign. Two runs were submitted for task 2 (multilingual information extraction) which consisted in the recognition and categorization of medical entities in French biomedical documents. The system used consists of a CRF classier based on a number of dierent features (POS tagging, generic word lists and syntactic parsing). In addition , several patterns were used on the CRF's output in order to extract more complex entities. The best run achieved high precision (0.640.78) but lower recall (0.320.40), with an overall F1-measure of 0.430.53

    ÉnumĂ©ration et structuration discursive

    Get PDF
    International audienceDans cet article, la structure Ă©numĂ©rative est envisagĂ©e, dans une perspective discursive, en tant que procĂ©dĂ© d'organisation du texte constituant un tout fonctionnel. Une fois prĂ©cisĂ©e notre approche et explicitĂ© son ancrage, un premier objectif est d’illustrer la diversitĂ© des rĂ©alisations des structures Ă©numĂ©ratives, tout en dĂ©gageant clairement ce qui en fait l’unitĂ© : la mise en parallĂšle des items, l’expression (ou l’infĂ©rabilitĂ©) du critĂšre interprĂ©tatif qui sous-tend cette mise en parallĂšle. Nous montrons que quelle que soit la rĂ©alisation de la structure – indices variĂ©s, potentiellement distribuĂ©s sur les diffĂ©rents composants – elle se doit d’ĂȘtre perceptible, puisque c’est cette perception qui conditionne chez le lecteur la comprĂ©hension de l’intention sous-jacente. Nous dĂ©crivons les indices et la maniĂšre dont ils se combinent pour rendre la structure visible. Nous nous intĂ©ressons Ă©galement Ă  la diversitĂ© des contextes oĂč elle s’insĂšre, et des rĂŽles discursifs auxquels elle se prĂȘte, ainsi que les premiers rĂ©sultats concernant les corrĂ©lations entre types de rĂ©alisation et fonction. Pour cela, nous nous focalisons sur ses « marges » – l’amorce, qui la lie au texte amont et annonce l’énumĂ©ration, et la clĂŽture, segment final qui fait le lien avec le texte aval – pour mieux mettre en lumiĂšre la nĂ©cessitĂ© de la considĂ©rer dans son ensemble comme un tout fonctionnel

    Du terme prédicatif au cadre sémantique : méthodologie de compilation d'une ressource terminologique pour les termes arabes de l'informatique

    Get PDF
    La description des termes dans les ressources terminologiques traditionnelles se limite Ă  certaines informations, comme le terme (principalement nominal), sa dĂ©finition et son Ă©quivalent dans une langue Ă©trangĂšre. Cette description donne rarement d’autres informations qui peuvent ĂȘtre trĂšs utiles pour l’utilisateur, surtout s’il consulte les ressources dans le but d’approfondir ses connaissances dans un domaine de spĂ©cialitĂ©, maitriser la rĂ©daction professionnelle ou trouver des contextes oĂč le terme recherchĂ© est rĂ©alisĂ©. Les informations pouvant ĂȘtre utiles dans ce sens comprennent la description de la structure actancielle des termes, des contextes provenant de sources authentiques et l’inclusion d’autres parties du discours comme les verbes. Les verbes et les noms dĂ©verbaux, ou les unitĂ©s terminologiques prĂ©dicatives (UTP), souvent ignorĂ©s par la terminologie classique, revĂȘtent une grande importance lorsqu’il s’agit d’exprimer une action, un processus ou un Ă©vĂšnement. Or, la description de ces unitĂ©s nĂ©cessite un modĂšle de description terminologique qui rend compte de leurs particularitĂ©s. Un certain nombre de terminologues (Condamines 1993, Mathieu-Colas 2002, Gross et Mathieu-Colas 2001 et L’Homme 2012, 2015) ont d’ailleurs proposĂ© des modĂšles de description basĂ©s sur diffĂ©rents cadres thĂ©oriques. Notre recherche consiste Ă  proposer une mĂ©thodologie de description terminologique des UTP de la langue arabe, notamment l’arabe standard moderne (ASM), selon la thĂ©orie de la SĂ©mantique des cadres (Frame Semantics) de Fillmore (1976, 1977, 1982, 1985) et son application, le projet FrameNet (Ruppenhofer et al. 2010). Le domaine de spĂ©cialitĂ© qui nous intĂ©resse est l’informatique. Dans notre recherche, nous nous appuyons sur un corpus recueilli du web et nous nous inspirons d’une ressource terminologique existante, le DiCoInfo (L’Homme 2008), pour compiler notre propre ressource. Nos objectifs se rĂ©sument comme suit. PremiĂšrement, nous souhaitons jeter les premiĂšres bases d’une version en ASM de cette ressource. Cette version a ses propres particularitĂ©s : 1) nous visons des unitĂ©s bien spĂ©cifiques, Ă  savoir les UTP verbales et dĂ©verbales; 2) la mĂ©thodologie dĂ©veloppĂ©e pour la compilation du DiCoInfo original devra ĂȘtre adaptĂ©e pour prendre en compte une langue sĂ©mitique. Par la suite, nous souhaitons crĂ©er une version en cadres de cette ressource, oĂč nous regroupons les UTP dans des cadres sĂ©mantiques, en nous inspirant du modĂšle de FrameNet. À cette ressource, nous ajoutons les UTP anglaises et françaises, puisque cette partie du travail a une portĂ©e multilingue. La mĂ©thodologie consiste Ă  extraire automatiquement les unitĂ©s terminologiques verbales et nominales (UTV et UTN), comme Ham~ala (Ű­Ù…Ù„) (tĂ©lĂ©charger) et taHmiyl (ŰȘŰ­Ù…ÙŠÙ„) (tĂ©lĂ©chargement). Pour ce faire, nous avons adaptĂ© un extracteur automatique existant, TermoStat (Drouin 2004). Ensuite, Ă  l’aide des critĂšres de validation terminologique (L’Homme 2004), nous validons le statut terminologique d’une partie des candidats. AprĂšs la validation, nous procĂ©dons Ă  la crĂ©ation de fiches terminologiques, Ă  l’aide d’un Ă©diteur XML, pour chaque UTV et UTN retenue. Ces fiches comprennent certains Ă©lĂ©ments comme la structure actancielle des UTP et jusqu’à vingt contextes annotĂ©s. La derniĂšre Ă©tape consiste Ă  crĂ©er des cadres sĂ©mantiques Ă  partir des UTP de l’ASM. Nous associons Ă©galement des UTP anglaises et françaises en fonction des cadres crĂ©Ă©s. Cette association a menĂ© Ă  la crĂ©ation d’une ressource terminologique appelĂ©e « DiCoInfo : A Framed Version ». Dans cette ressource, les UTP qui partagent les mĂȘmes propriĂ©tĂ©s sĂ©mantiques et structures actancielles sont regroupĂ©es dans des cadres sĂ©mantiques. Par exemple, le cadre sĂ©mantique Product_development regroupe des UTP comme Taw~ara (Ű·ÙˆŰ±) (dĂ©velopper), to develop et dĂ©velopper. À la suite de ces Ă©tapes, nous avons obtenu un total de 106 UTP ASM compilĂ©es dans la version en ASM du DiCoInfo et 57 cadres sĂ©mantiques associĂ©s Ă  ces unitĂ©s dans la version en cadres du DiCoInfo. Notre recherche montre que l’ASM peut ĂȘtre dĂ©crite avec la mĂ©thodologie que nous avons mise au point.The description of terms in traditional terminological resources is limited to certain details, such as the term (which is usually a noun), its definition, and its equivalent. This description seldom takes into account other details, which can be of high importance for the users, especially if they consult resources to enhance their knowledge of the domain, to improve professional writing, or to find contexts where the term is realized. The information that might be useful includes the description of the actantial structure of the terms, contexts from authentic resources and the inclusion of other parts of speech such as verbs. Verbs and deverbal nouns, or predicative terminological units (PTUs), which are often ignored by traditional terminology, are of great importance especially for expressing actions, processes or events. But the description of these units requires a model of terminological description that takes into account their special features. Some terminologists (Condamines 1993, Mathieu-Colas 2002, Gross et Mathieu-Colas 2001 et L’Homme 2012, 2015) proposed description models based on different theoretical frameworks. Our research consists of proposing a methodology of terminological description of PTUs of the Arabic language, in particular Modern Standard Arabic (MSA), according to the theory of Frame Semantics of Fillmore (1976, 1977, 1982, 1985) and its application, the FrameNet project (Ruppenhofer et al. 2010). The specialized domain in which we are interested is computing. In our research, we compiled a corpus that we collected from online material and we based our method on an existing online terminological resource called the DiCoInfo (L’Homme 2008) in our pursuit to compile our own. Our objectives are the following. First, we will lay the foundations of an MSA version of the aforementioned resource. This version has its own features: 1) we target specific units, namely verbal and deverbal PTUs; 2) the developed methodology for the compilation of the original DiCoInfo should be adapted to take into account a Semitic language. Afterwards, we will create a framed version of this resource. In this version, we organize the PTUs in semantic frames according to the model of FrameNet. Since this frame version has a multilingual dimension, we add English and French PTUs to the resource. Our methodology consists of automatically extracting the verbal and nominal terminological units (VTUs and NTUs) such as Ham~ala (Ű­Ù…Ù„) (download). To do this, we integrated the MSA to an existing automatic extractor, TermoStat (Drouin 2004). Then, with the help of terminological validation criteria, we validate the terminological status of the candidates. After the validation, we create terminological files with an XML editor for each VTU and NTU. These files contain elements, such as the actantial structure of the PTUs and up to 20 annotated contexts. The last step consists of creating semantic frames from the MSA PTUs. We also associate English and French PTUs to the created frames. This association resulted in the creation of a second terminological resource called “DiCoInfo: A Framed Version”. In this resource, the PTUs that share the same semantic features and actantial structures are organized in semantic frames. For example, the semantic frame Product_development groups PTUs such as Taw~ara (Ű·ÙˆŰ±) (develop), to develop and dĂ©velopper. As a result of our methodology, we obtained a total of 106 PTUs in MSA compiled in the MSA version of DiCoInfo and 57 semantic frames associated to these units in the framed version. Our research shows that the MSA can be described using the methodology that we set up
    corecore