7 research outputs found
L'utilisation des POMDP pour les résumés multi-documents orientés par une thématique
National audienceLâobjectif principal du rĂ©sumĂ© multi-documents orientĂ© par une thĂ©matique est de gĂ©nĂ©rer un rĂ©sumĂ© Ă partir de documents sources en rĂ©ponse Ă une requĂȘte formulĂ©e par lâutilisateur. Cette tĂąche est difficile car il nâexiste pas de mĂ©thode efficace pour mesurer la satisfaction de lâutilisateur. Cela introduit ainsi une incertitude dans le processus de gĂ©nĂ©ration de rĂ©sumĂ©. Dans cet article, nous proposons une modĂ©lisation de lâincertitude en formulant notre systĂšme de rĂ©sumĂ© comme un processus de dĂ©cision markovien partiellement observables (POMDP) car dans de nombreux domaines on a montrĂ© que les POMDP permettent de gĂ©rer efficacement les incertitudes. Des expĂ©riences approfondies sur les jeux de donnĂ©es du banc dâessai DUC ont dĂ©montrĂ© lâefficacitĂ© de notre approche
From GLĂFF to PsychoGLĂFF: a large psycholinguistics-oriented French lexical resource
International audienceIn this paper, we present two French lexical resources, GLĂFF and PsychoGLĂFF. The former, automatically extracted from the collaborative online dictionary Wiktionary, is a large-scale versatile lexicon exploitable in Natural Language Processing applications and linguistic studies. The latter, based on GLĂFF, is a lexicon specifically designed for psycholinguistic research. GLĂFF, counting more than 1.4 million entries, features an unprecedented size. It reports lemmas, main syntactic categories, inflectional features and phonemic transcriptions. PsychoGLĂFF contains additional information related to formal aspects of the lexicon and its distribution. It contains about 340,000 entries (120,000 lemmas) that are corpora-attested. We explain how the resources have been created and compare them to other known resources in terms of coverage and quality. Regarding PsychoGLĂFF, the comparison shows that it has an exceptionally large repertoire while having a comparable quality
Tagging Occitan using French and Castillan Tree Tagger
International audiencePart-Of-Speech (POS) tagging, including tokenization and sentence splitting, is the first step in all Natural Language Processing chain. It usually requires substantial efforts to annotate corpora and produce lexicons. However, when these language resources are missing like in Occitan, rather than concentrate the effort in creating them, methods are settled to adapt existing rich-resourced languages tagger. For this to work, these methods exploit the etymologic proximity of the under-resourced language and a rich-resourced language. In this article, we focus on Occitan, which shares similarities with several romance languages including French and Castillan. The method consists in running existing morpho-syntactic tools, here Tree Tagger, on Occitan texts with first a translation of the frequent words in a rich-resourced language. We performed two distinct experimentations, one exploiting similarities between Occitan and French and the second exploiting similarities between Occitan and Castillan. This method only requires the listing of the 300 most frequent words (based on corpus) to construct two bilingual lexicons (Occitan/French and Occitan/Castillan). Our results are better than those obtained with the Apertium tagger using a larger lexicon
LITL at CLEF eHealth2016: recognizing entities in French biomedical documents
International audienceThis paper describes the participation of master's students (LITL programme, university of Toulouse) and their teachers to the CLEF eHealth 2016 campaign. Two runs were submitted for task 2 (multilingual information extraction) which consisted in the recognition and categorization of medical entities in French biomedical documents. The system used consists of a CRF classier based on a number of dierent features (POS tagging, generic word lists and syntactic parsing). In addition , several patterns were used on the CRF's output in order to extract more complex entities. The best run achieved high precision (0.640.78) but lower recall (0.320.40), with an overall F1-measure of 0.430.53
ĂnumĂ©ration et structuration discursive
International audienceDans cet article, la structure Ă©numĂ©rative est envisagĂ©e, dans une perspective discursive, en tant que procĂ©dĂ© d'organisation du texte constituant un tout fonctionnel. Une fois prĂ©cisĂ©e notre approche et explicitĂ© son ancrage, un premier objectif est dâillustrer la diversitĂ© des rĂ©alisations des structures Ă©numĂ©ratives, tout en dĂ©gageant clairement ce qui en fait lâunitĂ© : la mise en parallĂšle des items, lâexpression (ou lâinfĂ©rabilitĂ©) du critĂšre interprĂ©tatif qui sous-tend cette mise en parallĂšle. Nous montrons que quelle que soit la rĂ©alisation de la structure â indices variĂ©s, potentiellement distribuĂ©s sur les diffĂ©rents composants â elle se doit dâĂȘtre perceptible, puisque câest cette perception qui conditionne chez le lecteur la comprĂ©hension de lâintention sous-jacente. Nous dĂ©crivons les indices et la maniĂšre dont ils se combinent pour rendre la structure visible. Nous nous intĂ©ressons Ă©galement Ă la diversitĂ© des contextes oĂč elle sâinsĂšre, et des rĂŽles discursifs auxquels elle se prĂȘte, ainsi que les premiers rĂ©sultats concernant les corrĂ©lations entre types de rĂ©alisation et fonction. Pour cela, nous nous focalisons sur ses « marges » â lâamorce, qui la lie au texte amont et annonce lâĂ©numĂ©ration, et la clĂŽture, segment final qui fait le lien avec le texte aval â pour mieux mettre en lumiĂšre la nĂ©cessitĂ© de la considĂ©rer dans son ensemble comme un tout fonctionnel
Du terme prédicatif au cadre sémantique : méthodologie de compilation d'une ressource terminologique pour les termes arabes de l'informatique
La description des termes dans les ressources terminologiques traditionnelles se limite Ă certaines informations, comme le terme (principalement nominal), sa dĂ©finition et son Ă©quivalent dans une langue Ă©trangĂšre. Cette description donne rarement dâautres informations qui peuvent ĂȘtre trĂšs utiles pour lâutilisateur, surtout sâil consulte les ressources dans le but dâapprofondir ses connaissances dans un domaine de spĂ©cialitĂ©, maitriser la rĂ©daction professionnelle ou trouver des contextes oĂč le terme recherchĂ© est rĂ©alisĂ©. Les informations pouvant ĂȘtre utiles dans ce sens comprennent la description de la structure actancielle des termes, des contextes provenant de sources authentiques et lâinclusion dâautres parties du discours comme les verbes.
Les verbes et les noms dĂ©verbaux, ou les unitĂ©s terminologiques prĂ©dicatives (UTP), souvent ignorĂ©s par la terminologie classique, revĂȘtent une grande importance lorsquâil sâagit dâexprimer une action, un processus ou un Ă©vĂšnement. Or, la description de ces unitĂ©s nĂ©cessite un modĂšle de description terminologique qui rend compte de leurs particularitĂ©s. Un certain nombre de terminologues (Condamines 1993, Mathieu-Colas 2002, Gross et Mathieu-Colas 2001 et LâHomme 2012, 2015) ont dâailleurs proposĂ© des modĂšles de description basĂ©s sur diffĂ©rents cadres thĂ©oriques.
Notre recherche consiste Ă proposer une mĂ©thodologie de description terminologique des UTP de la langue arabe, notamment lâarabe standard moderne (ASM), selon la thĂ©orie de la SĂ©mantique des cadres (Frame Semantics) de Fillmore (1976, 1977, 1982, 1985) et son application, le projet FrameNet (Ruppenhofer et al. 2010). Le domaine de spĂ©cialitĂ© qui nous intĂ©resse est lâinformatique. Dans notre recherche, nous nous appuyons sur un corpus recueilli du web et nous nous inspirons dâune ressource terminologique existante, le DiCoInfo (LâHomme 2008), pour compiler notre propre ressource. Nos objectifs se rĂ©sument comme suit. PremiĂšrement, nous souhaitons jeter les premiĂšres bases dâune version en ASM de cette ressource. Cette version a ses propres particularitĂ©s : 1) nous visons des unitĂ©s bien spĂ©cifiques, Ă savoir les UTP verbales et dĂ©verbales; 2) la mĂ©thodologie dĂ©veloppĂ©e pour la compilation du DiCoInfo original devra ĂȘtre adaptĂ©e pour prendre en compte une langue sĂ©mitique. Par la suite, nous souhaitons crĂ©er une version en cadres de cette ressource, oĂč nous regroupons les UTP dans des cadres sĂ©mantiques, en nous inspirant du modĂšle de FrameNet. Ă cette ressource, nous ajoutons les UTP anglaises et françaises, puisque cette partie du travail a une portĂ©e multilingue.
La mĂ©thodologie consiste Ă extraire automatiquement les unitĂ©s terminologiques verbales et nominales (UTV et UTN), comme Ham~ala (ŰÙ
Ù) (tĂ©lĂ©charger) et taHmiyl (ŰȘŰÙ
ÙÙ) (tĂ©lĂ©chargement). Pour ce faire, nous avons adaptĂ© un extracteur automatique existant, TermoStat (Drouin 2004). Ensuite, Ă lâaide des critĂšres de validation terminologique (LâHomme 2004), nous validons le statut terminologique dâune partie des candidats. AprĂšs la validation, nous procĂ©dons Ă la crĂ©ation de fiches terminologiques, Ă lâaide dâun Ă©diteur XML, pour chaque UTV et UTN retenue. Ces fiches comprennent certains Ă©lĂ©ments comme la structure actancielle des UTP et jusquâĂ vingt contextes annotĂ©s. La derniĂšre Ă©tape consiste Ă crĂ©er des cadres sĂ©mantiques Ă partir des UTP de lâASM. Nous associons Ă©galement des UTP anglaises et françaises en fonction des cadres crĂ©Ă©s. Cette association a menĂ© Ă la crĂ©ation dâune ressource terminologique appelĂ©e « DiCoInfo : A Framed Version ». Dans cette ressource, les UTP qui partagent les mĂȘmes propriĂ©tĂ©s sĂ©mantiques et structures actancielles sont regroupĂ©es dans des cadres sĂ©mantiques. Par exemple, le cadre sĂ©mantique Product_development regroupe des UTP comme Taw~ara (Ű·Ù۱) (dĂ©velopper), to develop et dĂ©velopper.
Ă la suite de ces Ă©tapes, nous avons obtenu un total de 106 UTP ASM compilĂ©es dans la version en ASM du DiCoInfo et 57 cadres sĂ©mantiques associĂ©s Ă ces unitĂ©s dans la version en cadres du DiCoInfo. Notre recherche montre que lâASM peut ĂȘtre dĂ©crite avec la mĂ©thodologie que nous avons mise au point.The description of terms in traditional terminological resources is limited to certain details, such as the term (which is usually a noun), its definition, and its equivalent. This description seldom takes into account other details, which can be of high importance for the users, especially if they consult resources to enhance their knowledge of the domain, to improve professional writing, or to find contexts where the term is realized. The information that might be useful includes the description of the actantial structure of the terms, contexts from authentic resources and the inclusion of other parts of speech such as verbs.
Verbs and deverbal nouns, or predicative terminological units (PTUs), which are often ignored by traditional terminology, are of great importance especially for expressing actions, processes or events. But the description of these units requires a model of terminological description that takes into account their special features. Some terminologists (Condamines 1993, Mathieu-Colas 2002, Gross et Mathieu-Colas 2001 et LâHomme 2012, 2015) proposed description models based on different theoretical frameworks.
Our research consists of proposing a methodology of terminological description of PTUs of the Arabic language, in particular Modern Standard Arabic (MSA), according to the theory of Frame Semantics of Fillmore (1976, 1977, 1982, 1985) and its application, the FrameNet project (Ruppenhofer et al. 2010). The specialized domain in which we are interested is computing. In our research, we compiled a corpus that we collected from online material and we based our method on an existing online terminological resource called the DiCoInfo (LâHomme 2008) in our pursuit to compile our own. Our objectives are the following. First, we will lay the foundations of an MSA version of the aforementioned resource. This version has its own features: 1) we target specific units, namely verbal and deverbal PTUs; 2) the developed methodology for the compilation of the original DiCoInfo should be adapted to take into account a Semitic language. Afterwards, we will create a framed version of this resource. In this version, we organize the PTUs in semantic frames according to the model of FrameNet. Since this frame version has a multilingual dimension, we add English and French PTUs to the resource.
Our methodology consists of automatically extracting the verbal and nominal terminological units (VTUs and NTUs) such as Ham~ala (ŰÙ
Ù) (download). To do this, we integrated the MSA to an existing automatic extractor, TermoStat (Drouin 2004). Then, with the help of terminological validation criteria, we validate the terminological status of the candidates. After the validation, we create terminological files with an XML editor for each VTU and NTU. These files contain elements, such as the actantial structure of the PTUs and up to 20 annotated contexts. The last step consists of creating semantic frames from the MSA PTUs. We also associate English and French PTUs to the created frames. This association resulted in the creation of a second terminological resource called âDiCoInfo: A Framed Versionâ. In this resource, the PTUs that share the same semantic features and actantial structures are organized in semantic frames. For example, the semantic frame Product_development groups PTUs such as Taw~ara (Ű·Ù۱) (develop), to develop and dĂ©velopper.
As a result of our methodology, we obtained a total of 106 PTUs in MSA compiled in the MSA version of DiCoInfo and 57 semantic frames associated to these units in the framed version. Our research shows that the MSA can be described using the methodology that we set up