Article thumbnail

Apprentissage de connaissances morphologiques pour l'acquisition automatique de ressources lexicales

By Delphine Bernhard

Abstract

Lexico-semantic resources, like thesauri, terminologies and ontologies, aim at organising knowledge by detailing semantic relationships such as synonymy or specialisation. The cost for manually building this kind of resources is high. Methods for the automatic acquisition of knowledge from text corpora are therefore widely used. These methods aim at automatically extracting terms and semantic relationships. In this thesis, we investigate the role which can be played by morphology, i.e. the internal structure of words, within such systems. We describe two methods for the unsupervised acquisition of morphological knowledge. The first one segments words into sub-units while the other conflates words in morphological families.We then explore possible uses for this kind of knowledge. We re-use morphological families to weight and visualise keywords. We also define patterns based on morphological segmentation which make it possible to discover semantic relationships such as hypernymy and co-hyponymy.Les ressources lexico-sémantiques, telles que les thésaurus, les terminologies ou les ontologies, visent à organiser les connaissances en rendant explicites divers types de relations sémantiques comme la synonymie ou la spécialisation. Le coût de la construction manuelle de telles ressources reste élevé, ce qui explique l'essor des méthodes d'acquisition automatique de connaissances, allant de l'extraction des termes représentant les unités de connaissance à l'identification des relations sémantiques qui les relient. Nous nous intéressons dans cette thèse au rôle que peut jouer la morphologie, c'est-à-dire la structure interne des mots, pour l'acquisition de telles connaissances à partir de corpus de textes de spécialité, essentiellement médicaux, et dans une perspective multilingue. Nous présentons deux systèmes d'acquisition de connaissances morphologiques non supervisés, caractérisés par des approches différentes. Le premier procède par segmentation des mots, tandis que le second regroupe les mots dans des familles morphologiques. Nous explorons ensuite les utilisations possibles de ce type d'informations pour l'acquisition de termes et de relations sémantiques. Nous proposons notamment une méthode de pondération et de visualisation des mots clés extraits de corpus de textes de spécialité en fonction de leur famille morphologique. Nous définissons également des schémas, basés sur les résultats de la segmentation morphologique, afin de découvrir des relations sémantiques telles que la spécialisation et la cohyponymie

Topics: morphology, specialised domains, terminology, semantic relationships, morphologie, domaines spécialisés, corpus, terminologie, relations sémantiques, [INFO.INFO-OH]Computer Science [cs]/Other [cs.OH], [INFO.INFO-HC]Computer Science [cs]/Human-Computer Interaction [cs.HC], [SHS.LANGUE]Humanities and Social Sciences/Linguistics
Publisher: HAL CCSD
Year: 2006
OAI identifier: oai:HAL:tel-00119257v1
Download PDF:
Sorry, we are unable to provide the full text but you may find it at the following location(s):
  • https://tel.archives-ouvertes.... (external link)
  • https://tel.archives-ouvertes.... (external link)
  • https://tel.archives-ouvertes.... (external link)
  • https://tel.archives-ouvertes.... (external link)
  • https://tel.archives-ouvertes.... (external link)
  • Suggested articles


    To submit an update or takedown request for this paper, please submit an Update/Correction/Removal Request.