Search CORE

65 research outputs found

Corpus et terminologie

Author: Aussenac-Gilles Nathalie
Condamines Anne
Publication venue: Cepadues
Publication date: 01/01/2007
Field of study

International audienceLes liens entre ressources termino-ontologiques et corpus intéressent la linguistique de corpus, la terminologie, l'informatique et les sciences de l'information. Des difficultés théoriques et techniques communes, se dégage la nécessité d'approfondir la notion de genre, de mieux prendre en compte les questions d'usage et de maintenance ainsi que les modalités d'évaluation des ressources et des outils de construction. Mots-clés : ontologie, terminologie, thesaurus, corpus, ingénierie des langues et des connaissances, sciences de l'information Abstract The link connecting terminological and ontological resources with corpora may concern corpus linguistics, terminology, knowledge engineering or information sciences. Similar theoretical and technical issues underline the need to specify the notion of genre, to better integrate use and maintenance issues and to define evaluation protocols for the resources and their building tools

Scientific Publications of the University of Toulouse II Le Mirail

HAL Descartes

Vers la définition d'une méthode pour adapter les ressources terminologiques construites à partir de textes

Author: Condamines Anne
Picton Aurélie
Publication venue: L'Harmattan
Publication date: 01/01/2010
Field of study

Les textes de spécialité peuvent être considérés comme des sources directes de la connaissance d'un domaine, notamment dans le cadre de la constitution de ressources terminologiques (glossaires, thesaurus, taxinomies, etc.). Or, les connaissances évoluent au cours du temps et les ressources deviennent vite inadéquates ou obsolètes. Il est donc nécessaire de pouvoir retracer cette évolution dans les textes pour les adapter. Cette problématique de l'évolution des connaissances prend un sens particulier dans le domaine spatial. L'originalité de notre démarche réside dans deux éléments. Tout d'abord, compte-tenu de notre ancrage dans le domaine spatial où l'évolution des connaissances est très rapide, nous travaillons en diachronie " restreinte " : nos trois corpus couvrent une période de 8 ans, qui correspond à la date de parution de trois éditions d'un cours de technologie spatiale (cf. infra). Deuxièmement, notre principal objectif concerne l'aspect méthodologique. Nous visons en effet à mettre en place une méthode aussi généralisable que possible pour repérer les évolutions terminologiques dans les textes spécialisé

Scientific Publications of the University of Toulouse II Le Mirail

HAL Descartes

Tâche, domaine et application : influences sur le processus de modélisation de connaissances

Author: Aussenac-Gilles Nathalie
Reymonet Axel
Thomas Jérôme
Publication venue: HAL CCSD
Publication date: 26/06/2006
Field of study

National audienceUn nombre croissant d'outils de gestion de documents et de connaissances a désormais recours à des ressources terminologiques et/ou ontologiques (RTO) pour répondre à leurs besoins applicatifs. Nous montrons que le processus de modélisation de telles ressources passe par la prise en compte de la nature du domaine, de la tâche et de l'application visés. Pour cela, nous nous appuyons sur une étude de cas de construction de RTO à partir de textes dans le domaine du diagnostic automobile

Scientific Publications of the University of Toulouse II Le Mirail

HAL Descartes

Syntex, analyseur syntaxique de corpus

Author: Bourigault Didier
Fabre Cécile
Frérot Cécile
Jacques Marie-Paule
Ozdowska Sylwia
Publication venue: HAL CCSD
Publication date: 01/01/2005
Field of study

Cet article est un document de présentation de l'analyseur syntaxique de corpus Syntex, dans lequel nous décrivons les principes à la base du développement de l'analyseur et son architecture informatique. Une bibliographie du projet SYNTEX est donnée à la fin du document

Scientific Publications of the University of Toulouse II Le Mirail

Extraction de termes, reconnaissance et labellisation de relations dans un th\'esaurus

Author: Bessagnet Marie-Noëlle
Gaio Mauro
Kergosien Eric
Publication venue
Publication date: 21/10/2009
Field of study

Within the documentary system domain, the integration of thesauri for indexing and retrieval information steps is usual. In libraries, documents own rich descriptive information made by librarians, under descriptive notice based on Rameau thesaurus. We exploit two kinds of information in order to create a first semantic structure. A step of conceptualization allows us to define the various modules used to automatically build the semantic structure of the indexation work. Our current work focuses on an approach that aims to define an ontology based on a thesaurus. We hope to integrate new knowledge characterizing the territory of our structure (adding "toponyms" and links between concepts) thanks to a geographic information system (GIS)

arXiv.org e-Print Archive

HAL - Lille 3

INRIA a CCSD electronic archive server

TOTh 2007 : Terminologie et Ontologie : Théories et Applications. Annecy 1er Juin 2007

Author: Roche Christophe
Publication venue: HAL CCSD
Publication date: 01/06/2007
Field of study

National audienceProceedings of the TOTh 2007 Conference: Terminology and Ontology: Theories and Applications. Annecy, France 1st June 200

Hal - Université Grenoble Alpes

HAL Université de Savoie

Diachronie en langue de spécialité. Définition d'une méthode linguistique outillée pour repérer l'évolution des connaissances en corpus. Un exemple appliqué au domaine spatial.

Author: Picton Aurélie
Publication venue: HAL CCSD
Publication date: 20/10/2009
Field of study

Co-financée par le Centre National d'Études Spatiales et le Centre National de la Recherche Scientifiques (Bourse de Docteur Ingénieur CNRS/Entreprise)This doctoral dissertation explores the question of the diachronic dimension in terminology using a tool-based approach applied to a diachronic corpus. This study focuses on a request from the French National Space Agency (Cnes) where both knowledge and technology necessarily evolve over the course of “long-term” space projects (approx. 20 yrs.). This phenomenon can be tricky and a source of difficulties, such as poor communication with new coming engineers who arrive during the project or unconscious modifications of the meaning or forms of terms, etc. Learning how to identify this evolution is therefore of prime importance. Our research aims at defining a linguistic method to track down knowledge evolution within texts. This aim allows us to structure a triple point of view: a theoretical one, a methodological one and an applied one. To do so, this doctoral dissertation presents a description of four linguistic cues which can be semi-automatically identified in corpora to observe evolution: frequency, contexts of evolution, variants and syntactic dependencies. The cues are studied in two diachronic corpora from the Cnes: one corpus made up of three editions of a course on optics and optoelectronics (1994-2002) and one technical corpus composed of specification reports from the DORIS project (1989-2000). This context makes it possible to offer theoretical and methodological paths in textual terminology to track down, study and characterize the evolution that is likely to appear in specialized fields, especially within an environment that has been very little explored, i.e. short-term diachrony. The approach developed in this study also sheds light on the interpretation of corpus data, firstly, by combining linguistic cues in order to build up a reliable interpretation (or even a diagnosis) of the evolution through linguistic cues; secondly, by reflecting on the place and role of the experts in analyses and by analyst-expert dialoguing as a driving force in the co-construction of interpretations.Dans cette thèse nous abordons la question de la diachronie dans les langues de spécialité à travers la définition d'une méthode linguistique pour repérer l'évolution des connaissances en corpus. Cette recherche s'ancre dans une demande appliquée émanant du Centre National d'Études Spatiales (Cnes), où la question de l'évolution prend une dimension particulière dans le cadre de projets spatiaux dits « de longue durée » (~20 ans), au long desquels les connaissances impliquées évoluent nécessairement. Ce phénomène, inévitable mais parfois insidieux, est susceptible d'entraîner un certain nombre de difficultés telles qu'une mauvaise communication avec les ingénieurs qui arrivent en cours de projet, une modification non consciente du sens/de la forme des termes, etc. L'objectif est donc de proposer une méthode pour repérer cette évolution, objectif qui permet d'articuler un triple regard sur la diachronie : un regard théorique, un regard descriptif et un regard appliqué. Pour ce faire, cette thèse propose la description de quatre indices linguistiques repérables semi-automatiquement en corpus pour observer l'évolution : la fréquence, les contextes d'évolution, les variantes et les dépendances syntaxiques. Ces indices sont explorés à partir de deux corpus diachroniques : trois éditions d'un cours d'optique et optoélectronique (1994-2002) et un corpus de rapports de spécification du projet spatial DORIS (1989-2000). Ce contexte permet de proposer des pistes théoriques et méthodologiques en terminologie textuelle pour repérer, étudier et caractériser l'évolution susceptible de se manifester dans les domaines de spécialité, en particulier sur de très courts intervalles temporels. La démarche mise en place dans cette recherche permet également d'alimenter la question de l'interprétation des données en corpus : tout d'abord à travers la combinaison d'indices comme moyen de construire une interprétation (voire un diagnostic) fiable de l'évolution à partir d'indices linguistiques ; ensuite à travers la question du rôle et de la place des experts dans l'analyse et du dialogue analyste/expert du domaine comme moteurs d'une co-construction de l'interprétation

Thèses en Ligne

Scientific Publications of the University of Toulouse II Le Mirail

Élaboration d'un corpus étalon pour l'évaluation d'extracteurs de termes

Author: Bernier-Colborne Gabriel
Publication venue
Publication date: 01/05/2012
Field of study

Ce travail porte sur la construction d’un corpus étalon pour l’évaluation automatisée des extracteurs de termes. Ces programmes informatiques, conçus pour extraire automatiquement les termes contenus dans un corpus, sont utilisés dans différentes applications, telles que la terminographie, la traduction, la recherche d’information, l’indexation, etc. Ainsi, leur évaluation doit être faite en fonction d’une application précise. Une façon d’évaluer les extracteurs consiste à annoter toutes les occurrences des termes dans un corpus, ce qui nécessite un protocole de repérage et de découpage des unités terminologiques. À notre connaissance, il n’existe pas de corpus annoté bien documenté pour l’évaluation des extracteurs. Ce travail vise à construire un tel corpus et à décrire les problèmes qui doivent être abordés pour y parvenir. Le corpus étalon que nous proposons est un corpus entièrement annoté, construit en fonction d’une application précise, à savoir la compilation d’un dictionnaire spécialisé de la mécanique automobile. Ce corpus rend compte de la variété des réalisations des termes en contexte. Les termes sont sélectionnés en fonction de critères précis liés à l’application, ainsi qu’à certaines propriétés formelles, linguistiques et conceptuelles des termes et des variantes terminologiques. Pour évaluer un extracteur au moyen de ce corpus, il suffit d’extraire toutes les unités terminologiques du corpus et de comparer, au moyen de métriques, cette liste à la sortie de l’extracteur. On peut aussi créer une liste de référence sur mesure en extrayant des sous-ensembles de termes en fonction de différents critères. Ce travail permet une évaluation automatique des extracteurs qui tient compte du rôle de l’application. Cette évaluation étant reproductible, elle peut servir non seulement à mesurer la qualité d’un extracteur, mais à comparer différents extracteurs et à améliorer les techniques d’extraction.We describe a methodology for constructing a gold standard for the automatic evaluation of term extractors. These programs, designed to automatically extract specialized terms from a corpus, are used in various settings, including terminology work, translation, information retrieval, indexing, etc. Thus, the evaluation of term extractors must be carried out in accordance with a specific application. One way of evaluating term extractors is to construct a corpus in which all term occurrences have been annotated. This involves establishing a protocol for term selection and term boundary identification. To our knowledge, no well-documented annotated corpus is available for the evaluation of term extractors. This contribution aims to build such a corpus and describe what issues must be dealt with in the process. The gold standard we propose is a fully annotated corpus, constructed in accordance with a specific terminological setting, namely the compilation of a specialized dictionary of automotive mechanics. This annotated corpus accounts for the wide variety of realizations of terms in context. Terms are selected in accordance with specific criteria pertaining to the terminological setting as well as formal, linguistic and conceptual properties of terms and term variations. To evaluate a term extractor, a list of all the terminological units in the corpus is extracted and compared to the output of the term extractor, using a set of metrics to assess its performance. Subsets of terminological units may also be extracted, providing a level of customization. This allows an automatic and application-driven evaluation of term extractors. Due to its reusability, it can serve not only to assess the performance of a particular extractor, but also to compare different extractors and fine-tune extraction techniques

Dépôt Institutionnel Numérique

Accès à l'information biomédicale : vers une approche d'indexation et de recherche d'information conceptuelle basée sur la fusion de ressources termino-ontologiques

Author: Dinh Ba-Duy
Publication venue
Publication date: 26/09/2012
Field of study

La recherche d'information (RI) est une discipline scientifique qui a pour objectif de produire des solutions permettant de sélectionner à partir de corpus d'information celle qui sont dites pertinentes pour un utilisateur ayant exprimé une requête. Dans le contexte applicatif de la RI biomédicale, les corpus concernent différentes sources d'information du domaine : dossiers médicaux de patients, guides de bonnes pratiques médicales, littérature scientifique du domaine médical etc. Les besoins en information peuvent concerner divers profils : des experts médicaux, des patients et leurs familles, des utilisateurs néophytes etc. Plusieurs défis sont liés spécifiquement à la RI biomédicale : la représentation "spécialisée" des documents, basés sur l'usage des ressources terminologiques du domaine, le traitement des synonymes, des acronymes et des abréviations largement pratiquée dans le domaine, l'accès à l'information guidé par le contexte du besoin et des profils des utilisateurs. Nos travaux de thèse s'inscrivent dans le domaine général de la RI biomédicale et traitent des défis de représentation de l'information biomédicale et de son accès. Sur le volet de la représentation de l'information, nous proposons des techniques d'indexation de documents basées sur : 1) la reconnaissance de concepts termino-ontologiques : cette reconnaissance s'apparente à une recherche approximative de concepts pertinents associés à un contenu, vu comme un sac de mots. La technique associée exploite à la fois la similitude structurelle des contenus informationnels des concepts vis-à-vis des documents mais également la similitude du sujet porté par le document et le concept, 2) la désambiguïsation des entrées de concepts reconnus en exploitant la branche liée au sous-domaine principal de la ressource termino-ontologique, 3) l'exploitation de différentes ressources termino-ontologiques dans le but de couvrir au mieux la sémantique du contenu documentaire. Sur le volet de l'accès à l'information, nous proposons des techniques d'appariement basées sur l'expansion combinée de requêtes et des documents guidées par le contexte du besoin en information d'une part et des contenus documentaires d'autre part. Notre analyse porte essentiellement sur l'étude de l'impact des différents paramètres d'expansion sur l'efficacité de la recherche : distribution des concepts dans les ressources ontologiques, modèle de fusion des concepts, modèle de pondération des concepts, etc. L'ensemble de nos contributions, en termes de techniques d'indexation et d'accès à l'information ont fait l'objet d'évaluation expérimentale sur des collections de test dédiées à la recherche d'information médicale, soit du point de vue de la tâche telles que TREC Medical track, CLEF Image, Medical case ou des collections de test telles que TREC Genomics.Information Retrieval (IR) is a scientific field aiming at providing solutions to select relevant information from a corpus of documents in order to answer the user information need. In the context of biomedical IR, there are different sources of information: patient records, guidelines, scientific literature, etc. In addition, the information needs may concern different profiles : medical experts, patients and their families, and other users ... Many challenges are specifically related to the biomedical IR : the document representation, the usage of terminologies with synonyms, acronyms, abbreviations as well as the access to the information guided by the context of information need and the user profiles. Our work is most related to the biomedical IR and deals with the challenges of the representation of biomedical information and the access to this rich source of information in the biomedical domain.Concerning the representation of biomedical information, we propose techniques and approaches to indexing documents based on: 1) recognizing and extracting concepts from terminologies : the method of concept extraction is basically based on an approximate lookup of candidate concepts that could be useful to index the document. This technique expoits two sources of evidence : (a) the content-based similarity between concepts and documents and (b) the semantic similarity between them. 2) disambiguating entry terms denoting concepts by exploiting the polyhierarchical structure of a medical thesaurus (MeSH - Medical Subject Headings). More specifically, the domains of each concept are exploited to compute the semantic similarity between ambiguous terms in documents. The most appropriate domain is detected and associated to each term denoting a particular concept. 3) exploiting different termino-ontological resources in an attempt to better cover the semantics of document contents. Concerning the information access, we propose a document-query matching method based on the combination of document and query expansion techniques. Such a combination is guided by the context of information need on one hand and the semantic context in the document on the other hand. Our analysis is essentially based on the study of factors related to document and query expansion that could have an impact on the IR performance: distribution of concepts in termino-ontological resources, fusion techniques for concept extraction issued from multiple terminologies, concept weighting models, etc

Thèses en ligne de l'Université Toulouse III - Paul Sabatier

Modélisation de connaissances à partir de textes pour une recherche d'information sémantique

Author: Reymonet Axel
Publication venue
Publication date: 23/09/2008
Field of study

Avec l'avènement d'Internet et des réseaux d'entreprise, les documents numériques ont subi de profondes transformations, tant dans la diversification de leur support (texte, image, son, vidéo), que dans la forte augmentation de leur nombre accessible informatiquement. La Recherche d'Information (RI) a alors pris une importance capitale : l'utilisateur en quête de données répondant à ses besoins veut disposer de logiciels capables d'exploiter les contenus textuels et de trouver automatiquement tout document pertinent pour la requête. Pour comparer selon leur sens requête et documents, la RI sémantique nécessite deux opérations préalables : l'obtention d'un modèle des connaissances manipulées et, grâce à lui, l'indexation sémantique des données textuelles. Dans ce mémoire, nous étudions les modèles de Ressources Termino-Ontologiques (RTO) adaptés à la RI et développons un formalisme qui, contrairement aux approches classiques, décrit explicitement la relation entre termes du lexique et concepts de l'ontologie, tout en respectant le standard OWL-DL. Nous abordons ensuite la problématique de maintenance d'une RTO pour la RI : quand un domaine évolue dans le temps, sa RTO correspondante doit être modifiée en conséquence. L'originalité de notre approche réside dans la mise en parallèle entre maintenance de RTO et indexation sémantique : l'ontographe définit des règles évaluant automatiquement la correction de la RTO en fonction des résultats d'indexation attendus ; appliquées aux documents à indexer, ces règles aident à repérer ceux qui témoignent de la nécessité de maintenance. L'outil présente alors ces documents avec des conseils de modification. Notre dernière contribution inclut notre formalisme de RTO et le cycle de maintenance au sein d'un processus global de RI sémantique. Nous nous intéressons notamment à la comparaison sémantique d'un document à une requête en langue naturelle. Nous proposons une mesure de similarité tenant compte de la proximité taxonomique de deux notions, ainsi que de la manière dont chacune est reliée sémantiquement à d'autres éléments. La pertinence de nos contributions a été principalement mise à l'épreuve par la réalisation et l'utilisation d'un prototype d'outil pour la RI sémantique dans le cadre d'un partenariat avec Actia, une société spécialiste du diagnostic automobile.With the spreading of Internet and local networks, numerical documents have been undergoing deep mutations, mainly due to the diversification of supports (text, image, sound, video) and their high number accessible by computers. Information Retrieval (IR) has thus become crucial: any user of a search engine wants it to be able to process textual contents to find automatically all documents relevant for their query. In order to compare a query with a document, semantic IR needs two prior operations to be carried out: obtaining a model for the handled knowledge and using it to index semantically the textual data. In this thesis, we study Ontological and Terminological Resources (OTR) adapted for IR and we develop a formalism which, unlike classical approaches, explicitly describes the relationship between terms and concepts, while respecting OWL-DL standard. Afterwards, we broach the topic of maintaining an OTR for IR: when a domain evolves in time, its corresponding OTR must be modified accordingly. The originality of our approach lies in the parallel computing of OTR maintenance and semantic indexing: the engineer can define rules which evaluate automatically the correctness of the OTR with respect to the expected indexing results; applied to the documents to be indexed, these rules help to spot the ones which show the necessity of maintaining the OTR. The tool then displays these documents with evolution advice. Our last contribution consists in integrating our OTR formalism and the maintenance cycle into a global semantic IR process. We especially focus on the semantic matching between a document and a keyword based query. We propose a semantic similarity measure which takes into account both the taxonomical proximity of two notions and the way each one is semantically connected to other entities. The relevance of our contributions was mainly tested by the implementation and use of a prototype tool for semantic IR as part of a partnership with ACTIA, a company specialized in automotive diagnosi

Thèses en ligne de l'Université Toulouse III - Paul Sabatier