Search CORE

35 research outputs found

Surface grammatical analysis for the extraction of terminological noun phrases

Author: Didier Bourigault
Publication venue: 'Association for Computational Linguistics (ACL)'
Publication date: 01/01/2007
Field of study

Exploiter des corpus annotés syntaxiquement pour observer le continuum entre arguments et circonstants

Author: Bourigault Didier
Fabre Cécile
Publication venue: 'Cambridge University Press (CUP)'
Publication date: 01/01/2008
Field of study

Dans cet article, nous proposons une méthode qui permet de mesurer le degré d'autonomie que manifestent les compléments prépositionnels vis-à-vis du verbe dans un corpus, de manière à tester l'hypothèse couramment admise d'un continuum entre arguments et circonstants et d'en étudier les manifestations. L'exploitation de corpus annotés catégoriellement et syntaxiquement et la mise au point de méthodes de quantification nous permettent de sonder ce continuum en divers points. La méthode met alors au jour des positions médianes, dont nous montrons qu'elles peuvent donner à voir des configurations récurrentes propres au corpus, au comportement intermédiaire entre arguments et circonstants prototypiques

Scientific Publications of the University of Toulouse II Le Mirail

HAL Descartes

Acquisition et évaluation sur corpus de propriétés de sous-catégorisation syntaxique

Author: Bourigault Didier
Frérot Cécile
Publication venue: HAL CCSD
Publication date: 01/01/2005
Field of study

We carry out an experiment aimed at using subcategorization information into a syntactic parser for PP attachment disambiguation. The subcategorization lexicon consists of probabilities between a word (verb, noun, adjective) and a preposition. The lexicon is acquired automatically from a 200 million word corpus, that is partially tagged and parsed. In order to assess the lexicon, we use 4 different corpora in terms of genre and domain. We D. Bourigault, C. Frérot assess various methods for PP attachment disambiguation : an exogeous method relies on the sub-categorization lexicon whereas an endogenous method relies on the corpus specific ressource only and an hybrid method makes use of both. The hybrid method proves to be the best and the results vary from 79.4 % to 87.2 %

Scientific Publications of the University of Toulouse II Le Mirail

Hal-Diderot

Analyse comparative de corpus : cas de l'ingénierie des connaissances

Author: Aussenac-Gilles Nathalie
Bourigault Didier
Teulier Régine
Publication venue: HAL CCSD
Publication date: 01/07/2003
Field of study

We describe a real experiment in order to build a thematic index of a scientific book. This book is a compilation of 21 articles from the French Knowledge Engineering conferences (1999-2001). The corpus has been analysed by SYNTEX then by INDDOC, software dedicated to index formation. This work has been realized in a full digital context, with digital HTML articles and HTML index. The user uses a browser for exploring the articles through the index. We describe the work, the main problems and the chosen solutions.Dans cet article, nous présentons une analyse de l'évolution du domaine de recherche de l'Ingénierie des connaissances telle qu'elle peut être saisie par l'étude comparative de deux corpus de textes représentatifs du domaine et chronologiquement successifs. La méthode utilisée, une analyse lexicale constrastive, s'appuie sur l'hypothèse que les évolutions du vocabulaire utilisé dans ces deux corpus peuvent être la trace d'évolutions thématiques dans ce domaine de recherche. L'article présente les deux analyseurs utilisés (SYNTEX et UPERY) avant de détailler plusieurs des interprétations construites sur la base de différences de fréquence, de répartition et d'environnement contextuel des termes révélées par les outils

Scientific Publications of the University of Toulouse II Le Mirail

HAL Descartes

HAL-Polytechnique

Por uma terminologia textual

Author: Bourigault Didier
Slodzian Monique
Publication venue
Publication date: 01/01/2004
Field of study

Lume 5.8

Analyse comparative de corpus : cas de l'ingénierie des connaissances

Author: Didier Bourigault
Nathalie Aussenac-Gilles
Régine Teulier
Publication venue
Publication date
Field of study

: Dans cet article, nous présentons une analyse de l'évolution du domaine de recherche de l'Ingénierie des connaissances telle qu'elle peut être saisie par l'étude comparative de deux corpus de textes représentatifs du domaine et chronologiquement successifs. La méthode utilisée, une analyse lexicale constrastive, s'appuie sur l'hypothèse que les évolutions du vocabulaire utilisé dans ces deux corpus peuvent être la trace d'évolutions thématiques dans ce domaine de recherche. L'article présente les deux analyseurs utilisés (SYNTEX et UPERY) avant de détailler plusieurs des interprétations construites sur la base de différences de fréquence, de répartition et d'environnement contextuel des termes révélées par les outils.corpus; analyse syntaxique; analyse ditributionnelle; analyse contrastive de corpus; application

Research Papers in Economics

Syntex, analyseur syntaxique de corpus

Author: Bourigault Didier
Fabre Cécile
Frérot Cécile
Jacques Marie-Paule
Ozdowska Sylwia
Publication venue: HAL CCSD
Publication date: 01/01/2005
Field of study

Cet article est un document de présentation de l'analyseur syntaxique de corpus Syntex, dans lequel nous décrivons les principes à la base du développement de l'analyseur et son architecture informatique. Une bibliographie du projet SYNTEX est donnée à la fin du document

Scientific Publications of the University of Toulouse II Le Mirail

Hal-Diderot

Cederilic : constitution d'un livret d'un index numérique

Author: Adeline Nazarenko
Baruk Toledano
Didier Bourigault
Jean Charlet
Régine Teulier
Touria Aït El Mekki
Publication venue
Publication date
Field of study

Nous décrivons une expérience en grandeur réelle de constitution d'un index thématique pour un ouvrage scientifique. Cet ouvrage est constitué d'une sélection de vingt-et-un articles de trois éditions des journées Ingénierie des connaissances (1999-2001). Ce corpus a été traité par l'analyseur SYNTEX puis par le système INDDOC, logiciel dédié à la constitution d'index. Ce travail a été réalisé dans un contexte entièrement numérique, c'est-à-dire à partir de fichiers numériques et pour constituer la collection des articles de l'ouvrage en un ensemble de fichiers HTML au sein duquel l'utilisateur navigue via un navigateur. Nous présentons les principaux problèmes rencontrés et les solutions adoptées.ingénierie des connaissances;livre numérique;indexation;acquisition des connaissances à partir de textes;structuration de terminologie;XML;DTD Docbook

Research Papers in Economics