35 research outputs found

    Surface grammatical analysis for the extraction of terminological noun phrases

    Get PDF

    Exploiter des corpus annotés syntaxiquement pour observer le continuum entre arguments et circonstants

    Get PDF
    Dans cet article, nous proposons une méthode qui permet de mesurer le degré d'autonomie que manifestent les compléments prépositionnels vis-à-vis du verbe dans un corpus, de manière à tester l'hypothèse couramment admise d'un continuum entre arguments et circonstants et d'en étudier les manifestations. L'exploitation de corpus annotés catégoriellement et syntaxiquement et la mise au point de méthodes de quantification nous permettent de sonder ce continuum en divers points. La méthode met alors au jour des positions médianes, dont nous montrons qu'elles peuvent donner à voir des configurations récurrentes propres au corpus, au comportement intermédiaire entre arguments et circonstants prototypiques

    Acquisition et évaluation sur corpus de propriétés de sous-catégorisation syntaxique

    Get PDF
    We carry out an experiment aimed at using subcategorization information into a syntactic parser for PP attachment disambiguation. The subcategorization lexicon consists of probabilities between a word (verb, noun, adjective) and a preposition. The lexicon is acquired automatically from a 200 million word corpus, that is partially tagged and parsed. In order to assess the lexicon, we use 4 different corpora in terms of genre and domain. We D. Bourigault, C. Frérot assess various methods for PP attachment disambiguation : an exogeous method relies on the sub-categorization lexicon whereas an endogenous method relies on the corpus specific ressource only and an hybrid method makes use of both. The hybrid method proves to be the best and the results vary from 79.4 % to 87.2 %

    Analyse comparative de corpus : cas de l'ingénierie des connaissances

    Get PDF
    We describe a real experiment in order to build a thematic index of a scientific book. This book is a compilation of 21 articles from the French Knowledge Engineering conferences (1999-2001). The corpus has been analysed by SYNTEX then by INDDOC, software dedicated to index formation. This work has been realized in a full digital context, with digital HTML articles and HTML index. The user uses a browser for exploring the articles through the index. We describe the work, the main problems and the chosen solutions.Dans cet article, nous présentons une analyse de l'évolution du domaine de recherche de l'Ingénierie des connaissances telle qu'elle peut être saisie par l'étude comparative de deux corpus de textes représentatifs du domaine et chronologiquement successifs. La méthode utilisée, une analyse lexicale constrastive, s'appuie sur l'hypothèse que les évolutions du vocabulaire utilisé dans ces deux corpus peuvent être la trace d'évolutions thématiques dans ce domaine de recherche. L'article présente les deux analyseurs utilisés (SYNTEX et UPERY) avant de détailler plusieurs des interprétations construites sur la base de différences de fréquence, de répartition et d'environnement contextuel des termes révélées par les outils

    Por uma terminologia textual

    Get PDF

    Analyse comparative de corpus : cas de l'ingénierie des connaissances

    Get PDF
    : Dans cet article, nous présentons une analyse de l'évolution du domaine de recherche de l'Ingénierie des connaissances telle qu'elle peut être saisie par l'étude comparative de deux corpus de textes représentatifs du domaine et chronologiquement successifs. La méthode utilisée, une analyse lexicale constrastive, s'appuie sur l'hypothèse que les évolutions du vocabulaire utilisé dans ces deux corpus peuvent être la trace d'évolutions thématiques dans ce domaine de recherche. L'article présente les deux analyseurs utilisés (SYNTEX et UPERY) avant de détailler plusieurs des interprétations construites sur la base de différences de fréquence, de répartition et d'environnement contextuel des termes révélées par les outils.corpus; analyse syntaxique; analyse ditributionnelle; analyse contrastive de corpus; application

    Syntex, analyseur syntaxique de corpus

    Get PDF
    Cet article est un document de présentation de l'analyseur syntaxique de corpus Syntex, dans lequel nous décrivons les principes à la base du développement de l'analyseur et son architecture informatique. Une bibliographie du projet SYNTEX est donnée à la fin du document

    Cederilic : constitution d'un livret d'un index numérique

    Get PDF
    Nous décrivons une expérience en grandeur réelle de constitution d'un index thématique pour un ouvrage scientifique. Cet ouvrage est constitué d'une sélection de vingt-et-un articles de trois éditions des journées Ingénierie des connaissances (1999-2001). Ce corpus a été traité par l'analyseur SYNTEX puis par le système INDDOC, logiciel dédié à la constitution d'index. Ce travail a été réalisé dans un contexte entièrement numérique, c'est-à-dire à partir de fichiers numériques et pour constituer la collection des articles de l'ouvrage en un ensemble de fichiers HTML au sein duquel l'utilisateur navigue via un navigateur. Nous présentons les principaux problèmes rencontrés et les solutions adoptées.ingénierie des connaissances;livre numérique;indexation;acquisition des connaissances à partir de textes;structuration de terminologie;XML;DTD Docbook
    corecore