38 research outputs found

    TreeLex Meets Adjectival Tables

    Get PDF
    International audienceThe paper presents Treelex, a valence lexicon of French adjectives automatically extracted from a treebank. The corpus contains morphological and syntactic annotations but no subcategorisa- tion information is present for adjectives. Due to rich corpus annotations, our extraction method is guided by linguistic knowledge. The obtained lexicon (about 2000 adjectives and 40 frames) has been evaluated against hand-crafted adjec- tival tables described in (Picabia, 1978) and achieved 0.46 F-measure

    Adjectives in TreeLex

    Get PDF
    International audienceThe paper presents an ongoing project on automatic extraction of subcategorization frames of French adjectives. The extraction method is guided by syntactic corpus annotations and heuristic rules. In particular, we use general linguistic knowledge to eliminate impersonal, comparative and certain adverbial constructions from the list of subcategorisation patterns

    Large and noisy vs small and reliable: combining 2 types of corpora for adjective valence extraction

    Get PDF
    International audienceThis work investigates a possibility of combining two different types of corpora to build a valence lexicon for French adjectives. We complete adjectival frames extracted from a Treebank with statistical cues computed from a large automatically parsed corpus. This experiment shows how linguistic knowledge and large amount of annotated data can be used in a complementary manner

    Two Approaches to Aspect Assignment in an English-Polish Machine Translation System

    Get PDF
    Abstract The paper presents two approaches to aspect assignment in a knowledgebased English-Polish machine translation (MT) system. The first method uses a set of heuristic rules based on interlingua (IR) representation provided by the system, whereas the other employs machine learning techniques. Both methods have similar performance and obtain high accuracy of over 88% on test data. The crucial difference, however, is the development effort: the machine learning technique is fully automatic, whereas heuristic rules are derived manually

    Extraction automatique de termes à partir de textes polonais

    No full text
    Cet article présente nos études sur l'extraction (aquisition) automatique de termes à partir de textes specialisés écrits en polonais. Notre travail a pour objectif le développement de ressources linguistiques. Les outils pour l'aquisition de termes sont assez bien décrits pour l'anglais ou le français (Smadja 1993 ; Daille 1996 ; Justeson & Katz 1991 ; Bourigault 1994 ; Bowden et al. 1998), mais la question reste peu étudiée pour les langues slaves, qui se caractérisent par leur flexion plus riche et leur ordre des mots plus libre. Pour le polonais, nous avons adopté la méthode de Frantzi et al. (2002), déjà utilisée pour deux autres langues slaves : le slovène (Vintar 2004) et le serbe (Nenadic et al. 2003). La méthode permet de découvrir des termes complexes (comprenant plusieurs mots) et enchâssés, en utilisant une approche hybride, appliquée au corpus specialisé. L'article est organisé de la manière suivante : la section 2 présente le corpus, la méthode appliquée est décrite dans la section 3, les résultats d'extraction et les problèmes rencontrés sont examinés dans les sections 4 et 5, respectivement ; la conclusion dans la section 6 termine l'article

    Extraction automatique de cadres de sous-catégorisation verbale pour le français à partir d'un corpus arboré

    No full text
    We present our work on automatic extraction of subcategorisation frames for 1362 French verbs. We use a treebank of 15000 sentences from which we extract 12510 verb occurrences. We evaluate the results based on a functional representation of frames and we acquire 39 different frames, 1.54 per lemma on average. Then, we adopt a mixed representation (functions and categories), which leads to 925 different frames, 3.44 frames on average. We investigate several methods to reduce the ambiguity (e.g., neutralisation of passive forms or clitic arguments), which allows us to arrive at 235 frames, with 1.94 frames per lemma on average. We present a brief comparison with the existing work on French and English

    Extraction automatique de cadres de sous-catégorisation verbale pour le français à partir d'un corpus arboré

    No full text
    Nous présentons une expérience d'extraction automatique des cadres de souscatégorisation pour 1362 verbes français. Nous exploitons un corpus journalistique richement annoté de 10 000 phrases dont nous extrayons 12 510 occurrences verbales. Nous évaluons dans un premier temps l'extraction des cadres basée sur la fonction des arguments, ce qui nous fournit 39 cadres différents avec une moyenne de 1.54 cadres par lemme. Ensuite, nous adoptons une approche mixte (fonction et catégorie syntaxique) qui nous fournit dans un premier temps 925 cadres différents, avec une moyenne de 3.44 cadres par lemme. Plusieurs méthodes de factorisation, neutralisant en particulier les variantes de réalisation avec le passif ou les pronoms clitiques, sont ensuite appliquées et nous permettent d'aboutir à 235 cadres différents avec une moyenne de 1.94 cadres par verbe. Nous comparons brièvement nos résultats avec les travaux existants pour le français et pour l'anglais

    Extraction automatique de cadres de sous-catégorisation verbale pour le français à partir d'un corpus arboré

    No full text
    International audienceWe present our work on automatic extraction of subcategorisation frames for 1362 French verbs. We use a treebank of 15000 sentences from which we extract 12510 verb occurrences. We evaluate the results based on a functional representation of frames and we acquire 39 different frames, 1.54 per lemma on average. Then, we adopt a mixed representation (functions and categories), which leads to 925 different frames, 3.44 frames on average. We investigate several methods to reduce the ambiguity (e.g., neutralisation of passive forms or clitic arguments), which allows us to arrive at 235 frames, with 1.94 frames per lemma on average. We present a brief comparison with the existing work on French and English

    A cross-linguistic approach to Slavic past tense and conditional constructions

    No full text

    Enriching a subcat lexicon for French

    No full text
    corecore