75 research outputs found

    A Metagrammatical Approach to Periphrasis in Gwadloupéyen

    Get PDF
    In this paper, I show that verbal and nominal functional elements of Gwadloupéyen can be described in the Tree-Adjoining Grammar as pertaining to morphological periphrasis. This challenges the claim that Creoles have fully analytical morpholog

    Classificar, denominar as línguas de São Tomé

    Get PDF
    Classifying languages is a very sensitive matter which has implications on the population themselves. In this paper, we highlight what is at stake socially and politically in the denomination of the languages spoken in São Tomé and Príncipe. To do this, we analyze and describe grammatically a recording of a Tonga speaker which illustrates the preconceived ideas linked to the notion of language and dialect

    Describing SĂŁo Tomense Using a Tree-Adjoining Meta-Grammar

    Get PDF
    Poster sessionInternational audienceIn this paper, we show how the interactions between the tense, aspect and mood preverbal markers in São Tomense can be formally and concisely described at an abstract level, using the concept of projection. More precisely, we show how to encode the different valid orders of preverbal markers in an abstract description of a Tree-Adjoining Grammar of São Tomense. This description is written using the XMG meta-grammar language (Crabbé and Duchier, 2004)

    Décrire la morphologie des verbes en ikota au moyen d'une métagrammaire

    Get PDF
    Association pour le Traitement Automatique des Langues. This article has been published in the Proceedings of the JEP-TALN-RECITAL 2012 conference. Available on-line at https://www.aclweb.org/anthology/W/W12/W12-1309.pdfNational audienceDans cet article, nous montrons comment le concept des métagrammaires introduit initialement par Candito (1996) pour la conception de grammaires d'arbres adjoints décrivant la syntaxe du français et de l'italien, peut être appliquée à la description de la morphologie de l'ikota, une langue bantoue parlé au Gabon. Ici, nous utilisons l'expressivité du formalisme XMG (eXtensible MetaGrammar) pour décrire les variations morphologiques des verbes en ikota. Cette spécification XMG capture les généralisations entre ces variations. Afin de produire un lexique de formes fléchies, il est possible de compiler la spécification XMG, et de sauvegarder le résultat dans un fichier XML, ce qui permet sa réutilisation dans des applications dédiées

    Coreference and anaphoric annotations for spontaneous speech corpos in French

    Get PDF
    International audienceThis paper presents a corpus-based analysis of coreference and anaphoric relations in French spontaneous conversational speech. It presents the annotation task and two experiments on this corpus (gender and number agreement, definite descriptions as first mention of new discourse entities) which aim at assessing the relevancy of current anaphora solvers on spontaneous speech

    ANCOR, premier corpus de français parlé d'envergure annoté en coréférence et distribué librement

    Get PDF
    National audienceCet article présente la réalisation d'ANCOR, qui constitue par son envergure (453 000 mots) le premier corpus francophone annoté en anaphores et coréférences permettant le développement d'approches centrées sur les données pour la résolution des anaphores et autres traitements de la coréférence. L'annotation a été réalisée sur trois corpus de parole conversationnelle (Accueil_UBS, OTG et ESLO) qui le destinent plus particulièrement au traitement du langage parlé. En l'absence d'équivalent pour le langage écrit, il est toutefois susceptible d'intéresser l'ensemble de la communauté TAL. Par ailleurs, le schéma d'annotation retenu est suffisamment riche pour permettre des études en linguistique de corpus. Le corpus sera diffusé librement à la mi-2013 sous licence Creative Commons BY-NC-SA. Cet article se concentre sur sa mise en œuvre et décrit brièvement quelques résultats obtenus sur la partie déjà annotée de la ressource

    Annotation de la temporalité en corpus : contribution à l'amélioration de la norme TimeML

    Get PDF
    National audienceThis paper reports a critical analysis of the TimeML standard, in the light of a temporal annotation that was conducted on spoken French. It shows that the norm suffers from weaknesses that must be corrected to fit the needs of NLP and corpus linguistics. These limitations concern mainly 1) the separation of different levels of linguistic annotation, 2) the delimitation in the text of the events, and 3) the absence of a bridging temporal relation in the norm.Cet article propose une analyse critique de la norme TimeML à la lumière de l'expérience d'annotation temporelle d'un corpus de français parlé. Il montre que certaines adaptations de la norme seraient conseillées pour répondre aux besoins du TAL et des sciences du langage. Sont étudiées ici les questions de séparation des niveaux d'annotation, de délimitation des éventualités dans le texte et de l'ajout d'une relation temporelle de type associative

    Annotation en relations anaphoriques d'un corpus de discours oral spontané en français

    Get PDF
    International audienceCet article présente une analyse des relations anaphoriques d'un corpus de dialogue oral spontané en français. Il exposera plus particulièrement l'étude pilote CO2, qui a conduit à une procédure d'annotation de corpus, puis deux expériences issues du corpus (accord en genre et en nombre, descriptions des définis en première mention), et enfin les travaux à venir du projet ANCOR. L'objectif de celui-ci est d'évaluer la pertinence et de modéliser les processus de résolution de ces anaphores complexes en discours spontan

    ANCOR_Centre, a Large Free Spoken French Coreference Corpus: description of the Resource and Reliability Measures

    Get PDF
    International audienceThis article presents ANCOR_Centre, a French coreference corpus, available under the Creative Commons Licence. With a size of around 500,000 words, the corpus is large enough to serve the needs of data-driven approaches in NLP and represents one of the largest coreference resources currently available. The corpus focuses exclusively on spoken language, it aims at representing a certain variety of spoken genders. ANCOR_Centre includes anaphora as well as coreference relations which involve nominal and pronominal mentions. The paper describes into details the annotation scheme and the reliability measures computed on the resource

    Covering various Needs in Temporal Annotation: a Proposal of Extension of ISO TimeML that Preserves Upward Compatibility

    Get PDF
    International audienceThis paper reports a critical analysis of the ISO TimeML standard, in the light of several experiences of temporal annotation that were conducted on spoken French. It shows that the norm suffers from weaknesses that should be corrected to fit a larger variety of needs in NLP and in corpus linguistics. We present our proposition of some improvements of the norm before it will be revised by the ISO Committee in 2017. These modifications concern mainly (1) Enrichments of well identified features of the norm: temporal function of TIMEX time expressions, additional types for TLINK temporal relations; (2) Deeper modifications concerning the units or features annotated: clarification between time and tense for EVENT units, coherence of representation between temporal signals (the SIGNAL unit) and TIMEX modifiers (the MOD feature); (3) A recommendation to perform temporal annotation on top of a syntactic (rather than lexical) layer (temporal annotation on a treebank)
    • …
    corecore