32 research outputs found

    Etude diachronique (XIIIe - XVe siècles) de la concordance des temps en espagnol médiéval. Approche explicative

    Get PDF
    This thesis provides an explicative case study method to explore the "sequence of tenses" in Old Spanish thanks to the theory of moods developed by Gilles Luquet.We first examined the contributions of grammars and linguists on this syntactic phenomenon. Nevertheless, the ongoing controversy on the existence of a rule – the 2007 "new rule" proposed by Jerzy Kowal –, its contradictions and weaknesses ("violations") are all factors that make it essential to rethink the criteria that determine verbal forms. The collected data, drawn from linguistic databases, were classified according to the traditional terminology of embedded clauses : substantive, adjective and adverbial clauses. We attempted to determine the factors underlying the alternation, the emergence or disappearance of certain verbal forms. Variations – diachronic, diaphasic, diastratic and diatopic variations – were also analyzed. Statistics were used to fix the magnitude of the patterns and to guarantee the reliability of the observed evolutions.This study reveals that the medieval speaker wasn't more governed by a ''sequence of tenses'' based on mechanical congruence than the actual speaker. On the contrary, the speaker himself was able to (in)actualize parts of his speech in function of specific communicative purpose.Cette thèse propose une approche explicative de la « concordance des temps » en espagnol médiéval grâce à l'apport de la théorie des modes développée par Gilles Luquet. Nous avons tout d'abord synthétisé les apports des grammaires et des linguistes sur ce phénomène syntaxique. Mais la controverse toujours en vigueur sur l'existence d'une règle – la « new rule » de Jerzy Kowal date de 2007 –, ses contradictions et ses insuffisances (exemples « non concordants ») sont autant de facteurs qui nécessitent de repenser les paramètres qui conditionnent véritablement le choix des formes verbales. Les exemples, issus de corpus informatisés, ont été classés selon la terminologie traditionnelle entre subordonnées substantives, adjectives et adverbiales. Nous avons cherché à déterminer les raisons qui sous-tendaient l'alternance, l'émergence ou la disparition de certaines formes verbales. L'analyse des variations – diachroniques, diaphasiques, diastratiques et diatopiques – est également au cœur de cette étude. L'approche quantitative a pour objectif de déterminer la représentativité des occurrences et la fiabilité des évolutions constatées.Il ressort de cette étude que le locuteur médiéval n'était pas plus contraint à une « concordance des temps » fondée sur un accord mécanique que le locuteur d'aujourd'hui. Il pouvait au contraire (in)actualiser les éléments de son discours en fonction de sa visée discursive

    Creación y Simulación de Metodologías de Análisis, Clasificación e Integración de Nuevos Requerimientos a Software Propietario

    Get PDF
    La priorización de nuevos requerimientos a implementar en un software propietario es un punto fundamental para su mantenimiento, la conservación de la calidad, observación de las reglas de negocio y los estándares de la empresa. Aunque existen herramientas de priorización basadas en técnicas probadas y reconocidas, las mismas requieren una calificación previa de cada requerimiento. Si la empresa cuenta con solicitudes provenientes de varios clientes de un mismo producto, aumentan los factores que afectan a la empresa, las herramientas disponibles no contemplan estos aspectos y hacen mucho más compleja la tarea de calificación. Este trabajo de investigación abarca la realización de un relevamiento de los métodos de priorización y selección de nuevos requerimientos utilizados por empresas de la zona de Rosario, y la definición de una metodología para la selección un nuevo requerimiento, que implica el análisis y evaluación de todas las implicaciones sobre el producto de software y la empresa, respetando sus reglas de negocio. La metodología creada conduce a la definición de los procesos para la construcción de una herramienta de calificación y priorización de nuevos requerimientos en software propietario que tiene solicitudes de varios clientes al mismo tiempo, con instrumentos de calificación que consideran todos los aspectos relacionados, proveerá técnicas de priorización actuales y emitirá informes personalizados según diferentes perspectivas de la empresa.Eje: Ingeniería de SoftwareRed de Universidades con Carreras en Informática (RedUNCI

    Expressions polylexicales verbales : étude de la variabilité en corpus

    No full text
    International audienceLa reconnaissance et le traitement approprié des expressions polylexicales (EP) constituent un enjeu pour différentes applications en traitement automatique des langues. Ces expressions sont susceptibles d'apparaître sous d'autres formes que leur forme canonique, d'où l'intérêt d'étudier leur profil de variabilité. Dans cet article, nous proposons de donner un aperçu de motifs de variation syntaxiques et/ou morphologiques d'après un corpus de 4441 expressions polylexicales verbales (EPV) annotées manuellement. L'objectif poursuivi est de générer automatiquement les différentes variantes pour améliorer la performance des techniques de traitement automatique des EPV. ABSTRACT Verbal MWEs : a corpus-based study of variability Identification and processing of multiword expressions (MWEs) are required by many natural language processing applications. MWEs can appear in other forms than their canonical form, hence the interest of studying their variability profile. In this paper, we present an overview of syntactic and / or morphological variation patterns based on a corpus of 4441 manually annotated verbal MWEs. Our goal is to automatically generate variants to improve the performance of MWE automatic processing techniques. MOTS-CLÉS : Expressions polylexicales, figement, variabilité

    Keeping tabs, bringing into line and sending to the outer rim : how to tackle variability and ambiguity of multiword expressions ?

    No full text
    L’identification automatique d’expressions polylexicales (EP) est un pré-requis pour de nombreuses applications de traitement automatique des langues. Cette tâche représente un défi car les EP, et en particulier les verbales (EPV) telles que 'casser sa pipe' (signifiant 'mourir'), ont des formes de surface très variables ('cassera-t-il un jour sa pipe ?'). Cependant, comparée à des constructions libres, cette variabilité est généralement plus restreinte (p. ex. certains noms non modifiables par un adjectif), d’où des profils de variabilité distincts. On se penche ici sur un sous-problème de l’identification d’EPV, à savoir l’identification d’occurrences d’EPV vues dans d’autres contextes, quelque soit leur forme de surface, ce qui nécessite de prendre en compte l’ambiguïté pour éviter des lectures littérales ('casser sa vieille pipe') ou des co-occurrences fortuites ('casser le tuyau de sa pipe'). On considère pour cela deux approches : la première se fonde sur une mesure de la variabilité des EPV indépendante de la langue. La seconde consiste à modéliser le problème comme une tâche de classification d’après des traits pertinents pour la variabilité morpho-syntaxique des EPV, ce qui nous a conduit à développer un système (VarIDE), qui a participé à la compétition PARSEME d’identification automatique d’EPV en 2018.Automatic identification of multiword expressions (MWEs) is a pre-requisite for many natural language processing applications. This task is challenging because MWEs, especially verbal ones (VMWEs) like to kick the bucket (which means to die), exhibit surface variability (no buckets were kicked ). However, compared with regular constructions, this variability is usually more restricted (e.g. some nouns cannot be modified by an adjective), hence various variability profiles. We address here a subproblem of VMWE identification, namely the identification of occurrences of VMWEs previously seen in corpora, whatever their surface form, which requires to take ambiguity into account to avoidliteral (he kicked the old bucket) or coincidental occurrences (he kicked the ball and the bucket fell down). To this end, we considered two main approaches : The first one is based on a language independent measure of VMWE variability. The second one consists in modeling the problem as a classification task on the basis of features relevant to the VMWE morphosyntactic variability, which led to a system (VarIDE) that participated in the PARSEME shared task on automatic identification of VMWEs in 2018

    Diachronic study (13th-15th centuries) of the sequence of tenses in Old Spanish. An explicative approach

    No full text
    Cette thèse propose une approche explicative de la « concordance des temps » en espagnol médiéval grâce à l'apport de la théorie des modes développée par Gilles Luquet. Nous avons tout d'abord synthétisé les apports des grammaires et des linguistes sur ce phénomène syntaxique. Mais la controverse toujours en vigueur sur l'existence d'une règle – la « new rule » de Jerzy Kowal date de 2007 –, ses contradictions et ses insuffisances (exemples « non concordants ») sont autant de facteurs qui nécessitent de repenser les paramètres qui conditionnent véritablement le choix des formes verbales. Les exemples, issus de corpus informatisés, ont été classés selon la terminologie traditionnelle entre subordonnées substantives, adjectives et adverbiales. Nous avons cherché à déterminer les raisons qui sous-tendaient l'alternance, l'émergence ou la disparition de certaines formes verbales. L'analyse des variations – diachroniques, diaphasiques, diastratiques et diatopiques – est également au cœur de cette étude. L'approche quantitative a pour objectif de déterminer la représentativité des occurrences et la fiabilité des évolutions constatées.Il ressort de cette étude que le locuteur médiéval n'était pas plus contraint à une « concordance des temps » fondée sur un accord mécanique que le locuteur d'aujourd'hui. Il pouvait au contraire (in)actualiser les éléments de son discours en fonction de sa visée discursive.This thesis provides an explicative case study method to explore the "sequence of tenses" in Old Spanish thanks to the theory of moods developed by Gilles Luquet.We first examined the contributions of grammars and linguists on this syntactic phenomenon. Nevertheless, the ongoing controversy on the existence of a rule – the 2007 "new rule" proposed by Jerzy Kowal –, its contradictions and weaknesses ("violations") are all factors that make it essential to rethink the criteria that determine verbal forms. The collected data, drawn from linguistic databases, were classified according to the traditional terminology of embedded clauses : substantive, adjective and adverbial clauses. We attempted to determine the factors underlying the alternation, the emergence or disappearance of certain verbal forms. Variations – diachronic, diaphasic, diastratic and diatopic variations – were also analyzed. Statistics were used to fix the magnitude of the patterns and to guarantee the reliability of the observed evolutions.This study reveals that the medieval speaker wasn't more governed by a ''sequence of tenses'' based on mechanical congruence than the actual speaker. On the contrary, the speaker himself was able to (in)actualize parts of his speech in function of specific communicative purpose

    Seen2Unseen at PARSEME Shared Task 2020: All Roads do not Lead to Unseen Verb-Noun VMWEs

    No full text
    International audienceWe describe the Seen2Unseen system that participated in edition 1.2 of the PARSEME shared task on automatic identification of verbal multiword expressions (VMWEs). The identification of VMWEs that do not appear in the provided training corpora (called unseen VMWEs)-with a focus here on verb-noun VMWEs-is based on mutual information and lexical substitution or translation of seen VMWEs. We present the architecture of the system, report results for 14 languages, and propose an error analysis

    VarIDE at PARSEME Shared Task 2018

    No full text
    International audienc

    VarIDE at PARSEME Shared Task 2018:Are Variants Really as Alike as Two Peas in a Pod?

    No full text
    International audienceWe describe the VarIDE system (standing for Variant IDEntification) which participated in edition 1.1 of the PARSEME shared task on automatic identification of verbal multiword expressions (VMWEs). Our system focuses on the task of VMWE variant identification by using morphosyn-tactic information in the training data to predict if candidates extracted from the test corpus could be idiomatic, thanks to a naive Bayes classifier. We report results for 19 languages

    Verbal Multiword Expression Identification: Do We Need a Sledgehammer to Crack a Nut?

    No full text
    International audienceAutomatic identification of multiword expressions (MWEs), like to cut corners 'to do an incomplete job ', is a prerequisite for semantically-oriented downstream applications. This task is challenging because MWEs, especially verbal ones (VMWEs), exhibit surface variability. This paper deals with a subproblem of VMWE identification: the identification of occurrences of previously seen VMWEs. A simple language-independent system based on a combination of filters competes with the best systems from a recent shared task: it obtains the best averaged F-score over 11 languages (0.6653) and even the best score for both seen and unseen VMWEs due to the high proportion of seen VMWEs in texts. This highlights the fact that focusing on the identification of seen VMWEs could be a strategy to improve VMWE identification in general

    Trait pour trait identiques ? Identification de variantes d’expressions polylexicales

    No full text
    International audienceMultiword expressions, especially verbal ones (VMWEs), show idiosyncratic variability, which is challenging for NLP applications, hence the need for VMWE identification. We focus on the task of variant identification, i.e. identifying variants of previously seen VMWEs, whatever their surface form. We model the problem as a classification task. Syntactic subtrees with previously seen combinations of lemmas are first extracted, and then classified on the basis of features relevant to morpho-syntactic variation of VMWEs. Feature values are both absolute, i.e. hold for a particular VMWE candidate, and relative, i.e. based on comparing a candidate with previously seen VMWEs. This approach outperforms a baseline by 4 percent points of F-measure on a French corpus.Les expressions polylexicales (EP), et parmi elles plus particulièrement les EP verbales (EPV), se caractérisent par une grande variabilité idiosyncrasique de forme. La détection et l’identification de ces EPV variées pose ainsi un réel défi à la réalisation d’applications langagières robustes.Cet article met l’accent sur la tâche d’identification dans un corpus de variantes d’une EP verbale déjà rencontrées. Il propose une stratégie d’identification basée sur l’extraction de formes candidates à partir de patrons syntaxiques, suivie de leur classification basée sur des caractéristiquesmorphologiques et syntaxiques. Ces propriétés sont à la fois absolues (c.-à-d. concernent l’entité considérée) ou relatives (c.-à-d. issues de la comparaison avec des EPV déjà rencontrées). Les performances du système résultant ont été évaluées sur un corpus francophone. Elles montrentune amélioration de 4 points de F-mesure par rapport à une baseline bien établie
    corecore