2,548 research outputs found

    RÉDACTION DE SPÉCIFICATIONS FORMELLES : ÉLABORATION À PARTIR DES SPÉCIFICATIONS ÉCRITES EN LANGAGE NATUREL

    No full text
    National audienceL'activité de spécification devient considérable ; une multitude de pages sont écrites tous les jours et la plupart du temps en langage naturel. Pour le CNET (Centre National d'Etudes des Télécommunications), qui réalise des études de services et d'équipements de France Telecom, et qui possède la maîtrise des étapes de spécification et de validation, a nécessité de réduire les temps de développement des services est une priorité. Une condition pour atteindre cet objectif consiste à formaliser le maximum de spécifications produites. Dans ce contexte, nous essayerons de montrer, la possibilité d'une certaine automatisation du passage de l'informel au formel, grâce à des méthodes et outils fiables, susceptibles d'assister un expert humain en spécifications. Nous proposons pour cela un processus de formalisation qui s'appuie sur une représentatin intermédiaire des spécifications avec le formalisme des graphes conceptuels, avant de dériver une description formelle en Z de la spécification initiale

    Sémantique interprétative et analyses automatiques de textes : que deviennent les sèmes ?

    Get PDF
    Numéro thématique dirigé par Benoît HABERT et intitulé :"Dépasser les sens iniques dans l'accès automatisé aux textes"National audienceSemes are usually understood as semantic primitives, in order to describe meanings. As for F. Rastier, semes are contextually defined, and are the result of an interpretative path. This modelisation accounts for successes and limits of some statistical and distributional approaches. Some of the mathematical properties implied are not linguistically appropriate, so that the processing has to be defined on new bases. Text semantics also sheds new light on NLP tools and processes : dictionaries, taggers, corpus. A new clustering method is proposed as a means to modelize isotopies, and thus texts topics. These computed semantic classes are inherently different from the ones manually defined by experts.Le sème est souvent compris comme une primitive utilisable pour décrire les sens des mots. Or, tel que le présente F. Rastier, il est défini par et dans un contexte, et apparaît comme le résultat de l'interprétation d'un texte. Cette conception du sème permet de comprendre les succès et les limites d'analyses statistiques ou distributionnelles de textes. Certaines propriétés mathématiques des modélisations se révèlent linguistiquement inadéquates ; choisir le cadre de la sémantique interprétative conduit alors à redéfinir les traitements par-delà le seul ajustement des paramètres. Cette perspective oriente également certains choix concernant les outils et les étapes du TAL : dictionnaires, analyseurs morpho-syntaxiques, corpus et étiquetage. Un nouveau mode de classification automatique est présenté, comme moyen de repérage et de représentation des isotopies et donc de la thématique d'un texte. Ces classes sémantiques calculées sont d'une autre nature que celles définies par des experts

    ANTELOPE - Une plateforme industrielle de traitement linguistique

    Get PDF
    International audienceThe Antelope linguistic platform, inspired by Meaning-Text Theory, targets the syntactic and semantic analysis of texts, and can handle large corpora. Antelope integrates several pre-existing (parsing) components as well as broad-coverage linguistic data originating from various sources. Efforts towards integration of all components nonetheless make for a homogeneous platform. Our direct contribution deals with components for semantic analysis, and the formalization of a unified text analysis model. This paper introduces the platform and compares it with state-of-the-art projects. It offers to the NLP community a feedback from a software company, by underlining the architectural measures that should be taken to ensure that such complex software remains maintainable.La plate-forme de traitement linguistique Antelope, en partie basée sur la Théorie Sens-Texte (TST), permet l'analyse syntaxique et sémantique de textes sur des corpus de volume important. Antelope intègre plusieurs composants préexistants (pour l'analyse syntaxique) ainsi que des données linguistiques à large couverture provenant de différentes sources. Un effort d'intégration permet néanmoins d'offrir une plate-forme homogène. Notre contribution directe concerne l'ajout de composants d'analyse sémantique et la formalisation d'un modèle linguistique unifié. Cet article présente la plate-forme et la compare à d'autres projets de référence. Il propose un retour d'expérience d'un éditeur de logiciel vers la communauté du TAL, en soulignant les précautions architecturales à prendre pour qu'un tel ensemble complexe reste maintenable

    Un Verbenet du français

    Get PDF
    International audienceVerbNet is a lexical resource for English verbs that has proven useful for NLP thanks to its high lexical and syntactic coverage and its systematic coding of thematic roles. Such a resource doesn’t exist for French. This has motivated us to develop a Verbenet for French. We present how we have developed Verbenet from VerbNet while using as far as possible the available lexical resources for French, and how the various French alternations are coded, focusing on differences with English (existence of pronominal forms, for example). This paper should allow an NLP researcher to use Verbenet in a simple and efficient way for a task such as semantic role labeling.VerbNet est une ressource lexicale pour les verbes anglais qui est largement utilisée en TAL du fait de sa bonne couverture lexicale et syntaxique et de son encodage systématique des rôles thématiques. Aucune ressource équivalente n'existe pour le français, ce qui nous a motivés pour développer un Verb@net du français. Nous présentons comment nous avons développé Verb@net à partir de VerbNet tout en utilisant au maximum les ressources lexicales existantes du français, et comment sont encodées les différentes alternances du français en mettant l'accent sur les différences avec l'anglais (l'existence de formes pronominales, par exemple). Cet article devrait permettre à un chercheur en TAL une utilisation simple et efficace de Verb@net pour une tâche comme l'annotation en rôles sémantiques

    Du Langage Naturel à la Spécification – Application à la Spécification de Services de Télécommunication

    No full text
    International audienceLa rédaction de spécifications techniques, écrites la plupart du temps en langage naturel, est devenue une activité considérable. Parallèlement la nécessité de réduire les temps de développement de systèmes complexes, comme ceux des télécommunications, est une priorité. Une condition pour atteindre cet objectif consiste à formaliser le maximum de spécifications produites. Nous essayerons donc de montrer la possibilité d'une certaine automatisation du passage de l'informel au formel, grâce à des méthodes et outils fiables, susceptibles d'assister un expert humain en spécification. Nous proposons pour cela un processus de formalisation qui s'appuie sur une représentation intermédiaire des spécifications avec le formalisme des graphes conceptuels, avant de dériver une description formelle en Z. Puis, dans une deuxième approche, nous exposerons les éléments méthodologiques liés à un processus de conception orientée agent, cette fois semi-formel. Pour illustrer notre présentation et lui conférer une meilleure lisibilité, nous avons choisi un exemple simple de spécification que nous appliquerons à chacune des phases du processus de formalisation

    CALOR-Frame : un corpus de textes encyclopédiques annoté en cadres sémantiques

    Get PDF
    International audienceCALOR-Frame : a corpus of encyclopedic texts annotated with semantic frames CALOR-Frame is a corpus of History encyclopedic texts annotated in semantic frames, that has been jointly produced by Aix-Marseille University and Orange Labs. The constitution of this ressource has been driven by the more general context of Information Retrieval, with the purpose of enhancing access to Knowledge contents. Semantic Frame structuration enables advanced research fucntionalities, beyond keyword search. This article presents the annotation process that has been set up, using a tool to automatically validate generated annotations in an optimized way. The selection of texts and semantic frames is also motivated. MOTS-CLÉS : Cadre sémantique, corpus, apprentissage actif, étiquetage de séquence.Le corpus CALOR-Frame est un corpus annoté en cadres sémantiques, constitué de textes encyclo-pédiques dans le domaine de l'Histoire et produit conjointement par l'Université d'Aix-Marseille et Orange Labs. La constitution de cette ressource s'inscrit dans le cadre général de la recherche d'information avec pour objectif de favoriser l'accès aux contenus de la connaissance. La structuration en cadres sémantiques permet des recherches avancées dépassant le cadre de la simple recherche par mots-clés. Dans cet article est décrit le processus d'annotation en cadres sémantiques mis en place, qui utilise un outil de validation d'annotations automatiques à des fins d'optimisation. Le choix des textes et des cadres sémantiques considérés est également motivé

    Word2Vec vs DBnary ou comment (ré)concilier représentations distribuées et réseaux lexico-sémantiques ? Le cas de l’évaluation en traduction automatique

    No full text
    International audienceThis paper presents an approach combining lexical-semantic resources and distributed representations of words applied to the evaluation in machine translation (MT). This study is made through the enrichment of a well-known MT evaluation metric : METEOR. METEOR enables an approximate match (synonymy or morphological similarity) between an automatic and a reference translation. Our experiments are made in the framework of the Metrics task of WMT 2014. We show that distributed representations are less efficient than lexical-semantic resources for MT evaluation but they can nonetheless bring interesting additional information

    Construction automatique d'une interface syntaxe / sémantique utilisant des ressources de large couverture en langue anglaise

    Get PDF
    International audienceWe describe here a manner to transform a syntactic structure (generated by a syntactic parser of English) into a semantic form (in the form of predicates). We then show that the construction of such an interface can be automated. Our approach is based on the interoperability between several resources, covering syntactical (Link Grammar Parser), lexical (WordNet) and semantic (VerbNet) aspects of English. The joint use of these broad-coverage resources leads to a lexical and syntactical disambiguation (at least partially).Nous décrivons ici une approche pour passer d'une représentation syntaxique (issue d'une analyse grammaticale) à une représentation sémantique (sous forme de prédicats). Nous montrons ensuite que la construction de cette interface est automatisable. Nous nous appuyons sur l'interopérabilité de plusieurs ressources couvrant des aspects d'ordre syntaxique (Link Grammar Parser), lexical (WordNet) et syntaxico-sémantique (VerbNet) de la langue anglaise. L'utilisation conjointe de ces ressources de large couverture permet d'obtenir une désambiguïsation syntaxique et lexicale au moins partielle

    Annotation syntaxico-sémantique des actants en corpus spécialisé

    Get PDF
    L’annotation en rôles sémantiques est une tâche qui permet d’attribuer des étiquettes de rôles telles que Agent, Patient, Instrument, Lieu, Destination etc. aux différents participants actants ou circonstants (arguments ou adjoints) d’une lexie prédicative. Cette tâche nécessite des ressources lexicales riches ou des corpus importants contenant des phrases annotées manuellement par des linguistes sur lesquels peuvent s’appuyer certaines approches d’automatisation (statistiques ou apprentissage machine). Les travaux antérieurs dans ce domaine ont porté essentiellement sur la langue anglaise qui dispose de ressources riches, telles que PropBank, VerbNet et FrameNet, qui ont servi à alimenter les systèmes d’annotation automatisés. L’annotation dans d’autres langues, pour lesquelles on ne dispose pas d’un corpus annoté manuellement, repose souvent sur le FrameNet anglais. Une ressource telle que FrameNet de l’anglais est plus que nécessaire pour les systèmes d’annotation automatisé et l’annotation manuelle de milliers de phrases par des linguistes est une tâche fastidieuse et exigeante en temps. Nous avons proposé dans cette thèse un système automatique pour aider les linguistes dans cette tâche qui pourraient alors se limiter à la validation des annotations proposées par le système. Dans notre travail, nous ne considérons que les verbes qui sont plus susceptibles que les noms d’être accompagnés par des actants réalisés dans les phrases. Ces verbes concernent les termes de spécialité d’informatique et d’Internet (ex. accéder, configurer, naviguer, télécharger) dont la structure actancielle est enrichie manuellement par des rôles sémantiques. La structure actancielle des lexies verbales est décrite selon les principes de la Lexicologie Explicative et Combinatoire, LEC de Mel’čuk et fait appel partiellement (en ce qui concerne les rôles sémantiques) à la notion de Frame Element tel que décrit dans la théorie Frame Semantics (FS) de Fillmore. Ces deux théories ont ceci de commun qu’elles mènent toutes les deux à la construction de dictionnaires différents de ceux issus des approches traditionnelles. Les lexies verbales d’informatique et d’Internet qui ont été annotées manuellement dans plusieurs contextes constituent notre corpus spécialisé. Notre système qui attribue automatiquement des rôles sémantiques aux actants est basé sur des règles ou classificateurs entraînés sur plus de 2300 contextes. Nous sommes limités à une liste de rôles restreinte car certains rôles dans notre corpus n’ont pas assez d’exemples annotés manuellement. Dans notre système, nous n’avons traité que les rôles Patient, Agent et Destination dont le nombre d’exemple est supérieur à 300. Nous avons crée une classe que nous avons nommé Autre où nous avons rassemblé les autres rôles dont le nombre d’exemples annotés est inférieur à 100. Nous avons subdivisé la tâche d’annotation en sous-tâches : identifier les participants actants et circonstants et attribuer des rôles sémantiques uniquement aux actants qui contribuent au sens de la lexie verbale. Nous avons soumis les phrases de notre corpus à l’analyseur syntaxique Syntex afin d’extraire les informations syntaxiques qui décrivent les différents participants d’une lexie verbale dans une phrase. Ces informations ont servi de traits (features) dans notre modèle d’apprentissage. Nous avons proposé deux techniques pour l’identification des participants : une technique à base de règles où nous avons extrait une trentaine de règles et une autre technique basée sur l’apprentissage machine. Ces mêmes techniques ont été utilisées pour la tâche de distinguer les actants des circonstants. Nous avons proposé pour la tâche d’attribuer des rôles sémantiques aux actants, une méthode de partitionnement (clustering) semi supervisé des instances que nous avons comparée à la méthode de classification de rôles sémantiques. Nous avons utilisé CHAMÉLÉON, un algorithme hiérarchique ascendant.Semantic role annotation is a process that aims to assign labels such as Agent, Patient, Instrument, Location, etc. to actants or circumstants (also called arguments or adjuncts) of predicative lexical units. This process often requires the use of rich lexical resources or corpora in which sentences are annotated manually by linguists. The automatic approaches (statistical or machine learning) are based on corpora. Previous work was performed for the most part in English which has rich resources, such as PropBank, VerbNet and FrameNet. These resources were used to serve the automated annotation systems. This type of annotation in other languages for which no corpora of annotated sentences are available often use FrameNet by projection. Although a resource such as FrameNet is necessary for the automated annotation systems and the manual annotation by linguists of a large number of sentences is a tedious and time consuming work. We have proposed an automated system to help linguists in this task so that they have only to validate annotations proposed. Our work focuses on verbs that are more likely than other predicative units (adjectives and nouns) to be accompanied by actants realized in sentences. These verbs are specialized terms of the computer science and Internet domains (ie. access, configure, browse, download) whose actantial structures have been annotated manually with semantic roles. The actantial structure is based on principles of Explanatory and Combinatory Lexicology, LEC of Mel’čuk and appeal in part (with regard to semantic roles) to the notion of Frame Element as described in the theory of frame semantics (FS) of Fillmore. What these two theories have in common is that they lead to the construction of dictionaries different from those resulting from the traditional theories. These manually annotated verbal units in several contexts constitute the specialized corpus that our work will use. Our system designed to assign automatically semantic roles to actants is based on rules and classifiers trained on more than 2300 contexts. We are limited to a restricted list of roles for certain roles in our corpus have not enough examples manually annotated. In our system, we addressed the roles Patient, Agent and destination that the number of examples is greater than 300. We have created a class that we called Autre which we bring to gether the other roles that the number of annotated examples is less than 100. We subdivided the annotation task in the identification of participant actants and circumstants and the assignment of semantic roles to actants that contribute to the sense of the verbal lexical unit. We parsed, with Syntex, the sentences of the corpus to extract syntactic informations that describe the participants of the verbal lexical unit in the sentence. These informations are used as features in our learning model. We have proposed two techniques for the task of participant detection: the technique based in rules and machine learning. These same techniques are used for the task of classification of these participants into actants and circumstants. We proposed to the task of assigning semantic roles to the actants, a partitioning method (clustering) semi supervised of instances that we have compared to the method of semantic role classification. We used CHAMELEON, an ascending hierarchical algorithm
    • …
    corecore