8 research outputs found
Un Verbenet du français
International audienceVerbNet is a lexical resource for English verbs that has proven useful for NLP thanks to its high lexical and syntactic coverage and its systematic coding of thematic roles. Such a resource doesn’t exist for French. This has motivated us to develop a Verbenet for French. We present how we have developed Verbenet from VerbNet while using as far as possible the available lexical resources for French, and how the various French alternations are coded, focusing on differences with English (existence of pronominal forms, for example). This paper should allow an NLP researcher to use Verbenet in a simple and efficient way for a task such as semantic role labeling.VerbNet est une ressource lexicale pour les verbes anglais qui est largement utilisée en TAL du fait de sa bonne couverture lexicale et syntaxique et de son encodage systématique des rôles thématiques. Aucune ressource équivalente n'existe pour le français, ce qui nous a motivés pour développer un Verb@net du français. Nous présentons comment nous avons développé Verb@net à partir de VerbNet tout en utilisant au maximum les ressources lexicales existantes du français, et comment sont encodées les différentes alternances du français en mettant l'accent sur les différences avec l'anglais (l'existence de formes pronominales, par exemple). Cet article devrait permettre à un chercheur en TAL une utilisation simple et efficace de Verb@net pour une tâche comme l'annotation en rôles sémantiques
Improvement of VerbNet-like resources by frame typing
International audienceVerbenet is a French lexicon developed by " translation " of its English counterpart — VerbNet (Kipper-Schuler, 2005) — and treatment of the specificities of French syntax (Pradet et al., 2014; Danlos et al., 2016). One difficulty encountered in its development springs from the fact that the list of (potentially numerous) frames has no internal organization. This paper proposes a type system for frames that shows whether two frames are variants of a given alternation. Frame typing facilitates coherence checking of the resource in a " virtuous circle ". We present the principles underlying a program we developed and used to automatically type frames in Verbenet. We also show that our system is portable to other languages
Un dictionnaire de régimes verbaux en mandarin
Ce mémoire s’insère dans le projet GenDR, un réalisateur de texte profond multilingue qui modélise l’interface sémantique-syntaxe pour la génération automatique de texte (GAT). Dans le cadre de la GAT, les ressources lexicales sont de première nécessité pour que le système puisse transformer des données nonlinguistiques en langage naturel. Ces ressources lexicales déterminent dans une certaine mesure la précision et la flexibilité des phrases générées. En raison de l’imprévisibilité du régime des verbes et du rôle central que les verbes jouent dans un énoncé, une ressource lexicale qui décrit le régime des verbes revêt une importance particulière pour générer du texte le plus précis et le plus naturel possible.
Nous avons tenté de créer un dictionnaire de régimes verbaux en mandarin. Ce genre de ressource lexicale est toujours une lacune dans le domaine de la GAT en mandarin. En nous basant sur la base de données Mandarin VerbNet, nous avons eu recours à Python pour extraire les adpositions régies et créer notre dictionnaire. Il s’agit d’un dictionnaire dynamique, dont le contenu peut être paramétré en fonction des objectifs de l’utilisateur.This work fits into the GenDR project, a multilingual deep realizer which models the semantics-syntax interface for natural language generation (NLG). In NLG, lexical resources are essential to transform non-linguistic data into natural language. To a certain extent, the lexical resources used determine the accuracy and flexibility of the sentences generated by a realizer. Due to the unpredictability of verbs’ syntactic behaviour and the central role that verbs play in an utterance, a lexical resource which describes the government patterns of verbs is key to generating the most precise and natural text possible.
We aim to create a dictionary of verbs’ government patterns in Mandarin. This kind of lexical resource is still missing for NLG in Mandarin. Based on the Mandarin VerbNet database, we used Python to extract information about adpositions and to create our dictionary. This is a dynamic dictionary whose content can be parameterized according to the user’s needs
Annotation en rôles sémantiques du français en domaine spécifique
In this Natural Language Processing Ph. D. Thesis, we aim to perform semantic role labeling on French domain-specific texts. This task first disambiguates the sense of predicates in a given text and annotates its child chunks with semantic roles such as Agent, Patient or Destination. The task helps many applications in domains where annotated corpora exist, but is difficult to use otherwise. We first evaluate on the FrameNet corpus an existing method based on VerbNet, which explains why the method is domain-independant. We show that substantial improvements can be obtained. We first use syntactic information by handling the passive voice. Next, we use semantic informations by taking advantage of the selectional restrictions present in VerbNet. To apply this method to French, we first translate lexical resources. We first translate the WordNet lexical database. Next, we translate the VerbNet lexicon which is organized semantically using syntactic information. We obtain its translation, VerbeNet, by reusing two French verb lexicons (the Lexique-Grammaire and Les Verbes Français) and by manually modifying and reorganizing the resulting lexicon. Finally, once those building blocks are in place, we evaluate the feasibility of semantic role labeling of French and English in three specific domains. We study the pros and cons of using VerbNet and VerbeNet to annotate those domains before explaining our future work.Cette thèse de Traitement Automatique des Langues a pour objectif l'annotation automatique en rôles sémantiques du français en domaine spécifique. Cette tâche désambiguïse le sens des prédicats d'un texte et annote les syntagmes liés avec des rôles sémantiques tels qu'Agent, Patient ou Destination. Elle aide de nombreuses applications dans les domaines où des corpus annotés existent, mais est difficile à utiliser quand ce n'est pas le cas. Nous avons d'abord évalué sur le corpus FrameNet une méthode existante d'annotation basée uniquement sur VerbNet et donc indépendante du domaine considéré. Nous montrons que des améliorations conséquentes peuvent être obtenues à la fois d'un point de vue syntaxique avec la prise en compte de la voix passive et d'un point de vue sémantique en utilisant les restrictions de sélection indiquées dans VerbNet. Pour utiliser cette méthode en français, nous traduisons deux ressources lexicales anglaises. Nous commençons par la base de données lexicales WordNet. Nous traduisons ensuite le lexique VerbNet dans lequel les verbes sont regroupés sémantiquement grâce à leurs traits syntaxiques. La traduction, VerbeNet, a été obtenue en réutilisant deux lexiques verbaux du français (le Lexique-Grammaire et Les Verbes Français) puis en modifiant manuellement l'ensemble des informations obtenues. Enfin, une fois ces briques en place, nous évaluons la faisabilité de l'annotation en rôles sémantiques en anglais et en français dans trois domaines spécifiques. Nous évaluons quels sont les avantages et inconvénients de se baser sur VerbNet et VerbeNet pour annoter ces domaines, avant d'indiquer nos perspectives pour poursuivre ces travaux
Satellite-framed lexicalization of creation events in French?
As a typical verb-framed language, French has only limited ability to combine manner verbs with result-denoting constituents in the VP. Based on an event structural approach, this contribution explores the compatibility of different types of manner verbs with two syntactic means of lexicalizing the product/result of a creation event, namely effected objects and resultative PPs headed by en. Data from two acceptability judgment tasks show the following findings: 1) Manner verbs that do not allow for an effected object canonically can still be coerced into a creation reading as long as no general constraint is violated. 2) Resultative PPs prove as acceptable across verb classes, but acceptability is shown to vary based on the internal makeup of the PP, which embeds either a bare noun or a full DP. Verbs that allow for an effected object are judged as well-formed with PPs of both types, whereas verbs not selecting an effected object are only fully acceptable when a bare noun is embedded in the PP. Creation event lexicalizations that can be regarded as satellite-framed are, thus, not only subject to general structural constraints, but also to more subtle and verb‑specific restrictions
Intégration de VerbNet dans un réalisateur profond
La génération automatique de texte (GAT) a comme objectif de produire du texte compréhensible
en langue naturelle à partir de données non-linguistiques. Les générateurs font essentiellement
deux tâches : d’abord ils déterminent le contenu d’un message à communiquer,
puis ils sélectionnent les mots et les constructions syntaxiques qui serviront à transmettre le
message, aussi appellée la réalisation linguistique. Pour générer des textes aussi naturels que
possible, un système de GAT doit être doté de ressources lexicales riches. Si on veut avoir
un maximum de flexibilité dans les réalisations, il nous faut avoir accès aux différentes propriétés
de combinatoire des unités lexicales d’une langue donnée. Puisque les verbes sont au
coeur de chaque énoncé et qu’ils contrôlent généralement la structure de la phrase, il faudrait
encoder leurs propriétés afin de produire du texte exploitant toute la richesse des langues.
De plus, les verbes ont des propriétés de combinatoires imprévisibles, c’est pourquoi il faut
les encoder dans un dictionnaire.
Ce mémoire porte sur l’intégration de VerbNet, un dictionnaire riche de verbes de l’anglais
et de leurs comportements syntaxiques, Ă un rĂ©alisateur profond, GenDR. Pour procĂ©der Ă
cette implémentation, nous avons utilisé le langage de programmation Python pour extraire
les données de VerbNet et les manipuler pour les adapter à GenDR, un réalisateur profond
basé sur la théorie Sens-Texte. Nous avons ainsi intégré 274 cadres syntaxiques à GenDR
ainsi que 6 393 verbes de l’anglais.Natural language generation’s (NLG) goal is to produce understandable text from nonlinguistic
data. Generation essentially consists in two tasks : first, determine the content of
a message to transmit and then, carefully select the words that will transmit the desired
message. That second task is called linguistic realization. An NLG system requires access to
a rich lexical ressource to generate natural-looking text. If we want a maximum of flexibility
in the realization, we need access to the combinatory properties of a lexical unit. Because
verbs are at the core of each utterance and they usually control its structure, we should
encode their properties to generate text representing the true richness of any language. In
addition to that, verbs are highly unpredictible in terms of syntactic behaviours, which is
why we need to store them into a dictionary.
This work is about the integration of VerbNet, a rich lexical ressource on verbs and
their syntactic behaviors, into a deep realizer called GenDR. To make this implementation
possible, we have used the Python programming language to extract VerbNet’s data and to
adapt it to GenDR. We have imported 274 syntactic frames and 6 393 verbs
Un Verbenet du français
International audienceVerbNet is a lexical resource for English verbs that has proven useful for NLP thanks to its high lexical and syntactic coverage and its systematic coding of thematic roles. Such a resource doesn’t exist for French. This has motivated us to develop a Verbenet for French. We present how we have developed Verbenet from VerbNet while using as far as possible the available lexical resources for French, and how the various French alternations are coded, focusing on differences with English (existence of pronominal forms, for example). This paper should allow an NLP researcher to use Verbenet in a simple and efficient way for a task such as semantic role labeling.VerbNet est une ressource lexicale pour les verbes anglais qui est largement utilisée en TAL du fait de sa bonne couverture lexicale et syntaxique et de son encodage systématique des rôles thématiques. Aucune ressource équivalente n'existe pour le français, ce qui nous a motivés pour développer un Verb@net du français. Nous présentons comment nous avons développé Verb@net à partir de VerbNet tout en utilisant au maximum les ressources lexicales existantes du français, et comment sont encodées les différentes alternances du français en mettant l'accent sur les différences avec l'anglais (l'existence de formes pronominales, par exemple). Cet article devrait permettre à un chercheur en TAL une utilisation simple et efficace de Verb@net pour une tâche comme l'annotation en rôles sémantiques
Un Verbenet du français
International audienceVerbNet is a lexical resource for English verbs that has proven useful for NLP thanks to its high lexical and syntactic coverage and its systematic coding of thematic roles. Such a resource doesn’t exist for French. This has motivated us to develop a Verbenet for French. We present how we have developed Verbenet from VerbNet while using as far as possible the available lexical resources for French, and how the various French alternations are coded, focusing on differences with English (existence of pronominal forms, for example). This paper should allow an NLP researcher to use Verbenet in a simple and efficient way for a task such as semantic role labeling.VerbNet est une ressource lexicale pour les verbes anglais qui est largement utilisée en TAL du fait de sa bonne couverture lexicale et syntaxique et de son encodage systématique des rôles thématiques. Aucune ressource équivalente n'existe pour le français, ce qui nous a motivés pour développer un Verb@net du français. Nous présentons comment nous avons développé Verb@net à partir de VerbNet tout en utilisant au maximum les ressources lexicales existantes du français, et comment sont encodées les différentes alternances du français en mettant l'accent sur les différences avec l'anglais (l'existence de formes pronominales, par exemple). Cet article devrait permettre à un chercheur en TAL une utilisation simple et efficace de Verb@net pour une tâche comme l'annotation en rôles sémantiques