6 research outputs found

    A French Fairy Tale Corpus syntactically and semantically annotated.

    Get PDF
    International audienceFairy tales, folktales and more generally children stories have lately attracted the Natural Language Processing (NLP) community. As such, very few corpora exist and linguistic resources are lacking. The work presented in this paper aims at filling this gap by presenting a syntactically and semantically annotated corpus. It focuses on the linguistic analysis of a Fairy Tales Corpus, and provides the description of the syntactic and semantic resources developed for Information Extraction. Resources include syntactic dependency relation annotation for 120 verbs; referential annotation, which is concerned with annotating each anaphoric occurrence and Proper Name with the most specific noun in the text; ontology matching for a substantial part of the nouns in the corpus; semantic role labelling for 41 verbs using the FrameNet database. The article also sums up previous analyses of this corpus and indicates possible uses of this corpus for the NLP community

    Extraction de patrons sémantiques appliquée à la classification d'Entités Nommées

    Get PDF
    International audienceLa variabilité des corpus constitue un problème majeur pour les systèmes de reconnaissance d'entités nommées. L'une des pistes possibles pour y remédier est l'utilisation d'approches linguistiques pour les adapter à de nouveaux contextes : la construction de patrons sémantiques peut permettre de désambiguïser les entités nommées en structurant leur environnement syntaxico-sémantique. Cet article présente une première réalisation sur un corpus de presse d'un système de correction. Après une étape de segmentation sur des critères discursifs de surface, le système extrait et pondère les patrons liés à une classe d'entité nommée fournie par un analyseur. Malgré des modèles encore relativement élémentaires, les résultats obtenus sont encourageants et montrent la nécessité d'un traitement plus approfondi de la classe Organisation. Abstract Corpus variation is a major problem for named entity recognition systems. One possible direction to tackle this problem involves using linguistic approaches to adapt them to unseen contexts : building semantic patterns may help for their disambiguation by structuring their syntactic and semantic environment. This article presents a preliminary implementation on a press corpus of a correction system. After a segmentation step based on surface discourse clues, the system extracts and weights the patterns linked to a named entity class provided by an analyzer. Despite relatively elementary models, the results obtained are promising and point on the necessary treatment of the Organisation class. Mots-clés : entités nommées, patrons sémantiques, segmentation discursive de surface Keywords: named entities, semantic patterns, surface discourse segmentation ISMAÏL EL MAAROUF, JEANNE VILLANEAU, SOPHIE ROSSE

    Formalisation de connaissances à partir de corpus : modélisation linguistique du contexte pour l'extraction automatique de relations sémantiques

    Get PDF
    Corpora, which are text collections selected for specific purposes, are playing an increasing role in Linguistics and Natural Language Processing (NLP). They are conceived as knowledge sources on natural language use, as much as knowledge on the entities designated by linguistic expressions, and they are used in particular to evaluate NLP application performances. The criteria prevailing on their constitution have an obvious, though still delicate to characterize, impact on (i) the major linguistic structures they contain, (ii) the knowledge conveyed, and, (iii) computational systems' success on a give task. This thesis studies methodologies of automatic extraction of semantic relations on written text corpora. Such a topic calls for a detailed examination of the context in which a given expression holds, as well as for the discovery of the features which determine its meaning, in order to be able to link semantic units. Generally, contextual models are built from the co-occurrence analysis of linguistic informations, drawn from resources and NLP tools. The benefits and limits of these informations are evaluated in a task of relation extraction from corpora belonging to different genres (press article, fairy tale, biography). The results show that these informations are insufficient to reach a satisfying semantic representation as well as to design robust systems. Two problems are particularly addressed. On the one hand, it seems indispensable to add informations related to text genre. So as to characterize the impact of genre on semantic relations, an automatic classification method, which relies on the semantic restrictions holding between verbs and nouns, is proposed. The method is experimented on a fairy tale corpus and on a press corpus. On the other hand, contextual models need to deal with problems which come under discourse surface variation. In a text, related linguistic expressions are not always close to one another and it is sometimes necessary to design complex algorithms in order to detect long dependencies. To answer this problem in a coherent manner, a method of discourse segmentation based on surface structure triggers in written corpora, is proposed. It paves the way for grammars operating on macro-syntactic categories in order to structure the discursive representation of a sentence. This method is applied prior to a syntactic analysis and its improvement is evaluated. The solutions proposed to these problems help us to approach Information Extraction from a particular angle : the implemented system is evaluated on a task of Named Entity correction in the context of a Question-Answering System. This specific need entails the alignment of a category definition on the type of answer expected by the question.Les corpus, collections de textes sélectionnés dans un objectif spécifique, occupent une place de plus en plus déterminante en Linguistique comme en Traitement Automatique des Langues (TAL). Considérés à la fois comme source de connaissances sur l'usage authentique des langues, ou sur les entités que désignent des expressions linguistiques, ils sont notamment employés pour évaluer la performance d'applications de TAL. Les critères qui prévalent à leur constitution ont un impact évident, mais encore délicat à caractériser, sur (i) les structures linguistiques majeures qu'ils renferment, (ii) les connaissances qui y sont véhiculées, et, (iii) la capacité de systèmes informatiques à accomplir une tâche donnée. Ce mémoire étudie des méthodologies d'extraction automatique de relations sémantiques dans des corpus de textes écrits. Un tel sujet invite à examiner en détail le contexte dans lequel une expression linguistique s'applique, à identifier les informations qui déterminent son sens, afin d'espérer relier des unités sémantiques. Généralement, la modélisation du contexte est établie à partir de l'analyse de co-occurrence d'informations linguistiques issues de ressources ou obtenues par des systèmes de TAL. Les intérêts et limites de ces informations sont évalués dans le cadre de la tâche d'extraction de relations sur des corpus de genre différent (article de presse, conte, biographie). Les résultats obtenus permettent d'observer que pour atteindre une représentation sémantique satisfaisante ainsi que pour concevoir des systèmes robustes, ces informations ne suffisent pas. Deux problèmes sont particulièrement étudiés. D'une part, il semble indispensable d'ajouter des informations qui concernent le genre du texte. Pour caractériser l'impact du genre sur les relations sémantiques, une méthode de classification automatique, reposant sur les restrictions sémantiques qui s'exercent dans le cadre de relations verbo-nominales, est proposée. La méthode est expérimentée sur un corpus de conte et un corpus de presse. D'autre part, la modélisation du contexte pose des problèmes qui relèvent de la variation discursive de surface. Un texte ne met pas toujours bout à bout des expressions linguistiques en relation et il est parfois nécessaire de recourir à des algorithmes complexes pour détecter des relations à longue portée. Pour répondre à ce problème de façon cohérente, une méthode de segmentation discursive, qui s'appuie sur des indices de structuration de surface apparaissant dans des corpus écrits, est proposée. Elle ouvre le champ à la conception de grammaires qui permettent de raisonner sur des catégories d'ordre macro-syntaxique afin de structurer la représentation discursive d'une phrase. Cette méthode est appliquée en amont d'une analyse syntaxique et l'amélioration des performances est évaluée. Les solutions proposées à ces deux problèmes nous permettent d'aborder l'extraction d'information sous un angle particulier : le système implémenté est évalué sur une tâche de correction d'Entités Nommées dans le contexte d'application des Systèmes de Question-Réponse. Ce besoin spécifique entraîne l'alignement de la définition d'une catégorie sur le type de réponse attendue par une question

    Parenthetical Classification for Information Extraction

    Get PDF
    International audienceThe article focuses on a rather unexplored topic in NLP: parenthetical classification. Parentheticals are defined as any text sequence between parentheses. They have been approached from isolated perspectives, like translation pairs extraction, but a full account of their syntactic and semantic properties is lacking. This article proposes a new comprehensive scheme drawn from corpus-based linguistic studies on French news. This research is part of a project investigating the structural aspects of punctuation signs and their usefulness for Information Extraction. Parenthetical classification is approached as a relation extraction problem split into three correlated subtasks: syntactic and semantic classification and head recognition. Corpus-based studies singled out 11 syntactic and 18 semantic relation subtypes. The article addresses automatic classification, using a combination of CRF and SVM. This baseline system reports 0.674 (head recognition), 0.908 (syntax), 0.734 (semantics), and 0.518 (end-to-end) of F1

    Ontologies Naturelles et Coercion : Formalisation de Connaissances À partir d'observations en Corpus

    No full text
    International audienceLe projet EmotiRob a pour finalité de créer un robot compagnon interactif destiné à des jeunes enfants fragilisés de 3 à 7 ans, comme par exemple dans le cas d'une longue hospitalisation. Le robot est une peluche conçue pour être tenu dans les bras, potentiellement capable d'émettre quelques sons simples et d'exprimer des émotions primaires. Le but est qu'il réagisse aux propos de l'enfant de façon aussi appropriée que possible. L'implémentation d'un tel robot requiert un module de " compréhension " des propos de l'enfant dont le but est de détecter les concepts présents dans l'énoncé, ainsi que les relations sémantiques qui les unissent. Pour réaliser la " compréhension " des énoncés, nous avons choisi d'adapter le système LOGUS, mise en oeuvre d'une approche logique permettant une compréhension robuste sur des tâches complexes. LOGUS n'utilise pas de patrons sémantiques prédéfinis : les associations possibles entre concepts reposent sur une connaissance sémantique qui autorise ou non leur regroupement. Notre objectif est de construire une ontologie naturelle à destination du module de compréhension. Elle repose sur la définition d'une hiérarchie de types sémantiques. Chaque concept est classé dans un ou plusieurs types en fonction des relations sémantiques que l'étude des collocations permet d'observer en corpus. Nous avons constitué un corpus de contes qui contienne une variété de concepts et de relations sémantiques propres à l'univers enfantin. Le corpus EmotiRob comporte 138 contes pour un total de 160 000 mots. Il est de taille relativement réduite mais constitue un point de départ satisfaisant pour l'objectif qui nous importe. Toutes les relations syntaxiques entre verbe et nom ont été extraites pour les verbes ayant une fréquence supérieure à 30 (130 verbes). L'analyse des listes d'unités lexicales (ayant la même fonction syntaxique vis-à-vis d'un verbe) montre d'une part que le sens du verbe co-varie avec le type sémantique de ses arguments, et d'autre part, avec quels types sémantiques un verbe peut se composer dans le cadre d'une relation syntaxique donnée, mettant ainsi en lumière les phénomènes de coercion, dans lesquels le type attendu par un prédicat entre en conflit avec le type observé. Nous avons cherché à modéliser et rendre compte de phénomènes comme la coercion pour des associations sémantiques attestées telles que " boire un verre ", " entendre la voiture " ou " passer les dragons " (considérés en l'occurrence comme des obstacles). Nous avons dû adjoindre à notre hiérarchie de types deux outils supplémentaires : la conversion de types et les propriétés saillantes. Par exemple, la conversion du type véhicule en type son (tout véhicule produit effectivement du bruit) permet à une voiture d'être entendue; préciser que l'une des propriétés saillantes d'un verre est d'être utilisé pour boire (dit rôle " TELIC ") permet de rendre possible l'analyse de " boire un verre ". Joints à la hiérarchie de types sémantiques, ces connaissances permettent une couverture satisfaisante des relations sémantiques effectivement observées, sans surgénération effective
    corecore