6 research outputs found

    Génération modulaire de grammaires formelles

    Get PDF
    The work presented in this thesis aim at facilitating the development of resources for natural language processing. Resources of this type take different forms, because of the existence of several levels of linguistic description (syntax, morphology, semantics, . . . ) and of several formalisms proposed for the description of natural languages at each one of these levels. The formalisms featuring different types of structures, a unique description language is not enough: it is necessary to create a domain specific language (or DSL) for every formalism, and to implement a new tool which uses this language, which is a long a complex task. For this reason, we propose in this thesis a method to assemble in a modular way development frameworks specific to tasks of linguistic resource generation. The frameworks assembled thanks to our method are based on the fundamental concepts of the XMG (eXtensible MetaGrammar) approach, allowing the generation of tree based grammars. The method is based on the assembling of a description language from reusable bricks, and according to a unique specification file. The totality of the processing chain for the DSL is automatically assembled thanks to the same specification. In a first time, we validated this approach by recreating the XMG tool from elementary bricks. Some collaborations with linguists also brought us to assemble compilers allowing the description of morphology and semantics.Les travaux présentés dans cette thèse visent à faciliter le développement de ressources pour le traitement automatique des langues. Les ressources de ce type prennent des formes très diverses, en raison de l’existence de différents niveaux d’étude de la langue (syntaxe, morphologie, sémantique,. . . ) et de différents formalismes proposés pour la description des langues à chacun de ces niveaux. Les formalismes faisant intervenir différents types de structures, un unique langage de description n’est pas suffisant : il est nécessaire pour chaque formalisme de créer un langage dédié (ou DSL), et d’implémenter un nouvel outil utilisant ce langage, ce qui est une tâche longue et complexe. Pour cette raison, nous proposons dans cette thèse une méthode pour assembler modulairement, et adapter, des cadres de développement spécifiques à des tâches de génération de ressources langagières. Les cadres de développement créés sont construits autour des concepts fondamentaux de l’approche XMG (eXtensible MetaGrammar), à savoir disposer d’un langage de description permettant la définition modulaire d’abstractions sur des structures linguistiques, ainsi que leur combinaison non-déterministe (c’est à dire au moyen des opérateurs logiques de conjonction et disjonction). La méthode se base sur l’assemblage d’un langage de description à partir de briques réutilisables, et d’après un fichier unique de spécification. L’intégralité de la chaîne de traitement pour le DSL ainsi défini est assemblée automatiquement d’après cette même spécification. Nous avons dans un premier temps validé cette approche en recréant l’outil XMG à partir de briques élémentaires. Des collaborations avec des linguistes nous ont également amené à assembler des compilateurs permettant la description de la morphologie de l’Ikota (langue bantoue) et de la sémantique (au moyen de la théorie des frames)

    Validation des caractéristiques d'usinage par des grammaires d'usinage attribuées : une contribution à la prise en compte des contraintes d'usinage en cours de conception

    Get PDF
    Pour rester concurrentielles, les entreprises oeuvrant à la conception et à l'usinage de pièces mécaniques unitaires ou en petites séries doivent relever le défi continuel de livrer des produits en un temps très court et avec un rapport qualité/prix meilleur que celui de leurs concurrents. L'application de l'ingénierie concourante est une des alternatives pour ces entreprises dans le but d'atteindre leurs objectifs. Cette philosophie amène les entreprises à prendre en compte en phase de conception l'ensemble des contraintes liées aux différents métiers intervenant au cours du cycle de vie du produit. Bien que considérée depuis une trentaine d'années, la prise en compte des contraintes de l'usinage en cours de conception reste un problème de recherche d'actualité. Le travail présenté dans ce mémoire porte sur une méthodologie permettant l'intégration de l'analyse d'usinage en phase de conception. Cette méthodologie a pour but de permettre au concepteur de valider, en cours de conception, des propositions de conception parfois non entièrement définies. Nous validons les données (géométriques et technologiques) du modèle produit par le biais de grammaires d'usinage attribuées qui se basent sur des modèles de machines et outils. Cette validation ne nécessite pas une conception finalisée, elle s'appuie sur un ensemble de caractéristiques d'usinage qui contiennent non seulement les données du modèle produit validées, mais également un procédé candidat et les méthodes d'analyse utilisées. Ces caractéristiques sont hiérarchisées afin d'assister le concepteur dans le processus de décision entre les alternatives de conception. Les modèles de machines et d'outils proposés sont valides pour cinq familles de procédés, à savoir, fraisage, tournage, perçage, alésage et brochage. Les structures de données ainsi que les composants d'une maquette logicielle sont spécifiés dans le dernier chapitre. Un exemple illustre ensuite notre démarche et nos concepts. Les perspectives de recherche qui découlent de nos travaux concernent d'une part le développement d'une grammaire générative qui, partant des formes fonctionnelles spécifiées par le concepteur, suggère les formes non fonctionnelles pour obtenir une conception usinable et d'autre part, le développement d'un module d'analyse et d'évaluation incrémentale d'usinage de pièces indiquant au concepteur les modifications ayant le plus d'impact d'un point de vue usinage

    Interprétation contextuelle et assistée de fonds d'archives numérisées (application à des registres de ventes du XVIIIe siècle)

    Get PDF
    Les fonds d'archives forment de grandes quantités de documents difficiles à interpréter automatiquement : les approches classiques imposent un lourd effort de conception, sans parvenir à empêcher la production d'erreurs qu'il faut corriger après les traitements.Face à ces limites, notre travail vise à améliorer la processus d'interprétation, en conservant un fonctionnement page par page, et en lui apportant des informations contextuelles extraites du fonds documentaire ou fournies par des opérateurs humains.Nous proposons une extension ciblée de la description d'une page qui permet la mise en place systématique d'échanges entre le processus d'interprétation et son environnement. Un mécanisme global itératif gère l'apport progressif d'informations contextuelles à ce processus, ce qui améliore l'interprétation.L'utilisation de ces nouveaux outils pour le traitement de documents du XVIIIe siècle a montré qu'il était facile d'intégrer nos propositions à un système existant, que sa conception restait simple, et que l'effort de correction pouvait être diminué.Fonds, also called historical document collections, are important amounts of digitized documents which are difficult to interpret automatically: usual approaches require a lot of work during design, but do not manage to avoid producing many errors which have to be corrected after processing.To cope with those limitations, our work aimed at improving the interpretation process by making use of information extracted from the fond, or provided by human operators, while keeping a page by page processing.We proposed a simple extension of page description language which permits to automatically generate information exchange between the interpretation process and its environment. A global iterative mechanism progressively brings contextual information to the later process, and improves interpretation.Experiments and application of those new tools for the processing of documents from the 18th century showed that our propositions were easy to integrate in an existing system, that its design is still simple, and that required manual corrections were reduced.RENNES-INSA (352382210) / SudocSudocFranceF

    Interprétation linguistique et computationnelle des valeurs par défaut dans le domaine syntaxique

    Full text link
    Thèse diffusée initialement dans le cadre d'un projet pilote des Presses de l'Université de Montréal/Centre d'édition numérique UdeM (1997-2008) avec l'autorisation de l'auteur

    Acquisition de liens sémantiques à partir d'éléments de mise en forme des textes: exploitation des structures énumératives

    Get PDF
    The past decade witnessed significant advances in the field of relation extraction from text, facilitating the building of lexical or semantic resources. However, the methods proposed so far (supervised learning, kernel methods, distant supervision, etc.) don't fully exploit the texts: they are usually applied at the sentential level and they don't take into account the layout and the formatting of texts.In such a context, this thesis aims at expanding those methods and makes them layout-aware for extracting relations expressed beyond sentence boundaries. For this purpose, we rely on the semantics conveyed by typographical (bullets, emphasis, etc.) and dispositional (visual indentations, carriage returns, etc.) features. Those features often substitute purely discursive formulations. In particular, the study reported here is dealing with the relations carried by the vertical enumerative structures. Although they display discontinuities between their various components, the enumerative structures can be dealt as a whole at the semantic level. They form textual structures prone to hierarchical relations.This study was divided into two parts. (i) The first part describes a model representing the hierarchical structure of documents. This model is falling within the theoretical framework representing the textual architecture: an abstraction of the layout and the formatting, as well as a strong connection with the rhetorical structure are achieved. However, our model focuses primarily on the efficiency of the analysis process rather than on the expressiveness of the representation. A bottom-up method intended for building automatically this model is presented and evaluated on a corpus of PDF documents.(ii) The second part aims at integrating this model into the process of relation extraction. In particular, we focused on vertical enumerative structures. A multidimensional typology intended for characterizing those structures was established and used into an annotation task. Thanks to corpus-based observations, we proposed a two-step method, by supervised learning, for qualifying the nature of the relation and identifying its arguments. The evaluation of our method showed that exploiting the formatting and the layout of documents, in combination with standard lexico-syntactic features, improves those two tasks.Ces dernières années de nombreux progrès ont été faits dans le domaine de l'extraction de relations à partir de textes, facilitant ainsi la construction de ressources lexicales ou sémantiques. Cependant, les méthodes proposées (apprentissage supervisé, méthodes à noyaux, apprentissage distant, etc.) n’exploitent pas tout le potentiel des textes : elles ont généralement été appliquées à un niveau phrastique, sans tenir compte des éléments de mise en forme.Dans ce contexte, l'objectif de cette thèse est d'adapter ces méthodes à l'extraction de relations exprimées au-delà des frontières de la phrase. Pour cela, nous nous appuyons sur la sémantique véhiculée par les indices typographiques (puces, emphases, etc.) et dispositionnels (indentations visuelles, retours à la ligne, etc.), qui complètent des formulations strictement discursives. En particulier, nous étudions les structures énumératives verticales qui, bien qu'affichant des discontinuités entre leurs différents composants, présentent un tout sur le plan sémantique. Ces structures textuelles sont souvent révélatrices de relations hiérarchiques. Notre travail est divisé en deux parties. (i) La première partie décrit un modèle pour représenter la structure hiérarchique des documents. Ce modèle se positionne dans la suite des modèles théoriques proposés pour rendre compte de l'architecture textuelle : une abstraction de la mise en forme et une connexion forte avec la structure rhétorique sont faites. Toutefois, notre modèle se démarque par une perspective d'analyse automatique des textes. Nous en proposons une implémentation efficace sous la forme d'une méthode ascendante et nous l'évaluons sur un corpus de documents PDF. (ii) La seconde partie porte sur l'intégration de ce modèle dans le processus d'extraction de relations. Plus particulièrement, nous nous sommes focalisés sur les structures énumératives verticales. Un corpus a été annoté selon une typologie multi-dimensionnelle permettant de caractériser et de cibler les structures énumératives verticales porteuses de relations utiles à la création de ressources. Les observations faites en corpus ont conduit à procéder en deux étapes par apprentissage supervisé pour analyser ces structures : qualifier la relation puis en extraire les arguments. L'évaluation de cette méthode montre que l'exploitation de la mise en forme, combinée à un faisceau d'indices lexico-syntaxiques, améliore les résultats

    Autorité, parole et pouvoir : une approche anthropologique de l'activité néologique inuit au Nunavut

    Get PDF
    Dans une approche qui met à profit les apports de l’anthropologie nord-américaine et de l’ethnolinguistique européenne, la thèse étudie l’activité néologique inuit concertée au Nunavut, appelée taiguusiliurniq. Dans un premier temps, y sont examinés en diachronie les rapports de force linguistiques que les Inuit de l’Arctique oriental canadien ont entretenus au fil des siècles avec les explorateurs, les baleiniers, les marchands, les missionnaires, et enfin l’administration, et qui constituent l’arrière-plan sur lequel se sont arrimés les métiers de la traduction en langue inuit et les débuts de l’institutionnalisation de l’innovation lexicale. La deuxième partie s’intéresse à l’émergence de la terminologie propre à la sphère publique et aux défis que pose sa normalisation sur le plan juridique, technique, linguistique et culturel. La dernière partie est consacrée à un examen minutieux de cette terminologie, alimenté par des données issues d’un travail de compilation lexicale et par la description détaillée d’un atelier de développement terminologique. Sous la forme d’une synthèse, sont mises au jour les bases productives et affixes récurrents, l’adoption des modes de désignation, les questions liées au découpage du réel et enfin les caractéristiques et défis actuels de la langue inuit en tant que langue spécialisée, dans un contexte où la parole contribue à pérenniser les rapports d’autorité et de pouvoir. Élaboré sous la forme d’une matrice, le lexique analytique trilingue (inuktitut-français-anglais), placé en annexe, constitue un outil d’analyse voué à nourrir la réflexion d’ordre lexicologique engagée par les professionnels de la langue inuit au Nunavut. Mots clés : Inuit, inuktitut, ethnolinguistique, néologie, lexicologie, parole, autorité, pouvoir, Nunavut, Arctique canadienUsing North American anthropology and European ethnolinguistics in a combined approach, this thesis studies Inuit neological activity undertaken in concerted action, called taiguusiliurniq. The first part examines diachronically the relations of power as regards language maintained over centuries between the Inuit of Eastern Arctic Canada and explorers, whalers, merchants, missionaries and finally with the administration; all of these making up the background on which arose the professions of interpreters and translators working with Inuktitut, along with the early days of institutionalized neology. The second part deals with the emergence of the terminology specific to the public sphere and to the challenges of its standardization in legal, technical, linguistic and cultural terms. The last part offers a careful examination of this terminology, fueled by data extracted from the creation of a lexicon and by a detailed description of a terminology development workshop. In a synthetic format, recurrent verb and noun roots along with affixes are highlighted, as well as choices regarding modes of designation, and the current challenges of Inuit language as a specialized language in a context where speech plays a part in the perpetuation of the relations of power and authority as regards language. Developed as a matrix, the trilingual analytical lexicon (Inuktitut-French-English) placed in the appendix is designed as an analytical tool meant to feed the lexicological reflection that Nunavut Inuit language professionals are engaged in. Keywords: Inuit, Inuktitut, ethnolinguistics, neology, lexicology, speech, authority, power, Nunavut, Canadian Arcti
    corecore