11 research outputs found

    Génération modulaire de grammaires formelles

    Get PDF
    The work presented in this thesis aim at facilitating the development of resources for natural language processing. Resources of this type take different forms, because of the existence of several levels of linguistic description (syntax, morphology, semantics, . . . ) and of several formalisms proposed for the description of natural languages at each one of these levels. The formalisms featuring different types of structures, a unique description language is not enough: it is necessary to create a domain specific language (or DSL) for every formalism, and to implement a new tool which uses this language, which is a long a complex task. For this reason, we propose in this thesis a method to assemble in a modular way development frameworks specific to tasks of linguistic resource generation. The frameworks assembled thanks to our method are based on the fundamental concepts of the XMG (eXtensible MetaGrammar) approach, allowing the generation of tree based grammars. The method is based on the assembling of a description language from reusable bricks, and according to a unique specification file. The totality of the processing chain for the DSL is automatically assembled thanks to the same specification. In a first time, we validated this approach by recreating the XMG tool from elementary bricks. Some collaborations with linguists also brought us to assemble compilers allowing the description of morphology and semantics.Les travaux prĂ©sentĂ©s dans cette thĂšse visent Ă  faciliter le dĂ©veloppement de ressources pour le traitement automatique des langues. Les ressources de ce type prennent des formes trĂšs diverses, en raison de l’existence de diffĂ©rents niveaux d’étude de la langue (syntaxe, morphologie, sĂ©mantique,. . . ) et de diffĂ©rents formalismes proposĂ©s pour la description des langues Ă  chacun de ces niveaux. Les formalismes faisant intervenir diffĂ©rents types de structures, un unique langage de description n’est pas suffisant : il est nĂ©cessaire pour chaque formalisme de crĂ©er un langage dĂ©diĂ© (ou DSL), et d’implĂ©menter un nouvel outil utilisant ce langage, ce qui est une tĂąche longue et complexe. Pour cette raison, nous proposons dans cette thĂšse une mĂ©thode pour assembler modulairement, et adapter, des cadres de dĂ©veloppement spĂ©cifiques Ă  des tĂąches de gĂ©nĂ©ration de ressources langagiĂšres. Les cadres de dĂ©veloppement crĂ©Ă©s sont construits autour des concepts fondamentaux de l’approche XMG (eXtensible MetaGrammar), Ă  savoir disposer d’un langage de description permettant la dĂ©finition modulaire d’abstractions sur des structures linguistiques, ainsi que leur combinaison non-dĂ©terministe (c’est Ă  dire au moyen des opĂ©rateurs logiques de conjonction et disjonction). La mĂ©thode se base sur l’assemblage d’un langage de description Ă  partir de briques rĂ©utilisables, et d’aprĂšs un fichier unique de spĂ©cification. L’intĂ©gralitĂ© de la chaĂźne de traitement pour le DSL ainsi dĂ©fini est assemblĂ©e automatiquement d’aprĂšs cette mĂȘme spĂ©cification. Nous avons dans un premier temps validĂ© cette approche en recrĂ©ant l’outil XMG Ă  partir de briques Ă©lĂ©mentaires. Des collaborations avec des linguistes nous ont Ă©galement amenĂ© Ă  assembler des compilateurs permettant la description de la morphologie de l’Ikota (langue bantoue) et de la sĂ©mantique (au moyen de la thĂ©orie des frames)

    Une approche catégorique unifiée pour la récriture de graphes attribués

    Get PDF
    Due to the new requirements of modern software, researchers in software engineering have created more efficient development methods based on the concept of modeling (for example, the MDA) to control every stage of development. From a theoretical point of view, these methods are based on graphs and graph transformations. The theoretical difficulty lies in adding on these graphs data on which it must be possible to do computations. Our work has focused on developing a mathematical framework to implement these changes. The theories of categories (through the double pushout) and inductive types (very expressive computation functions) allowed us to provide a unified solution to this problem in which a single operation can transform the structure and compute with the attributes. In addition, the usual properties of rewriting systems are checked.En génie logiciel, les méthodes modernes de développement (ex. le MDA) s'appuient de maniÚre cruciale sur les notions de modélisation et de transformation. Ces méthodes peuvent s'interpréter à l'aide de la théorie des graphes. La difficulté théorique réside aujourd'hui dans l'ajout sur ces graphes de données supplémentaires sur lesquelles il est nécessaire de pouvoir effectuer des calculs. Notre travail s'est focalisé sur le développement d'un cadre mathématique sûr afin d'appliquer ces transformations. Les théories des catégories (à travers le double pushout) et des types inductifs (fonctions de calcul trÚs expressives) nous ont permis de donner une solution unifiée à ce problÚme dans laquelle une seule opération permet de travailler sur la structure et de calculer avec les attributs en définissant des fonctions entre graphes possédant une partie contravariante pour le travail sur les attributs. De plus, les propriétés usuelles des systÚmes de récriture sont vérifiées

    DE LA MODELISATION A L'EXPLOITATION DES DOCUMENTS A STRUCTURES MULTIPLES

    Get PDF
    With the recent development of new information and communication technologies, the paper documents are transformed to digital documents. Furthermore, it considers that the document is no longer seen as a whole, or as a monolithic bloc, but as organized entities. Exploiting these documents amount to identify and locate these entities. These entities are connected by relationships to give a "form" to document. Several types of relationships may occur, so that several "forms" of a document emerge. These different materializations of the same document are related to different uses of the same document and are essential for optimal management and shared of holdings. The work presented in this thesis aims to address the challenges of representing different materializations of a document through its representation of entities and their relationships. If those materializations are translated through structures, the issues are related to the representation of multistructured documents. Our work focuses mainly on the modeling, integration and exploitation of multistructured documents: (1) Proposal of multistructured document model. This model incorporates two levels of description: a specific level to describe each document through entities that compose and a generic level to identify document kinds through the grouping of similar structures. (2) Proposal of techniques for extracting structure (implicit or explicit) of a document (the specific level) and classification of this structure with respect to common structures (the generic level). The classification algorithm proposed includes a calculation of distance called "structural" (comparison of trees and graphs). This classification is associated with a process of verification of the "cohesion" of classes and possible reorganization of disrupted classes. (3) Proposal of document exploitation technical from their structures and their contents: (a) a document search that can reproduce documentary granules through criteria based on research of structures and / or content, (b) a multidimensional analysis that is to analyze and visualize the documentary information across multiple dimensions (of structures and / or content). In order to validate our proposals, we have developed a tool for integration and analysis of multistructured documents, called MDOCREP (Multistructured Document Repository). This tool provides on the one hand, the extraction and classification of document structures, and on the other hand, the querying and the multidimensional analysis of documents from their different structures.Avec l'Ă©volution des nouvelles technologies de l'information et de la communication, les documents papier ont laissĂ© la place aux documents numĂ©riques. On considĂšre de plus que le document n'est plus vu comme un tout, ni comme un bloc monolithique, mais comme un ensemble organisĂ© d'entitĂ©s. Exploiter ces documents revient Ă  identifier et retrouver ces entitĂ©s. Ces derniĂšres sont reliĂ©es par des relations permettant de donner une « forme » au document. Plusieurs types de relations peuvent apparaĂźtre, de sorte Ă  ce que plusieurs « formes » d'un mĂȘme document Ă©mergent. Ces diffĂ©rentes matĂ©rialisations d'un mĂȘme document sont liĂ©es Ă  des usages diffĂ©rents d'un mĂȘme document et sont primordiales pour une gestion optimale et partagĂ©e des fonds documentaires. Les travaux prĂ©sentĂ©s dans cette thĂšse visent Ă  faire face aux dĂ©fis de reprĂ©sentation des diffĂ©rentes matĂ©rialisations d'un document au travers de la reprĂ©sentation de ses entitĂ©s et de leurs relations. Si ces matĂ©rialisations sont traduites par des structures, les enjeux concernent la reprĂ©sentation des documents Ă  structures multiples. Nos travaux portent essentiellement sur la modĂ©lisation, l'intĂ©gration et l'exploitation des documents Ă  structures multiples : (1) Proposition d'un modĂšle de documents multistructurĂ©s. Ce modĂšle intĂšgre deux niveaux de description : un niveau spĂ©cifique permettant de dĂ©crire chaque document au travers des entitĂ©s qui le composent et un niveau gĂ©nĂ©rique permettant de dĂ©finir des typologies de documents au travers du regroupement de structures similaires. (2) Proposition des techniques d'extraction de structure (implicite ou explicite) d'un document (niveau spĂ©cifique) et de classification de cette structure par rapport Ă  des structures communes (niveau gĂ©nĂ©rique). L'algorithme de classification proposĂ© intĂšgre un calcul d'une distance dite « structurelle » (comparaison d'arbres et de graphes). Cette dĂ©marche de classification est associĂ©e Ă  une dĂ©marche de vĂ©rification de la « cohĂ©sion » des classes et de rĂ©organisation Ă©ventuelle des classes perturbĂ©es. (3) Proposition de techniques d'exploitation des documents Ă  partir de leurs structures et de leur contenu : (a) une recherche de documents qui permet de restituer des granules documentaires selon des critĂšres de recherches basĂ©s sur la ou les structures et/ou le contenu ; (b) une analyse multidimensionnelle qui consiste Ă  analyser et visualiser les informations documentaires selon plusieurs dimensions (de structures et/ou de contenu). Pour valider nos propositions, nous avons dĂ©veloppĂ© un outil d'aide Ă  l'intĂ©gration et Ă  l'analyse de documents Ă  structures multiples, intitulĂ© MDOCREP (Multistructured DOCument REPository). Cet outil assure d'une part, l'extraction et la classification des structures de documents, et d'autre part, l'interrogation et la restitution multidimensionnelle des documents Ă  partir de leurs diffĂ©rentes structures

    Maßtrise de la qualité des transcriptions numériques dans les projets de numérisation de masse

    Get PDF
    This work focuses on the assessment of characters recognition results produced automatically by optical character recognition software (OCR on mass digitization projects. The goal is to design a global control system robust enough to deal with BnF documents collection. This collection includes old documents which are difficult to be treated by OCR. We designed a word detection system to detect missed words defects in OCR results, and a words recognition rate estimator to assess the quality of word recognition results performed by OCR.We create two kinds of descriptors to characterize OCR outputs. Image descriptors to characterize page segmentation results and cross alignment descriptors to characterize the quality of word recognition results. Furthermore, we adapt our learning process to make an adaptive decision or prediction systems. We evaluated our control systems on real images selected randomly from BnF collection. The mmissed word detection system detects 84.15% of words omitted by the OCR with a precision of 94.73%. The experiments performed also showed that 80% of the documents of word recognition rate less than 98% are detected with an accuracy of 92%. It can also automatically detect 45% of the material having a recognition rate less than 70% with greater than 92% accuracy.Ce travail s’intĂ©resse au contrĂŽle des rĂ©sultats de transcriptions numĂ©riques produites automatiquement par des logiciels de reconnaissance optique de caractĂšres (OCR), lors de la rĂ©alisation de projets de numĂ©risation de masse de documents. Le but de nos travaux est de concevoir un systĂšme de contrĂŽle des rĂ©sultats d’OCR suffisamment robuste pour ĂȘtre performant sur l’ensemble des documents numĂ©risĂ©s Ă  la BnF. Cettecollection est composĂ©e de documents anciens dont les particularitĂ©s les rendent difficiles Ă  traiter par les OCR, mĂȘme les plus performants. Nous avons conçu un systĂšme de dĂ©tection des mots omis dans les transcriptions, ainsi qu’une mĂ©thode d’estimation des taux dereconnaissance des caractĂšres. Le contexte applicatif exclu de recourir Ă  une vĂ©ritĂ© terrain pour Ă©valuer les performances. Nous essayons donc de les prĂ©dire. Pour cela nous proposons diffĂ©rents descripteurs qui permettent de caractĂ©riser les rĂ©sultats des transcriptions. Cette caractĂ©risation intervient Ă  deux niveaux. Elle permet d’une part de caractĂ©riser la segmentation des documents Ă  l’aide de descripteurs de textures, et d’autres part de caractĂ©riser les textes produits en ayant recours Ă  un second OCR qui joue le rĂŽle d’une rĂ©fĂ©rence relative. Dans les deux cas, les descripteurs choisis permettent de s’adapter aux propriĂ©tĂ©s des corpus Ă  contrĂŽler. L’adaptation est Ă©galement assurĂ©e par une Ă©tape d’apprentissage des Ă©tages de dĂ©cision ou de prĂ©diction qui interviennent dans le systĂšme. Nous avons Ă©valuĂ© nos systĂšmes de contrĂŽle sur des bases d’images rĂ©elles sĂ©lectionnĂ©es dans les collections documentaires de la BnF. Le systĂšme dĂ©tecte 84, 15% des mots omis par l’OCR avec une prĂ©cision de 94, 73%. Les expĂ©rimentations rĂ©alisĂ©es ont Ă©galement permis de montrer que 80% des documents prĂ©sentant un taux de reconnaissance mots infĂ©rieur Ă  98% sont dĂ©tectĂ©s avec une prĂ©cision de 92%. On peut Ă©galement dĂ©tecter automatiquement 45% des documents prĂ©sentant un taux de reconnaissance infĂ©rieur Ă  70% avec une prĂ©cision supĂ©rieure Ă  92%

    Actes des 29es Journées Francophones d'Ingénierie des Connaissances, IC 2018

    Get PDF
    International audienc

    Complexification des données et des techniques en linguistique : contributions du TAL aux solutions et aux problÚmes

    Get PDF
    Ce mémoire d'habilitation est l'occasion de faire le bilan de mon activité d'enseignant-chercheur en traitement automatique des langues (TAL) dans un laboratoire de linguistique (CLLE-ERSS) et des principales évolutions de l'outillage informatique de la linguistique au cours des 15 derniÚres années. Mes recherches portent notamment sur le repérage de structures morphosyntaxiques dans les textes, l'analyse des structures du discours et l'acquisition de ressources lexicales à partir de corpus. Certaines se positionnent dans des cadres applicatifs comme la recherche d'information et la classification de textes, mais aussi dans des contextes plus spécifiques en lien avec d'autres disciplines (médecine, psychologie, sociologie...). En m'appuyant sur la diversité de ces travaux et de mes collaborations, j'identifie quatre dimensions d'évolution principales : - l'augmentation de la masse de données langagiÚres disponibles et notamment la part croissante de l'utilisation du Web comme corpus ; - la complexification de l'outillage informatique disponible pour gérer la masse et la variété des données accessibles (outils de constitution et d'interrogation de corpus) ; - la complexification de l'annotation des données langagiÚres, qu'elle soit manuelle, assistée ou automatique ; - la montée en puissance, en TAL mais aussi en linguistique descriptive, des méthodes quantitatives (depuis l'analyse statistique jusqu'aux techniques de fouille de données et d'apprentissage). Si les avancées techniques du TAL ont permis d'accroßtre de façon conséquente les potentialités d'investigation du matériau langagier, et dans certains cas de dégager de nouveaux questionnements, elles ont aussi contribué à creuser un fossé entre les deux composantes (informatique et linguistique) de la discipline. A travers ma propre expérience d'acteur ou d'accompagnateur de ces changements et avec une vocation de "passeur" interdisciplinaire, je cherche à dégager les principaux enjeux actuels pour la linguistique outillée : - doter la linguistique descriptive d'outils de visualisation de données pour aborder la complexité, en exploitant les avancées théoriques et techniques de ce nouveau champ disciplinaire et en les adaptant aux spécificités du matériau langagier ; - rendre abordables aux linguistes les techniques fondamentales de l'analyse statistique, mais aussi les méthodes d'apprentissage artificiel seules capables d'assister l'investigation et l'exploitation de données massives et complexes ; - replacer la linguistique au sein des développements actuels du TAL, notamment par le biais de l'utilisation de descripteurs linguistiques riches dans les outils de traitement par apprentissage, pour un bénéfice mutuel

    Une archéologie de la logique du sens : arithmétique et contenu dans le processus de mathématisation de la logique au XIXe siÚcle

    Get PDF
    This work aims at providing a new general interpretation of the logic that was born with the work of Gottlob Frege, in order to make explicit one of the most decisive conditions of contemporary philosophy: the one that concerns the relation of philosophy to formal practices and knowledge. Its initial hypothesis states that Frege’s primary and most constant project was that of building a logic of content. However, the intelligibility thus gained does not intend to unearth a new underlying unity of Frege’s thought; it rather aims at localising the real gaps within Frege’s formulations that have not been identified as such until now. Still, those gaps do not require to be filled, for Frege’s logic is indeed effective despite this indeterminacy. Rather than the gaps, it is this ungrounded effectiveness that needs to be explained. Our answer to this question is that the effectiveness of Frege’s logic as a logic of content comes from a certain relationship with Arithmetic; in fact, Frege’s logic is constructed on the template of Arithmetic, before it becomes capable of constructing Arithmetic in turn. The task then arises to characterise precisely, at this constitutive and non-foundational level, the nature of the relation between a logic of content as a specific form of logic in the framework of its mathematization, and Arithmetic as a particular mathematical domain. From the meticulous study of the constitution of the Fregean system, an idea can be drawn that constitutes the central argument of this thesis: the various mathematical or formalised logical systems rest upon mathematics only through an intermediary dimension consisting in the practice, the reflection and the elaboration of signs, where the circulations between these two contemporary domains of formal knowledge (mathematics and logic) are constructed and justified. From this point of view, we then lay out a detailed study of the rise of the two most significant projects for formalizing logic in the nineteenth century: Frege’s and Boole’s (and the Booleans’). In the space leading from mathematical practices to logical systematisations through semiotic functioning, two general schemes or semiotic formal regimes can be drawn: “Symbolic Abstraction”, leading from abstract Algebra to Boolean propositional logic; and “Expressionism”, leading from Arithmetic to Predicate Calculus, associated to Frege’s work. More deeply, our research reveals a deep connexion between logical content and Arithmetic (understood as the theory of integers), which horizontally crosses the different semiotic regimes. Following the multiple dimensions of this nexus – which is responsible for the introduction of the category of sense in the framework of mathematized logic – a formal theory of expression can be drawn, which defines the conditions for the actual development of a logic of sense.Ce travail s’engage dans la reconstitution d’une intelligibilitĂ© globale nouvelle pour la logique qui est nĂ©e avec Frege afin de restituer l’une des conditions dĂ©cisives pour la philosophie contemporaine, Ă  savoir celle qui concerne son rapport aux pratiques et aux savoirs formels. Son hypothĂšse initiale affirme que le projet premier et constant de Frege a Ă©tĂ© celui d’une logique du contenu. Pourtant, il ne s’agit pas de rĂ©investir l’Ɠuvre de Frege d’une cohĂ©rence nouvelle dans le but de rĂ©tablir une unitĂ© stable. Car l’intelligibilitĂ© procurĂ©e par cette reconstitution permet de localiser dans les formulations de Frege de vĂ©ritables lacunes qui ne semblent pas avoir Ă©tĂ© identifiĂ©es comme telles jusqu’ici. Que la logique de Frege soit efficace malgrĂ© ces lacunes, voilĂ  ce qu’il faut expliquer. La rĂ©ponse que nous donnons Ă  ces questions est que l’efficacitĂ© de la logique de Frege en tant que logique du contenu provient d’un certain rapport Ă  l’ArithmĂ©tique, Ă  savoir celui par lequel c’est la logique qui est construite d’aprĂšs les principes de l’ArithmĂ©tique, avant qu’elle ne soit capable de la construire Ă  son tour. La question se pose alors de caractĂ©riser avec prĂ©cision Ă  ce niveau constitutif, non « fondationnel », la nature du rapport entre une logique du contenu comme forme spĂ©cifique de la logique dans le cadre de sa mathĂ©matisation, et l’ArithmĂ©tique comme domaine mathĂ©matique particulier. De l’analyse minutieuse de la constitution du systĂšme logique frĂ©gĂ©en, une idĂ©e se dĂ©gage qui constitue la thĂšse centrale de notre travail : les diffĂ©rents systĂšmes de la logique mathĂ©matisĂ©e ou formelle ne reposent sur les mathĂ©matiques que par l’intermĂ©diaire d’une dimension d’exercice, de rĂ©flexion et d’élaboration de signes, oĂč les circulations et les emprunts entre ces deux savoirs formels contemporains que sont les mathĂ©matiques et la logique se construisent et se justifient. C’est donc cette thĂšse qu’il s’agit de dĂ©montrer, par une Ă©tude dĂ©taillĂ©e des processus d’émergence des deux plus grands projets de formalisation de la logique du XIXe siĂšcle : celui de Frege et celui de Boole et des BoolĂ©ens. Dans cet espace qui mĂšne des pratiques mathĂ©matiques aux systĂ©matisations logiques Ă  travers les fonctionnements des signes, deux rĂ©gimes gĂ©nĂ©raux se dessinent : celui d’ « Abstraction symbolique » qui mĂšne de l’AlgĂšbre abstraite Ă  la Logique propositionnelle boolĂ©enne ; et celui de l’ « Expressionnisme », qui mĂšne de l’ArithmĂ©tique au Calcul logique des prĂ©dicats, associĂ©e aux travaux de Frege. Mais plus profondĂ©ment, par l’effet d’une lecture symptomale au plus prĂšs des dynamiques internes Ă  ces processus, le prĂ©sent travail dĂ©cĂšle un lien transversal entre le contenu logique d’une part et l’ArithmĂ©tique comme ensemble des dĂ©terminations du nombre de l’autre. En suivant ce lien, qui s’avĂšre le responsable de l’introduction de la catĂ©gorie de sens dans le cadre de la logique mathĂ©matisĂ©e, une thĂ©orie de l’expression formelle se dessine, dĂ©finissant les conditions pour le dĂ©veloppement d’une logique du sens

    Manager l'interface. Approche par la complexité du processus collaboratif de conception, d'intégration et de réalisation (modÚle transactionnel de l'acteur d'interface et dynamique des espaces d'échanges)

    Get PDF
    Dans de grands projets tels qu accĂ©lĂ©rateurs ou dĂ©tecteurs de particules, les interfaces et les frontiĂšres se rĂ©vĂšlent Ă  la fois critiques et sous-estimĂ©es. Le manageur technique, acteur parmi les autres, se trouve placĂ© Ă  des nƓuds de rĂ©seau oĂč il doit mettre en Ɠuvre des espaces d'Ă©changes afin de susciter des conduites collaboratives. À partir d Ă©tudes de cas issus du terrain du CERN, la thĂšse adopte trois principes issus de la littĂ©rature de la complexitĂ©, les principes dialogique,hologrammique et d auto-Ă©co-organisation. Elle propose une construction mĂ©thodologique matricielleoriginale menant Ă  l'Ă©laboration d'un modĂšle transactionnel de l acteur d interface.L espace d Ă©changes collaboratif devient le lieu oĂč se dĂ©ploie la dynamique de transformation del acteur d interface en acteur-frontiĂšre. Les objets intermĂ©diaires Ă©laborĂ©s lors du processus deconception / intĂ©gration y sont simultanĂ©ment transformĂ©s en objets frontiĂšres, qui sont mobilisĂ©spour la rĂ©alisation du produit dans le cadre rĂ©cursivement dĂ©terminĂ© du projet. L intĂ©rĂȘt d uneapproche globale et couplĂ©e de cette dynamique des espaces d'Ă©changes conduit Ă  proposer un hypercompas afin d'orienter l agir penser du manageur technique.An approach through the complexity of the collaborative process of design, integration and realization:a transactional model of the interface actor and dynamics of exchange spacesAbstractIn large projects such as particle accelerators or detectors, interfaces and boundaries revealthemselves to be both critical and underestimated. The technical manager, an actor among others,finds himself placed at network nodes where he must set up exchanges spaces in order to generatecollaborative behaviours. Starting with case studies from the field of CERN, the thesis follows threeprinciples based on the dialogical, the hologramic and the self-eco-organization principles, asexpanded in the writings on complexity. It puts forward an original methodological matrix constructionleading to a transactional model of the interface actor.The collaborative exchanges spaces builds itself as a place for the dynamic transformation of theinterface actor into a boundary actor. Intermediate objects, created during the design / integrationprocess, are simultaneously transformed into boundary objects. They are instrumental in therealization of the product: this takes place in the framework of the project which has been determinedthrough a recursive process. The interest generated by such a global and combined approach of thisdynamic process leads to the proposal of a hypercompass , with the aim of providing the means forthe technical manager to orient his acting thinking .SAVOIE-SCD - Bib.Ă©lectronique (730659901) / SudocGRENOBLE1/INP-Bib.Ă©lectronique (384210012) / SudocGRENOBLE2/3-Bib.Ă©lectronique (384219901) / SudocSudocFranceF
    corecore