Méthode pour l'analyse automatique de structures formelles sur documents multilingues

Abstract

This thesis deals with automatic parsing of formal structures in written texts.It begins with a presentation of documents in their multilingual dimension and ofthe necessity to process them in this way. We study their multilingual structureand present how to compute it with the help of a language identification tool.Then, we present an original syntactic parsing method of unrestricted frenchsentences. This method is a generalization and an abstraction of Jacques Vergne'sresearches. The syntactic structures we are interested in are the minimal syntagmand the proposition ; both units can be defined as multilingual units so that themethod can be applied to various languages.We propose two processes which allow the building of these units. Both processesconsider texts as flows and build syntactic structures thanks to a relationalconstraints propagation. As the syntagmatic and propositional structures are dependent,they are built up by the interaction of the two processes. We show thatboth processes are identical if we disregard the nature of the unit they build upand the rule base they use.The main thread of this thesis is the method. Each time a process is described,we emphasize the related method. We show that this method is unique. Eachstructure is computed with the help of formal and positionnal clues: these cluescome from the study of the units located inside the structure (internal clues) orfrom the study of the function of the structure in its upper-level units (externalclues).Cette thèse traite de l'analyse automatique de structures formelles de l'écrit.Elle commence par une excursion dans le multilinguisme au cours de laquelle nousprésentons les documents dans leur dimension multilingue et montrons la nécessitéde les traiter comme tels. Nous étudions leur structure multilingue et développonscomment la calculer à l'aide d'un identificateur de langues.Nous poursuivons par l'exposé d'une méthode originale d'analyse syntaxiqueautomatique d'énoncés français tout-venants. Cette méthode est issue de nos travauxde généralisation et d'abstraction des recherches de Jacques Vergne. Lesstructures syntaxiques auxquelles nous nous sommes particulièrement intéressésont le syntagme minimal et la proposition ; deux unités auxquelles il est possibled'associer une définition ayant une validité multilingue, ce qui rend la méthodeapplicable à diverses langues.Nous proposons deux processus permettant la construction de ces unités. Cesprocessus considèrent les énoncés comme des flux textuels et construisent chacunleurs structures syntaxiques par propagation de contraintes relationnelles. Lesstructures intra-syntagmatique et intra-propositionnelle étant dépendantes, ellessont construites par l'interaction des deux processus, le second processus acceptantde travailler sur des unités partiellement définies. Enfin, nous montrons queles deux processus sont identiques si l'on fait abstraction de la nature de l'unitéqu'ils construisent et de la base de règles qu'ils manipulent.Le fil conducteur de cette thèse est la méthode. A chaque calcul de structure,nous mettons en effet l'accent sur la méthode ayant permis son obtention. Nousmontrons que cette méthode est unique. Chaque structure est en effet calculée àpartir d'indices formels et positionnels à la fois internes et externes : internes parl'étude des unités qui composent la structure, externes par l'étude du rôle de cettestructure dans l'unité qui l'intègre

    Similar works

    Full text

    thumbnail-image

    Available Versions