829 research outputs found

    DĂ©tection automatique de la structure organisationnelle de documents Ă  partir de marqueurs visuels et lexicaux

    Get PDF
    National audienceLa compréhension d'un texte s'opère à travers les niveaux d'information visuelle, logique et discursive, et leurs relations d'interdépendance. La majorité des travaux ayant étudié ces relations a été menée dans le cadre de la génération de textes, où les propriétés visuelles sont inférées à partir des éléments logiques et discursifs. Les travaux présentés ici adoptent une démarche inverse en proposant de générer automatiquement la structure organisationnelle du texte (structure logique) à partir de sa forme visuelle. Le principe consiste à (i) labelliser des blocs visuels par apprentissage afin d'obtenir des unités logiques et (ii) relier ces unités par des relations de coordination ou de subordination pour construire un arbre. Pour ces deux tâches, des Champs Aléatoires Conditionnels et un Maximum d'Entropie sont respectivement utilisés. Après apprentissage, les résultats aboutissent à une exactitude de 80,46% pour la labellisation et 97,23% pour la construction de l'arbre

    " Quand rédiger c'est décrire " : Mise en forme matérielle des textes et construction d'ontologies à partir de textes

    Get PDF
    National audienceLa construction d'ontologie à partir de textes met classiquement en oeuvre des outils issus du Traitement Automatique de la Langue et/ou des outils d'apprentissage supervisé ou non. Dans cet article nous revenons sur la possibilité d'exploiter des objets textuels à la fois facilement identifiables, souvent fertiles en connaissances ontologiques, et dont la sémantique peut clairement être explicitée par les théories du discours : les structures énumératives. Ici, nous ajoutons une nouvelle classe de relations sémantiques portée par les structures énumératives très présentes dans nos corpus : les relations lexicales telles que l'homonymie ou la synonymie. Ces relations semblent propices pour alimenter la facette terminologique d'une Ressource Termino-Ontologique. Nous montrons que ces relations peuvent être formellement caractérisées. Une évaluation de notre approche à partir d'un corpus annoté manuellement nous permet de valider notre position, ce qui constitue une première étape vers un outil d'apprentissage supervisé pour la construction d'ontologie à partir de texte

    Thezoo: un thesaurus de zoologie ancienne et médiévale pour l’annotation de sources de données hétérogènes

    Get PDF
    International audienceThis paper presents a thesaurus of ancient and medieval zoological knowledge, called THEZOO, constructed in the framework of the International Research Group Zoomathia. It aims at integrating heterogeneous data sources on zoology in Antiquity and Middle Ages: mainly texts, but also images, archaeological objects and archaeozoological material. The development process of THEZOO combines 1) the manual annotation of books VIII-XI of Pliny the Elder’s Natural History, chosen as a reference dataset to elicit the concepts to be integrated in the thesaurus, and 2) the definition and hierarchical organization of the elicited concepts in the thesaurus. THEZOO is formalized in SKOS, the W3C standard to represent knowledge organization systems on the Web of data, and it is created with the Opentheso editor. Our final aim is to publish the thesaurus THEZOO as well as the corpus of annotated texts, to support a semantic search in the corpus in different languages

    Conceptualisation de l'interface d’un logiciel d’assistance à l'analyse ergonomique de tâche avec intégration de plusieurs méthodes

    Get PDF
    RÉSUMÉ : Il arrive souvent, dans le cours d’une analyse ergonomique de tâche, qu’il soit nécessaire d’utiliser plus d’une méthode d’analyse pour tirer un maximum d’enseignements des diverses sources d’informations concernant la tâche effectuée par un humain (p. ex. : documents, interviews, observations, prises de mesures, etc.). Malheureusement, dans le contexte actuel, les logiciels qui sont mis à la disposition des analystes ne supportent qu’une seule méthode d’analyse, ce qui force ces derniers à soit n’utiliser qu’une seule méthode soit, s’ils veulent vraiment utiliser plusieurs méthodes, à dupliquer certaines informations pour utiliser d’autres logiciels supportant chacun une autre méthode. Il y a donc tout lieu de croire qu’un logiciel supportant plusieurs méthodes d’analyse peut être utile. L’objectif de cette recherche est donc d’effectuer une proposition détaillée de ce que pourraient être les fonctionnalités et l’interface utilisateur d’un tel logiciel. Après une revue de la littérature sur les méthodes d’analyse ergonomique de tâche, il a été décidé que le logiciel allait supporter un éventail de méthodes permettant l’analyse de tâches individuelles, incluant l’analyse hiérarchique de tâche (AHT), l’ordinogramme de traitement humain de l’information (OTHI) qui est une forme d’analyse procédurale, la méthode analytique de description de tâche (MAD), l’analyse temporelle, KLM-GOMS et CMN-GOMS. En cours de route, CMN-GOMS s’est révélé être une méthode d’analyse hybride, puisqu’elle est, en fait, une combinaison de deux méthodes : AHT et KLM-GOMS. La méthode CMN-GOMS ne sera donc supportée par @Esperanto que sous la forme d’une analyse multiméthode, soit l’une des nombreuses possibilités du logiciel. Parce que les méthodes d’analyse de tâches susmentionnées doivent être supportées par un seul et même logiciel, elles ont été soigneusement étudiées pour déterminer leurs points communs et leurs différences. Constatant de nettes différences entre les méthodes sur le plan de leur expressivité, on a voulu, sans affecter leur essence, réduire ces différences pour faciliter les échanges d’informations entre elles. Les méthodes retenues ont donc été rangées dans l’une de deux grandes classes, selon qu’elles servent à analyser une tâche globalement ou à en préciser tous les détails, puis leur expressivité a été examinée et, si possible, augmentée pour obtenir dans chaque classe la plus large base commune possible. Par la suite, tous les efforts ont porté sur la conceptualisation du logiciel et sur le prototypage très détaillé de plusieurs fenêtres de son interface utilisateur. Le résultat donne une bonne vue d’ensemble des principales fonctionnalités du logiciel et de l’organisation de son interface utilisateur et pourra servir, espère-t-on, comme outil de promotion pour la création d’un logiciel d’analyse ergonomique de tâche multiméthode.----------ABSTRACT : Oftentimes, in the course of an ergonomic task analysis, it is necessary to use more than one task-analysis method in order to get the most out of the information gathered about a task that humans must carry out (e.g., documents, interviews, observations, measurement taking, etc.). Unfortunately, the current situation is that all widely available task-analysis software applications support only one task analysis method, thus forcing analysts to either use only one method or to duplicate some information in order to use many applications, each supporting a different method. Therefore, there is every reason to believe that an application supporting multiple task-analysis methods would be useful. The current research goal is to create a detailed proposal for the envisioned functionalities and user interface of such application. After a literature review on ergonomic task analysis methods, it was decided that the proposed application would support an array of methods for the analysis of individual tasks, including Hierarchical Task Analysis (HTA), a form of procedural analysis, MAD (the French acronym for Analytical [Task] Description Method), a timeline analysis method, KLM-GOMS and CMN-GOMS. Along the way, CMN-GOMS was found to be a hybrid method, as it is a combination of two methods: HTA and KLM-GOMS. CMN-GOMS will therefore not be directly supported; rather, it will be supported as one of the many possible combinations for multi-method analysis. As the aforementioned task-analysis methods must be supported by a single application, they have been carefully studied in order to highlight their commonalities and their differences. Because considerable differences in regard to expressiveness were exposed — while adamant in our desire to not change the essence of each method — we set out to minimize these differences. For this, we assigned every supported method to one of two classes, depending on whether it is meant to analyze the various components of a task or to delve into its minutiae. Then, the expressiveness of each was examined and, as feasible, extended in order to increase commonalities among methods of the same class. Once this was done, all efforts have focused on conceptualizing the application’s functionalities as well as prototyping most of its user interface. The resulting thesis provides a good overview of the application’s planned functionalities and proposed user interface which, it is hoped, can serve as a promotion tool to create excitement leading to the creation of this multi-method ergonomic task analysis application

    Construction d'ontologies à partir d'une collection de pages web structurées

    Get PDF
    MoanoDe nombreuses collections de documents disponibles sur le web décrivent les caractéristiques d'entités d'un même type (e.g. des produits, des plantes), chaque page présentant une de ces entités. Ces documents sont des sources de connaissances particulièrement adaptées pour la construction d'ontologies. Alors qu'ils partagent une même mise en forme régulière, ils contiennent moins de texte rédigé que des fichiers textes mais leur architecture est riche de sens. De ce fait, les méthodes linguistiques classiques pour identifier des concepts et des relations sont moins adaptées pour les analyser. Nous proposons une approche exploitant les diverses propriétés de ces documents, combinant analyse de la structure et de la mise en forme avec une analyse linguistique, et exploitant leur annotation sémantique

    Extraction automatique et visualisation des thèmes abordés dans des résumés de mémoires et de thèses en anthropologie au Québec, de 1985 à 2009

    Full text link
    S’insérant dans les domaines de la Lecture et de l’Analyse de Textes Assistées par Ordinateur (LATAO), de la Gestion Électronique des Documents (GÉD), de la visualisation de l’information et, en partie, de l’anthropologie, cette recherche exploratoire propose l’expérimentation d’une méthodologie descriptive en fouille de textes afin de cartographier thématiquement un corpus de textes anthropologiques. Plus précisément, nous souhaitons éprouver la méthode de classification hiérarchique ascendante (CHA) pour extraire et analyser les thèmes issus de résumés de mémoires et de thèses octroyés de 1985 à 2009 (1240 résumés), par les départements d’anthropologie de l’Université de Montréal et de l’Université Laval, ainsi que le département d’histoire de l’Université Laval (pour les résumés archéologiques et ethnologiques). En première partie de mémoire, nous présentons notre cadre théorique, c'est-à-dire que nous expliquons ce qu’est la fouille de textes, ses origines, ses applications, les étapes méthodologiques puis, nous complétons avec une revue des principales publications. La deuxième partie est consacrée au cadre méthodologique et ainsi, nous abordons les différentes étapes par lesquelles ce projet fut conduit; la collecte des données, le filtrage linguistique, la classification automatique, pour en nommer que quelques-unes. Finalement, en dernière partie, nous présentons les résultats de notre recherche, en nous attardant plus particulièrement sur deux expérimentations. Nous abordons également la navigation thématique et les approches conceptuelles en thématisation, par exemple, en anthropologie, la dichotomie culture ̸ biologie. Nous terminons avec les limites de ce projet et les pistes d’intérêts pour de futures recherches.Taking advantage of the recent development of automated analysis of textual data, digital records of documents, data graphics and anthropology, this study was set forth using data mining techniques to create a thematic map of anthropological documents. In this exploratory research, we propose to evaluate the usefulness of thematic analysis by using automated classification of textual data, as well as information visualizations (based on network analysis). More precisely, we want to examine the method of hierarchical clustering (HCA, agglomerative) for thematic analysis and information extraction. We built our study from a database consisting of 1 240 thesis abstracts, granted from 1985 to 2009, by anthropological departments at the University of Montreal and University Laval, as well as historical department at University Laval (for archaeological and ethnological abstracts). In the first section, we present our theoretical framework; we expose definitions of text mining, its origins, the practical applications and the methodology, and in the end, we present a literature review. The second part is devoted to the methodological framework and we discuss the various stages through which the project was conducted; construction of database, linguistic and statistical filtering, automated classification, etc. Finally, in the last section, we display results of two specific experiments and we present our interpretations. We also discuss about thematic navigation and conceptual approaches. We conclude with the limitations we faced through this project and paths of interest for future research

    Acquisition de liens sémantiques à partir d'éléments de mise en forme des textes: exploitation des structures énumératives

    Get PDF
    The past decade witnessed significant advances in the field of relation extraction from text, facilitating the building of lexical or semantic resources. However, the methods proposed so far (supervised learning, kernel methods, distant supervision, etc.) don't fully exploit the texts: they are usually applied at the sentential level and they don't take into account the layout and the formatting of texts.In such a context, this thesis aims at expanding those methods and makes them layout-aware for extracting relations expressed beyond sentence boundaries. For this purpose, we rely on the semantics conveyed by typographical (bullets, emphasis, etc.) and dispositional (visual indentations, carriage returns, etc.) features. Those features often substitute purely discursive formulations. In particular, the study reported here is dealing with the relations carried by the vertical enumerative structures. Although they display discontinuities between their various components, the enumerative structures can be dealt as a whole at the semantic level. They form textual structures prone to hierarchical relations.This study was divided into two parts. (i) The first part describes a model representing the hierarchical structure of documents. This model is falling within the theoretical framework representing the textual architecture: an abstraction of the layout and the formatting, as well as a strong connection with the rhetorical structure are achieved. However, our model focuses primarily on the efficiency of the analysis process rather than on the expressiveness of the representation. A bottom-up method intended for building automatically this model is presented and evaluated on a corpus of PDF documents.(ii) The second part aims at integrating this model into the process of relation extraction. In particular, we focused on vertical enumerative structures. A multidimensional typology intended for characterizing those structures was established and used into an annotation task. Thanks to corpus-based observations, we proposed a two-step method, by supervised learning, for qualifying the nature of the relation and identifying its arguments. The evaluation of our method showed that exploiting the formatting and the layout of documents, in combination with standard lexico-syntactic features, improves those two tasks.Ces dernières années de nombreux progrès ont été faits dans le domaine de l'extraction de relations à partir de textes, facilitant ainsi la construction de ressources lexicales ou sémantiques. Cependant, les méthodes proposées (apprentissage supervisé, méthodes à noyaux, apprentissage distant, etc.) n’exploitent pas tout le potentiel des textes : elles ont généralement été appliquées à un niveau phrastique, sans tenir compte des éléments de mise en forme.Dans ce contexte, l'objectif de cette thèse est d'adapter ces méthodes à l'extraction de relations exprimées au-delà des frontières de la phrase. Pour cela, nous nous appuyons sur la sémantique véhiculée par les indices typographiques (puces, emphases, etc.) et dispositionnels (indentations visuelles, retours à la ligne, etc.), qui complètent des formulations strictement discursives. En particulier, nous étudions les structures énumératives verticales qui, bien qu'affichant des discontinuités entre leurs différents composants, présentent un tout sur le plan sémantique. Ces structures textuelles sont souvent révélatrices de relations hiérarchiques. Notre travail est divisé en deux parties. (i) La première partie décrit un modèle pour représenter la structure hiérarchique des documents. Ce modèle se positionne dans la suite des modèles théoriques proposés pour rendre compte de l'architecture textuelle : une abstraction de la mise en forme et une connexion forte avec la structure rhétorique sont faites. Toutefois, notre modèle se démarque par une perspective d'analyse automatique des textes. Nous en proposons une implémentation efficace sous la forme d'une méthode ascendante et nous l'évaluons sur un corpus de documents PDF. (ii) La seconde partie porte sur l'intégration de ce modèle dans le processus d'extraction de relations. Plus particulièrement, nous nous sommes focalisés sur les structures énumératives verticales. Un corpus a été annoté selon une typologie multi-dimensionnelle permettant de caractériser et de cibler les structures énumératives verticales porteuses de relations utiles à la création de ressources. Les observations faites en corpus ont conduit à procéder en deux étapes par apprentissage supervisé pour analyser ces structures : qualifier la relation puis en extraire les arguments. L'évaluation de cette méthode montre que l'exploitation de la mise en forme, combinée à un faisceau d'indices lexico-syntaxiques, améliore les résultats

    Recherche d'information dans les images de documents

    Get PDF
    L'image de document est un objet intelligible qui véhicule de l'information et qui est défini en fonction de son contenu. Cette thèse présente trois modèles de repérage d'information et de recherche d'images pertinentes à la requête d'un utilisateur. Le premier modèle de repérage des zones informationnelles est basé sur l'analyse multi échelle traduisant le contraste visuel des régions sombres par rapport au fond de l'image. Chaque région extraite est définie à partir de son contenu et ses caractéristiques statistiques et géométriques. L'algorithme de classification automatique est amélioré par l'application de règles de production déduites des formes des objets extraits. Une première évaluation de l'extraction du texte, des logos et des photographies sur les images de l'équipe Média Team de l'Université de Washington (UW-1) montre des résultats encourageants. Le deuxième modèle est basé sur le texte obtenu par Reconnaissance Optique de Caractères (OCR). Des erreurs-grammes et des règles de production modélisant les erreurs de reconnaissance de l'OCR sont utilisées pour l'extension des mots de la requête. Le modèle vectoriel est alors appliqué pour modéliser le texte OCR des images de documents et la requête pour la recherche d'information (RI). Un apprentissage sur les images Média Team (UW-2) et des tests sur un millier d'images Web ont validé cette approche. Les résultats obtenus indiquent une nette amélioration comparés aux méthodes standards comme le modèle vectoriel sans l'expansion de la requête et la méthode de recouvrement 3-grams. Pour les zones non textuelles, un troisième modèle vectoriel, basé sur les variations des paramètres de l'opérateur multi-échelle SKCS(Separable Kernel with Compact Support) et une combinaison de classifieurs et d'analyse de sous-espace en composantes principales MKL (Multi-espace Karhunen-Loeve) est appliqué sur une base d'apprentissage d'images de documents de Washington University et de pages Web. Les expériences ont montré une supériorité de l'interprétation et la puissance des vecteurs d'indexations déduits de la classification et représentant les zones non textuelles de l'image. Finalement, un système hybride d'indexation combinant les modèles textuels et non-textuels a été introduit pour répondre à des requêtes plus complexes portant sur des parties de l'image de documents telles un texte, une illustration, un logo ou un graphe. Les expériences ont montré la puissance d'interrogation par des mots ou des images requêtes et ont permis d'aboutir à des résultats encourageants dans la recherche d'images pertinentes qui surpassent ceux obtenus par les méthodes traditionnelles comme révèle une évaluation des rappels vs. précision conduite sur des requêtes portant sur des images de documents

    Découverte de configurations de traits textuels pour la caractérisation des segments d'obsolescence

    Get PDF
    International audienceThis paper presents a data-driven methodology for the automatic identification of text segments which contain information requiring updating ("obsolescence segments"). Our approach views markers as configurations of textual features and involves tagging text for a wide range of feature types of variable scope. We then apply a statistical method based on association rules whereby feature combinations relevant for the detection of obsolescence emerge from the data : intrasentential, hierarchical, positional and external features. We propose an evaluation of the respective roles of the different feature types. The study is based on a corpus of encyclopaedic texts which have been manually annotated by experts from the field of publishingCet article présente une méthodologie de découverte de marqueurs envisagés comme des configurations de traits textuels pour la description et le repérage automatique de segments contenant des informations nécessitant des mises à jour (les segments d'obsolescence). La méthodologie mise en œuvre est fondée sur la prise en compte de traits textuels hétérogènes et à granularité variable. Nous mettons en place un système statistique à base de règles d'association pour faire émerger des données les combinaisons de traits pertinentes : traits intraphrastiques, hiérarchiques, positionnels et externes. Une évaluation de leur rôle en termes de performance est proposée. Nous travaillons sur un corpus de textes encyclopédiques annoté manuellement par des rédacteurs du monde de l'éditio
    • …
    corecore