347 research outputs found

    DĂ©tection automatique de la structure organisationnelle de documents Ă  partir de marqueurs visuels et lexicaux

    Get PDF
    National audienceLa compréhension d'un texte s'opère à travers les niveaux d'information visuelle, logique et discursive, et leurs relations d'interdépendance. La majorité des travaux ayant étudié ces relations a été menée dans le cadre de la génération de textes, où les propriétés visuelles sont inférées à partir des éléments logiques et discursifs. Les travaux présentés ici adoptent une démarche inverse en proposant de générer automatiquement la structure organisationnelle du texte (structure logique) à partir de sa forme visuelle. Le principe consiste à (i) labelliser des blocs visuels par apprentissage afin d'obtenir des unités logiques et (ii) relier ces unités par des relations de coordination ou de subordination pour construire un arbre. Pour ces deux tâches, des Champs Aléatoires Conditionnels et un Maximum d'Entropie sont respectivement utilisés. Après apprentissage, les résultats aboutissent à une exactitude de 80,46% pour la labellisation et 97,23% pour la construction de l'arbre

    Le traitement automatique des langues face aux données textuelles volumineuses et potentiellement dégradées : qu'est-ce que cela change ?

    Get PDF
    National audiencePrétendre que le phénomène récent du Big Data a bouleversé théoriquement et méthodologiquement le traitement automatique des langues (TAL) serait inexact : le TAL a connu sa dernière véritable révolution à la fin des années 80 - début des années 90. C'est en effet à cette période que s'est opéré un changement de paradigme, un passage du rationalisme vers l'empirisme, avec le " remplacement " des approches symboliques, à base de règles, fondées sur l'expertise humaine par des approches empiriques fondées sur les données, où la connaissance est extraite par des techniques d'apprentissage automatique, en particulier statistique. Permis par des capacités de stockage et de traitement accrues des ordinateurs et la disponibilité de volumes conséquents de textes au format numérique, ce bouleversement, même s'il s'est étendu sur plusieurs années, a été en fait assez profond : passage d'un TAL très linguistique où l'on cherchait à comprendre - expliquer les jugements de grammaticalité dont sont capables les locuteurs natifs d'une langue, construire et manipuler des représentations assez élaborées du sens... - à un TAL " très statistique " où l'on fait émerger des connaissances grâce à l'observation à grande échelle, au comptage..., et où l'on extrait des représentations de " sens utile " pour des traitements applicatifs. Affirmer que les volumes actuels de données à l'échelle du Big Data n'ont eu et n'ont aucun impact sur le TAL serait cependant également faux. Les données textuelles à traiter se déclinent à l'aune des 3 V (variété, volume, vélocité). Elles consistent bien sûr en des documents écrits, pages Web, emails et autres textes " traditionnels ", mais également en contenus de blogs, de réseaux sociaux, en sms, en documents audio transcrits automatiquement, ce qui correspond donc à des types et des qualités de langue très divers. Pour ne citer que quelques chiffres donnant tant une idée des volumes que de la vitesse d'évolution de ceux-ci, nous pouvons par exemple nous référer à ceux de Go-globe.com de juin 2011, cités à davidfayon.fr/2011/croissance-du-web-une-minute, qui, quoique un peu anciens, sont déjà extrêmement parlants : création par minute de 60 blogs, de 98000 messages sur Twitter, de 510000 commentaires sur Facebook, de 168 millions d'emails ou de 600 vidéos sur YouTube. À l'heure actuelle, ces nombres sont encore plus impressionnants. Ces volumes énormes de données textuelles ont accru le phénomène décrit précédemment de passage du TAL à l'empirisme, accompagné du renforcement de certains champs du domaine - parfois avec un regard nouveau - et de l'émergence d'applications nouvelles. Dans ce chapitre, nous revenons en détail sur l'impact de ce déluge de données sur le TAL en débutant par un rappel des spécificités des données textuelles au sein de ce monde du Big Data dans lequel les données volumineuses auxquelles il est fait référence sont fréquemment (semi-)structurées ; ceci nous permet de mieux comprendre l'intérêt mais aussi la difficulté d'accéder au contenu sémantique de ces données particulières. Nous nous penchons ensuite sur la façon dont les chercheurs en TAL représentent et exploitent ces données massives pour en faire émerger la connaissance utile pour l'objectif visé. Nous présentons ensuite successivement d'une part des applications qui tentent de trouver des solutions pour faire face au déluge de données disponibles, d'autre part certaines qui, elles, cherchent à tirer profit de cette masse d'informations et à exploiter sa redondance. Nous concluons en rappelant les grandes lignes de l'évolution du TAL

    L'étiquetage grammatical de l'amazighe en utilisant les propriétés n-grammes et un prétraitement de segmentation

    Full text link
    [FR] L’objectif de cet article est de présenter le premier étiqueteur grammatical amazighe. Très peu de ressources ont été développées pour l’amazighe et nous croyons que le développement d’un outil d’étiquetage grammatical est une étape préalable au traitement automatique de textes. Afin d'atteindre cet objectif, nous avons formé deux modèles de classification de séquences en utilisant les SVMs, séparateurs à vaste marge (Support Vector Machines) et les CRFs, champs markoviens conditionnels (Conditional Random Fields) en utilisant une phase de segmentation. Nous avons utilisé la technique de 10 fois la validation croisée pour évaluer notre approche. Les résultats montrent que les performances des SVMs et des CRFs sont très comparables. Dans l'ensemble, les SVMs ont légèrement dépassé les CRFs au niveau des échantillons (92,58% contre 92,14%) et la moyenne de précision des CRFs dépasse celle des SVMs (89,48% contre 89,29%). Ces résultats sont très prometteurs étant donné que nous avons utilisé un corpus de seulement ~ 20k mots.[EN] The aim of this paper is to present the first amazigh POS tagger. Very few linguistic resources have been developed so far for amazigh and we believe that the development of a POS tagger tool is the first step needed for automatic text processing. In order to achieve this endeavor, we have trained two sequence classification models using Support Vector Machines (SVMs) and Conditional Random Fields (CRFs) after using a tokenization step. We have used the 10- fold technique to evaluate our approach. Results show that the performance of SVMs and CRFs are very comparable. Across the board, SVMs outperformed CRFs on the fold level (92.58% vs. 92.14%) and CRFs outperformed SVMs on the 10 folds average level (89.48% vs. 89.29%). These results are very promising considering that we have used a corpus of only ~20k tokens.Les travaux du troisième auteur ont été financés par le projet de recherche EU FP7 Marie Curie PEOPLE-IRSES 269180 WiQ-Ei, MICINN TEXT-ENTERPRISE 2.0 TIN2009-13391-C04-03 (Plan I+D+i), VLC/CAMPUS Microcluster on Multimodal Interaction in Intelligent Systems.Outahajala, M.; Benajiba, Y.; Rosso, P.; Zenkouar, L. (2012). L'étiquetage grammatical de l'amazighe en utilisant les propriétés n-grammes et un prétraitement de segmentation. E-TI : la revue électronique des technologies de l'information. 6:48-61. http://hdl.handle.net/10251/47570S4861

    Recherche d’indices lexicosyntaxiques de segmentation et de liage par une analyse automatique de corpus

    Get PDF
    Cette étude emploie une technique automatique d’analyse de corpus pour tenter d’apporter un point de vue complémentaire à celui d’études plus qualitatives des indices de segmentation et de liage, tels que les expressions adverbiales, les connecteurs et les anaphores. L’étude vise tout particulièrement à déterminer s’il est possible de distinguer automatiquement dans des textes les phrases en situation de rupture de celles en situation de continuité et d’identifier les indices qui le permettent. L’identification des phrases en situation de (dis)continuité a été effectuée sur la base de la structuration configurationnelle des textes telle qu’elle est rendue « vi-lisible » par les sections et les paragraphes. Les indices potentiels analysés sont composés des n-grammes de lemmes et d’étiquettes morphosyntaxiques. Les analyses ont été effectuées sur trois collections de textes de genre différent : des entrées de Wikipédia, des articles de journaux et des romans. D’une manière générale, l’apprentissage supervisé s’est révélé relativement efficace, obtenant une exactitude allant de 64 % à 74 % alors que le hasard seul obtiendrait 50 %. Les indices les plus utiles pour la discrimination sont pour la plupart interprétables dans le cadre des travaux linguistiques sur les marques de segmentation et de liage. Si les performances de détection des paragraphes sont équivalentes dans les trois genres, on observe des différences importantes lorsqu’on compare les indices les plus utiles dans chaque genre. Après avoir discuté quelques-unes des limites de l’étude, la conclusion envisage la possibilité de prendre en compte d’une manière plus complète les indices liés à la coréférence, qui se sont révélés particulièrement utiles.This study uses an automated corpus analysis technique to try to provide a complementary point of view to that of more qualitative studies of segmentation and linking indices, such as adverbial expressions, connectors and anaphora. The study is specifically aimed at determining whether it is possible to automatically distinguish in texts sentences opening or not a discourse segment and to identify the indices that allow it. The identification of sentences in (dis)continuity situation was carried out on the basis of the segments made visible in the texts by means of the sections and paragraphs. The potential indices were n-grams of lemmas and part-of-speech tags. Analyses were conducted on three collections of texts of different genres: Wikipedia entries, newspaper articles and novels. In general, supervised learning has been relatively effective, with accuracy ranging from 64% to 74%, while chance alone would get 50%. The most useful indices for discrimination are for the most part interpretable in the context of the linguistic theory on segmentation and linking marks. While paragraph detection performance is equivalent in all three genres, there are significant differences when comparing the most useful indices in each genre. After discussing some of the limitations of the study, the conclusion considers the possibility of taking more fully into account the coreference indices, which have proved particularly useful

    Le repérage automatique des entités nommées dans la langue arabe : vers la création d'un système à base de règles

    Full text link
    Mémoire numérisé par la Division de la gestion de documents et des archives de l'Université de Montréal

    Fouille de données pour associer des noms de sessions aux articles scientifiques

    Get PDF
    National audienceIn this paper, we present a proposition based on data mining to tackle the DEFT 2014 challenge. We focus on task 4 which consists of identifying the right conference session for scientific papers. The proposed approach is based on a combination of two data mining techniques. Sequence mining extracts frequent phrases in scientific papers in order to build paper and session descriptions. Then, those descriptions of papers and sessions are used to create a graph which represents shared descriptions. A graph mining technique is applied on the graph in order to extract a collection of homogenous sub-graphs corresponding to sets of papers associated to sessions.Nous décrivons dans cet article notre participation à l'édition 2014 de DEFT. Nous nous intéressons à la tâche consistant à associer des noms de session aux articles d'une conférence. Pour ce faire, nous proposons une approche originale, symbolique et non supervisée, de découverte de connaissances. L'approche combine des méthodes de fouille de données séquentielles et de fouille de graphes. La fouille de séquences permet d'extraire des motifs fréquents dans le but de construire des descriptions des articles et des sessions. Ces descriptions sont ensuite représentées par un graphe. Une technique de fouille de graphes appliquée sur ce graphe permet d'obtenir des collections de sous-graphes homogènes, correspondant à des collections d'articles et de noms de sessions

    Hybrid decision systems and incremental learning

    Get PDF
    This paper presents a multi-classifier system design controlled by the topology of the learning data. Our work also introduces a training algorithm for an incremental self-organizing map (SOM). This SOM is used to distribute classification tasks to a set of classifiers. Thus, the useful classifiers are activated when new data arrives. Comparative results are given for synthetic problems, for an image segmentation problem from the UCI repository and for a handwritten digit recognition problem.Ce papier présente un système de décision multi-classifieurs dont la conception est pilotée par la topologie des données d'apprentissage. Celle-ci est extraite grâce à l'introduction d'un nouvel algorithme d'apprentissage de carte neuronale auto-organisée qui a la propriété d'être incrémentale en données. Cette carte est utilisée en apprentissage pour distribuer la tâche de classification sur un ensemble de classifieurs. Elle permet ensuite d'activer en phase de décision le ou les classifieurs utiles pour une nouvelle donnée. De plus, le système proposé introduit un critère de confiance s'affranchissant totalement du type de classifieurs utilisés. Ce coefficient permet de contrôler plus efficacement le compromis Erreur/Rejet. Des résultats comparatifs sont donnés sur des exemples synthétiques, sur la base de segmentation d'images de l'UCI et sur le problème de reconnaissance de chiffres manuscrits sur des données de la base NIST

    Acquisition de liens sémantiques à partir d'éléments de mise en forme des textes: exploitation des structures énumératives

    Get PDF
    The past decade witnessed significant advances in the field of relation extraction from text, facilitating the building of lexical or semantic resources. However, the methods proposed so far (supervised learning, kernel methods, distant supervision, etc.) don't fully exploit the texts: they are usually applied at the sentential level and they don't take into account the layout and the formatting of texts.In such a context, this thesis aims at expanding those methods and makes them layout-aware for extracting relations expressed beyond sentence boundaries. For this purpose, we rely on the semantics conveyed by typographical (bullets, emphasis, etc.) and dispositional (visual indentations, carriage returns, etc.) features. Those features often substitute purely discursive formulations. In particular, the study reported here is dealing with the relations carried by the vertical enumerative structures. Although they display discontinuities between their various components, the enumerative structures can be dealt as a whole at the semantic level. They form textual structures prone to hierarchical relations.This study was divided into two parts. (i) The first part describes a model representing the hierarchical structure of documents. This model is falling within the theoretical framework representing the textual architecture: an abstraction of the layout and the formatting, as well as a strong connection with the rhetorical structure are achieved. However, our model focuses primarily on the efficiency of the analysis process rather than on the expressiveness of the representation. A bottom-up method intended for building automatically this model is presented and evaluated on a corpus of PDF documents.(ii) The second part aims at integrating this model into the process of relation extraction. In particular, we focused on vertical enumerative structures. A multidimensional typology intended for characterizing those structures was established and used into an annotation task. Thanks to corpus-based observations, we proposed a two-step method, by supervised learning, for qualifying the nature of the relation and identifying its arguments. The evaluation of our method showed that exploiting the formatting and the layout of documents, in combination with standard lexico-syntactic features, improves those two tasks.Ces dernières années de nombreux progrès ont été faits dans le domaine de l'extraction de relations à partir de textes, facilitant ainsi la construction de ressources lexicales ou sémantiques. Cependant, les méthodes proposées (apprentissage supervisé, méthodes à noyaux, apprentissage distant, etc.) n’exploitent pas tout le potentiel des textes : elles ont généralement été appliquées à un niveau phrastique, sans tenir compte des éléments de mise en forme.Dans ce contexte, l'objectif de cette thèse est d'adapter ces méthodes à l'extraction de relations exprimées au-delà des frontières de la phrase. Pour cela, nous nous appuyons sur la sémantique véhiculée par les indices typographiques (puces, emphases, etc.) et dispositionnels (indentations visuelles, retours à la ligne, etc.), qui complètent des formulations strictement discursives. En particulier, nous étudions les structures énumératives verticales qui, bien qu'affichant des discontinuités entre leurs différents composants, présentent un tout sur le plan sémantique. Ces structures textuelles sont souvent révélatrices de relations hiérarchiques. Notre travail est divisé en deux parties. (i) La première partie décrit un modèle pour représenter la structure hiérarchique des documents. Ce modèle se positionne dans la suite des modèles théoriques proposés pour rendre compte de l'architecture textuelle : une abstraction de la mise en forme et une connexion forte avec la structure rhétorique sont faites. Toutefois, notre modèle se démarque par une perspective d'analyse automatique des textes. Nous en proposons une implémentation efficace sous la forme d'une méthode ascendante et nous l'évaluons sur un corpus de documents PDF. (ii) La seconde partie porte sur l'intégration de ce modèle dans le processus d'extraction de relations. Plus particulièrement, nous nous sommes focalisés sur les structures énumératives verticales. Un corpus a été annoté selon une typologie multi-dimensionnelle permettant de caractériser et de cibler les structures énumératives verticales porteuses de relations utiles à la création de ressources. Les observations faites en corpus ont conduit à procéder en deux étapes par apprentissage supervisé pour analyser ces structures : qualifier la relation puis en extraire les arguments. L'évaluation de cette méthode montre que l'exploitation de la mise en forme, combinée à un faisceau d'indices lexico-syntaxiques, améliore les résultats

    Étude exploratoire d'outils pour le Data Mining

    Get PDF

    Analyse automatique d’arguments et apprentissage multi-tâches  : un cas d’étude

    Get PDF
    National audienceNous proposons une étude sur l’analyse automatique d’arguments via des techniques d’apprentissage supervisé exploitant le paradigme de l’apprentissage multi-tâches. Nous définissons pour cela une approche multi-tâches à base d’apprentissage profond que nous évaluons sur un cas d’étude spécifique portant sur l’extraction d’arguments dans un corpus de dissertations. Les résultats obtenus permettent de discuter l’intérêt de définir un modèle multi-tâches unique – optimisé sur différents critères en tirant parti de la diversité des tâches d’apprentissage auxquelles il est confronté – par rapport à un ensemble de classifieurs entraînés de manière indépendante et spécifique. Nous montrons en particulier l’impact de l’ajout de tâches auxiliaires de bas niveau, telles que l’étiquetage morpho-syntaxique et l’analyse de dépendances grammaticales, pour l’obtention de classifieurs multi-tâches performants. Nous observons aussi que l’apprentissage multi-tâches permet l’obtention de modèles efficaces de performances semblables à l’état de l’art pour le cas d’étude traité
    • …
    corecore