262 research outputs found

    Segmentation et classification dans les images de documents numérisés

    Get PDF
    Les travaux de cette thèse ont été effectués dans le cadre de l'analyse et du traitement d'images de documents imprimés afin d'automatiser la création de revues de presse. Les images en sortie du scanner sont traitées sans aucune information a priori ou intervention humaine. Ainsi, pour les caractériser, nous présentons un système d'analyse de documents composites couleur qui réalise une segmentation en zones colorimétriquement homogènes et qui adapte les algorithmes d'extraction de textes aux caractéristiques locales de chaque zone. Les informations colorimétriques et textuelles fournies par ce système alimentent une méthode de segmentation physique des pages de presse numérisée. Les blocs issus de cette décomposition font l'objet d'une classification permettant, entre autres, de détecter les zones publicitaires. Dans la continuité et l'expansion des travaux de classification effectués dans la première partie, nous présentons un nouveau moteur de classification et de classement générique, rapide et facile à utiliser. Cette approche se distingue de la grande majorité des méthodes existantes qui reposent sur des connaissances a priori sur les données et dépendent de paramètres abstraits et difficiles à déterminer par l'utilisateur. De la caractérisation colorimétrique au suivi des articles en passant par la détection des publicités, l'ensemble des approches présentées ont été combinées afin de mettre au point une application permettant la classification des documents de presse numérisée par le contenu.In this thesis, we deal with printed document images processing and analysis to automate the press reviews. The scanner output images are processed without any prior knowledge nor human intervention. Thus, to characterize them, we present a scalable analysis system for complex documents. This characterization is based on a hybrid color segmentation suited to noisy document images. The color analysis customizes text extraction algorithms to fit the local image properties. The provided color and text information is used to perform layout segmentation in press images and to compute features on the resulting blocks. These elements are classified to detect advertisements. In the second part of this thesis, we deal with a more general purpose: clusternig and classification. We present a new clustering approach, named ACPP, which is completely automated, fast and easy to use. This approach's main features are its independence of prior knowledge about the data and theoretical parameters that should be determined by the user. Color analysis, layout segmentation and the ACPP classification method are combined to create a complete processing chain for press images.VILLEURBANNE-DOC'INSA LYON (692662301) / SudocVILLEURBANNE-DOC'INSA-Bib. elec. (692669901) / SudocSudocFranceF

    Evaluation et développement de modèles sous-maille pour la simulation des grandes échelles du mélange turbulent basés sur l'estimation optimale et l'apprentissage supervisé

    Get PDF
    This work develops subgrid model techniques and proposes methods of diagnosis for Large Eddy Simulation (LES) of turbulent mixing.Several models from these strategies are thus presented to illustrate these methods.The principle of LES is to solve the largest scales of the turbulent flow responsible for major transfers and to model the action of small scales of flowon the resolved scales. Formally, this operation leads to filter equations describing turbulent mixing. Subgrid terms then appear and must bemodeled to close the equations. In this work, we rely on the classification of subgrid models into two categories. "Functional" models whichreproduces the energy transfers between the resolved scales and modeled scales and "Structural" models that seek to reproduce the exact subgrid termitself. The first major challenge is to evaluate the performance of subgrid models taking into account their functional behavior (ability to reproduce theenergy transfers) and structural behaviour (ability to reproduce the term subgrid exactly). Diagnostics of subgrid models have been enabled with theuse of the optimal estimator theory which allows the potential of structural improvement of the model to be evaluated.These methods were initially involved for the development of a first family of models called algebraic subgrid DRGM for "Dynamic Regularized GradientModel". This family of models is based on the structural diagnostic of terms given by the regularization of the gradient model family.According to the tests performed, this new structural model's family has better functional and structural performance than original model's family of thegradient. The improved functional performance is due to the vanishing of inverse energy transfer (backscatter) observed in models of thegradient family. This allows the removal of the unstable behavior typically observed for this family of models.In this work, we then propose the use of the optimal estimator directly as a subgrid scale model. Since the optimal estimator provides the modelwith the best structural performance for a given set of variables, we looked for the set of variables which optimize that performance. Since this set of variablesis large, we use surrogate functions of artificial neural networks type to estimate the optimal estimator. This leads to the "Artificial Neural Network Model"(ANNM). These alternative functions are built from databases in order to emulate the exact terms needed to determine the optimal estimator. The tests of this modelshow that he it has very good performance for simulation configurations not very far from its database used for learning, so these findings may fail thetest of universality.To overcome this difficulty, we propose a hybrid method using an algebraic model and a surrogate model based on artificial neural networks. Thebasis of this new model family ACM for "Adaptive Coefficient Model" is based on vector and tensor decomposition of the exact subgrid terms. Thesedecompositions require the calculation of dynamic coefficients which are modeled by artificial neural networks. These networks have a learning method designedto directlyoptimize the structural and functional performances of ACM. These hybrids models combine the universality of algebraic model with high performance butvery specialized performance of surrogate models. The result give models which are more universal than ANNM.Dans ce travail, des méthodes de diagnostics et des techniques de développement de modèles sous-maille sont proposées pour la simulation des grandes échelles (SGE) du mélange turbulent. Plusieurs modèles sous-maille issus de ces stratégies sont ainsi présentés pour illustrer ces méthodes.Le principe de la SGE est de résoudre les grandes échelles de l'écoulement responsables des transferts principaux et de modéliser l'action des petites échelles de l'écoulement sur les échelles résolues. Au cours de ce travail, nous nous sommes appuyés sur le classement des modèles sous-maille en deux catégories. Les modèles "fonctionnels" qui s'attachent à reproduire les transferts énergétiques entre les échelles résolues et les échelles modélisées et les modèles "structurels" qui cherchent à bien reproduire le terme sous-maille. Le premier enjeu important a été d'évaluer la performance des modèles sous-maille en prenant en compte leur comportement à la fois fonctionnel (capacité à reproduire les transferts d'énergie) et structurel (capacité à reproduire le terme sous-maille exact). Des diagnosctics des modèles sous-maille ont pu être conduits avec l'utilisation de la notion d'estimateur optimal ce qui permet de connaitre le potentiel d'amélioration structurelle des modèles. Ces principes ont dans un premier temps servi au développement d'une première famille de modèles sous-maille algébrique appelée DRGM pour "Dynamic Regularized Gradient Model". Cette famille de modèles s'appuie sur le diagnostic structurel des termes issus de la régularisation des modèles de la famille du gradient. D'après les tests menés, cette nouvelle famille de modèle structurel a de meilleures performances fonctionnelles et structurelles que les modèles de la famille du gradient. L'amélioration des performances fonctionnelles consiste à supprimer la prédiction excessive de transferts inverses d'énergie (backscatter) observés dans les modèles de la famille du gradient. Cela permet ainsi de supprimer le comportement instable classiquement observé pour cette famille de modèles. La suite de ce travail propose ensuite d'utiliser l'estimateur optimal directement comme modèle sous-maille. Comme l'estimateur optimal fournit le modèle ayant la meilleure performance structurelle pour un jeu de variables donné, nous avons recherché le jeu de variable optimisant cette performance. Puisque ce jeu comporte un nombre élevé de variables, nous avons utilisé les fonctions d'approximation de type réseaux de neurones pour estimer cet estimateur optimal. Ce travail a mené au nouveau modèle substitut ANNM pour "Artificial Neural Network Model". Ces fonctions de substitution se construisent à partir de bases de données servant à émuler les termes exacts nécessaire à la détermination de l'estimateur optimal. Les tests de ce modèle ont montré qu'il avait de très bonnes perfomances pour des configurations de simulation peu éloignées de la base de données servant à son apprentissage, mais qu'il pouvait manquer d'universalité. Pour lever ce dernier verrou, nous avons proposé une utilisation hybride des modèles algébriques et des modèles de substitution à base de réseaux de neurones. La base de cette nouvelle famille de modèles ACM pour "Adaptative Coefficient Model" s'appuie sur les décompositions vectorielles et tensorielles des termes sous-maille exacts. Ces décompositions nécessitent le calcul de coefficients dynamiques qui sont modélisés par les réseaux de neurones. Ces réseaux bénéficient d'une méthode d'apprentissage permettant d'optimiser directement les performances structurelles et fonctionnelles des modèles ACM. Ces modèles hybrides allient l'universalité des modèles algébriques avec la performance élevée mais spécialisée des fonctions de substitution. Le résultat conduit à des modèles plus universels que l'ANNM

    RECONNAISSANCE DE FORMES APPLIQUEE A L’ECRITURE ARABEMANUSCRITE PAR DES MULTICLASSIFIEURS

    Get PDF
    Le présent travail porte sur une étude concernant le domaine de reconnaissance de formes appliqué sur l’écriture arabe manuscrite par des multiclassifieurs, D’abords il s’agit de faire une étude générale sur la reconnaissance de formes, puis de faire une étude bibliographique sur les systèmes existants et les différentes recherches effectuées sur ce domaine, ensuite de faire une étude sur les caractéristiques morphologiques et structurelles de l’écriture Arabe, puis étudier les systèmes de classification couramment utilisés, ainsi que des concepts de bases des combinaisons parallèles des classifieurs. Pour enfin proposer un système multiclassifieur de reconnaissance de mots arabes dans un lexique défini

    Structuration de données par apprentissage non-supervisé : applications aux données textuelles

    Get PDF
    En fouille de données, le succès d'une méthode tient au fait qu'elle permet de répondre par un algorithme intuitif à un besoin pratique bien théorisé. C'est avec cet éclairage que nous présentons un ensemble de contributions, élaborées durant ces dix dernières années, et répondant au besoin pratique de structurer automatiquement un ensemble de données. Dans un premier temps nous proposons de nouveaux modèles théoriques de structuration complexe en classes d’individus ; il s’agit alors d'extraire automatiquement d'un ensemble de données, des structures de classification plus proches de leur organisation réelle telle qu’observée (classification recouvrante, formes symétriques), de rendre ces structures à la fois robustes (tolérance au bruit) et manipulables par l’homme (visualisation, paramétrage) et enfin d’être en mesure de les expliquer (sémantique des classes). Dans un second temps nous nous intéressons aux données textuelles via la mise en oeuvre de modèles rendant compte de la structure thématique d’une collection de textes courts dans un contexte de recherche d’information ; enfin, nous présentons un méta-modèle permettant d’apprendre automatiquement un modèle de structuration sémantique d’un ensemble de termes

    Modélisation multi-échelles de la morphologie urbaine à partir de données carroyées de population et de bâti

    Get PDF
    Since a couple of decades the relationships between urban form and travel patterns are central to reflection on sustainable urban planning and transport policy. The increasing distribution of regular grid data is in this context a new perspective for modeling urban structures from measurements of density freed from the constraints of administrative division. Population density data are now available on 200 meters grids covering France. We complete these data with built area densities in order to propose two types of classified images adapted to the study of travel patterns and urban development: classifications of urban fabrics and classifications of morphotypes of urban development. The construction of such classified images is based on theoretical and experimental which raise methodological issues regarding the classification of a statistically various urban spaces. To proceed exhaustively those spaces, we proposed a per-pixel classification method of urban fabrics by supervised transfer learning. Hidden Markov random fields are used to take into account the dependencies in the spatial data. The classifications of morphotypes are then obtained by broadening the knowledge of urban fabrics. These classifications are formalized from chorematique theoretical models and implemented by qualitative spatial reasoning. The analysis of these classifications by methods of quantitative spatial reasoning and factor analysis allowed us to reveal the morphological diversity of 50 metropolitan areas. It highlights the relevance of these classifications to characterize urban areas in accordance with various development issues related to the density or multipolar developmentLa question des liens entre forme urbaine et transport se trouve depuis une vingtaine d'années au cœur des réflexions sur la mise en place de politiques d'aménagement durable. L'essor de la diffusion de données sur grille régulière constitue dans ce cadre une nouvelle perspective pour la modélisation de structures urbaines à partir de mesures de densités affranchies de toutes les contraintes des maillages administratifs. A partir de données de densité de population et de surface bâtie disponibles à l'échelle de la France sur des grilles à mailles de 200 mètres de côté, nous proposons deux types de classifications adaptées à l'étude des pratiques de déplacement et du développement urbain : des classifications des tissus urbains et des classifications des morphotypes de développement urbain. La construction de telles images classées se base sur une démarche de modélisation théorique et expérimentale soulevant de forts enjeux méthodologiques quant à la classification d'espaces urbains statistiquement variés. Pour nous adapter au traitement exhaustif de ces espaces, nous avons proposé une méthode de classification des tissus urbains par transfert d'apprentissage supervisé. Cette méthode utilise le formalisme des champs de Markov cachés pour prendre en compte les dépendances présentes dans ces données spatialisées. Les classifications en morphotypes sont ensuite obtenus par un enrichissement de ces premières images classées, formalisé à partir de modèles chorématiques et mis à œuvre par raisonnement spatial qualitatif. L'analyse de ces images classées par des méthodes de raisonnement spatial quantitatif et d'analyses factorielles nous a permis de révéler la diversité morphologique de 50 aires urbaines françaises. Elle nous a permis de mettre en avant la pertinence de ces classifications pour caractériser les espaces urbains en accord avec différents enjeux d'aménagement relatifs à la densité ou à la multipolarit

    Une approche basée sur les SMA et méta-heuristique pour la prédiction (PHM) médicale

    Get PDF
    Au cours des dernières années, l’intelligence artificielle (IA) ne cesse de révolutionner le monde. Elle est intégrée dans plusieurs secteurs tels que l’économie, l’industrie, la biologie, la médecine, etc. L’utilisation de l’IA dans en médecine présente un grand intérêt pour les chercheurs qui exploitent l’approche prédictive pour son importance dans la prise de décision. Elle ouvre des perspectives prometteuses pour améliorer la qualité des soins au profit du patient à travers une prise en charge personnalisée, une bonne détection des symptômes et une exploitation des résultats d’analyse (imagerie médicale, rapports médicaux, tests sanguins,etc.) pour un meilleur diagnostic. Cependant, malgré l’impact positif de l’IA sur le secteur sanitaire, elle est confrontée à de nombreux challenges notamment, la manipulation des big data, la diversité des offres de soins, la durée du diagnostic, la complexité et la hausse des coûts de traitement. La médecine prédictive vise à déterminer la probabilité d’atteindre une maladie, à prédire la récidive, le taux de létalité et la propagation d’une maladie dans une zone. L’application des technologies telles que la biotechnologie, la génomique et les techniques de l’IA (IoT, SMA, apprentissage automatique, etc.) peuvent améliorer la modélisation distribuée des systèmes intelligents et les méthodes de classification. L’objectif principal de cette étude est de proposer une approche intelligente pour : • améliorer la qualité du diagnostic médical et la détection des pathologies en permettant d’éviter de soumettre les patients à des examens intrusifs; • définir des stratégies thérapeutiques plus adaptées aux situations des patients; • optimiser les parcours de soins (détection précoce, gain de temps, coûts, etc.). Le cancer du sein est l’une des causes les plus fréquentes de décès chez la femme. De plus, au courant des trois dernières années, l’apparition de la pandémie Covid-19 a laissé un impact négatif sur des milliers de personnes dans le monde. Cette crise sanitaire a également donné un dur coup à l’évolution de l’économie au niveau mondial. L’application de nos objectifs pour la prise en charge de ces deux pathologies constitue un segment important de ce projet, sachant que la quantité et la qualité des données disponibles sont des éléments clés sur les applications de l’IA en santé

    Reconnaissance de l’écriture manuscrite avec des réseaux récurrents

    Get PDF
    Mass digitization of paper documents requires highly efficient optical cha-racter recognition systems. Digital versions of paper documents enable the useof search engines through keyword dectection or the extraction of high levelinformation (e.g. : titles, author, dates). Unfortunately writing recognition sys-tems and especially handwriting recognition systems are still far from havingsimilar performance to that of a human being on the most difficult documents.This industrial PhD (CIFRE) between Airbus DS and the LITIS, that tookplace within the MAURDOR project time frame, aims to seek out and improvethe state of the art systems for handwriting recognition.We compare different systems for handwriting recognition. Our compa-risons include various feature sets as well as various dynamic classifiers : i)Hidden Markov Models, ii) hybrid neural network/HMM, iii) hybrid recurrentnetwork Bidirectional Long Short Term Memory - Connectionist TemporalClassification (BLSTM-CTC)/MMC, iv) a hybrid Conditional Random Fields(CRF)/HMM. We compared these results within the framework of the WR2task of the ICDAR 2009 competition, namely a word recognition task usinga 1600 word lexicon. Our results rank the BLSTM-CTC/HMM system as themost performant, as well as clearly showing that BLSTM-CTCs trained ondifferent features are complementary.Our second contribution aims at using this complementary. We explorevarious combination strategies that take place at different levels of the BLSTM-CTC architecture : low level (early fusion), mid level (within the network),high level (late integration). Here again we measure the performances of theWR2 task of the ICDAR 2009 competition. Overall our results show thatour different combination strategies improve on the single feature systems,moreover our best combination results are close to that of the state of theart system on the same task. On top of that we have observed that some ofour combinations are more adapted for systems using a lexicon to correct amistake, while other are better suited for systems with no lexicon.Our third contribution is focused on tasks related to handwriting recognition. We present two systems, one designed for language recognition, theother one for keyword detection, either from a text query or an image query.For these two tasks our systems stand out from the literature since they usea handwriting recognition step. Indeed most literature systems focus on extracting image features for classification or comparison, wich does not seemappropriate given the tasks. Our systems use a handwriting recognition stepfollowed either by a language detection step or a word detection step, depending on the application.La numérisation massive de documents papier a fait apparaître le besoin d’avoir des systèmes de reconnaissance de l’écriture extrêmement performants. La numérisation de ces documents permet d’effectuer des opérations telles que des recherches de mots clefs ou l’extraction d’informations de haut niveau (titre, auteur, adresses, et.). Cependant la reconnaissance de l’écriture et en particulier l’écriture manuscrite ne sont pas encore au niveau de performance de l’homme sur des documents complexes, ce qui restreint ou nuit à certaines applications. Cette thèse CIFRE entre Airbus DS et le LITIS, dans le cadre du projet MAURDOR, a pour but de mettre en avant et d’améliorer les méthodes état de l’art dans le domaine de la reconnaissance de l’écriture manuscrite. Nos travaux comparent différents systèmes permettant d’effectuer la reconnaissance de l’écriture manuscrite. Nous comparons en particulier différentes caractéristiques et différents classifieurs dynamiques : i) Modèles de Markov Cachés (MMC), ii) hybride réseaux de neurones/MMC, iii) hybride réseaux récurrents « Bidirectional Long Short Term Memory - Connectionist Temporal Classification » (BLSTM-CTC)/MMC et iv) hybride Champs Aléatoires Conditionnels (CAC)/MMC. Les comparaisons sont réalisées dans les conditions de la tâche WR2 de la compétition ICDAR 2009, c’est à dire une tâche de reconnaissance de mots isolés avec un dictionnaire de 1600 mots. Nous montrons la supériorité de l’hybride BLSTM-CTC/MMC sur les autres classifieurs dynamiques ainsi que la complémentarité des sorties des BLSTM-CTC utilisant différentes caractéristiques.Notre seconde contribution vise à exploiter ces complémentarités. Nous explorons des stratégies de combinaisons opérant à différents niveaux de la structure des BLSTM-CTC : bas niveau (en entrée), moyen niveau (dans le réseau), haut niveau (en sortie). Nous nous plaçons de nouveau dans les conditions de la tâche WR2 de la compétition ICDAR 2009. De manière générale nos combinaisons améliorent les résultats par rapport aux systèmes individuels, et nous avoisinons les performances du meilleur système de la compétition. Nous avons observé que certaines combinaisons sont adaptées à des systèmes sans lexique tandis que d’autres sont plus appropriées pour des systèmes avec lexique. Notre troisième contribution se situe sur deux applications liées à la reconnaissance de l’écriture. Nous présentons un système de reconnaissance de la langue ainsi qu’un système de détection de mots clefs, à partir de requêtes images et de requêtes de texte. Dans ces deux applications nous présentons une approche originale faisant appel à la reconnaissance de l’écriture. En effet la plupart des systèmes de la littérature extraient des caractéristiques des image pour déterminer une langue ou trouver des images similaires, ce qui n’est pas nécessairement l’approche la plus adaptée au problème à traiter. Nos approches se basent sur une phase de reconnaissance de l’écriture puis une analyse du texte afin de déterminer la langue ou de détecter un mot clef recherché

    Acquisition de liens sémantiques à partir d'éléments de mise en forme des textes: exploitation des structures énumératives

    Get PDF
    The past decade witnessed significant advances in the field of relation extraction from text, facilitating the building of lexical or semantic resources. However, the methods proposed so far (supervised learning, kernel methods, distant supervision, etc.) don't fully exploit the texts: they are usually applied at the sentential level and they don't take into account the layout and the formatting of texts.In such a context, this thesis aims at expanding those methods and makes them layout-aware for extracting relations expressed beyond sentence boundaries. For this purpose, we rely on the semantics conveyed by typographical (bullets, emphasis, etc.) and dispositional (visual indentations, carriage returns, etc.) features. Those features often substitute purely discursive formulations. In particular, the study reported here is dealing with the relations carried by the vertical enumerative structures. Although they display discontinuities between their various components, the enumerative structures can be dealt as a whole at the semantic level. They form textual structures prone to hierarchical relations.This study was divided into two parts. (i) The first part describes a model representing the hierarchical structure of documents. This model is falling within the theoretical framework representing the textual architecture: an abstraction of the layout and the formatting, as well as a strong connection with the rhetorical structure are achieved. However, our model focuses primarily on the efficiency of the analysis process rather than on the expressiveness of the representation. A bottom-up method intended for building automatically this model is presented and evaluated on a corpus of PDF documents.(ii) The second part aims at integrating this model into the process of relation extraction. In particular, we focused on vertical enumerative structures. A multidimensional typology intended for characterizing those structures was established and used into an annotation task. Thanks to corpus-based observations, we proposed a two-step method, by supervised learning, for qualifying the nature of the relation and identifying its arguments. The evaluation of our method showed that exploiting the formatting and the layout of documents, in combination with standard lexico-syntactic features, improves those two tasks.Ces dernières années de nombreux progrès ont été faits dans le domaine de l'extraction de relations à partir de textes, facilitant ainsi la construction de ressources lexicales ou sémantiques. Cependant, les méthodes proposées (apprentissage supervisé, méthodes à noyaux, apprentissage distant, etc.) n’exploitent pas tout le potentiel des textes : elles ont généralement été appliquées à un niveau phrastique, sans tenir compte des éléments de mise en forme.Dans ce contexte, l'objectif de cette thèse est d'adapter ces méthodes à l'extraction de relations exprimées au-delà des frontières de la phrase. Pour cela, nous nous appuyons sur la sémantique véhiculée par les indices typographiques (puces, emphases, etc.) et dispositionnels (indentations visuelles, retours à la ligne, etc.), qui complètent des formulations strictement discursives. En particulier, nous étudions les structures énumératives verticales qui, bien qu'affichant des discontinuités entre leurs différents composants, présentent un tout sur le plan sémantique. Ces structures textuelles sont souvent révélatrices de relations hiérarchiques. Notre travail est divisé en deux parties. (i) La première partie décrit un modèle pour représenter la structure hiérarchique des documents. Ce modèle se positionne dans la suite des modèles théoriques proposés pour rendre compte de l'architecture textuelle : une abstraction de la mise en forme et une connexion forte avec la structure rhétorique sont faites. Toutefois, notre modèle se démarque par une perspective d'analyse automatique des textes. Nous en proposons une implémentation efficace sous la forme d'une méthode ascendante et nous l'évaluons sur un corpus de documents PDF. (ii) La seconde partie porte sur l'intégration de ce modèle dans le processus d'extraction de relations. Plus particulièrement, nous nous sommes focalisés sur les structures énumératives verticales. Un corpus a été annoté selon une typologie multi-dimensionnelle permettant de caractériser et de cibler les structures énumératives verticales porteuses de relations utiles à la création de ressources. Les observations faites en corpus ont conduit à procéder en deux étapes par apprentissage supervisé pour analyser ces structures : qualifier la relation puis en extraire les arguments. L'évaluation de cette méthode montre que l'exploitation de la mise en forme, combinée à un faisceau d'indices lexico-syntaxiques, améliore les résultats

    Complexification des données et des techniques en linguistique : contributions du TAL aux solutions et aux problèmes

    Get PDF
    Ce mémoire d'habilitation est l'occasion de faire le bilan de mon activité d'enseignant-chercheur en traitement automatique des langues (TAL) dans un laboratoire de linguistique (CLLE-ERSS) et des principales évolutions de l'outillage informatique de la linguistique au cours des 15 dernières années. Mes recherches portent notamment sur le repérage de structures morphosyntaxiques dans les textes, l'analyse des structures du discours et l'acquisition de ressources lexicales à partir de corpus. Certaines se positionnent dans des cadres applicatifs comme la recherche d'information et la classification de textes, mais aussi dans des contextes plus spécifiques en lien avec d'autres disciplines (médecine, psychologie, sociologie...). En m'appuyant sur la diversité de ces travaux et de mes collaborations, j'identifie quatre dimensions d'évolution principales : - l'augmentation de la masse de données langagières disponibles et notamment la part croissante de l'utilisation du Web comme corpus ; - la complexification de l'outillage informatique disponible pour gérer la masse et la variété des données accessibles (outils de constitution et d'interrogation de corpus) ; - la complexification de l'annotation des données langagières, qu'elle soit manuelle, assistée ou automatique ; - la montée en puissance, en TAL mais aussi en linguistique descriptive, des méthodes quantitatives (depuis l'analyse statistique jusqu'aux techniques de fouille de données et d'apprentissage). Si les avancées techniques du TAL ont permis d'accroître de façon conséquente les potentialités d'investigation du matériau langagier, et dans certains cas de dégager de nouveaux questionnements, elles ont aussi contribué à creuser un fossé entre les deux composantes (informatique et linguistique) de la discipline. A travers ma propre expérience d'acteur ou d'accompagnateur de ces changements et avec une vocation de "passeur" interdisciplinaire, je cherche à dégager les principaux enjeux actuels pour la linguistique outillée : - doter la linguistique descriptive d'outils de visualisation de données pour aborder la complexité, en exploitant les avancées théoriques et techniques de ce nouveau champ disciplinaire et en les adaptant aux spécificités du matériau langagier ; - rendre abordables aux linguistes les techniques fondamentales de l'analyse statistique, mais aussi les méthodes d'apprentissage artificiel seules capables d'assister l'investigation et l'exploitation de données massives et complexes ; - replacer la linguistique au sein des développements actuels du TAL, notamment par le biais de l'utilisation de descripteurs linguistiques riches dans les outils de traitement par apprentissage, pour un bénéfice mutuel
    • …
    corecore