18 research outputs found

    Affinités syntaxiques et sémantiques entre mots : apports mutuels de la linguistique et du TAL

    Get PDF
    Je présente un bilan des travaux que j'ai menés depuis mon recrutement à l'Université de Toulouse 2 - Le Mirail (1997) dans le domaine de la linguistique et du Traitement Automatique des Langues (TAL). J'ai exploré le lien entre ces deux disciplines de deux façons que j'estime complémentaires : tout d'abord, je considère le champ applicatif du TAL comme un terrain d'investigation important pour la linguistique. Le TAL, et de façon générale, les applications relevant du domaine de l'ingénierie des langues, sollicitent un renouvellement des objets d'étude de la linguistique et élargissent le champ de ses questionnements. En retour, la linguistique gagne à s'appuyer sur des procédures de découverte issues du TAL, basées sur le traitement de corpus numérisés et annotés et sur le recours à des techniques de quantification adaptées aux besoins de la description linguistique. Au sein de ce cadre général, les travaux que j'ai menés ont porté principalement sur deux thématiques de recherche que j'ai résumées sous les termes d'affinités sémantiques et syntaxiques. Le premier concerne la question du repérage des rapports de proximité sémantique entre différents types d'unités (mots, termes, structures prédicatives). Identifier sous la diversité des formulations des éléments de contenu similaire est un objectif crucial pour de nombreuses applications qui visent l'accès à l'information dans les textes. Dans cette perspective, j'ai cherché à considérer sur le plan linguistique cette question de la proximité sémantique, en faisant en particulier appel à des techniques d'analyse distributionnelle automatique qui visent à calculer les rapprochements sémantiques entre mots sur la base de la similarité de leur comportement syntaxique dans les corpus. Cette approche inductive des relations de sens déborde largement les limites des relations classiquement décrites en linguistique et sollicite des procédures nouvelles de description et de validation. Le second volet concerne la question des affinités syntaxiques entre mots : impliquée dans le projet de développement et d'exploitation d'un analyseur syntaxique automatique, syntex, je me suis intéressée à une question qui est au coeur des problèmes d'ambiguïté syntaxique, à savoir le rattachement des groupes prépositionnels. J'ai travaillé en particulier à la mise au point d'une méthode permettant de distinguer des types différents de rattachement prépositionnel, de nature argumentale ou adjonctive. Dans ce cas également, mon travail est guidé par un objectif qui relève du TAL (améliorer les performances d'un analyseur), et ce projet m'a amenée en retour à retravailler une question linguistique centrale en syntaxe, la distinction entre arguments et circonstants, et à développer des méthodes d'analyse de corpus qui permettent de substituer à une conception binaire de ces notions une appréciation plus graduelle de l'autonomie du groupe prépositionnel par rapport au verbe. Je propose donc de montrer comment les outils de TAL appliqués aux corpus offrent à la linguistique des instruments d'observation et d'expérimentation qui permettent d'aborder les faits langagiers par le biais de l'observation des usages et sous l'angle de la quantification. Ma conviction est que la linguistique ainsi outillée peut jouer un rôle plus important sur les nombreux terrains applicatifs qui nécessitent l'analyse de données langagières

    État des lieux des représentations dynamiques des temporalités des territoires

    Get PDF
    Le temps et ses caractéristiques ont toujours fait l’objet de grandes attentions pour comprendre les dynamiques des territoires. Aujourd’hui, que ce soit à cause des nouvelles capacités d’observation en temps réel, de l’accumulation des séries de données au cours du temps, ou à cause de la multiplication des rythmes, les temporalités à prendre en compte pour comprendre les dynamiques territoriales se multiplient et leurs imbrications se complexifient. Interroger les rythmes, les vitesses, les cycles de ces dynamiques, ou mettre en relation temporelle des phénomènes spatiaux tels que les évènements catastrophiques passés devient plus que jamais un enjeu pour comprendre et décider.Les jeux de méthodes mobilisables aujourd’hui pour représenter les temporalités des territoires sont en plein renouvellement, et imposent désormais bien souvent de franchir les fractures disciplinaires traditionnelles entre échelles, entre outils, entre formalismes. Les domaines d’applications potentiellement concernés, comme celui du développement durable des territoires, sont autant de domaines susceptibles de nourrir les questions associées à l’exploration des temporalités des territoires. Le projet "Représentation dynamique des temporalités des territoires" se veut un état des lieux de différents développements et solutions pour analyser et rendre compte des temporalités des territoires. Cet état des lieux est à entrées multiples, interrogeant à la fois des choix amont (modélisation) et des choix proprement liés à la question de la représentation. Le projet débouche sur un ensemble de résultats dont certains sont mis en ligne sur le site: http://www.map.cnrs.fr/jyb/puca/- Une grille de lecture de la collection d'applications analysée (voir onglet "47 applications"), grille où sont combinés des indicateurs généraux sur par exmeple le type de service rendu ou le type de dynamique spatiale analysée, et des indicateurs plus spécifiques au traitement des dimensions spatiales et temporelles. Cette grille est mise en place sur 47 applications identifiées et analysées,- Des visualisations récapitulatives conçues comme outils d'analyse comparative de la collection,- Une bibliographie structurée en relation avec la grille de lecture

    Approches topologiques pour l'analyse exploratoire de données et l'aide à la décision

    Get PDF
    Depuis au moins les premières pierres taillées de l'ère Paléolithique,les hommes n'ont cessé de créer des artefacts, moyens d'agir sur leur environnementet moyens de l'observer au-delà de leurs capacités propres.Ils ont développé ces outils pour les assister dans leur quête viscérale decompréhension (sciences) et de maîtrise (techniques) de ce monde dont ilsfont partie. Cette compréhension du monde est nécessaire pour en prédireles états, et la maîtrise qui en découle est le moyen de ne plus le subir maisde l'asservir pour réduire les sourances qu'il nous assène par nature. Enplus de transformer le Monde, les hommes ont aussi pu réparer, corriger etaugmenter leur propre corps par des orthèses et des prothèses biologiques,chimiques, mécaniques ou numériques. La multiplication de ces moyensd'agir et d'observer entraîne un accroissement exponentiel des donnéesdésormais capturées dont la masse est supposée assurer les hommes decontenir toute l'information utile à leur quête. Cette massication desdonnées impose de développer des méthodes d'analyse et de traitementtoujours plus ecaces pour que les hommes qui les étudient ou appuientleurs décisions sur elles puissent continuer à le faire et à le faire mieux. J'aiproposé diérentes approches dans les champs de l'analyse descriptive etde la modélisation prédictive an de rendre plus intelligible la chaîne detraitement de l'information du capteur à l'écran. J'ai placé la Topologieau coeur de mes travaux. En eet, je considère qu'elle forme le substratessentiel à l'interprétabilité de l'information, c'est-à-dire à la transmissiondu sens dans cette chaîne, et in ne à la compréhension et à la maîtrisedu Monde par l'Homme.Le développement permanent des artefacts techniques pour tenter demieux comprendre et maîtriser le Monde, entretient la croissance de sacomplexité, à la fois parce que grâce aux artefacts développés pour lascience et la technologie, nous accédons à des mécanismes toujours plusprécis et plus nombreux qui le gouvernent, mais aussi parce que les artefactstechniques engendrés par ces connaissances nouvelles, font partieintégrante du Monde lui-même et en modient le fonctionnement. Auxcauses naturelles s'entremêlent les causes articielles. C'est pour certainsauteurs [Crutzen, Geology of Mankind, Nature 415(6867):23, 2002] une nouvelle ère qui a commencée au 19e siècle, l'ère de l'Anthropocène , dans laquelle l'intelligence des hommes les a dotés de moyenstechniques capable de modier durablement leur écosystème et en particulierles mécanismes de la Sélection Naturelle qui ont engendrée cette intelligence.Il est vraissemblable que ce développement aboutira à l'émergencede machines intelligentes, conscientes et émotionnelles capables d'explorerce monde par elles-mêmes et de communiquer aux hommes leurs conclusionssur les lois qui le gouvernent, comme le font déjà quelques machinesencore rudimentaires mais ecaces [Sparkes et al. An integrated laboratory robotic system for autonomousdiscovery of gene function, JALA 15(1):33-40, 2010]. Ces machines sont la forme ultimede ces orthèses dont les hommes cherchent à se doter depuis le Paléolithique pour tenter de dépasser leur condition. Avant que n'adviennece moment singulier que Kurzweil appelle la Singularité [Kurzweil,The singularity is near : when humans transcendbiology. http ://books.google.fr/books ?id=88U6hdUi6D0C, 2005.], où les machinesautonomes seront en mesure de dépasser l'homme et de développerpour elles-mêmes des connaissances et des techniques, des questionséthiques seront posées qui mèneront soit à l'abandon du développementde telles machines, soit à la nécessité impérieuse de les maîtriser. Il seraalors impératif que les processus internes et les produits de ces machinessoient intelligibles aux hommes an qu'ils en comprennent le sens et enconservent le contrôle. C'est ainsi tout l'enjeu de mes recherches actuelleset futures

    Analyse du métabolome par chromatographie liquide couplée à la spectrométrie de masse : application à la recherche de biomarqueurs indirects d’induction enzymatique

    Get PDF
    This work is the result of a research partnership between the CEA and Les laboratories Servier. It deals with the characterization of biomarkers of metabolic enzyme induction in rat biofluids using MSbased metabolomics. The first part of this work included methodological developments regarding theacquisition and the processing of metabolic fingerprints. A tool based on autocorrelation matrices wasthen implemented to reduce the redundancy of data generated with mass spectrometry and subsequently accelerate the isolation of discriminating variables. The next step consisted in the evaluation of the combined use of Kendrick mass defects and methylene selectivity as an alternative visualization tool for large data set, which would rely on compound chemical structures. Finally, the last part of the work was dedicated to the identification of discriminating signals raised up by ametabolomic global approach from rat biofluids collected before and after an induction assay.Issue d’un partenariat de recherche entre le CEA et les laboratoires Servier, cette thèse avait pour objectif d’évaluer l’approche métabolomique par chromatographie liquide couplée à la spectrométrie de masse (LC-MS) pour l'identification de marqueurs indirects de l'induction dans les espèces de toxicologie. Le travail de thèse a débuté par l’optimisation de la méthode d’acquisition des empreintes métaboliques tant sur le plan analytique que dans le domaine du traitement des données brutes. Un outil reposant sur les matrices d’auto corrélation a alors été développé afin de s’affranchir d’une partie de la redondance du signal obtenu par spectrométrie de masse. Dans un troisième temps, les indices de Kendrick couplés à la sélectivité méthylène ont été appliqués à l’étude de composés biologiques en spectrométrie de masse haute résolution afin de proposer une méthode alternative de visualisation des données offrant une aide à l’identification des variables. Enfin, dans une dernière partie, les efforts se sont portés sur l’identification des composés endogènes modifiés au cours du protocole d’induction

    Recherche d'information et achat dans un environnement multi-canal. Le cas du "click and mortar"

    Get PDF
    abstractL'arrivée d'Internet introduit une situation inédite où les acheteurs sont susceptibles de disposer d'une quantité d'information très importante. Cette possibilité de comparer les offres semble même avoir redonné à certains consommateurs l'envie de mieux préparer certains de leurs achats. Un comportement "click and mortar" du consommateur peut ainsi être désigné, articulant à l'intérieur d'un même processus d'achat, une recherche d'information par Internet et une transaction en magasin traditionnel. Par l'intermédiaire de deux études empiriques, cette thèse analyse les antécédents et conséquences de ce comportement de recherche d'information pré-achat par Internet. La première étude souligne l'influence positive du besoin d'information, des motivations au shopping (principalement utilitaires) et des variables du modèle d'acceptation de la technologie (utilité perçue, facilité d'utilisation perçue et amusement lié à l'utilisation). De nature expérimentale, la seconde étude souligne les répercussions de la consultation d'Internet sur le comportement d'achat en magasin. Il ressort que le produit choisi est peu modifié (essentiellement en termes de marques), alors que le comportement adopté face au rayon est fortement réduit, traduisant un achat davantage planifié. Ces modifications s'expliquent de manière pertinente par l'articulation des modèles de persuasion et du comportement planifié

    Clustering incrémental et méthodes de détection de nouveauté : application à l'analyse intelligente d'informations évoluant au cours du temps

    Get PDF
    Série Environnements et services numériques d'information Bibliographie en fin de chapitres. Notes bibliogr. IndexNational audienceLearning algorithms proved their ability to deal with large amount of data. Most of the statistical approaches use defined size learning sets and produce static models. However in specific situations: active or incremental learning, the learning task starts with only very few data. In that case, looking for algorithms able to produce models with only few examples becomes necessary. The literature's classifiers are generally evaluated with criteria such as: accuracy, ability to order data (ranking)... But this classifiers' taxonomy can really change if the focus is on the ability to learn with just few examples. To our knowledge, just few studies were performed on this problem. This study aims to study a larger panel of both algorithms (9 different kinds) and data sets (17 UCI bases)
    corecore