167 research outputs found

    ANTELOPE - Une plateforme industrielle de traitement linguistique

    Get PDF
    International audienceThe Antelope linguistic platform, inspired by Meaning-Text Theory, targets the syntactic and semantic analysis of texts, and can handle large corpora. Antelope integrates several pre-existing (parsing) components as well as broad-coverage linguistic data originating from various sources. Efforts towards integration of all components nonetheless make for a homogeneous platform. Our direct contribution deals with components for semantic analysis, and the formalization of a unified text analysis model. This paper introduces the platform and compares it with state-of-the-art projects. It offers to the NLP community a feedback from a software company, by underlining the architectural measures that should be taken to ensure that such complex software remains maintainable.La plate-forme de traitement linguistique Antelope, en partie basée sur la Théorie Sens-Texte (TST), permet l'analyse syntaxique et sémantique de textes sur des corpus de volume important. Antelope intègre plusieurs composants préexistants (pour l'analyse syntaxique) ainsi que des données linguistiques à large couverture provenant de différentes sources. Un effort d'intégration permet néanmoins d'offrir une plate-forme homogène. Notre contribution directe concerne l'ajout de composants d'analyse sémantique et la formalisation d'un modèle linguistique unifié. Cet article présente la plate-forme et la compare à d'autres projets de référence. Il propose un retour d'expérience d'un éditeur de logiciel vers la communauté du TAL, en soulignant les précautions architecturales à prendre pour qu'un tel ensemble complexe reste maintenable

    Actes de la conférence JFLA 2009 (Vingtièmes Journées Francophones des Langages Applicatifs)

    Get PDF
    Ce fichier regroupe en un seul document l'ensemble des articles acceptés pour la conférence JFLA 2009.Pour la vingtième année consécutive, les Journées Francophones des Langages Applications sont l'occasion de se retrouver dans un cadre agréable et propice aux échanges conviviaux. Cette année, c'est à Saint-Quentin sur Isère, près de Grenoble, que nous nous réunissons, maintenant la tradition de l'alternance mer-montagne. Les neuf articles choisis par le comité de programme reflètent bien la diversité de notre communauté et les avancés tant du point de vue de l'application de langages fonctionnels que de la conception et de l'utilisation d'assistants à la preuve. Nous avons souhaité également inclure des articles plus proches de tutoriels ou de retours d'expérience, ceux-ci étant particulièrement adaptés au cadre pédagogique des Journées. Deux orateurs nous ont fait l'honneur d'accepter notre invitation. L'exposé de Vincent Balat, de l'université Paris 7, intitulé ≪ Ocsigen : approche fonctionnelle typée de la programmation Web ≫ illustre l'utilisation croissante de langages applicatifs dans des milieux inattendus. L'exposé de Bruno Barras, de Trusted Labs, intitulé ≪ Faut-il avoir peur de sa carte SIM ? ≫ présente l'application d'assistants à la preuve dans la modélisation de cartes à puces. Pour la quatrième année consécutive, deux sessions d'une demi-journée chacune sont consacrées à des cours. Le premier porte sur la modélisation de la linguistique (par Gérard Huet, de l'INRIA Paris - Rocquencourt) et le deuxième sur les bibliothèques Coq utilisées dans la preuve récente du théorème des quatre couleurs (par Assia Mahboubi, de l'INRIA Saclay - Île-de-France)

    Gestion de l'incertitude dans le processus d'extraction de connaissances Ă  partir de textes

    Get PDF
    The increase of textual sources over the Web offers an opportunity for knowledge extraction and knowledge base creation. Recently, several research works on this topic have appeared or intensified. They generally highlight that to extract relevant and precise information from text, it is necessary to define a collaboration between linguistic approaches, e.g., to extract certain concepts regarding named entities, temporal and spatial aspects, and methods originating from the field of semantics' processing. Moreover, successful approaches also need to qualify and quantify the uncertainty present in the text. Finally, in order to be relevant in the context of the Web, the linguistic processing need to be consider several sources in different languages. This PhD thesis tackles this problematic in its entirety since our contributions cover the extraction, representation of uncertain knowledge as well as the visualization of generated graphs and their querying. This research work has been conducted within a CIFRE funding involving the Laboratoire d'Informatique Gaspard Monge (LIGM) of the Université Paris-Est Marne la Vallée and the GEOLSemantics start-up. It was leveraging from years of accumulated experience in natural language processing (GeolSemantics) and semantics processing (LIGM).In this context, our contributions are the following:- the integration of a qualifation of different forms of uncertainty, based on ontology processing, within the knowledge extraction processing,- the quantification of uncertainties based on a set of heuristics,- a representation, using RDF graphs, of the extracted knowledge and their uncertainties,- an evaluation and an analysis of the results obtained using our approachLa multiplication de sources textuelles sur le Web offre un champ pour l'extraction de connaissances depuis des textes et à la création de bases de connaissances. Dernièrement, de nombreux travaux dans ce domaine sont apparus ou se sont intensifiés. De ce fait, il est nécessaire de faire collaborer des approches linguistiques, pour extraire certains concepts relatifs aux entités nommées, aspects temporels et spatiaux, à des méthodes issues des traitements sémantiques afin de faire ressortir la pertinence et la précision de l'information véhiculée. Cependant, les imperfections liées au langage naturel doivent être gérées de manière efficace. Pour ce faire, nous proposons une méthode pour qualifier et quantifier l'incertitude des différentes portions des textes analysés. Enfin, pour présenter un intérêt à l'échelle du Web, les traitements linguistiques doivent être multisources et interlingue. Cette thèse s'inscrit dans la globalité de cette problématique, c'est-à-dire que nos contributions couvrent aussi bien les aspects extraction et représentation de connaissances incertaines que la visualisation des graphes générés et leur interrogation. Les travaux de recherche se sont déroulés dans le cadre d'une bourse CIFRE impliquant le Laboratoire d'Informatique Gaspard Monge (LIGM) de l'Université Paris-Est Marne la Vallée et la société GEOLSemantics. Nous nous appuyons sur une expérience cumulée de plusieurs années dans le monde de la linguistique (GEOLSemantics) et de la sémantique (LIGM).Dans ce contexte, nos contributions sont les suivantes :- participation au développement du système d'extraction de connaissances de GEOLSemantics, en particulier : (1) le développement d'une ontologie expressive pour la représentation des connaissances, (2) le développement d'un module de mise en cohérence, (3) le développement d'un outil visualisation graphique.- l'intégration de la qualification de différentes formes d'incertitude, au sein du processus d'extraction de connaissances à partir d'un texte,- la quantification des différentes formes d'incertitude identifiées ;- une représentation, à l'aide de graphes RDF, des connaissances et des incertitudes associées ;- une méthode d'interrogation SPARQL intégrant les différentes formes d'incertitude ;- une évaluation et une analyse des résultats obtenus avec notre approch

    Complexification des données et des techniques en linguistique : contributions du TAL aux solutions et aux problèmes

    Get PDF
    Ce mémoire d'habilitation est l'occasion de faire le bilan de mon activité d'enseignant-chercheur en traitement automatique des langues (TAL) dans un laboratoire de linguistique (CLLE-ERSS) et des principales évolutions de l'outillage informatique de la linguistique au cours des 15 dernières années. Mes recherches portent notamment sur le repérage de structures morphosyntaxiques dans les textes, l'analyse des structures du discours et l'acquisition de ressources lexicales à partir de corpus. Certaines se positionnent dans des cadres applicatifs comme la recherche d'information et la classification de textes, mais aussi dans des contextes plus spécifiques en lien avec d'autres disciplines (médecine, psychologie, sociologie...). En m'appuyant sur la diversité de ces travaux et de mes collaborations, j'identifie quatre dimensions d'évolution principales : - l'augmentation de la masse de données langagières disponibles et notamment la part croissante de l'utilisation du Web comme corpus ; - la complexification de l'outillage informatique disponible pour gérer la masse et la variété des données accessibles (outils de constitution et d'interrogation de corpus) ; - la complexification de l'annotation des données langagières, qu'elle soit manuelle, assistée ou automatique ; - la montée en puissance, en TAL mais aussi en linguistique descriptive, des méthodes quantitatives (depuis l'analyse statistique jusqu'aux techniques de fouille de données et d'apprentissage). Si les avancées techniques du TAL ont permis d'accroître de façon conséquente les potentialités d'investigation du matériau langagier, et dans certains cas de dégager de nouveaux questionnements, elles ont aussi contribué à creuser un fossé entre les deux composantes (informatique et linguistique) de la discipline. A travers ma propre expérience d'acteur ou d'accompagnateur de ces changements et avec une vocation de "passeur" interdisciplinaire, je cherche à dégager les principaux enjeux actuels pour la linguistique outillée : - doter la linguistique descriptive d'outils de visualisation de données pour aborder la complexité, en exploitant les avancées théoriques et techniques de ce nouveau champ disciplinaire et en les adaptant aux spécificités du matériau langagier ; - rendre abordables aux linguistes les techniques fondamentales de l'analyse statistique, mais aussi les méthodes d'apprentissage artificiel seules capables d'assister l'investigation et l'exploitation de données massives et complexes ; - replacer la linguistique au sein des développements actuels du TAL, notamment par le biais de l'utilisation de descripteurs linguistiques riches dans les outils de traitement par apprentissage, pour un bénéfice mutuel

    Astus, une plateforme pour créer et étudier les systèmes tutoriels intelligents « par traçage de modèle »

    Get PDF
    Cette thèse s’intéresse aux systèmes tutoriels intelligents (STI), un type d’environnement informatique pour l’apprentissage humain (EIAH) qui se distingue des autres (p. ex. les exerciseurs et les hypermédias éducatifs) en offrant un mécanisme d’évaluation plus sophistiqué. Parmi les différentes familles de STI, ce sont les STI « par traçage de modèle » (MTT) qui ont le plus fait leurs preuves. Les MTT sont critiqués, premièrement parce qu’ils évaluent l’apprenant de façon serrée (c.-à-d. qui positionne l’action de l’apprenant par rapport à une ou plusieurs méthodes pour effectuer la tâche), ce qui n’est possible que pour des tâches bien définies. Par conséquent, on leur reproche d’encourager un apprentissage superficiel. Deuxièmement, parce que les efforts de création qu’ils requièrent sont jugés prohibitifs, ce qui a mené à l’apparition d’autres familles de STI, comme les STI « par contraintes » et les STI « par traçage d’exemples » et ceux basés sur l’apprentissage automatique. Par cette thèse, nous voulons contribuer à renouveler l’intérêt pour les MTT en améliorant le rapport entre les efforts de création et l’efficacité potentielle des interventions, et en établissant plus clairement leur rôle pédagogique. Pour ce faire, nous proposons la plateforme Astus qui permet d’explorer l’espace qui existe entre les MTT créés avec les plateformes existantes, et des MTT dédiés ayant recours à des connaissances didactiques sophistiquées (p. ex. des dialogues) qui exigent des efforts de création encore plus importants. La plateforme Astus se distingue des plateformes existantes parce qu’elle génère des interventions plutôt que de recourir à des interventions prémâchées et qu’elle supporte les tâches s’effectuant dans des environnements qui ont une dimension physique. La génération des interventions dépend : d’un modèle de la tâche qui s’inscrit dans le paradigme du tuteur, c’est-à-dire qui représente une abstraction et une généralisation des instructions d’un tuteur humain; d’un modèle de l’UI qui permet des interventions riches comme une démonstration (c.-à-d. déplacements du pointeur et simulation des clics et des saisies); de langages dédiés et d’outils qui réduisent les efforts de création des auteurs; de mécanismes d’extension qui permettent d’adapter la génération en fonction d’une stratégie pédagogique particulière. Le paradigme du tuteur, parce qu’il favorise une communication transparente entre le système et l’apprenant, met en évidence les avantages et les désavantages de l’approche pédagogique des MTT, essentiellement une évaluation précise (c.-à-d. qui permet de produire des indices sur la prochaine étape et des rétroactions sur les erreurs), mais serrée. En s’inscrivant explicitement le paradigme du tuteur, entre autres en évitant de tirer profit de la nature de domaines particuliers ou de propriétés de tâches particulières pour assouplir l’évaluation, la plateforme Astus se démarque plus nettement des autres familles de STI que les autres MTT. Par conséquent, elle établit plus clairement le rôle pédagogique des MTT. Cinq expérimentations (menées par Luc Paquette) à petite échelle ont été réalisées auprès d’étudiants au baccalauréat au département d’informatique (un laboratoire pour la manipulation d’arbres binaires de recherche et un pour la conversion de nombres en virgule flottante). Ces expérimentations indiquent que les interventions générées sont efficaces. Au-delà de ces résultats, c’est le processus entourant ces expérimentations, parce qu’il est comparable au processus des chercheurs potentiellement intéressés par la plateforme Astus, qui montre que la version présentée dans cette thèse est plus qu’un prototype et qu’elle peut être utilisée à l’interne dans un contexte réel

    Extraction de connaissances à partir de bases de données de réactions en chimie organique

    Get PDF
    Colloque avec actes et comité de lecture. nationale.National audienceDans cet article, nous présentons un aspect de l'extraction de connaissances dans des bases de données de réactions chimiques. Ces bases de données sont de première importance, mais leur exploitation actuelle reste limitée à des interrogations classiques. Nous avons fait l'hypothèse que l'application de techniques de fouille de données à de telles bases peut faire émerger des éléments de connaissance sur les réactions, qui peuvent alors être réutilisés pour résoudre des problèmes de synthèse chimique. Pour mener à bien fouille de données et résolution de problème, la représentation et l'exploitation de connaissances du domaine est un préalable obligé. Les premiers résultats d'une expérience de fouille de données dans des bases de réactions sont présentés et analysés ici
    • …
    corecore