69 research outputs found

    Ortolang

    Get PDF
    Dans cet article nous présentons l'infrastructure Equipex Ortolang (Open Resources and Tools for LANGuage / Outils et Ressources pour un Traitement Optimisé de la LANGue : www.ortolang.fr) en cours de mise en place dans le cadre du Programme d'Investissements d'Avenir (PIA) lancé par le gouvernement français.S'appuyant entre autres sur l'existant des centres de ressources CNRTL (Centre National de Ressources Textuelles et Lexicales : www.cnrtl.fr) et SLDR (Speech and Language Data Repository : http://sldr.org/), cette infrastructure a pour objectif d'assurer la gestion, la mutualisation, la diffusion et la pérennisation de ressources linguistiques de type corpus, dictionnaires, lexiques et outils de traitement de la langue, avec une focalisation particulière sur le français et les langues de France.Après avoir rappelé les motivations d'un tel projet, son originalité et son caractère novateur, nous présenterons les principales caractéristiques d'Ortolang, ses objectifs et ses missions, l'infrastructure logicielle et matérielle de la plateforme puis les moyens mis en œuvre, avant de conclure en indiquant comment suivre et contribuer au projet.This paper presents the infrastructure for the Equipex Ortolang (Open Resources and Tools for LANGuage / Outils et Ressources pour un Traitement Optimisé de la LANGue : www.ortolang.fr) which is currently being developed as part of the French government's Investments for the Future programme.Drawing on existing resources such as the CNRTL (Centre National de Ressources Textuelles et Lexicales: www.cnrtl.fr) and SLDR (Speech and Language Data Repository: http://sldr.org/), the infrastructure is designed for the long-term management, sharing and dissemination of linguistic resources including corpora, dictionaries, lexicons and language processing tools, with a particular focus on French and other languages in France.The paper briefly presents the rationale behind such an original and ground-breaking project, then describes the main characteristics and goals of Ortolang, the platform hardware and software as well as the means available, before concluding with planned future developments and an invitation to contribute to the project

    Affinités syntaxiques et sémantiques entre mots : apports mutuels de la linguistique et du TAL

    Get PDF
    Je présente un bilan des travaux que j'ai menés depuis mon recrutement à l'Université de Toulouse 2 - Le Mirail (1997) dans le domaine de la linguistique et du Traitement Automatique des Langues (TAL). J'ai exploré le lien entre ces deux disciplines de deux façons que j'estime complémentaires : tout d'abord, je considère le champ applicatif du TAL comme un terrain d'investigation important pour la linguistique. Le TAL, et de façon générale, les applications relevant du domaine de l'ingénierie des langues, sollicitent un renouvellement des objets d'étude de la linguistique et élargissent le champ de ses questionnements. En retour, la linguistique gagne à s'appuyer sur des procédures de découverte issues du TAL, basées sur le traitement de corpus numérisés et annotés et sur le recours à des techniques de quantification adaptées aux besoins de la description linguistique. Au sein de ce cadre général, les travaux que j'ai menés ont porté principalement sur deux thématiques de recherche que j'ai résumées sous les termes d'affinités sémantiques et syntaxiques. Le premier concerne la question du repérage des rapports de proximité sémantique entre différents types d'unités (mots, termes, structures prédicatives). Identifier sous la diversité des formulations des éléments de contenu similaire est un objectif crucial pour de nombreuses applications qui visent l'accès à l'information dans les textes. Dans cette perspective, j'ai cherché à considérer sur le plan linguistique cette question de la proximité sémantique, en faisant en particulier appel à des techniques d'analyse distributionnelle automatique qui visent à calculer les rapprochements sémantiques entre mots sur la base de la similarité de leur comportement syntaxique dans les corpus. Cette approche inductive des relations de sens déborde largement les limites des relations classiquement décrites en linguistique et sollicite des procédures nouvelles de description et de validation. Le second volet concerne la question des affinités syntaxiques entre mots : impliquée dans le projet de développement et d'exploitation d'un analyseur syntaxique automatique, syntex, je me suis intéressée à une question qui est au coeur des problèmes d'ambiguïté syntaxique, à savoir le rattachement des groupes prépositionnels. J'ai travaillé en particulier à la mise au point d'une méthode permettant de distinguer des types différents de rattachement prépositionnel, de nature argumentale ou adjonctive. Dans ce cas également, mon travail est guidé par un objectif qui relève du TAL (améliorer les performances d'un analyseur), et ce projet m'a amenée en retour à retravailler une question linguistique centrale en syntaxe, la distinction entre arguments et circonstants, et à développer des méthodes d'analyse de corpus qui permettent de substituer à une conception binaire de ces notions une appréciation plus graduelle de l'autonomie du groupe prépositionnel par rapport au verbe. Je propose donc de montrer comment les outils de TAL appliqués aux corpus offrent à la linguistique des instruments d'observation et d'expérimentation qui permettent d'aborder les faits langagiers par le biais de l'observation des usages et sous l'angle de la quantification. Ma conviction est que la linguistique ainsi outillée peut jouer un rôle plus important sur les nombreux terrains applicatifs qui nécessitent l'analyse de données langagières

    Evolution cohérente des ressources termino-ontologiques et des annotations sémantiques

    Get PDF
    Un des enjeux du web sémantique est de produire des caractérisations formelles de contenus documentaires, ou annotations sémantiques, de qualité. Or dans un environnement dynamique, les ressources termino-ontologiques et les annotations sémantiques qu'elles permettent de construire doivent être modifiées régulièrement et en cohérence pour s'adapter à l'évolution du domaine concerné et des collections documentaires annotées. Notre contribution est une méthode qui permet de gérer conjointement l'évolution d'une ressource termino-ontologique et d'annotations sémantiques produites à partir de cette ressource. La méthode définit les types de changements applicables (élémentaires ou complexes), ainsi que des stratégies d'évolution de la ressource et des annotations. Cette méthode est mise en œuvre par le logiciel EvOnto qui s'intègre à l'environnement d'annotation automatique de documents TextViz défini dans le cadre du projet ANR DYNAMO. L'originalité d'EvOnto est de s'adapter à plusieurs scénarios d'évolution suivant que ce soit l'ontologie, la collection documentaire ou les annotations qui soient modifiées. EvOnto assure un support à l'ontologue en le guidant interactivement pour formuler une demande de changement, évaluer son impact (effets supplémentaires) sur la ressource termino-ontologique et aussi sur les annotations sémantiques, et décider ensuite de leur mise en œuvre. Il fournit des informations à l'ontologue pour qu'il décide d'une évolution en connaissant ses conséquences, et qu'il l'adapte pour minimiser les effets négatifs, les impacts non souhaitables ou les coûts correspondants sur la ressource elle-même et son utilisation dans des annotations.One of the challenges of the Semantic Web is to get high quality formal representations that characterize document content, also called semantic annotations. In a dynamic environment, the termino-ontological resources and semantic annotations built thanks to the resources must be regularly and consistently modified to adapt to the evolution of the domain to which they relate and to the annotated document collections. Our contribution is a method to jointly manage the evolution of a termino-ontological resource and semantic annotations built with this resource. The method defines applicable change types (elementary or complex) as well as evolution strategies for both the resource and the document semantic annotations. This method is supported by the EvOnto system that takes place in the TextViz platform for ontology-based automatic document annotation developed in the DYNAMO project. The originality of EvOnto is to preserve the consistency between the termino-ontological resources and the semantic annotations.. EvOnto provides support to the ontologist for different scenarios, and guides him interactively when he requests for a change by assessing its impact (additional effects) on the quality of the termino-ontological resource and also on semantic annotations, and then when he decides on their implementation. EvOnto provides the ontologist with relevant information on the use of ontology so that he takes initiative of a change knowing its consequences, and so that he adapts changes to minimize their negative effects, their undesirable impacts and their related costs on the resource itself and its use in annotations

    Outils et environnements pour l'amélioration incrémentale, la post-édition contributive et l'évaluation continue de systèmes de TA. Application à la TA français-chinois.

    Get PDF
    The thesis, conducted as part of a CIFRE grant, and extending one of the aspects of the ANR project Traouiero, first addresses the production, extension and improvement of multilingual corpora by machine translation (MT) and contributory post-editing (PE). Functional and technical improvements have been made to the SECTra and iMAG software produced in previous PhD theses (P.C. Huynh, H.T. Nguyen), and progress has ben made toward a generic definition of the structure of a multilingual, annotated and multi-media corpus that may contain usual documents as well as pseudo-documents (such as Web pages) and meta-segments. This part has been validated by the creation of good French-Chinese bilingual corpora, one of them resulting from the first application to literary translation (a Jules Verne novel).A second part, initially motivated by an industrial need, has consisted in building MT systems of Moses type, specialized to sub-languages, for french↔chinese, and to study how to improve them in the context of a continuous use with the possibility of PE. As part of an internal project on the LIG website and of a project (TABE-FC) in cooperation with Xiamen University, it has been possible to demonstrate the value of incremental learning in statistical MT, under certain conditions, through an experiment that spread over the whole thesis.The third part of the thesis is devoted to contributing and making available computer tools and resources. The main ones are related to the COST project MUMIA of the EU and result from the exploitation of the CLEF-2011 collection of 1.5 million partially multilingual patents. Large translation memories have been extracted from it (17.5 million segments), 3 MT systems have been produced (de-fr, en-fr, fr-de), and a website of support for multilingual IR on patents has been constructed. One also describes the on-going implementation of JianDan-eval, a platform for building, deploying and evaluating MT systems.La thèse, effectuée dans le cadre d'une bourse CIFRE, et prolongeant un des aspects du projet ANR Traouiero, aborde d'abord la production, l'extension et l'amélioration de corpus multilingues par traduction automatique (TA) et post-édition contributive (PE). Des améliorations fonctionnelles et techniques ont été apportées aux logiciels SECTra et iMAG, et on a progressé vers une définition générique de la structure d'un corpus multilingue, multi-annoté et multimédia, pouvant contenir des documents classiques aussi bien que des pseudo-documents et des méta-segments. Cette partie a été validée par la création de bons corpus bilingues français-chinois, l'un d'eux résultant de la toute première application à la traduction littéraire.Une seconde partie, initialement motivée par un besoin industriel, a consisté à construire des systèmes de TA de type Moses, spécialisés à des sous-langages, en français↔chinois, et à étudier la façon de les améliorer dans le cadre d'un usage en continu avec possibilité de PE. Dans le cadre d'un projet interne sur le site du LIG et d'un projet (TABE-FC) en coopération avec l'université de Xiamen, on a pu démontrer l'intérêt de l'apprentissage incrémental en TA statistique, sous certaines conditions, grâce à une expérience qui s'est étalée sur toute la thèse.La troisième partie est consacrée à des contributions et mises à disposition de supports informatiques et de ressources. Les principales se placent dans le cadre du projet COST MUMIA de l'EU et résultent de l'exploitation de la collection CLEF-2011 de 1,5 M de brevets partiellement multilingues. De grosses mémoires de traductions en ont été extraites (17,5 M segments), 3 systèmes de TA en ont été tirés, et un site Web de support à la RI multilingue sur les brevets a été construit. On décrit aussi la réalisation en cours de JianDan-eval, une plate-forme de construction, déploiement et évaluation de systèmes de TA

    Vers l'automatisation de la mise à jour des bases de données spatio-temporelles d'aide à la navigation : cas d'une base de données pour la navigation des personnes à mobilité réduite

    Get PDF
    De nos jours, les systèmes d'aide à la navigation occupent une place de plus en plus importante dans la vie quotidienne. Toutefois, leur potentiel est mal exploité pour le déplacement des personnes à mobilité réduite (PMR). À cet égard, le projet MobiliSIG a vu le jour. Son objectif est de développer une solution d'assistance multimodale mobile selon les principes de la conception cognitive pour la navigation des PMR. Au cœur de cette solution se trouve une base de données d'accessibilité dont l'usage permettra de proposer des itinéraires adaptés aux profils des utilisateurs. Cependant, vu que l'environnement évolue et que certains obstacles ont un caractère spatio-temporel, l'outil développé doit être doté d'un système qui lui permettra de rester continuellement à jour. L'objectif global assigné à notre projet est la conception d'un système automatique de mise à jour (MÀJ) continuelle des données d'accessibilité en temps quasi-réel à partir de données multi-sources hétérogènes. Pour ce faire, tout d'abord, nous avons passé en revue la littérature inhérente aux concepts relatifs à notre problématique. Ensuite, nous avons créé et implémenté une ontologie d'obstacles/facilitateurs sur la base des facteurs environnementaux de la classification PPH afin d'identifier et de bien cibler les données spatio-temporelles d'accessibilité. Par la suite, nous avons déterminé les besoins et fonctionnalités utiles à notre système de MÀJ à travers la présentation et l'analyse des spécifications des données d'accessibilité et de différents scénarios de cas d'utilisations. Finalement, en s'inspirant des concepts fondamentaux des processus ETL et des architectures orientées services, nous avons proposé une solution composée d'une couche d'extraction automatique de multi-sources; une couche de transformation qui répond au besoin du multi-formats; une application web pour les collaborateurs; et un service web de MÀJ chargé des tâches de traitement automatique et en temps quasi-réel de l'information reçue de multi-sources en effectuant l'analyse syntaxique et sémantique, la géolocalisation, le géocodage, la projection du système de référence le cas échéant, la validation et le contrôle d'unicité avant de procéder au chargement. Les résultats des tests et validations du prototype développé ont permis de confirmer l'atteinte de l'objectif de la recherche

    Une ontologie des savoirs lexicologiques pour l'Ă©laboration d'un module de cours en didactique du lexique

    Get PDF
    L'amélioration de la maitrise du français langue première chez les élèves du primaire au Québec dépend de plusieurs facteurs. L'enseignant peut jouer un rôle dans ce processus, sa formation universitaire lui fournissant les connaissances nécessaires afin d'encadrer le développement des compétences langagières de l'élève. Une de ces compétences joue un rôle privilégié dans l'utilisation et la maitrise de la langue, il s'agit de la compétence lexicale, la capacité à comprendre et à utiliser les unités du lexique, aussi bien à l'oral qu'à l'écrit. Afin d'encadrer le développement de la compétence lexicale en français langue première des élèves du primaire, les enseignants doivent eux-mêmes posséder un bon niveau de compétence lexicale, mais aussi détenir un certain nombre de connaissances sur le fonctionnement du lexique lui-même, c'est-à-dire des connaissances métalexicales. Le référentiel québécois de la profession enseignante (MEQ, 2001b) ne détaille pas les connaissances métalexicales que doit posséder l'enseignant pour mener les tâches associées à ses activités d'enseignement/apprentissage du lexique. En outre, la plupart des universités québécoises n'offrent pas de cours dédiés explicitement à la didactique du lexique. Pourtant, ce sont dans les cours de didactique que sont dispensées les connaissances théoriques et pratiques nécessaires au futur enseignant pour assumer les tâches de planification et de pilotage des activités d'apprentissage et d'évaluation des compétences des élèves. La relative absence de cours de didactique du lexique en formation initiale pourrait s'expliquer par le fait qu'il s'agit d'une discipline encore jeune dont les fondements théoriques et pratiques sont en cours de développement. Cette thèse en didactique du français langue première s’intéresse donc aux contenus linguistiques de référence de la didactique du lexique, ainsi qu’à la formation des maitres au primaire dans cette même discipline. Le travail de recherche effectué afin de tenter de remédier au problème soulevé a permis la réalisation de deux objectifs complémentaires. Le premier a consisté en la construction d’une ontologie des savoirs lexicologiques, qui permet de représenter à l’intérieur d’une hiérarchie de notions l’ensemble des connaissances disciplinaires de référence de la didactique du lexique. Cette représentation a ensuite été utilisée pour spécifier et structurer les contenus d’un module de cours en didactique du lexique visant le développement des connaissances métalexicales chez les futurs enseignants du primaire au Québec. L’ontologie et le module de cours produits ont été évalués et validés par des experts de chacun des domaines concernés. L’évaluation de l’ontologie a permis de vérifier la méthode de construction de celle-ci, ainsi que différents aspects relatifs à la structuration des concepts dans l’ontologie. L’évaluation du module de cours a quant à elle montré que les contenus de cours étaient pertinents, les méthodes pédagogiques employées appropriées et le matériel de cours développé bien conçu. Cela nous permet d'affirmer que le module de cours en didactique du lexique se présente comme un apport intéressant à la formation des futurs enseignants du primaire en français langue première au Québec. La recherche dans son ensemble présente enfin une contribution pertinente à la didactique du lexique, son caractère original résidant entre autres dans le fait d’avoir développé un mécanisme d’exploitation d’une base de connaissances (ontologie des savoirs lexicologiques) pour la conception didactique (module de cours en didactique du lexique).To improve first language learning in Québec primary schools, several variables must be taken into account, one of them the teachers themselves. Their training gives them the necessary knowledge to guide pupils in the development of their linguistic competences. One of these, lexical competence, plays a central role in the mastery of language. Lexical competence is the ability to understand and use lexical units, in oral speech as well as in written speech. To help pupils develop their lexical competence, teachers must not only themselves possess an appropriate level of lexical competence, but must in addition have acquired a certain amount of metalexical knowledge, that is, knowledge about the structure of the lexicon. The ministerial guide to the teaching profession (MEQ, 2001b) provides no guidance regarding metalexical knowledge required of future teachers. Moreover, there are no courses specifically devoted to lexical didactics. It is nevertheless in these kinds of courses that future teachers learn to prepare and guide activities in vocabulary acquisition and to evaluate their pupils' lexical competence. The scarcity of these kinds of courses in Québec universities may be explained by the youth of the discipline, whose theoretical linguistics foundations are still under construction. This dissertation on the didactics of French as a first language addresses the question of reference linguistic content for lexical didactics, as well as the training of future teachers in that discipline. Our research led to two complementary outcomes. The first outcome was to construct an ontology of lexicological knowledge. The second was the use of the ontology to specify and structure the content of a course in lexical didactics, devoted to the acquisition of metalexical knowledge by future teachers. Both the ontology and the course have been evaluated and validated by domain experts. The evaluation of the ontology supported the method used for its elaboration, as well as the structure of the concepts in the ontology. The evaluation of the course indicated that the course's content and pedagogical methods were correct and that the learning and teaching material were well designed. These results prove that the course is a useful tool for improving a teacher's training in lexical didactics. Our research as a whole makes a meaningful contribution to the intended domains, by developing a way to use a knowledge base (the ontology of lexicological knowledge) for educational purposes (a course in lexical didactics)
    • …
    corecore