249 research outputs found

    Le modèle Lstat : ou comment se constituer une base de données morphologique à partir du Web

    Get PDF
    L’objectif de cet article est de présenter une méthode d’acquisition, d’organisation et d’interrogation de corpus textuels à partir de données et outils librement récupérables sur le Web (corpus de textes, lexiques, langages de programmation spécialisés, outils d’étiquetage et de lemmatisation). Nous nous intéressons ici plus particulièrement aux préoccupations des chercheurs en morphologie dérivationnelle, en proposant d’intégrer à la méthode présentée un module d’analyse morphologique dérivationnelle qui permet au linguiste de se constituer une base de données lexicale munie d’annotations morphosémantiques (que nous appellerons base de données morphologique, notée BDM). La méthodologie proposée sera illustrée tout au long de l’article par la présentation de Lstat, modèle de BDM utilisé avec un lexique de 27,5 millions d’occurrences issu d’archives de presse française en ligne, automatiquement téléchargées entre 2001 et 2002.The aim of this paper is to present a method for text corpora acquisition, organization and query procedures. The method makes use of data and tools which are freely available on the Web, i.e. text corpora, lexica, specialized programming languages, taggers and lemmatizers. As the specific orientation of the method is to meet the needs of morphology researchers, we enrich it with a word formation processing module. This module enables the linguist to build a lexical database enhanced with morphosemantic annotations (i.e. a morphological database, henceforth BDM). The methodology is illustrated throughout the paper by means of the presentation of Lstat, a BDM model used with a lexicon of 27.5 million occurences, obtained from online French newspaper archives which were automatically downloaded between 2001 and 2002

    GLÀFF, un Gros Lexique À tout Faire du Français

    Get PDF
    International audienceThis paper introduces GLÀFF, a large-scale versatile French lexicon extracted from Wiktionary, the collaborative online dictionary. GLÀFF contains, for each entry, a morphosyntactic description and a phonetic transcription. It distinguishes itself from the other available lexicons mainly by its size, its potential for constant updating and its copylefted license that makes it available for use, modification and redistribution. We explain how we have built GLÀFF and compare it to other known resources. We show that its size and quality are strong assets that could allow GLÀFF to become a reference lexicon for NLP, linguistics and psycholinguistics.Cet article présente GLÀFF, un lexique du français à large couverture extrait du Wiktionnaire, le dictionnaire collaboratif en ligne. GLÀFF contient pour chaque entrée une description morphosyntaxique et une transcription phonémique. Il se distingue des autres lexiques existants principalement par sa taille, sa licence libre et la possibilité de le faire évoluer de façon constante. Nous décrivons ici comment nous l'avons construit, puis caractérisé en le comparant à différentes ressources connues. Cette comparaison montre que sa taille et sa qualité font de GLÀFF un candidat sérieux comme nouvelle ressource standard pour le TAL, la linguistique et la psycholinguistique

    Notion de position du modèle GENELEX et structuration d’une base de données syntaxiques issue des Tables du LADL

    Get PDF
    Les données syntaxiques du LADL, riches tant par leur large couverture de la langue française que par leur finesse de description, étaient jusqu’à présent restées difficiles d’accès, en raison d’un formalisme de représentation opaque. Notre travail rend directement lisibles les informations syntaxiques contenues dans les tables de verbes et unifie leur représentation par l’usage d’un cadre formel structurant : le modèle GENELEX. La base de données obtenue constitue un fonds de premier intérêt pour toute la communauté linguistique, alliant, à la richesse des données sur les comportements verbaux du français, les capacités de manipulation et de consultation d’une base de données.Syntactical data from LADL detail with an extremely fine granularity French verb syntactic behavior. Up until now, these data have been difficult to process due to a representation framework unsuited to computer processing. Our work renders these syntactic data readable and unifies their format by the use of a highly structuring framework : the GENELEX model. The resulting database is highly interesting for linguistics : it combines the richness of data on French verb behavior with database abilities

    Notion de position du modèle GENELEX et structuration d’une base de données syntaxiques issue des Tables du LADL

    Get PDF
    Les données syntaxiques du LADL, riches tant par leur large couverture de la langue française que par leur finesse de description, étaient jusqu’à présent restées difficiles d’accès, en raison d’un formalisme de représentation opaque. Notre travail rend directement lisibles les informations syntaxiques contenues dans les tables de verbes et unifie leur représentation par l’usage d’un cadre formel structurant : le modèle GENELEX. La base de données obtenue constitue un fonds de premier intérêt pour toute la communauté linguistique, alliant, à la richesse des données sur les comportements verbaux du français, les capacités de manipulation et de consultation d’une base de données.Syntactical data from LADL detail with an extremely fine granularity French verb syntactic behavior. Up until now, these data have been difficult to process due to a representation framework unsuited to computer processing. Our work renders these syntactic data readable and unifies their format by the use of a highly structuring framework : the GENELEX model. The resulting database is highly interesting for linguistics : it combines the richness of data on French verb behavior with database abilities

    Ne jetons pas le Wiktionnaire avec l'oripeau du Web ! Études et réalisations fondées sur le dictionnaire collaboratif

    Get PDF
    Wiktionnaire est l'édition française de Wiktionnary, le dictionnaire libre multilingue accessible en ligne. Satellite de Wikipédia, dont il constitue le "compagnon lexical", le projet dictionnairique reste dans l'ombre de l'encyclopédie. Fondé comme elle sur le principe du wiki, il peut être alimenté et modifié par tout internaute, avec publication immédiate. Si la ressource encyclopédique a été abondamment utilisée dans certaines disciplines, le dictionnaire collaboratif semble avoir reçu moins d'attention de la part de la communauté scientifique. Ce moindre intérêt pourrait être le fruit d'une méconnaissance ou d'un rejet a priori de l'amateurisme que l'on associe volontiers aux contributions effectuées par des naïfs. Nous présentons dans cet article quelques caractéristiques du Wiktionnaire, ainsi que des réalisations issues de cette ressource. Ce travail entend illustrer les possibilités offertes par ce dictionnaire singulier et permettre de décider si l'on peut tirer ou non bénéfice de son exploitation, et pour quel usage. Plus précisément, nous questionnons la légimité des ressources approvisionnées "par les foules" et nous étudions dans quelle mesure le Wiktionnaire peut, par ses spécificités, compléter les ressources dictionnairiques existantes dans le cadre d'études linguistiques et, d'autre part, servir de point de départ à la constitution d'un lexique électronique pour des domaines comme le traitement automatique des langues et la psycholinguistique. Notre contribution à la caractérisation du Wiktionnaire s'accompagne de la mise à disposition de deux lexiques construits à partir du dictionnaire collaboratif. Le premier est un lexique morphophonologique à très large couverture. Destiné notamment aux applications de TAL, nous donnons des exemples possibles d'utilisation en linguistique outillée. Le second est un lexique orienté vers la psycholinguistique. Dérivé du premier, il contient moins d'entrées, mais comprend pour chacune d'elle un ensemble d'informations habituellement utilisées dans cette discipline. Ces lexiques sont à la fois sont téléchargeables et interrogeables en ligne

    Concepts importants à la construction de spécifications multi-vues UML et B

    Get PDF
    Article dans revue scientifique avec comité de lecture. nationale.National audienceLa technique d'intégration d'UML et B est encore susceptible d'être améliorée. Nous pensons notamment à la gestion du va et vient entre les deux représentations induites. On sait aujourd'hui transformer les diagrammes UML et certaines expressions OCL en B, mais pas la contraire. Le manque de retour de B vers UML laissent penser que l'évolution individuelle des deux représentations pourrait conduire à ce qu'elles expriment des exigences contradictoires. Par ailleurs, le fait que UML et B appartiennent à deux paradigmes de modélisation différents fait que la transformation systématique de B en UML ne peut se faire sans perte d'informations. Pour surmonter ces problèmes, nous proposons de structurer la spécification en vues: une vue UML et une vue B. Dans une telle approche, l'utilisateur ne travaille plus sur deux spécifications indépendantes, mais sur une des deux représentations d'une même spécification. La structuration en vues, permettra au concepteur de faire usage du meilleur des deux: clarté architecturale pour UML et pouvoir d'expression plus outils de preuve pour B. Ce papier présente les concepts et la démarche générale de construction de spécification multi-vues UML et B

    Le modèle Lstat : ou comment se constituer une base de données morphologique à partir du Web

    Get PDF
    L’objectif de cet article est de présenter une méthode d’acquisition, d’organisation et d’interrogation de corpus textuels à partir de données et outils librement récupérables sur le Web (corpus de textes, lexiques, langages de programmation spécialisés, outils d’étiquetage et de lemmatisation). Nous nous intéressons ici plus particulièrement aux préoccupations des chercheurs en morphologie dérivationnelle, en proposant d’intégrer à la méthode présentée un module d’analyse morphologique dérivationnelle qui permet au linguiste de se constituer une base de données lexicale munie d’annotations morphosémantiques (que nous appellerons base de données morphologique, notée BDM). La méthodologie proposée sera illustrée tout au long de l’article par la présentation de Lstat, modèle de BDM utilisé avec un lexique de 27,5 millions d’occurrences issu d’archives de presse française en ligne, automatiquement téléchargées entre 2001 et 2002.The aim of this paper is to present a method for text corpora acquisition, organization and query procedures. The method makes use of data and tools which are freely available on the Web, i.e. text corpora, lexica, specialized programming languages, taggers and lemmatizers. As the specific orientation of the method is to meet the needs of morphology researchers, we enrich it with a word formation processing module. This module enables the linguist to build a lexical database enhanced with morphosemantic annotations (i.e. a morphological database, henceforth BDM). The methodology is illustrated throughout the paper by means of the presentation of Lstat, a BDM model used with a lexicon of 27.5 million occurences, obtained from online French newspaper archives which were automatically downloaded between 2001 and 2002

    Raisonner avec des diagrammes : perspectives cognitives et computationnelles

    No full text
    31 pagesInternational audienceDiagrammatic, analogical or iconic representations are often contrasted with linguistic or logical representations, in which the shape of the symbols is arbitrary. The aim of this paper is to make a case for the usefulness of diagrams in inferential knowledge representation systems. Although commonly used, diagrams have for a long time suffered from the reputation of being only a heuristic tool or a mere support for intuition. The first part of this paper is an historical background paying tribute to the logicians, psychologists and computer scientists who put an end to this formal prejudice against diagrams. The second part is a discussion of their characteristics as opposed to those of linguistic forms. The last part is aimed at reviving the interest for heterogeneous representation systems including both linguistic and diagrammatic representations

    Traduction automatique statistique et adaptation à un domaine spécialisé

    Get PDF
    Nous avons observé depuis plusieurs années l émergence des approches statistiques pour la traduction automatique. Cependant, l efficacité des modèles construits est soumise aux variabilités inhérentes au langage naturel. Des études ont montré la présence de vocabulaires spécifique et général composant les corpus de textes de domaines spécialisés. Cette particularité peut être prise en charge par des ressources terminologiques comme les lexiques bilingues.Toutefois, nous pensons que si le vocabulaire est différent entre des textes spécialisés ou génériques, le contenu sémantique et la structure syntaxique peuvent aussi varier. Dans nos travaux,nous considérons la tâche d adaptation aux domaines spécialisés pour la traduction automatique statistique selon deux axes majeurs : l acquisition de lexiques bilingues et l édition a posteriori de traductions issues de systèmes automatiques. Nous évaluons l efficacité des approches proposées dans un contexte spécialisé : le domaine médical. Nos résultats sont comparés aux travaux précédents concernant cette tâche. De manière générale, la qualité des traductions issues de systèmes automatiques pour le domaine médical est améliorée par nos propositions. Des évaluations en oracle tendent à montrer qu il existe une marge de progression importanteThese last years have seen the development of statistical approaches for machine translation. Nevertheless, the intrinsic variations of the natural language act upon the quality of statistical models. Studies have shown that in-domain corpora containwords that can occur in out-of-domain corpora (common words), but also contain domain specific words. This particularity can be handled by terminological resources like bilingual lexicons. However, if the vocabulary differs between out and in-domain data, the syntactic and semantic content may also vary. In our work, we consider the task of domain adaptation for statistical machine translation through two majoraxes : bilingual lexicon acquisition and post-edition of machine translation outputs.We evaluate our approaches on the medical domain. The quality of automatic translations in the medical domain are improved and the results are compared to other works in this field. Oracle evaluations tend to show that further gains are still possibleAVIGNON-Bib. numérique (840079901) / SudocSudocFranceF

    Contributions à la définition d'un nouveau langage d'exploitation des bases de données relationnelles

    Get PDF
    Le but du projet DOMINUS est de définir un modèle de SGBD adapté au développement de services de dépôt de données autonomes capables de maintenir un haut standard d'intégrité et de fiabilité dans un contexte applicatif contemporain.Le présent mémoire, réalisé dans le cadre du projet DOMINUS, vise à contribuer à la définition d'un premier langage conforme à ce modèle, Discipulus, et à mettre en oeuvre un premier traducteur expérimental de ce langage. Le modèle DOMINUS demeure basé sur le modèle relationnel de E. F. Codd tout d'abord parce qu'il est simple, facile à appréhender, et repose sur de solides bases théoriques qui permettent notamment de définir de façon formelle les langages de manipulation associés et, en second lieu, parce qu'il est éprouvé, comme le démontrent plus de trente années de prédominance ininterrompue. L'évolution de la gestion d'information a vu apparaître de nouvelles applications (systèmes de gestion intégrée, traitement d'images, vidéo...) nécessitant l'utilisation de bases de données complexes de plus en plus importantes. Ces nouvelles applications ont mis en évidence les insuffisances majeures des systèmes relationnels existants fondés sur le langage SQL: (1) L'inadéquation du modèle relationnel à représenter directement des données complexes, comme des dossiers médicaux structurés, des images radiographiques ou des textes annotés. (2) Les performances insuffisantes dans la manipulation de ces mêmes données. Ces lacunes ont conduit certains à vouloir remplacer le modèle relationnel par le modèle orienté objet. En effet, la notion d'objet (plus exactement de classe) permet de modéliser des éléments complexes et composites du monde réel. En 1990 sont apparus les premiers systèmes de gestion de bases de données à objets, mais, vu les performances et la maturité des systèmes de bases de données relationnelles, les systèmes à objets n'ont pas pris une place significative au sein des organisations. La voie explorée ici est plutôt celle de l'intégration du modèle objet au modèle relationnel, ce dernier demeurant prééminent. L'adoption des deux structures (la relation et la classe) semble donc nécessaire afin de répondre aux besoins et aux exigences des applications complexes tout en gardant la simplicité et la cohésion conceptuelle nécessaire à la vérification et à la validation. Le modèle DOMINUS est donc inspiré des travaux fondamentaux de E. F. Codd et de ses continuateurs, dont C. J. Date et H. Darwen [S1] ainsi que des modèles algorithmiques et de typage de B. Meyer[L13] . Au final, le langage Discipulus retient plusieurs acquis du langage SQL, s'inspire également de langage Tutorial D et emprunte la structure générale et plusieurs mécanismes syntaxiques du langage Eiffel[L13] . Notre proposition comporte également de nombreuses différences sensibles tant sur le fond que sur la forme[L1,L7] . Ces apports sont présentés au fil du mémoire. Le langage Discipulus a été conçu dans le but de permettre l'expression rigoureuse de modèles complexes (intégration complète des classes, des tuples et des relations dans un seul système de typage homogène et cohérent) tout en favorisant la réutilisation (l'utilisation d'un système de paquetage destiné à développer des modules cohérents tout en permettant leur réutilisation simple pour le développement d'autres systèmes), l'évolutivité (l'adoption de l'héritage multiple permet d'éviter la redondance de code et facilite l'extensibilité du logiciel et, par conséquent, l'évolutivité sans compromettre son intégrité et sa fiabilité) et la fiabilité (incorporation des principes de programmation par contrat et leur extension aux opérateurs relationnels, traitement cohérent de l'annulabilité)
    • …
    corecore