124 research outputs found

    Éditorial

    Full text link
    Nous avons le plaisir de publier dans la revue Alsic ce numéro thématique consacré au traitement automatique des langues (Tal) et à l'apprentissage des langues. Les six articles regroupés à cette occasion sont des versions étendues et relues par notre comité scientifique d'articles originellement présentés lors de la journée d'étude de l'Atala (Association pour le Traitement Automatique des Langues) le 22 octobre 2004 à Grenoble. Même si notre revue a déjà ouvert ses colonnes à des articles appartenant à ce domaine de recherche, c'est la première fois que nous pouvons en présenter un panorama représentatif des thématiques qui la traversent : système de traitement de corpus textuels, dictionnaires électroniques, générateurs d'activités lexico-grammaticales, systèmes de diagnostic des connaissances de l'apprenant, système de traitement de la prosodie et de l'intonation. A ces thèmes, on peut ajouter, sans chercher pour autant l'exhaustivité, ceux abordés dans deux articles récents, articles dont les auteurs étaient également présents à la journée de l'Atala : le diagnostic d'erreur (L´haire & Vandeventer-Faltin, 2003) et la simulation (Michel & Lehuen, 2005)

    The CoMeRe corpus for French: structuring and annotating heterogeneous CMC genres

    Get PDF
    Final version to Special Issue of JLCL (Journal of Language Technology and Computational Linguistics (JLCL, http://jlcl.org/): BUILDING AND ANNOTATING CORPORA OF COMPUTER-MEDIATED DISCOURSE: Issues and Challenges at the Interface of Corpus and Computational Linguistics (ed. by Michael BeiĂźwenger, Nelleke Oostdijk, Angelika Storrer & Henk van den Heuvel)International audienceThe CoMeRe project aims to build a kernel corpus of different Computer-Mediated Com-munication (CMC) genres with interactions in French as the main language, by assembling interactions stemming from networks such as the Internet or telecommunication, as well as mono and multimodal, synchronous and asynchronous communications. Corpora are assem-bled using a standard, thanks to the TEI (Text Encoding Initiative) format. This implies extending, through a European endeavor, the TEI model of text, in order to encompass the richest and the more complex CMC genres. This paper presents the Interaction Space model. We explain how this model has been encoded within the TEI corpus header and body. The model is then instantiated through the first four corpora we have processed: three corpora where interactions occurred in single-modality environments (text chat, or SMS systems) and a fourth corpus where text chat, email and forum modalities were used simultaneously. The CoMeRe project has two main research perspectives: Discourse Analysis, only alluded to in this paper, and the linguistic study of idiolects occurring in different CMC genres. As NLP algorithms are an indispensable prerequisite for such research, we present our motiva-tions for applying an automatic annotation process to the CoMeRe corpora. Our wish to guarantee generic annotations meant we did not consider any processing beyond morphosyn-tactic labelling, but prioritized the automatic annotation of any freely variant elements within the corpora. We then turn to decisions made concerning which annotations to make for which units and describe the processing pipeline for adding these. All CoMeRe corpora are verified, thanks to a staged quality control process, designed to allow corpora to move from one project phase to the next. Public release of the CoMeRe corpora is a short-term goal: corpora will be integrated into the forthcoming French National Reference Corpus, and disseminated through the national linguistic infrastructure ORTOLANG. We, therefore, highlight issues and decisions made concerning the OpenData perspective

    Résumé des travaux en cours du groupe REDIS de l'université Stendhal de Grenoble

    Full text link
    Dans le cadre de la recherche 40 003 le groupe REDIS étudie les thèmes ci-dessous pour lesquels il compte présenter ses conclusions, même provisoires, en fin de l'année.A) L'exploitation et l'étude diachronique des résultats de nos questionnaires informatisés qui sont proposés aux étudiants de première année au début et à la fin du cours d'initiation à l'informatique, depuis 1990/91.B) L'approche discursive : étude des représentations « externes » liées à l'imaginaire informatique de l'apprenant et l'étude des représentations « internes » qu'engage l'apprenant dans une situation de pratique.C) Définir l'ensemble de connaissances et compétences minimales nécessaire pour touteutilisation raisonnée de l'outil informatique et établir des contrôles types pour mesurer leur acquisition

    Les logiciels d’apprentissage des langues peuvent-ils ignorer le TAL ?

    Full text link
    Les logiciels actuels d’apprentissage des langues sont, le plus souvent, peu performants didactiquement, car ils ne considèrent la langue que comme une suite de caractères. Si l’informatique peut être d’un grand secours pour l’apprentissage des langues, didacticiens et informaticiens n’admettent pas la même acception du terme « langue ». Pour les uns, il s’agit d’un système de concepts, pour les autres d’un système de formes. Cette différence s’explique lorsqu’on constate que l’informatique ne peut considérer que la forme de la langue alors que, pour la didactique, la forme n’est que la matérialisation des concepts qu’elle est censée représenter. Cette double approche est à l’origine de la plupart des imperfections des logiciels d’apprentissage des langues. Le Traitement Automatique de la Langue (TAL) est, à notre avis, la seule réponse à ce problème. Il permet de considérer les propriétés de la forme langagière et d’offrir aux didacticiens des outils de mise en œuvre de leur problématique. Plus qu’un élément de qualité, le TAL est le passage obligé pour que les logiciels d’apprentissage des langues enseignent la langue en tant que telle. Le système MIRTO tente de mettre en œuvre cette approche.Current language learning softwares are, most often, hardly didactically efficient, since they consider language only as a string sequence. If data-processing can be of a great help for the learning of languages, the term “language” does not have the same meaning for didacticians and data-processing specialists. For the former it is a system of concepts, for the latter, a system of forms. This difference can be explained by the fact that data-processing, by definition, can take into account only the form of language whereas for didactics the form is only the materialisation of the concepts it is supposed to represent. Most of the imperfections of the language learning software are due to this dual approach. Natural Language Processing (NLP) is, in our opinion, the only answer to this problem. It makes it possible to take into account the properties of the linguistic form and to give didacticians tools to solve their problems. More than an element of quality, the NLP is a prerequisite for the language learning software to be able to teach language as such. The MIRTO system tries to work out this approach
    • …
    corecore