2,401 research outputs found

    Un grand corpus oral « disponible » : le corpus d'Orléans 1 1968-2012

    Get PDF
    International audienceCet article présente la constitution et la mise à disposition du corpus oral ESLO. Notre objectif est de montrer qu'il ne s'agit pas seulement de recueillir et rendre disponible des données langagières mais aussi de rendre explicite l'ensemble de la chaîne de traitement qui permet d'élaborer un tel corpus. Après avoir présenté le projet et le corpus nous préciserons les problèmes juridiques et méthodologiques qui ont conditionné les opérations de traitement du corpus et notamment les procédures d'anonymisation indispensables à la libre diffusion de cette ressource. Dans une seconde partie, nous présenterons les différentes annotations effectuées sur les données brutes avec quelques exemples de leurs exploitations. Nous expliquerons la méthodologie suivie qui est toujours guidée par la nature des données et l'objectif final visé : constituer un grand corpus oral variationniste du français. Nous aborderons enfin les questions de mise à disposition du corpus en ligne

    Collecte de parole pour l’étude des langues peu dotées ou en danger avec l’application mobile Lig-Aikuma

    No full text
    International audienceNous rapportons dans cet article les travaux en cours portant sur la collecte de langues africaines peu dotées ou en danger. Une collecte de données a été menée à l'aide d'une version modifiée de l'application Android AIKUMA, initialement développée par Steven Bird et coll. (Bird et al., 2014). Les modifications apportées suivent les spécifications du projet franco-allemand ANR/DFG BULB 1 pour faciliter la collecte sur le terrain de corpus de parole parallèles. L'application résultante, appelée LIG-AIKUMA, a été testée avec succès sur plusieurs smartphones et tablettes et propose plusieurs modes de fonctionnement (enregistrement de parole, respeaking de parole, traduction et élicitation). Entre autres fonctionnalités, LIG-AIKUMA permet la génération et la manipulation avancée de fichiers de métadonnées ainsi que la prise en compte d'informations d'alignement entre phrases prononcées parallèles dans les modes de respeaking et de traduction. L'application a été utilisée aux cours de campagnes de collecte sur le terrain, au Congo-Brazzaville, permettant l'acquisition de 80 heures de parole. La conception de l'application et l'illustration de son usage dans deux campagnes de collecte sont décrites plus en détail dans cet article

    Mise à disposition de corpus oraux interactifs : le projet TCOF (Traitement de Corpus Oraux en Français)

    Get PDF
    Cet article présente le projet TCOF (Traitement de Corpus Oraux en Français) du laboratoire ATILF (Analyse et Traitement Informatique de la Langue Française), UMR 7118, CNRS et Nancy Université. Ce projet a été initié en 2005 afin de collecter un grand corpus de données orales et d’étudier les productions langagières et les pratiques interactionnelles (des enfants et des adultes) en français parlé. La mise en place du projet TCOF comporte plusieurs aspects : importante collecte de données, transcription alignée texte-son, mise en conformité juridique, traitement informatique de ces données, diffusion internationale libre et gratuite sur le site du CNRTL (Centre National de Ressources Textuelles et Lexicales), à l’adresse suivante : http://www.cnrtl.fr/corpus/tcof/. L’article présente les réflexions, les contraintes et les travaux en cours pour la réalisation de ces différents aspects

    ALEXIA : Un environnement d'aide à l'apprentissage lexical du françaislangue seconde

    Get PDF
    Cet ouvrage a été publié dans le cadre de la collection Saint Cloud.Ce texte a éré aussi publié dans les actes du colloque Environnements Interactifs d'Apprentissage avec Ordinateur (1995), pp 79-90, Eyrolles, Paris.L'acquisition lexicale, et plus précisément l'acquisition des expressions lexicales, occupe ne place importante en apprentissage de langue seconde. Nous présentons, dans cet article, un système d'apprentissage appelé ALEXIA. Celui-ci propose une aide lexicale personnalisée en production et en compréhension. Il considère à la fois les stratégies d'accès lexicaux couramment employées pour modéliser la base de données lexicales, et celles employées par l'utilisateur. Le système propose également des activités lexicales pour l'aide à la rétention basées sur le lexique étudié par l'apprenant lors de ses travaux de compréhension ou/et de production. En ce qui concerne notre base de données lexicales, de nombreuses informations linguistiques sont disponibles. De plus, une aide à la correction des erreurs lexicales en production est accessible qui permet à la fois d'indiquer qu'un mot est mal employé, et de proposer expressions ou collocations mieux adaptées à ce qui est supposé être produit

    Une approche par apprentissage basée sur des modèles linguistiques

    No full text
    International audienceNous proposons une double amélioration des systèmes de filtrage de courriels existants. D'une part, en utilisant une méthode d'apprentissage automatique permettant à un système de filtrage d'élaborer des profils utilisateur. D'autre part, nous utilisons un ensemble de connaissances linguistiques sous forme de modèles réduits issues de modèles linguistiques de textes. Dans ce contexte, nous cherchons à évaluer si l'utilisation de connaissances et de traitements linguistiques peut améliorer les performances d'un système de filtrage. En effet, nous utilisons, au-delà des caractéristiques lexicales, un ensemble d'indicateurs sur le message portant sur la structure et le contenu. Ces connaissances sont indépendantes du domaine d'application et la fiabilité repose sur l'opération d'apprentissage. Pour tenter de statuer sur la faisabilité de notre approche et d'évaluer son efficacité, nous l'avons expérimenté sur un corpus de 1 200 messages. Nous présentons les résultats d'un ensemble d'expériences d'évaluation

    Actes de la conférence conjointe JEP-TALN-RECITAL 2016, volume 09 : ELTAL

    Get PDF
    National audienceELTAL is a workshop organized within the JEP-TALN-RECITAL 2016 conference. This workshop brings together papers investigating metdods and applications in NLP applied to language teaching.ELTAL est un atelier organisé au sein de la conférence JEP-TALN-RECITAL 2016 et regroupe des contributions qui étudient les méthodes et les applications en TAL dans le domaine de l'enseignement des langues

    Peut-on bien chunker avec de mauvaises Ă©tiquettes POS ?

    Get PDF
    http://www.taln2014.org/site/actes-en-ligne/actes-en-ligne-articles-taln/National audienceDans cet article, nous testons deux approches distinctes pour chunker un corpus oral transcrit, en cherchant à minimiser les étapes de correction manuelle. Nous ré-utilisons tout d'abord un chunker appris sur des données écrites, puis nous tentons de ré-apprendre un chunker spécifique de l'oral à partir de données annotées et corrigées manuellement, mais en faible quantité. L'objectif est d'atteindre les meilleurs résultats possibles pour le chunker en se passant autant que possible de la correction manuelle des étiquettes POS. Nos expériences montrent qu'il est possible d'apprendre un nouveau chunker performant pour l'oral à partir d'un corpus de référence annoté de petite taille, sans intervention sur les étiquettes POS. Abstract. In this paper, we test two distinct approaches to chunk transcribed oral data, trying to minimize the phases of manual correction. First, we use an existing chunker, learned from written texts, then we try to learn a new specific chunker from a small amount of manually corrected labeled oral data. The purpose is to reach the best possible results for the chunker with as few manual corrections of the POS labels as possible. Our experiments show that it is possible to learn a new effective chunker for oral data from a labeled reference corpus of small size, without any manual correction of POS label

    Contribution Ă  la structuration de corpus d'apprentissage pour un meilleur partage en recherche

    Get PDF
    à paraîtreInternational audienceAnalysing situated interactions requires contextual information of the learning situation to be present and connected to the collected data. It is essential if we want to construct a research object usable by various research teams and disciplines, which could lead to replication of experiments and induce cumulative or contrastive analysis. At present interaction data are generally not contextualised, not exhaustive or simply not freely accessible. We define a learning and teaching corpus by the description of its required components: research protocol, learning design, structured interaction data (interactions, productions, and log files), rights and informed consents, analysis. The resulting structure makes this corpus usable by the research community and permits the capitalisation of analyses. This proposition is illustrated by the construction of a corpus based on an authentic learning situation named “Simuligne”. This work is then discussed according different viewpoints: ethic and rights, standardisation efforts in the distance learning community and the new trends on tracks analysis tools interoperability.D'un point de vue méthodologique, pour permettre une analyse des interactions situées, il convient de relier les différentes données issues de formations en ligne, pour construire un objet d'analyse, exploitable par différentes équipes et disciplines, qui puisse ainsi donner lieu à la réplication d'expérimentations, à des analyses cumulatives ou contrastives. Le constat actuel est que les données sont sou-vent décontextualisées, parcellaires ou simplement inaccessibles à la communauté des chercheurs. Nous définissons un corpus d'apprentissage, en identifiant l'information qu'il doit contenir, structurée de façon à rendre possible son échange et la capitalisa-tion des analyses. Le protocole de recherche, le scénario pédagogique, les interac-tions, productions et traces, les licences et les analyses capitalisables en sont les constituants. Nous illustrons la démarche de construction d'un tel corpus sur l'exemple de la formation Simuligne. Ce travail est ensuite positionné au regard des questions d'éthique et de droit, des efforts de standardisation et des avancées sur l'analyse des traces en EIAH

    Localisation, traduction et diversité sociolinguistique en Afrique sub-saharienne : stratégies et perspectives

    Get PDF
    Pour les langues d’Afrique sub-saharienne, localisation et traduction interviennent dans un double jeu de contraintes linguistiques et sociolinguistiques et font face à deux tendances parfois conflictuelles : la mondialisation, d’une part, et les politiques déclarées de promotion de la diversité linguistique, d’autre part. En nous focalisant sur les pratiques s’appuyant sur les technologies de l’information, à la fois outils de la localisation et de la traduction en langues africaines et moyens de développement de celles-ci, nous présenterons les problèmes liés à ces activités et exposerons comment ces activités s’organisent et se déploient dans le contexte actuel. Nous ferons état de la présence des langues africaines sub-sahariennes dans les environnements numériques et proposerons une analyse de la dynamique de la traduction où s’articulent des processus et des pratiques qui agissent selon deux axes, l’un de facilitation et l’autre de complexification.Localization and translation for languages of sub-Saharan Africa are done within a double set of linguistic and sociolinguistic constraints, and they face two often conflicting trends, on the one hand globalization, and on the other hand the declared policies of promotion of language diversity. I will focus on the area of information technologies, which are both the tools for localization and translation in African languages and the means for developing them. I will present the problems encountered in translation and localization activities, and how these activities develop in the present context. I will review the presence of African languages in digital environments and propose an analysis of the dynamics of translation in which processes and practices interact along two axes, facilitation and complexification
    • …
    corecore