Search CORE

11 research outputs found

Un grand corpus oral « disponible » : le corpus d'Orléans 1 1968-2012

Author: Baude Olivier
Dugua Céline
Eshkol-Taravella Iris
Hriba Linda
Maurel Denis
Tellier Isabelle
Publication venue: ATALA (Association pour le Traitement Automatique des Langues)
Publication date: 01/01/2011
Field of study

International audienceCet article présente la constitution et la mise à disposition du corpus oral ESLO. Notre objectif est de montrer qu'il ne s'agit pas seulement de recueillir et rendre disponible des données langagières mais aussi de rendre explicite l'ensemble de la chaîne de traitement qui permet d'élaborer un tel corpus. Après avoir présenté le projet et le corpus nous préciserons les problèmes juridiques et méthodologiques qui ont conditionné les opérations de traitement du corpus et notamment les procédures d'anonymisation indispensables à la libre diffusion de cette ressource. Dans une seconde partie, nous présenterons les différentes annotations effectuées sur les données brutes avec quelques exemples de leurs exploitations. Nous expliquerons la méthodologie suivie qui est toujours guidée par la nature des données et l'objectif final visé : constituer un grand corpus oral variationniste du français. Nous aborderons enfin les questions de mise à disposition du corpus en ligne

HAL Université de Tours

HAL-Paris 13

Hal-Diderot

The CoMeRe corpus for French: structuring and annotating heterogeneous CMC genres

Author: Antoniadis Georges
Chanier Thierry
Hriba Linda
Longhi Julien
Poudat Céline
Sagot Benoît
Seddah Djamé
Wigham Ciara R.
Publication venue: GSCL (Gesellschaft für Sprachtechnologie und Computerlinguistik)
Publication date: 01/01/2014
Field of study

Final version to Special Issue of JLCL (Journal of Language Technology and Computational Linguistics (JLCL, http://jlcl.org/): BUILDING AND ANNOTATING CORPORA OF COMPUTER-MEDIATED DISCOURSE: Issues and Challenges at the Interface of Corpus and Computational Linguistics (ed. by Michael Beißwenger, Nelleke Oostdijk, Angelika Storrer & Henk van den Heuvel)International audienceThe CoMeRe project aims to build a kernel corpus of different Computer-Mediated Com-munication (CMC) genres with interactions in French as the main language, by assembling interactions stemming from networks such as the Internet or telecommunication, as well as mono and multimodal, synchronous and asynchronous communications. Corpora are assem-bled using a standard, thanks to the TEI (Text Encoding Initiative) format. This implies extending, through a European endeavor, the TEI model of text, in order to encompass the richest and the more complex CMC genres. This paper presents the Interaction Space model. We explain how this model has been encoded within the TEI corpus header and body. The model is then instantiated through the first four corpora we have processed: three corpora where interactions occurred in single-modality environments (text chat, or SMS systems) and a fourth corpus where text chat, email and forum modalities were used simultaneously. The CoMeRe project has two main research perspectives: Discourse Analysis, only alluded to in this paper, and the linguistic study of idiolects occurring in different CMC genres. As NLP algorithms are an indispensable prerequisite for such research, we present our motiva-tions for applying an automatic annotation process to the CoMeRe corpora. Our wish to guarantee generic annotations meant we did not consider any processing beyond morphosyn-tactic labelling, but prioritized the automatic annotation of any freely variant elements within the corpora. We then turn to decisions made concerning which annotations to make for which units and describe the processing pipeline for adding these. All CoMeRe corpora are verified, thanks to a staged quality control process, designed to allow corpora to move from one project phase to the next. Public release of the CoMeRe corpora is a short-term goal: corpora will be integrated into the forthcoming French National Reference Corpus, and disseminated through the national linguistic infrastructure ORTOLANG. We, therefore, highlight issues and decisions made concerning the OpenData perspective

HAL-ENS-LYON

Hal - Université Grenoble Alpes

HAL Clermont Université

INRIA a CCSD electronic archive server

Les Enquêtes SocioLinguistiques à Orléans (1968-2008) : choix méthodologiques pour un corpus prototypique

Author: Baude Olivier
Hriba Linda
Publication venue: HAL CCSD
Publication date: 01/01/2008
Field of study

Journée d'étude Parole, FORELL, PoitiersLe projet VARILING porté par le Laboratoire Ligérien de Linguistique consiste à élaborer un grand corpus oral « prototypique », soit plusieurs centaines d’heures de français parlé équivalent à 10 millions de mots transcrits, à partir des enquêtes sociolinguistiques à Orléans (corpus ESLO1, collecté en 1968-71 et ESLO2 en cours de constitution).Nous présenterons les différents choix méthodologiques (format, codage, indexation, échantillonnage, transcription, outils d’exploitation) opérés par l’équipe afin de répondre à l’objectif annoncé : élaborer un corpus prototypique dont la démarche réflexive doit permettre d’évaluer l’impact des choix méthodologiques sur l’analyse et les théories linguistiques

HAL Descartes

De la variation à la norme, effets de codage dans les ESLOs

Author: Baude Olivier
Hriba Linda
Publication venue: HAL CCSD
Publication date: 01/01/2008
Field of study

International audienceLe projet VARILING , dont l’ancrage théorique est celui de la linguistique variationniste, a comme objectif non seulement de constituer un grand corpus oral de français parlé contenant à terme plus de 700 heures d’enregistrements sonores pour un volume de transcription estimé à 10 000 mots, mais également de le mettre à disposition de différentes disciplines scientifiques. Le corpus des ESLOs offre la particularité d’être constitué d’un corpus réalisé en 1968-1971 (ESLO1) avant l’avènement des outils technologiques de traitements des corpus oraux, et d’un second corpus en cours de réalisation (ESLO2) dont la méthodologie prend en compte l’évolution des outils et des théories. Cet objectif de constitution d’un corpus prototypique nécessite une démarche qui définit, à toutes les étapes de la réalisation, les contraintes de l’interopérabilité recherchée et leurs impacts sur la méthodologie et les analyses.Ainsi le codage des descripteurs des ressources primaires et des annotations linguistiques répond à un souci d’harmonisation de leur définition nécessaire au partage tout en engageant des choix théoriques. Or cette étape est particulièrement complexe dans le cas de données intrinsèquement hétérogènes.Cette communication vise à présenter les différentes réponses que l’équipe du projet VARILING tente d’apporter aux questions suivantes, rencontrées au fur et à mesure du projet de constitution d’un grand corpus oral variationniste : Coder pourquoi ? coder quoi ? Coder comment ? Dans un premier temps nous présenterons brièvement les choix opérés autour des étiquettes Dublincore/Olac pour le codage des métadonnées qui décrivent les ressources, concernant principalement la catégorisation des éléments situationnels comme les descripteurs du profil sociologique des locuteurs. Nous présenterons ensuite les choix dans VARILING du codage des transcriptions, cette opération étant considérée comme la première phase d’annotation d’objets linguistiques. Si le codage des caractères n’a pas posé de problème majeur, la phase de transcription s’est révélée beaucoup plus complexe notamment par le manque de conventions normalisées au sein de la communauté scientifique. Ainsi après un travail consacré à une expertise des usages actuels des outils et des conventions de codage des transcriptions par cinq grands projets internationaux qui a permis de discerner un ensemble d’éléments pour lesquels un consensus de catégorisation, de dénomination et de structuration des phénomènes est envisageable, l’équipe a développé des propositions autour d’un « double niveau interdépendant » qui offre la possibilité de répondre simultanément à un objectif d’interopérabilité et d’analyses spécifiques. Outre les différences de codage directement imputables à des divergences théoriques dont la typologie a été faite au préalable, un certain nombre de choix de codage ont été révélés après une première phase de test. Celle-ci a consisté à comparer des transcriptions réalisées par trois auteurs différents. La confrontation des choix opérés par ces différents codeurs confirme et affine empiriquement les enjeux révélés dans la phase préparatoire.En conclusion nous proposerons de ne pas restreindre l’objectif d’une normalisation du codage des corpus oraux à une volonté de définir les conditions techniques de l’échange des données. Il s’agit avant tout de concevoir la constitution de corpus comme nécessitant une démarche réflexive systématique. Le codage restant avant tout autre chose une opération d’explicitation des choix de définition et de catégorisation d’objets scientifiques pour laquelle la nécessité de normalisation ne doit pas masquer les enjeux théoriques

HAL Descartes

« Sociolinguistique et transcription

Author: Baude Olivier
Hriba Linda
Publication venue: HAL CCSD
Publication date: 10/12/2012
Field of study

International audienceSociolinguistique et transcriptionOn se propose de réfléchir sur le lien entre l’étude sociale et l’étude orale de la langue. L’expérience de l’équipe travaillant dans le cadre de l’Enquête Socio-Linguistique à Orléans sera mise à contribution afin de déterminer quelles sont les inférences et les interférences entre une approche fondée sur des corpus oraux et une enquête établie à partir de paramètres sociologiques. Il s’agit d’étudier comment la série des opérations qui, à partir du matériau sonore collecté, constitue la transcription, reflète un certain nombre de choix qui dépendent du champ de la linguistique, des théories, de l’inscription du chercheur dans son domaine, de l’attente des locuteurs et des représentations déjà instituées de la langue. Pour en rendre compte, on mettra l’accent sur la nature des choix opérés :(i)dans le principe de sélection des écoutes multiples, qu’elles soient le fait d’un ou plusieurs locuteurs, qu’elles résultent d’une homophonie ou d’un bruitage,(ii)dans le mode de représentation choisi (API, alignement du signal, transcription orthographique ou semi-orthographique…),(iii)dans la prise en compte des contraintes techniques d’enregistrement, de traitement et de requête,en ce qu’ils déterminent la forme des documents écrits mis à disposition des chercheurs.Dans ce cadre, la transcription, telle que nous la concevons, apparaît comme une façon de mettre en perspective les conditions de production des données. Elle est appréhendée comme une réflexion sur le mode de représentation de la langue dans la façon dont les décisions de transcription les ont rendues accessibles et traitables par les linguistes. La transcription n’est plus conçue comme le préalable à une étude linguistique sur corpus oraux, elle est, par elle-même, une opération sociolinguistique

HAL Descartes

Le transcripteur transcrit : retour d'expérience à partir du corpus des ESLO

Author: Baude Olivier
Dugua Céline
Hriba Linda
Publication venue: HAL CCSD
Publication date: 03/07/2017
Field of study

International audienceLes enquêtes sociolinguistiques à Orléans : un très grand corpus variationniste Les Enquêtes sociolinguistiques à Orléans (ESLO) forment un grand corpus oral constitué de deux enquêtes réalisées à deux périodes distinctes. La première enquête ESLO1 (1968-1971) est un corpus clos de 470 enregistrements, soit 318 heures d'enregistrements qui représente-selon l'estimation de l'époque-4,5 millions de mots. La seconde enquête (ESLO2), commencée au début des années 2000 et toujours en cours de réalisation, affiche un objectif de plus de six millions de mots pour 450 heures d'enregistrements. ESLO ne constitue pas seulement un corpus de masse de données, il s'agit d'un réservoir de corpus conçu dans un souci de représentativité des pratiques linguistiques d'une communauté d'auditeurs dans une ville donnée et à des moments distincts. La prise en compte de la variation, et de toutes les variations est au coeur du projet et guide à la fois les choix méthodologiques qui ont été réalisés dès les premières étapes de la constitution du corpus, les regards que nous porterons sur les analyses, et également la question de la transcription

HAL Université de Tours

Transcrire : la norme, la variation, le linguiste

Author: Baude Olivier
Dugua Céline
Hriba Linda
Publication venue: HAL CCSD
Publication date: 27/05/2011
Field of study

International audienceOn se propose de réfléchir sur la transcription comme objet d’une étude sociale donc orale de la langue. L’expérience de l’équipe travaillant dans le cadre de l’Enquête Socio-Linguistique à Orléans sera mise à contribution afin de déterminer quelles sont les inférences et les interférences entre une approche fondée sur des corpus oraux et une enquête située (établie à partir de paramètres sociologiques et dont les tenants théoriques sont explicites). Il s’agit d’étudier comment la série des opérations qui, à partir du matériau sonore collecté, constitue la transcription, reflète un certain nombre de choix qui dépendent du champ de la linguistique, des théories, de l’inscription du chercheur dans son domaine, de l’attente des locuteurs et des représentations déjà instituées de la langue. Ces pratiques de transcription, contraintes par des choix théoriques, des normes sociales et des formats technologiques mais relevant aussi de pratiques individuelles offrent par delà l'observation de celles-ci, une définition de l'objet scientifique "langue" appréhendé par les habitus linguistique.Pour en rendre compte, on mettra l’accent sur la nature des choix opérés :(i)dans le principe de sélection des écoutes multiples, qu’elles soient le fait d’un ou plusieurs locuteurs, qu’elles résultent d’une homophonie ou d’un bruitage,(ii)dans le mode de représentation choisi (API, alignement du signal, transcription orthographique ou semi-orthographique…),(iii)dans la prise en compte des contraintes techniques d’enregistrement, de traitement et de requête,en ce qu’ils déterminent la forme des documents écrits mis à disposition des chercheurs.Dans ce cadre, la transcription, telle que nous la concevons, apparaît comme une façon de mettre en perspective les conditions de production des données. Elle est appréhendée comme une réflexion sur le mode de représentation de la langue dans la façon dont les décisions de transcription les ont rendues accessibles et traitables par les linguistes. La transcription n’est plus conçue comme le préalable à une étude linguistique sur corpus oraux, elle est, par elle-même, une opération sociolinguistique.Ainsi une analyse des variations de perceptions appréhendées au sein d’un corpus de plus de 13h d’enregistrements (105 000 mots) extrait des ESLO et constitué des différentes versions de transcriptions permet de mettre à jour les éléments saillants qui relèvent de la nature sociale de la langue. Ceci nous permet d’affirmer que les formes transcrites se situent, dans le circuit de la parole défini par Ferdinand de Saussure bien plus du côté de la perception que de celui de la production

HAL Université de Tours

Constitution d'un corpus oral de l'arabe tunisien : une ressource essentielle pour l'étiquetage morphosyntaxique

Author: Badin Flora
Ben Ahmed Yossra
Hriba Linda
Publication venue: HAL CCSD
Publication date: 26/09/2018
Field of study

International audienceThe constitution of an oral corpus of Tunisian Arabic for the analysis of the expressions of future raised several problems : datacollection, transcription and annotation. After presenting the theoretical and methodological stakes for each step of the process,we will show how our corpus can be used as a resource for the creation of a morphosyntactic tagger of transliterated TunisianArabic. Giving access to such corpora and tools will facilitate the research on a poorly documented language and will opennew perspectives of language processing.La constitution d'un corpus oral d'arabe tunisien pour l'analyse des expressions du futur a soulevé plusieurs problématiques : collecte des données, transcription et annotation. Après avoir exposé les enjeux théoriques et méthodologiques de chaque phase de traitement nous montrerons en quoi notre corpus servira de ressource pour la création d'un étiqueteur morphosyntaxique de l'arabe tunisien translittéré. Disposer et rendre accessible de tels corpus et outil faciliteront les recherches sur cette langue peu dotée et ouvriront de nouvelles perspectives de traitement

HAL Université de Tours

La transcription, entre donnée primaire et donnée secondaire L’empreinte du transcripteur en question

Author: Baude Olivier
Dugua Céline
Hriba Linda
Kanaan-Caillol Layal
Publication venue: HAL CCSD
Publication date: 15/11/2018
Field of study

International audienceQuarante ans après les travaux de Ochs (1979) qui précisait que toute transcription est empreinte de théorie, celle-ci reste une façon de mettre en perspective les conditions de production des données offertes à l’analyse linguistique.La difficulté majeure réside dans la représentation graphique, cette forme de codage qui ne peut se ramener à la notation conventionnelle de la langue écrite. A cette difficulté s’ajoute une deuxième quand il s’agit d’un grand corpus oral, impliquant une masse de données volumineuse. Enfin, l’enjeu de l’interopérabilité des données apporte une troisième difficulté : la transcription produit-elle des données secondaires résultant d’une forme d’analyse ou doit-elle être considérée comme une donnée primaire, source de l’étude ?Ces pratiques de transcription, contraintes par des choix théoriques, des normes sociales et des formats technologiques mais relevant aussi de pratiques individuelles offrent par-delà l'observation de celles-ci, une définition de l'objet scientifique "langue" appréhendé par les habitus linguistiques.Dans le projet ESLO, pour tout enregistrement, trois versions de transcriptions sont effectuées par trois transcripteurs différents et toutes sont rendues disponibles. Les procédures ont évolué au fil des années pour aboutir à une répartition des tâches claire qui priorise, selon les versions, la segmentation, l’orthographe, l’application des conventions, la transcription des passages marqués comme “inintelligibles” ou l’anonymisation. Avec une telle procédure, le temps moyen de travail estimé pour effectuer la transcription d’un enregistrement dans ses trois versions est de 20 heures. La transcription constitue donc une phase essentielle de la chaîne de traitement du corpus et ce, sur plusieurs plans :•celui du temps de travail du transcripteur (11.000 heures de travail dédiées aux transcriptions d’ESLO1 et ESLO2),•celui du temps consacré à la formation des transcripteurs et au suivi de leur travail (questions/réponses par mail, échanges de fichiers, vérifications du travail rendu),•celui de l’enjeu de fournir une version validée la plus aboutie possible par rapport aux conventions et objectifs donnés, et de rendre disponibles les trois versions. Le transcripteur tient ainsi une place centrale dans le projet. Il est celui qui se retrouve entre l’enregistrement et le chercheur et c’est justement cet auditeur particulier qui nous intéresse. Nous souhaitons mettre en évidence dans quelle mesure les transcriptions et tout particulièrement les variations observées dans ces dernières sont influencées par les caractéristiques sociales des transcripteurs ainsi que par leur rapport à l’écrit et à la norme Dans ce but, nous avons mis en place un module dédié aux transcripteurs qui prend la forme d’entretiens semi-directifs autour de ces questions. Pour l’heure, sept entretiens ont été réalisés et sont en cours d’analyse. Il s’agit d’abord d’établir une échelle qui prend en compte les différents paramètres questionnés afin de proposer, pour chacun, une catégorisation de ses pratiques et représentations. L’objectif à terme étant de mettre en parallèle ces informations avec les variations de transcriptions observées.Ainsi l’étude des conditions de production des transcriptions permet une approche inattendue de la variation linguistique et ouvre des perspectives pour des analyses linguistiques qui ne refoulent pas la valeur sociale de la langue

HAL Université de Tours

The CoMeRe corpus for French: structuring and annotating heterogeneous CMC genres

Author: Antoniadis Georges
Chanier Thierry
Hriba Linda
Longhi Julien
Poudat Céline
Sagot Benoît
Seddah Djamé
Wigham Ciara R.
Publication venue: GSCL (Gesellschaft für Sprachtechnologie und Computerlinguistik)
Publication date: 01/01/2014
Field of study

HAL