5 research outputs found
Disfluences et vieillissement langagier. De la base de données VALIBEL aux corpus outillés en français parlé
Après avoir fait l’état des lieux de la base de données VALIBEL en la situant dans son contexte institutionnel, nous mettons en exergue dans cet article quelques possibilités d’investigation qu’offre la base en regard de ses évolutions récentes. Une attention particulière est portée à l’outillage des corpus en termes de disfluences (avec le programme DisMo) et à l’étude du vieillissement langagier (liée au corpus Corpage). Nous concluons en montrant en quoi l’enrichissement constant de la base (en outillage et en corpus) permet d’ouvrir de nouvelles pistes de recherches dans des domaines encore peu explorés en linguistique, eu égard à des problématiques sociétales majeures.This paper aims at giving an overview of the VALIBEL database as it stands today. In addition, it opens up new perspectives with respect to more recent advances regarding (semi-automatic) annotation, as well as with regard to new corpora created to address societal issues (cf. the Corpage corpus). Particular attention is paid here to the automatic detection of disfluencies in the corpus data (using the DisMo program), with a developmental view on language and aging
MDMA. Un modèle pour l’identification et l’annotation des marqueurs discursifs « potentiels » en contexte
Partant du constat qu’il n’existe pas de catégorie fermée de marqueurs discursifs (MD) et que la définition de ces marqueurs varie fortement selon le cadre épistémologique adopté, l’objectif du projet MDMA (« Model for Discourse Marker Annotation ») est d’établir une méthode empirique d’identification et d’annotation des MD en français oral. La méthode vise tout d’abord à décrire les MD en faisceaux de variables et ensuite, d’un point de vue combinatoire, en patrons spécifiques. Notre démarche comprend trois étapes : (i) repérage manuel de tous les MD dits « potentiels » dans un corpus équilibré en français oral (5 000 mots ; Belgique et France) ; (ii) extraction automatique de toutes les formes qui correspondent aux MD potentiels identifiés précédemment (1 181 occurrences) ; (iii) analyse paramétrique d’un échantillon aléatoire de 200 MD potentiels en contexte (variables syntaxiques, formelles et sémantico-pragmatiques). L’hypothèse est que l’analyse statistique des contraintes distributionnelles imposées aux différents MD potentiels devrait révéler une certaine hiérarchisation entre variables annotées, concernant leur pertinence, leur fiabilité et leur généralisabilité (voire leur spécificité). Dans cet article, nous présenterons les principes d’annotation des MD, nous aborderons ensuite la problématique de l’accord inter-juges, pour finalement discuter de manière plus approfondie les résultats de l’analyse sur corpus.Starting from the common observation that there is no recognized closed class of Discourse Markers (DMs) and that their definition may vary from one theoretical framework to another, the aim of the MDMA project (“Model for Discourse Marker Annotation”) is to establish an empirical method for the identification and annotation of DMs in spoken French. Central to our proposal is that DMs may be described as clusters of features that, in specific patterns of combination, make it possible to distinguish between more or less prototypical uses of DMs in context. We proceeded in three steps: (i) manual identification of all so-called “potential” DMs in a balanced corpus of spoken French (5,000 words; Belgium and France); (ii) automatic extraction from the corpus of every token corresponding to the candidate DMs previously identified (1,181 tokens) ; and (iii) parameter analysis of a random sample of 200 potential DMs (syntactic, formal and semantic-pragmatic variables). The hypothesis is that the statistical analysis – based on the distributional constraints of the potential DMs at stake – should uncover a certain hierarchy between the different features under scrutiny, regarding their relevance, reliability, and generalizability (or even specificity). In the present paper, we first present the annotation procedure, then we discuss several aspects of inter-rater agreement, and finally discuss the results from the in-depth corpus-based and statistical analyses