3 research outputs found
CLAPI, une base de données multimodale pour la parole en interaction : apports et dilemmes
Dans cette contribution, nous présentons la base CLAPI développée au laboratoire ICAR dans le contexte de l’évolution des bases de données de langues parlées en France au cours des trente dernières années. Nous détaillons les deux composantes de CLAPI, l’archive de corpus de langue parlée en interaction audio et vidéo enregistrés dans des situations sociales naturelles variées, et la plateforme d’outils.L’usage et l’apport de CLAPI sont illustrés par deux études. L’une décrit comment la base peut être utilisée pour des travaux de linguistique interactionnelle intégrant la multimodalité (« oh là là  ») ; l’autre concerne une recherche combinant données et métadonnées (« trop »). L’article est aussi l’occasion d’un bilan plus général. La mise en perspective montre en effet qu’après la période des questions est venue celle des dilemmes. La période des questions, choix et décisions à toutes sortes de niveaux a accompagné la mise en place des bases de données. L’expérience permet maintenant de mesurer leurs indéniables apports en termes non seulement de quantité de données disponibles (et traitables grâce aux outils), mais aussi de qualité (comme conséquence des exigences de standardisation liées au partage des données). La période des dilemmes nous conduit à nous interroger sur les meilleurs choix à opérer aujourd’hui dans les relations entre la poursuite des recherches sur des corpus variés (et parfois sensibles) et les exigences des bases de données ouvertes.In this contribution, we present the development of the CLAPI by the ICAR Lab in the context of the evolution of the databases of spoken languages in France during the last thirty years. We describe the two components of CLAPI, the archive of corpus of spoken languages in interaction, audio and video, recorded in varied naturally-occurring social situations, and the plateform of tools.The use and the support of CLAPI the research are shown out of two studies. One illustrates how the database can be used for working in an interactional linguistic perspective, including multimodality (“oh là là ”); the other concerns a research combining data and metadata (“trop”).The article is also the occasion of a more general assessment. The perspective on the last thirty years shows that after a period of questions came that of dilemmas. The period of questions, choices and decisions at various levels accompanied the implementation of the databases. The experience enables now to measure their undeniable contributions in terms not only of quantity of available data (and possibly dealt with supported by the tools), but also of quality of the data (as a consequence of the requirements of standardization linked to the needs of sharing the data). The period of the dilemmas leads us to wonder about the best choices to be operated today among continuing research on varied corpuses (sometimes delicate) and the requirements of the databases
Paraphrastic Reformulations in Spoken Corpora
International audienceOur work addresses the automatic detection of paraphrastic reformulation in French spoken corpora. The proposed approach is syn-tagmatic. It is based on specific markers and the specificities of the spoken language. Manual multi-dimensional annotation performed by two annotators provides fine-grained reference data. An automatic method is proposed in order to decide whether sentences contain or not paraphras-tic relations. The obtained results show up to 66.4% precision. Analysis of the manual annotations indicates that few paraphrastic segments show morphological modifications (inflection, derivation or compounding) and that the syntactic equivalence between the segments is seldom respected, as these usually belong to different syntactic categories