Transcription formelle et capture de mouvement : vers une modélisation de la forme des signes.

Abstract

International audienceLes Langues des Signes (LS) répertoriées aujourd’hui sont au nombre de 142 [1] et concernent plusieurs dizaines de millions de locuteurs dans le monde. À la fin du XXe siècle William Stokoe [2] met en exergue la double articulation des LS permettant de les intégrer dans le champ de la linguistique. Malgré cela, une forte dissymétrie persiste au sein des études scientifiques des LS face à celles des langues vocales (LV). Ce manque de ressources est en partie dû à une absence de système de transcription standardisé : l’annotation de corpus se fait principalement par « ID-gloses » [3], procédé s’apparentant plus à de l’identification par traduction qu’à de la transcription proprement dite. Pour parvenir à une modélisation des LS stable, il est fondamental d’accéder au préalable à une segmentation automatique des signes, d’une part, et, d’autre part, à recourir à une transcription standardisée. Or, la segmentation se confronte à la fluence du mouvement, omniprésente au sein d’une locution en LS. Mon projet de thèse propose d’aborder cette problématique en précisant les rapports de couplage moteur qu’entretiennent les deux paramètres de l’emplacement et du mouvement. Les retombées attendues relèvent, d’un point de vue théorique, d’une modélisation formelle de la langue et, d’un point de vue plus appliqué, de la mise en place d’algorithmes de suivi des mouvements des signes. Afin de traiter efficacement ces questions de structuration profonde des LS, un corpus de locuteurs en LSF est enregistré par une caméra vidéo ainsi que par un système de captation 3D modulaire offrant la possibilité d’étudier la cinématique du mouvement. L’exploitation de ce corpus se fait en deux phases successives : tout d’abord la vidéo est annotée avec la police de caractères Typannot, correspondant à une transcription orthographique ; ensuite, les résultats sont comparés avec les données physiologiques du corpus en MoCap — données de type phonétique —, afin d’établir formellement les liens qu’entretiennent les deux paramètres étudiés. Cette opportunité, celle de nous tourner vers ces nouvelles technologies en linguistique des LS, soulève de nouvelles questions sur la nature des informations qui nous parviennent. Il est impossible d’accéder aux données brutes d’un enregistrement en MoCap avec autant de facilité qu’avec celles enregistrées en vidéo. Le Neuron enregistre 60 fois par seconde des valeurs sous la forme de positions relatives, et ce, selon les trois axes X Y et Z de chaque segment du corps. Les informations fournies s’apparentent à une longue suite de nombres, pour laquelle on ne peut faire abstraction d’un temps de traitement qui précède leur exploitation. Or, si la définition des données primaires tient à leur transparence, à l’immédiateté de leur accès, nous sommes peut-être confrontés à une redéfinition des frontières distinguant les données brutes des données secondaires

    Similar works

    Full text

    thumbnail-image

    Available Versions