Modélisation de la communication multimodale : vers une formalisation de la pertinence


The way we see the objects around us determines speech and gestures we use to refer to them. The gestures we produce structure our visual perception. The words we use have an influence on the way we see. In this manner, visual perception, language and gesture present multiple interactions between each other. The problem is global and has to be tackled as a whole in order to understand the complexity of reference phenomena and to deduce a formal model. This model may be useful for any kind of human-machine dialogue system that focuses on deep comprehension.We show how a referring act takes place into a subset of objects. This subset is called reference domain and is implicit. It can be deduced from a lot of clues. Among these clues are those which come from the visual context and from the utterance, and those from the user's intention, attention and memory. We propose a formalization of reference domains taking these parameters into account. We focus on the notion of salience for which we propose a formal characterization. In fact, it seems that implicit information can most readily be retrieved from salient clues. We show how a dialogue system can exploit the resulting hypotheses with the help from a relevance criterion. We lay the foundations of the computation of this criterion. Our contribution is then directing along the identification of implicit information in multimodal communication, in terms of objects structures and of cognitive criteria formalizations.Notre manière de percevoir les objets qui nous entourent détermine nos choix langagiers et gestuels pour les désigner. Les gestes que nous produisons structurent notre espace visuel, les mots que nous utilisons modifient à leur tour notre manière de percevoir. Perception visuelle, langage et geste entretiennent ainsi de multiples interactions. Il s'agit bien d'une seule problématique qui doit être appréhendée globalement, premièrement pour comprendre la complexité des phénomènes de référence, deuxièmement pour en déduire une modélisation informatique exploitable dans tout système de dialogue homme-machine qui se veut un tant soit peu compréhensif.Nous montrons comment tout acte de référence se produit dans un sous-ensemble d'objets, ce sous-ensemble appelé domaine de référence étant implicite et pouvant découler de multiples indices. Parmi ces indices, certains proviennent du contexte visuel et de l'énoncé émis, d'autres proviennent de l'intention, de l'attention et de la mémoire de l'utilisateur. Nous proposons une formalisation des domaines de référence en tenant compte de ces critères et en nous axant sur la notion de saillance dont nous proposons une caractérisation formelle. Il nous apparaît en effet que l'implicite se retrouve en priorité à l'aide des indices saillants. Nous montrons comment un système de dialogue peut exploiter les hypothèses obtenues en s'aidant d'un critère de pertinence. Nous posons quelques pistes pour une calculabilité de ce critère. Notre contribution s'attache ainsi à identifier l'implicite dans la communication multimodale, en termes de structurations d'objets et de formalisation de critères cognitifs

