147 research outputs found

    Temporal Aspects of CARE-based Multimodal Fusion: From a Fusion Mechanism to Composition Components and WoZ Components

    Get PDF
    International audienceThe CARE properties (Complementarity, Assignment, Redundancy and Equivalence) define various forms that multimodal input interaction can take. While Equivalence and Assignment express the availability and respective absence of choice between multiple input modalities for performing a given task, Complementarity and Redundancy describe relationships between modalities and require fusion mechanisms. In this paper we present a summary of the works we have carried using the CARE properties for conceiving and implementing multimodal interaction, as well as a new approach using WoZ components. Firstly, we present different technical solutions for implementing the Complementarity and Redundancy of modalities with a focus on the temporal aspects of the fusion. Starting from a monolithic fusion mechanism, we then explain our component-based approach and the composition components (i.e., Redundancy and Complementarity components). As a new contribution for exploring solutions before implementing an adequate fusion mechanism as well as for tuning the temporal aspects of the performed fusion, we introduce Wizard of Oz (WoZ) fusion components. We illustrate the composition components as well as the implemented tools exploiting them using several multimodal systems including a multimodal slide viewer and a multimodal map navigator

    Investigating the role of redundancy in multimodal input systems

    Full text link

    Design and evaluation of adaptive multimoldal systems

    Get PDF
    Tese de doutoramento em Informática (Engenharia Informática), presentada à Universidade de Lisboa através da Faculdade de Ciências, 2008This thesis focuses on the design and evaluation of adaptive multi-modal systems. The design of such systems is approached from an integrated perspective, with the goal of obtaining a solution where aspects related to both adaptive and multimodal systems are considered. The result is FAME, a model based framework for the design and development of adaptive multimodal systems, where adaptive capabilities impact directly over the process of multimodal fusion and fission operations. FAME over views the design of systems capable of adapting to a diversified context, including variations in users,execution platform, and environment. FAME represents an evolution from previous frameworks by incorporating aspects specific to multimodal interfaces directly in the development of an adaptive platform. One of FAME's components is the Behavioral Matrix, a multi purpose instrument, used during the design phase to represent the adaptation rules. In addition, the Behavioral Matrix is also the component responsible for bridging the gap between design and evaluation stages. Departing from an analogy between transitionnet works for representing interaction with a system, and behavioral spaces, the Behavioral Matrix makes possible the application of behavioral complexity metrics to general adaptive systems. Moreover,this evaluation is possible during the design stages,which translates into a reduction of there sources required for evaluation of adaptive systems.The Behavior al Matrix allows a designer to emulate the behavior of anon-adaptiveversionoftheadaptivesystem,allowing for comparison of the versions, one of the most used approaches to adaptive systems evaluation. In addition, the designer may also emulate the behavior of different user profiles and compare their complexity measures. The feasibility of FAME was demonstrated with the development of an adaptive multimodal Digital Book Player. The process was successful, as demonstrated by usability evaluations. Besides these evaluations, behavioral complexity metrics, computed in accordance with the proposed methodology, were able to discern between adaptive and non-adaptive versions of the player. When applied to user profiles of different perceived complexity, the metrics were also able to detect the different interaction complexity.FCT - IPSOM (POSI/PLP/34252/2000) e RiCoBA (POSC/EIA/61042/2004

    Interacção multimodal : contribuições para simplificar o desenvolvimento de aplicações

    Get PDF
    Doutoramento em Engenharia InformáticaA forma como interagimos com os dispositivos que nos rodeiam, no nosso diaa- dia, está a mudar constantemente, consequência do aparecimento de novas tecnologias e métodos que proporcionam melhores e mais aliciantes formas de interagir com as aplicações. No entanto, a integração destas tecnologias, para possibilitar a sua utilização alargada, coloca desafios significativos e requer, da parte de quem desenvolve, um conhecimento alargado das tecnologias envolvidas. Apesar de a literatura mais recente apresentar alguns avanços no suporte ao desenho e desenvolvimento de sistemas interactivos multimodais, vários aspectos chave têm ainda de ser resolvidos para que se atinja o seu real potencial. Entre estes aspectos, um exemplo relevante é o da dificuldade em desenvolver e integrar múltiplas modalidades de interacção. Neste trabalho, propomos, desenhamos e implementamos uma framework que permite um mais fácil desenvolvimento de interacção multimodal. A nossa proposta mantém as modalidades de interacção completamente separadas da aplicação, permitindo um desenvolvimento, independente de cada uma das partes. A framework proposta já inclui um conjunto de modalidades genéricas e módulos que podem ser usados em novas aplicações. De entre as modalidades genéricas, a modalidade de voz mereceu particular atenção, tendo em conta a relevância crescente da interacção por voz, por exemplo em cenários como AAL, e a complexidade associada ao seu desenvolvimento. Adicionalmente, a nossa proposta contempla ainda o suporte à gestão de aplicações multi-dispositivo e inclui um método e respectivo módulo para criar fusão entre eventos. O desenvolvimento da arquitectura e da framework ocorreu num contexto de I&D diversificado, incluindo vários projectos, cenários de aplicação e parceiros internacionais. A framework permitiu o desenho e desenvolvimento de um conjunto alargado de aplicações multimodais, sendo um exemplo digno de nota o assistente pessoal AALFred, do projecto PaeLife. Estas aplicações, por sua vez, serviram um contínuo melhoramento da framework, suportando a recolha iterativa de novos requisitos, e permitido demonstrar a sua versatilidade e capacidades.The way we interact with the devices around us, in everyday life, is constantly changing, boosted by emerging technologies and methods, providing better and more engaging ways to interact with applications. Nevertheless, the integration with these technologies, to enable their widespread use in current systems, presents a notable challenge and requires considerable knowhow from developers. While the recent literature has made some advances in supporting the design and development of multimodal interactive systems, several key aspects have yet to be addressed to enable its full potential. Among these, a relevant example is the difficulty to develop and integrate multiple interaction modalities. In this work, we propose, design and implement a framework enabling easier development of multimodal interaction. Our proposal fully decouples the interaction modalities from the application, allowing the separate development of each part. The proposed framework already includes a set of generic modalities and modules ready to be used in novel applications. Among the proposed generic modalities, the speech modality deserved particular attention, attending to the increasing relevance of speech interaction, for example in scenarios such as AAL, and the complexity behind its development. Additionally, our proposal also tackles the support for managing multi-device applications and includes a method and corresponding module to create fusion of events. The development of the architecture and framework profited from a rich R&D context including several projects, scenarios, and international partners. The framework successfully supported the design and development of a wide set of multimodal applications, a notable example being AALFred, the personal assistant of project PaeLife. These applications, in turn, served the continuous improvement of the framework by supporting the iterative collection of novel requirements, enabling the proposed framework to show its versatility and potential

    Adaptation of multimodal input

    Get PDF
    Tese de mestrado em Engenharia Informática (Sistemas de Informação), apresentada à Universidade de Lisboa, através da Faculdade de Ciências, 2011This thesis is strongly coupled with the European project GUIDE (Gentle User Interfaces for Elderly Citizens) which intends to deliver a toolbox of adaptive multimodal interfaces to run on TV set-top boxes. The goal of this framework is to address some of the limitations and disabilities shown by elderly users and automatically adapt web-based applications to their needs also freeing the developers of the need of tackling accessibility issues. The User Trials Application is a multimodal application that was designed to perform user trials, which consisted on observing the users interacting with a multimodal system that supported multiple input/output modalities and capturing data about this interaction. This application allowed an high customization regarding tests including which interactive elements should appear on screen and their properties. A Wizard-of-Oz technique was used to empower the person running the tests and to allow a greater degree of control and information gathering. A second application developed, the User Initialization Application, constituted a prototype of the final version that is going to be present in the GUIDE framework, aimed for introducing the user to the system and input devices as well as gathering information about the user limitations so it could be assigned to a specific user model. The tests included in the prototype used various modalities such as speech and gestures. One of the main features of this application is the use of adaptation throughout the test sequence, changing properties such as volume, text size, color, among others. The third application discussed in this thesis is the GUIDE Fusion Core, responsible for user-adapted input combination. A frame-based algorithm was used to combine information and a weight-based approach to imprint adaptive behavior into it. Although the implementation of the GUIDE Fusion core is still in its early development, some focus was given to designing an evaluation framework capable of measuring, according to some metrics, the performance of the fusion core.Esta tese tem um forte foco em sistemas multimodais e respectivos módulos de fusão. O trabalho realizado ao longo deste ano está em quase toda a sua maioria relacionado com o projecto europeu científico GUIDE (Gently User Interfaces for Elderly and Disabled Citizens). Os resultados obtidos deste trabalho contribuíram significativamente para o desenvolvimento do projecto e alguma parte continuará a ser desenvolvida no decorrer do próximo ano. O desenvolvimento de aplicações multimodais pode ser por vezes um processo complexo devido ao número de dispositivos de entrada e saída existentes e o tipo de modalidades disponíveis para interagir. Tornar aplicações acessíveis ´e normalmente uma tarefa que exige esforço, tempo, e recursos aos desenvolvedores, tornando-a bastante negligenciada. Um segmento da população¸ ao que é fortemente afectado por este facto são utilizadores idosos, os quais, na sua maioria, sofrem de algum tipo de limitação física ou cognitiva. O objectivo do projecto GUIDE ´e desenvolver uma toolbox de interfaces multimodais adaptativas direccionada para os problemas de accessibilidade apresentados por utilizadores idosos. Esta framework irá diminuir o esforço necessário por parte dos desenvolvedores de aplicações em implementar técnicas de accessibilidade. As aplicações que irão ser executadas na framework GUIDE são automaticamente adaptadas às necessidades e limitações de cada utilizador. Nesta tese, são apresentadas três aplicações que foram desenvolvidas ao longo deste ano no âmbito do projecto GUIDE. A UTA (User Trials Application) é uma aplicação multimodal que foi desenhada, implementada e usada para efectuar o levantamento de requisitos e preferências de utilizador, um processo ao qual foi dada bastante enfâse nos primeiros meses do projecto. As tarefas realizadas pelos utilizadores ao longo das várias sessões de testes, envolviam diferentes modalidades tais como visão, audição ou cognição. A UTA, como sistema multimodal que é, permite o uso de diferentes meios de entrada e saída de maneira a testar todas as modalidades pretendidas. Um dos aspectos fundamentais desta aplicação é o seu elevado grau de customização, o qual permite fácil e flexivelmente definir os testes a serem realizados, o que inclui controlar variáveis tais como o tipo de elementos interactivos que devem surgir no ecrã e as suas propriedades. Outra importante característica da UTA, é incluir uma aproximação baseada na técnica Wizard-of-Oz, proporcionando um certo nível de controlo ao indivíduo que supervisiona a sessão de testes, dando-lhe a hipótese de gerir a execução da aplicação ou o registo de resultados. Ambas as tarefas mencionadas são automaticamente realizadas pela aplicação, mas para uma maior eficácia no levantamento de requisitos e preferências são também auxiliadas pelo wizard. A segunda aplicação desenvolvida nesta tese foi a UIA (User Initialization Application). Esta aplicação funcionou como um protótipo da versão final que irá estar presente dentro da framework GUIDE cujo objectivo é servir como um primeiro contacto do utilizador com o sistema. Este objectivo tem dois fins. O primeiro é através de uma série de ecrãs informativos dar ao utilizador uma noção de como fazer uso dos dispositivos de entrada à sua disposição. O segundo fim desta aplicação é, através de uma série de tarefas a realizar, capturar informação sobre o utilizador, em termos das suas capacidades e limitações, e automaticamente atribuir-lhe um modelo de utilizador que irá servir como referência para adaptação. A UIA inclui diversos testes que abrangem várias modalidades de entrada e saída. Este protótipo, para além de mostrar exemplos de testes que podem ser realizados para caracterizar um utilizador, demonstra também a importância da adaptação em aplicações multimodais. Ao longo da execução do protótipo, à medida que o utilizador interage com a aplicação demonstrando as suas preferências, esta é capaz de se auto-adaptar dinamicamente alterando variáveis tais como tamanho de letra, distância entre botões ou volume. A última fase desta tese concentra-se em descrever o desenvolvimento do módulo de fusão a ser integrado dentro da framework GUIDE. Este componente tem a responsabilidade de combinar entradas multimodais geradas por utilizadores e gerar uma interpretação a partir desses eventos. A análise de resultados observados durante o período de testes em que a UTA foi utilizada, permitiu concluir que os utilizadores quando interagem de forma multimodal, diferem entre si, na medida em que pode existir utilizadores que prefiram combinar modalidades de uma certa maneira ou de outra. Este facto trouxe um reforço à necessidade da existência de fusão num sistema multimodal como é o caso do GUIDE. A aproximação arquitectural escolhida para implementar fusão de entradas no GFC (Guide Fusion Core) é baseada em frames, estruturas de dados que neste contexto, uma vez activados, despoletam o envio de acções ou respostas para outros componentes da framework, o que pode provocar uma mudança de estado de uma aplicação. Um frame contém um conjunto de condições correspondentes a determinadas modalidades e um conjunto de respostas. Cada frame pode ser visto como uma sequência de acções que no contexto actual da aplicação deverá gerar uma determinada resposta pelo sistema. Neste documento é dado um certo foco aos componentes que interagem directamente com o módulo de fusão, de maneira a perceber a sua relação e os tipos de eventos que são trocados entre eles. O processo de criação de frames necessita de ter uma noção dos elementos interactivos que estão a qualquer momento, disponíveis ao utilizador. Este requisito é suportado pela capacidade de o módulo de fusão receber e analisar uma representação concreta da interface referente ao estado actual da aplicação. Este processo é algo que é expectável que ocorra múltiplas vezes durante o ciclo de vida de uma aplicação, à medida que o estado desta se altera. Outros dos principais aspectos sobre o módulo de fusão discutido nesta tese é a sua capacidade de adaptação. Muitos dos componentes da framework GUIDE possuem comportamentos adaptativos que são geridos por si próprios mas também auxiliados por outros componentes. Por um lado os principais factores que governam a adaptação feita dentro do módulo de fusão são os eventos de entrada fornecidos pelos diferentes reconhecedores do sistema e informações retiradas do modelo de utilizador que retratam a aptitude do utilizador no uso de diversas modalidades. Por outro lado, o módulo de fusão também é susceptível de desencadear adaptação em outros componentes tais como reconhecedores (e.g. enviando os comando disponíveis para determinado contexto da aplicação) ou componentes centrais da framework (Dialogue Manager) que ao receber interpretações das acções dos utilizadores alteram o estado da aplicação. A aproximação escolhida para implementar adaptação no GFC foi uma aproximação baseada em pesos, que permite à arquitectura baseada em frames usar o modelo de utilizador para garantir que a activação de frames não depende só da fiabilidade dos eventos de entrada recebidos mas também das características do utilizador que são traduzidas para valores de confiança (pesos). Uma das principais lacunas no desenvolvimento de sistemas multimodais ´e a sua falta de avaliação. Apesar de a implementação actual do módulo de fusão e respectivas estratégias adaptativas estarem ainda no ´ınicio do seu desenvolvimento, já se começou a dar atenção a métodos de avaliação que possam medir a performance do GFC em termos de eficácia e tempo de resposta. A solução que está a ser desenvolvida a par do GFC, é uma framework de avaliação que permite simular o envio de eventos de entradas e controlar os seus parâmetros mais relevantes tais como por exemplo instantes de início e fim, conteúdo semântico ou instante de chegada

    MULTIMODALITY IN COMPUTER MEDIATED COMMUNICATION

    Get PDF
    2002/2003XVI Ciclo1974Versione digitalizzata della tesi di dottorato cartacea

    Multimodal interaction with mobile devices : fusing a broad spectrum of modality combinations

    Get PDF
    This dissertation presents a multimodal architecture for use in mobile scenarios such as shopping and navigation. It also analyses a wide range of feasible modality input combinations for these contexts. For this purpose, two interlinked demonstrators were designed for stand-alone use on mobile devices. Of particular importance was the design and implementation of a modality fusion module capable of combining input from a range of communication modes like speech, handwriting, and gesture. The implementation is able to account for confidence value biases arising within and between modalities and also provides a method for resolving semantically overlapped input. Tangible interaction with real-world objects and symmetric multimodality are two further themes addressed in this work. The work concludes with the results from two usability field studies that provide insight on user preference and modality intuition for different modality combinations, as well as user acceptance for anthropomorphized objects.Diese Dissertation präsentiert eine multimodale Architektur zum Gebrauch in mobilen Umständen wie z. B. Einkaufen und Navigation. Außerdem wird ein großes Gebiet von möglichen modalen Eingabekombinationen zu diesen Umständen analysiert. Um das in praktischer Weise zu demonstrieren, wurden zwei teilweise gekoppelte Vorführungsprogramme zum \u27stand-alone\u27; Gebrauch auf mobilen Geräten entworfen. Von spezieller Wichtigkeit war der Entwurf und die Ausführung eines Modalitäts-fusion Modul, das die Kombination einer Reihe von Kommunikationsarten wie Sprache, Handschrift und Gesten ermöglicht. Die Ausführung erlaubt die Veränderung von Zuverlässigkeitswerten innerhalb einzelner Modalitäten und außerdem ermöglicht eine Methode um die semantisch überlappten Eingaben auszuwerten. Wirklichkeitsnaher Dialog mit aktuellen Objekten und symmetrische Multimodalität sind zwei weitere Themen die in dieser Arbeit behandelt werden. Die Arbeit schließt mit Resultaten von zwei Feldstudien, die weitere Einsicht erlauben über die bevorzugte Art verschiedener Modalitätskombinationen, sowie auch über die Akzeptanz von anthropomorphisierten Objekten
    corecore