Adaptation of multimodal outputs

Costa, David Filipe Ribeiro da

thesis

Adaptation of multimodal outputs

Authors: David Filipe Ribeiro da Costa
Publication date: 1 January 2011
Publisher

Abstract

Tese de mestrado em Engenharia Informática (Sistemas de Informação), apresentada à Universidade de Lisboa, através da Faculdade de Ciências, 2011Este documento centra-se em sistemas multimodais adaptativos mais especificamente nas suas técnicas de adaptação das saídas, ou seja, cisão de diferentes modalidades de saída de forma a permitir uma melhor adaptação ao utilizador. O primeiro capítulo faz uma pequena introdução às interfaces multimodais e as suas vantagens, tais como ao possibilitarem o uso de modalidades alternativas, e oferecerem aos seus utilizadores opções de interacção naturais. Ao recorrer a modalidades como a voz ou gestos, é possível ter uma interacção mais próxima daquilo a que as pessoas estão habituadas na sua interacção diária com outras pessoas. Este aspecto é ainda mais relevante quando o grupo de utilizadores alvo é composto por pessoas idosas, o que é o acontece no âmbito do projecto GUIDE, em que o trabalho relatado neste documento se insere. A motivação e os principais objectivos deste projecto estão descritos neste primeiro capítulo e passam por desenvolver uma framework para os programadores de software integrarem facilmente características de acessibilidade nas suas aplicações de TV. O foco deste projecto é a televisão e as suas mais recentes capacidades de processamento (Set-top boxes). Estas plataformas têm o potencial para se tornarem nos dispositivos de media mais usados devido à sua fácil aceitação e especialmente quando se trata de utilizadores idosos que podem ter à sua disposição aplicações de conferência audiovisual, controlo remoto da casa entre outras aplicações que têm como base simplificar a sua vida quotidiana e afastar da solidão, um problema muito presente nesta faixa etária. Os utilizadores podem assim empregar modalidades com que já estão familiarizados e optar por aquelas com que são mais eficazes. Utilizadores com limitações de audição podem optar por modalidades visuais, por exemplo. A adaptação envolve assim várias áreas do sistema humano como as capacidades físicas do utilizador, ou seja, a sua capacidade de movimentar os seus braços ou mãos, a sua percepção táctil, as limitações visuais tais como miopia, daltonismo ou visão em túnel, capacidades auditivas e também as cognitivas, ou seja, a capacidade de se concentrarem, perceberem o ambiente ao seu redor ou recordarem. As possíveis soluções face a estes problemas estão também descritas no documento. Esta flexibilidade proporcionada pelas interfaces multimodais, não significa que estes sistemas não necessitem de operações de selecção e configuração, de natureza técnica, que não é expectável que os utilizadores realizem devido à sua complexidade. De modo a conseguir realizar estas operações, o recurso a interfaces adaptativas é uma solução a considerar. Ainda neste capítulo é descrito o papel que a Faculdade de Ciências da Universidade de Lisboa desempenha neste projecto e mais especificamente as minhas responsabilidades e os meus objectivos definidos para este projecto. Ao longo do desenvolvimento deste projecto surgiram várias ideias, estudos e desenvolvimentos que culminaram na escrita de alguns artigos e também aplicações que estão descritas na secção de contribuições. Na seccão de planeamento é discutido o que estava inicialmente planeado e as alterações que surgiram. Com este projecto pretende-se encontrar um mecanismo de adaptação que seja capaz de melhorar o desempenho da cisão multimodal por diferentes saídas. O mecanismo de adaptacão de saídas multimodais é responsável por decidir qual a melhor estratégia para, primeiro, seleccionar as melhores modalidades para apresentar conteúdo (baseado no perfil do utilizador, as características do conteúdo e as modalidades disponíveis), segundo, distribuir o conteúdo pelas modalidades seleccionadas (usando estratégias de redundância e/ou complementaridade) e, terceiro, ajustar o conteúdo a cada modalidade. Para o estudo dessas mesmas estratégias a serem usadas foi realizado um trabalho de pesquisa a projectos relacionados com sistemas multimodais e consequentemente cisão multimodal (parte constituinte de uma arquitectura multimodal adaptativa). Descrito ao longo do segundo capítulo estão as arquitecturas usadas e técnicas de cisão e adaptação da informação apresentada. No terceiro capítulo são apresentados estudos realizados aos utilizadores alvo deste projecto, com o objectivo de conhecer e entender como estes interagem com um sistema capaz de oferecer diferentes modos de interacção e de apresentar conteúdo. Padrões de comportamentos, características e preferências dos utilizadores foram resgistadas de modo a encontrar uma correlação¸ ao e agrupá-las em diferentes perfis de utilizador. Para este efeito foi concebido uma aplicação multimodal que gera ecrãs a partir de um ficheiro XML de modo a facilmente se criar, modificar ou remover testes. Os utilizadores podiam interagir por gestos (apontando para o ecrã), usando um controlo remoto ou por voz, podendo combinar estas modalidades diferentes. O conteúdo era apresentado através de elementos visuais (texto, botões, imagens e vídeos), áudio (sintetizadores de voz) e recorrendo a um avatar. Esta aplicação regista o sucesso ou não na realização dos testes como também o percurso de interacção do utilizador em cada teste (a ordem em que os elementos foram selecionados e o tempo que demorou a realizar as tarefas). Os resultados e as conclusões retiradas deste estudo estão descritas no final do capítulo. Depois de definidos os perfis de utilizador concluiu-se que é necessário que o sistema GUIDE consiga ligar novos utilizadores a um perfil. Com essa finalidade foi desenvolvida uma aplicação que serve de inicialização ao sistema. Essa ferramenta, descrita no capítulo 4, introduz as capacidades de interaccão ao utilizador e de seguida apresenta diferentes tarefas de modo a avaliar as características e preferências do utilizador. Ao concluir as tarefas, a ferramenta é capaz de atribuir um perfil ao utilizador que mais se adequa ao mesmo. Sendo as características do perfil genéricas, o perfil vai sendo moldado e actualizado conforme o utilizador vai interagindo com o sistema GUIDE. O capítulo 5 começa por apresentar a arquitectura do sistema GUIDE e descreve todos os seus principais componentes. Neste capítulo é demonstrado como funciona o módulo de cisão multimodal começando por definir diferentes níveis de profundidade na adaptação das interfaces das aplicações e cujo nível é selecionado de acordo com as necessidades do utilizador. A cisão é responsável então por decidir em que modalidades apresentar o conteúdo da apresentação. Depois de atribuídas as modalidades a usar, a informação é enviada aos respectivos dispositivos de saídas para gerar a apresentação. A geração da apresentação é coordenada e gerida pelo módulo de cisão que está em constante comunicação com os dispositivos de saída de modo a garantir uma apresentação coerente. No fim do capítulo é descrito um protótipo do modulo de cisão onde tenta na prática realizar todo o processamento definido nas secções anteriores. Como forma de conclusão do documento são distinguidas as contribuições desta tese para o projecto bem como o trabalho futuro a realizar na continuação deste trabalho.This document main focus is on multimodal adaptive systems more specifically in its techniques for adjusting the outputs, i.e., split the information by different output modes to allow the best adaptation to the user. By using modalities such as voice or gestures, it is possible to have interaction closer to what people are used in their interaction with others. This is even more relevant when the target user group consists of elderly people, which is the case with the GUIDE project described in the document. This project aims to develop a framework for software developers to easily integrate accessibility features into their TV based applications. Users can thus use modalities that are more familiar and choose the ones that are most effective when interacting. Users with limited hearing can choose visual modes, for example. Adaptation involves so many areas of the human system as the physical capabilities of the user, i.e., its ability to move their arms or hands, their tactile sense, the visual limitations such as low vision, blindness or tunnel vision, hearing and cognitive capabilities, i.e., the ability to concentrate, remember or understand. Possible solutions that address these issues are also described in the document. This flexibility afforded by multimodal interfaces, does not mean that these systems do not require operations of selection and configuration of a technical nature, which is not expected that users perform due to its complexity. In order to accomplish these operations, the use of adaptive interfaces is a solution to consider. The aim of the work reported in this document is to find an adaptive mechanism that is capable of improving the performance of multimodal fission for different outputs. The mechanism of adaptation of multimodal outputs is responsible for deciding the best strategy to first select the best means to present content (based on user profile, the characteristics of content and modalities available) second, distribute the content by the modalities selected (using strategies for redundancy and / or complementarity) and third, adjust the contents of each modality. To perform the correct adaptation the system needs to know its users, thus user trials were carried out to understand their characteristics, behaviours and interaction patterns and to group different type of users into clusters. This document presents an application developed to assist in those trials. A prototype of an initialisation application to tutor users and match them with a user profile is also described on this document