124 research outputs found

    Semi-aural Interfaces: Investigating Voice-controlled Aural Flows

    Get PDF
    To support mobile, eyes-free web browsing, users can listen to ‘playlists’ of web content— aural flows . Interacting with aural flows, however, requires users to select interface buttons, tethering visual attention to the mobile device even when it is unsafe (e.g. while walking). This research extends the interaction with aural flows through simulated voice commands as a way to reduce visual interaction. This paper presents the findings of a study with 20 participants who browsed aural flows either through a visual interface only or by augmenting it with voice commands. Results suggest that using voice commands reduced the time spent looking at the device by half but yielded similar system usability and cognitive effort ratings as using buttons. Overall, the low-cognitive effort engendered by aural flows, regardless of the interaction modality, allowed participants to do more non-instructed (e.g. looking at the surrounding environment) than instructed activities (e.g. focusing on the user interface)

    "Hey Model!" -- Natural User Interactions and Agency in Accessible Interactive 3D Models

    Full text link
    While developments in 3D printing have opened up opportunities for improved access to graphical information for people who are blind or have low vision (BLV), they can provide only limited detailed and contextual information. Interactive 3D printed models (I3Ms) that provide audio labels and/or a conversational agent interface potentially overcome this limitation. We conducted a Wizard-of-Oz exploratory study to uncover the multi-modal interaction techniques that BLV people would like to use when exploring I3Ms, and investigated their attitudes towards different levels of model agency. These findings informed the creation of an I3M prototype of the solar system. A second user study with this model revealed a hierarchy of interaction, with BLV users preferring tactile exploration, followed by touch gestures to trigger audio labels, and then natural language to fill in knowledge gaps and confirm understanding.Comment: Paper presented at ACM CHI 2020: Proceedings of the 2020 CHI Conference on Human Factors in Computing Systems, ACM, New York, April 2020; Replacement: typos correcte

    Adaptation of multimodal outputs

    Get PDF
    Tese de mestrado em Engenharia Informática (Sistemas de Informação), apresentada à Universidade de Lisboa, através da Faculdade de Ciências, 2011Este documento centra-se em sistemas multimodais adaptativos mais especificamente nas suas técnicas de adaptação das saídas, ou seja, cisão de diferentes modalidades de saída de forma a permitir uma melhor adaptação ao utilizador. O primeiro capítulo faz uma pequena introdução às interfaces multimodais e as suas vantagens, tais como ao possibilitarem o uso de modalidades alternativas, e oferecerem aos seus utilizadores opções de interacção naturais. Ao recorrer a modalidades como a voz ou gestos, é possível ter uma interacção mais próxima daquilo a que as pessoas estão habituadas na sua interacção diária com outras pessoas. Este aspecto é ainda mais relevante quando o grupo de utilizadores alvo é composto por pessoas idosas, o que é o acontece no âmbito do projecto GUIDE, em que o trabalho relatado neste documento se insere. A motivação e os principais objectivos deste projecto estão descritos neste primeiro capítulo e passam por desenvolver uma framework para os programadores de software integrarem facilmente características de acessibilidade nas suas aplicações de TV. O foco deste projecto é a televisão e as suas mais recentes capacidades de processamento (Set-top boxes). Estas plataformas têm o potencial para se tornarem nos dispositivos de media mais usados devido à sua fácil aceitação e especialmente quando se trata de utilizadores idosos que podem ter à sua disposição aplicações de conferência audiovisual, controlo remoto da casa entre outras aplicações que têm como base simplificar a sua vida quotidiana e afastar da solidão, um problema muito presente nesta faixa etária. Os utilizadores podem assim empregar modalidades com que já estão familiarizados e optar por aquelas com que são mais eficazes. Utilizadores com limitações de audição podem optar por modalidades visuais, por exemplo. A adaptação envolve assim várias áreas do sistema humano como as capacidades físicas do utilizador, ou seja, a sua capacidade de movimentar os seus braços ou mãos, a sua percepção táctil, as limitações visuais tais como miopia, daltonismo ou visão em túnel, capacidades auditivas e também as cognitivas, ou seja, a capacidade de se concentrarem, perceberem o ambiente ao seu redor ou recordarem. As possíveis soluções face a estes problemas estão também descritas no documento. Esta flexibilidade proporcionada pelas interfaces multimodais, não significa que estes sistemas não necessitem de operações de selecção e configuração, de natureza técnica, que não é expectável que os utilizadores realizem devido à sua complexidade. De modo a conseguir realizar estas operações, o recurso a interfaces adaptativas é uma solução a considerar. Ainda neste capítulo é descrito o papel que a Faculdade de Ciências da Universidade de Lisboa desempenha neste projecto e mais especificamente as minhas responsabilidades e os meus objectivos definidos para este projecto. Ao longo do desenvolvimento deste projecto surgiram várias ideias, estudos e desenvolvimentos que culminaram na escrita de alguns artigos e também aplicações que estão descritas na secção de contribuições. Na seccão de planeamento é discutido o que estava inicialmente planeado e as alterações que surgiram. Com este projecto pretende-se encontrar um mecanismo de adaptação que seja capaz de melhorar o desempenho da cisão multimodal por diferentes saídas. O mecanismo de adaptacão de saídas multimodais é responsável por decidir qual a melhor estratégia para, primeiro, seleccionar as melhores modalidades para apresentar conteúdo (baseado no perfil do utilizador, as características do conteúdo e as modalidades disponíveis), segundo, distribuir o conteúdo pelas modalidades seleccionadas (usando estratégias de redundância e/ou complementaridade) e, terceiro, ajustar o conteúdo a cada modalidade. Para o estudo dessas mesmas estratégias a serem usadas foi realizado um trabalho de pesquisa a projectos relacionados com sistemas multimodais e consequentemente cisão multimodal (parte constituinte de uma arquitectura multimodal adaptativa). Descrito ao longo do segundo capítulo estão as arquitecturas usadas e técnicas de cisão e adaptação da informação apresentada. No terceiro capítulo são apresentados estudos realizados aos utilizadores alvo deste projecto, com o objectivo de conhecer e entender como estes interagem com um sistema capaz de oferecer diferentes modos de interacção e de apresentar conteúdo. Padrões de comportamentos, características e preferências dos utilizadores foram resgistadas de modo a encontrar uma correlação¸ ao e agrupá-las em diferentes perfis de utilizador. Para este efeito foi concebido uma aplicação multimodal que gera ecrãs a partir de um ficheiro XML de modo a facilmente se criar, modificar ou remover testes. Os utilizadores podiam interagir por gestos (apontando para o ecrã), usando um controlo remoto ou por voz, podendo combinar estas modalidades diferentes. O conteúdo era apresentado através de elementos visuais (texto, botões, imagens e vídeos), áudio (sintetizadores de voz) e recorrendo a um avatar. Esta aplicação regista o sucesso ou não na realização dos testes como também o percurso de interacção do utilizador em cada teste (a ordem em que os elementos foram selecionados e o tempo que demorou a realizar as tarefas). Os resultados e as conclusões retiradas deste estudo estão descritas no final do capítulo. Depois de definidos os perfis de utilizador concluiu-se que é necessário que o sistema GUIDE consiga ligar novos utilizadores a um perfil. Com essa finalidade foi desenvolvida uma aplicação que serve de inicialização ao sistema. Essa ferramenta, descrita no capítulo 4, introduz as capacidades de interaccão ao utilizador e de seguida apresenta diferentes tarefas de modo a avaliar as características e preferências do utilizador. Ao concluir as tarefas, a ferramenta é capaz de atribuir um perfil ao utilizador que mais se adequa ao mesmo. Sendo as características do perfil genéricas, o perfil vai sendo moldado e actualizado conforme o utilizador vai interagindo com o sistema GUIDE. O capítulo 5 começa por apresentar a arquitectura do sistema GUIDE e descreve todos os seus principais componentes. Neste capítulo é demonstrado como funciona o módulo de cisão multimodal começando por definir diferentes níveis de profundidade na adaptação das interfaces das aplicações e cujo nível é selecionado de acordo com as necessidades do utilizador. A cisão é responsável então por decidir em que modalidades apresentar o conteúdo da apresentação. Depois de atribuídas as modalidades a usar, a informação é enviada aos respectivos dispositivos de saídas para gerar a apresentação. A geração da apresentação é coordenada e gerida pelo módulo de cisão que está em constante comunicação com os dispositivos de saída de modo a garantir uma apresentação coerente. No fim do capítulo é descrito um protótipo do modulo de cisão onde tenta na prática realizar todo o processamento definido nas secções anteriores. Como forma de conclusão do documento são distinguidas as contribuições desta tese para o projecto bem como o trabalho futuro a realizar na continuação deste trabalho.This document main focus is on multimodal adaptive systems more specifically in its techniques for adjusting the outputs, i.e., split the information by different output modes to allow the best adaptation to the user. By using modalities such as voice or gestures, it is possible to have interaction closer to what people are used in their interaction with others. This is even more relevant when the target user group consists of elderly people, which is the case with the GUIDE project described in the document. This project aims to develop a framework for software developers to easily integrate accessibility features into their TV based applications. Users can thus use modalities that are more familiar and choose the ones that are most effective when interacting. Users with limited hearing can choose visual modes, for example. Adaptation involves so many areas of the human system as the physical capabilities of the user, i.e., its ability to move their arms or hands, their tactile sense, the visual limitations such as low vision, blindness or tunnel vision, hearing and cognitive capabilities, i.e., the ability to concentrate, remember or understand. Possible solutions that address these issues are also described in the document. This flexibility afforded by multimodal interfaces, does not mean that these systems do not require operations of selection and configuration of a technical nature, which is not expected that users perform due to its complexity. In order to accomplish these operations, the use of adaptive interfaces is a solution to consider. The aim of the work reported in this document is to find an adaptive mechanism that is capable of improving the performance of multimodal fission for different outputs. The mechanism of adaptation of multimodal outputs is responsible for deciding the best strategy to first select the best means to present content (based on user profile, the characteristics of content and modalities available) second, distribute the content by the modalities selected (using strategies for redundancy and / or complementarity) and third, adjust the contents of each modality. To perform the correct adaptation the system needs to know its users, thus user trials were carried out to understand their characteristics, behaviours and interaction patterns and to group different type of users into clusters. This document presents an application developed to assist in those trials. A prototype of an initialisation application to tutor users and match them with a user profile is also described on this document

    Supporting Voice-Based Natural Language Interactions for Information Seeking Tasks of Various Complexity

    Get PDF
    Natural language interfaces have seen a steady increase in their popularity over the past decade leading to the ubiquity of digital assistants. Such digital assistants include voice activated assistants, such as Amazon's Alexa, as well as text-based chat bots that can substitute for a human assistant in business settings (e.g., call centers, retail / banking websites) and at home. The main advantages of such systems are their ease of use and - in the case of voice-activated systems - hands-free interaction. The majority of tasks undertaken by users of these commercially available voice-based digital assistants are simple in nature, where the responses of the agent are often determined using a rules-based approach. However, such systems have the potential to support users in completing more complex and involved tasks. In this dissertation, I describe experiments investigating user behaviours when interacting with natural language systems and how improvements in design of such systems can benefit the user experience. Currently available commercial systems tend to be designed in a way to mimic superficial characteristics of a human-to-human conversation. However, the interaction with a digital assistant differs significantly from the interaction between two people, partly due to limitations of the underlying technology such as automatic speech recognition and natural language understanding. As computing technology evolves, it may make interactions with digital assistants resemble those between humans. The first part of this thesis explores how users will perceive the systems that are capable of human-level interaction, how users will behave while communicating with such systems, and new opportunities that may be opened by that behaviour. Even in the absence of the technology that allows digital assistants to perform on a human level, the digital assistants that are widely adopted by people around the world are found to be beneficial for a number of use-cases. The second part of this thesis describes user studies aiming at enhancing the functionality of digital assistants using the existing level of technology. In particular, chapter 6 focuses on expanding the amount of information a digital assistant is able to deliver using a voice-only channel, and chapter 7 explores how expanded capabilities of voice-based digital assistants would benefit people with visual impairments. The experiments presented throughout this dissertation produce a set of design guidelines for existing as well as potential future digital assistants. Experiments described in chapters 4, 6, and 7 focus on supporting the task of finding information online, while chapter 5 considers a case of guiding a user through a culinary recipe. The design recommendations provided by this thesis can be generalised in four categories: how naturally a user can communicate their thoughts to the system, how understandable the system's responses are to the user, how flexible the system's parameters are, and how diverse the information delivered by the system is

    Access, Action, & Agency: Inclusive Design for the Non-visual Use of a Highly Interactive Simulation

    Get PDF
    Interactive computer simulations are effective learning tools commonly used in science education; however, they are inaccessible to many students with disabilities. In this Major Research Project, we present findings from the design and implementation of accessibility features for the PhET Interactive Simulation, Balloons and Static Electricity. Our focus was access for screen reader users. We designed an interaction flow that connected keyboard interactions with reactions in dynamic content. Using a Parallel Document Object Model (PDOM), we created access for screen reader users to simulation content and interactive sim elements. We conducted interviews with 12 screen reader users to evaluate our progress on verbal text description and keyboard access, and to understand better how blind users engage with interactive simulations. We share findings about our successes and challenges and the insight we have gained in making an interactive science simulation more inclusive

    Enabling Customization of Discussion Forums for Blind Users

    Get PDF
    Online discussion forums have become an integral component of news, entertainment, information, and video-streaming websites, where people all over the world actively engage in discussions on a wide range of topics including politics, sports, music, business, health, and world affairs. Yet, little is known about their usability for blind users, who aurally interact with the forum conversations using screen reader assistive technology. In an interview study, blind users stated that they often had an arduous and frustrating interaction experience while consuming conversation threads, mainly due to the highly redundant content and the absence of customization options to selectively view portions of the conversations. As an initial step towards addressing these usability concerns, we designed PView - a browser extension that enables blind users to customize the content of forum threads in real time as they interact with these threads. Specifically, PView allows the blind users to explicitly hide any post that is irrelevant to them, and then PView automatically detects and filters out all subsequent posts that are substantially similar to the hidden post in real time, before the users navigate to those portions of the thread. In a user study with blind participants, we observed that compared to the status quo, PView significantly improved the usability, workload, and satisfaction of the participants while interacting with the forums

    Self-adaptation of multimodal systems

    Get PDF
    Tese de mestrado em Engenharia Informática (Sistemas de Informação), apresentada à Universidade de Lisboa, através da Faculdade de Ciências, 2011Este documento centra-se nos Sistemas Multimodais Adaptativos e suas aplicações no melhoramento da acessibilidade das interfaces. Pessoas idosas ou com algum tipo de deficiência, seja associado ou não à idade, são um grupo de alto risco sujeito à exclusão social. Muitas vezes o acesso a oportunidades ou serviços oferecidos pela sociedade é limitado ou mesmo inacessível para indivíduos com estas características. No caso específico da comunicação pessoa-máquina, um exemplo de falta de acessibilidade resulta das modalidades utilizadas para interagir ou apresentar informação. Se for usada apenas informação visual, alguém com dificuldades visuais não conseguirá interagir ou perceber a informação apresentada, logo é excluída. Como solução para estes problemas, neste documento apresenta-se GUIDE, um projecto europeu que pretende desenvolver uma framework que permite integrar eficientemente características de acessibilidade nas aplicações. Este projecto foca-se nas plataformas e serviços emergentes para TV e pretende transformar as Set-Top Box’s em sistemas multimodais adaptativos. São apresentados os objectivos do GUIDE, o papel da Faculdade de Ciências neste projecto e as contribuições desta tese. No segundo capítulo deste documento é apresentada a noção de Sistemas Multimodais Adaptativos, as vantagens associadas a este tipo de sistemas, arquitectura e descrição dos vários componentes. Um sistema multimodal ´e um sistema que disponibiliza várias modalidades para interagir (voz, gestos, etc), sendo possível a utilização de apenas uma ou várias modalidades em simultâneo. Estes sistemas não só oferecem ao utilizador uma comunicação mais natural como permitem alternativas tanto na maneira de interagir como de apresentar a informação a pessoas que, devido `as suas características, de outra maneira não conseguiriam. A outra característica destes sistemas é a adaptação, que pode ser descrita como um método para aumentar a usabilidade de uma aplicação em termos de eficiência, eficácia e facilidade de uso. Este método traz benefícios para a interação¸ ao do utilizador em diversas situações e pode ser aplicado em diferentes níveis de automação apresentados neste documento, sendo o mais interessante a auto-adaptação. Geralmente, a arquitectura de um sistema deste tipo ´e composta por reconhecedores para as modalidades de input, sintetizadores para as modalidades de output e entre eles, um conjunto de componentes responsável pela integração multimodal do sistema. Esses componentes são: um módulo de fusão (para os inputs) e outro de cisão (para outputs), um gestor de diálogo (Dialogue Manager) e um gestor de contexto. A descrição e função de cada componente são detalhadas também no capítulo 2. Esta tese dá especial destaque ao Dialogue Manager, cuja responsabilidade é coordenar a actividade dos vários componentes do sistema, manter a representação do estado actual do diálogo, actualizar o contexto do diálogo com base na informação interpretada na comunicação e decidir que conteúdo deve ser apresentado e quando, deixando a forma como é apresentado para o módulo de cisão. Das várias abordagens existentes para a implementação do Dialogue Manager, a que vem de encontro aos requisitos do projecto e está descrita neste documento chama-se “Frame-based approach”. Esta implementação aplica a analogia do preenchimento de um formulário, ou seja, interpreta o diálogo de um certo estado da aplicação como a necessidade de se verem realizadas certas condições para efectuar uma acção. Cada estado da aplicação pode conter vários formulários e o preenchimento de cada um deles resulta numa accão, que normalmente leva a estados diferentes da aplicação. Contudo,também é possível haver accões que são independentes da aplicação, como por exemplo pedir ao GUIDE para aumentar o volume. Estes formulários são instanciados automaticamente pelo Dialogue Manager. Pelo contrário, os formulários relativos à aplicação têm de ser inferidos a partir de uma representação da interface da aplicação Para realizar um projecto deste tipo é preciso conhecer melhor os futuros utilizadores. Por isso, foram realizados dois estudos feitos com utilizadores-alvo que pretendiam entender como os idosos reagiriam a novas maneiras de interagir com a sua televisão bem como as suas preferências em relação à apresentação da informação e dos elementos interactivos. As descobertas feitas são relatadas nesta tese e serviram não só para ajudar no desenvolvimento do Dialogue Manager mas também todos os outros componentes envolvidos. Outro dos principais objectivos destes estudos foi perceber que diferentes agrupamentos se pode criar para caracterizar e agrupar futuros utilizadores. Para esse fim foi implementado um protótipo que integra diferentes dispositivos para interação (ex: WiiMote, Kinect) e que permite a criação de interfaces multimodais recorrendo à descrição dos elementos que desejamos ver no ecrã num ficheiro XML. Os sistemas adaptativos dependem de informação guardada em modelos como base para aplicar a adaptação. Existem diferentes modelos tendo em conta os diferentes tipos de informação que se quer manter: modelo de utilizador, modelo da tarefa, modelo de domínio, modelo de diálogo, modelo de ambiente, etc. Desses modelos destaca-se o modelo de utilizador pois é o mais importante no campo dos sistemas adaptativos. O modelo de utilizador é a representação do conhecimento e preferências que o sistema “acredita” ser o que o utilizador possui. Toda esta informação é importante para melhorar a interação e portanto deve ser mantida e actualizada. Neste documento são também descritas as técnicas para a aquisição¸ ao desse conhecimento, existindo dois processos diferentes para o fazer: explicitamente e implicitamente. Observando o utilizador e o seu compor tamento é possível obter as informações implicitamente. Perguntando directamente ou permitindo ao utilizador alterar o modelo de utilizador a aquisição de informação está a ser feita explicitamente. Neste documento é apresentado um protótipo que pretende servir como um tutorial de modo a ensinar ao utilizador como interagir com o sistema mas também obter informações sobre ele de maneira a poder atribuí-lo a um dos agrupamentos encontrados nos estudos feitos anteriormente. Este protótipo obtém essas informações pedindo ao utilizador para efectuar certas tarefas e respondendo a algumas perguntas. Como foi referido anteriormente, o Dialogue Manager bem como outros componentes lidam com as aplicações através de uma representação da interface de utilizador. Neste documento é feito uma comparação entre algumas linguagens que têm este objectivo e é escolhido então o formato que vai ser usado neste projecto. Para extrair automaticamente essa representação, no capítulo 6 é apresentado uma ferramenta que o faz a partir de aplicações Web, ou seja implementadas em HTML e Javascript. Esta ferramenta analisa a estrutura dos elementos apresentados através da análise do código HTML bem como de algumas propriedades WAI-ARIA, desenhadas com o propósito da acessibilidade. De seguida, percorre e analisa não só o código HTML com também o CSS, de modo a descrever as propriedades visuais dos elementos que vão ser apresentados no ecrã. Finalmente, todo o trabalho resultante desta tese continuará a ser melhorado e avaliado até ao final da duração deste projecto que contará ainda com 1 ano e 3 meses. Durante esse período será realizada a integração dos vários componentes e será feita a migração das versões em PC para Set-top-box. No fim ´e esperado que todos os objectivos a que este projecto se propôs sejam cumpridos e que pelo menos facilite a vida daqueles que são afectados pela falta de acessibilidade nas tecnologias existentes.This thesis focuses on Adaptive Multimodal Systems and their applications on improving user interface accessibility. Disabled and/or elderly people are a group at high risk of social exclusion. The access to the opportunities offered by society is obviously limited if these cannot be reached by persons with impairments or restricted mobility. A more subtle way of exclusion results from the sensory modalities in which they are presented. Therefore, if the presentation of information has only one modality it will exclude people with impairments in that particular sensory modality. As a solution to these problems, this document presents GUIDE, an European funded project which intends to develop a software framework which allows developers to efficiently integrate accessibility features into their applications. To perform adaptation the system must know the users, their characteristics and preferences. Thus, a prototype was implemented to assist in user trials. These trials had the goal to understand users’ interaction patterns as well as to group users with common characteristics. In order to match a user with its cluster, it was implemented a prototype named User Initialisation Application (UIA) that besides of tutoring the user on how to interact with the system, it asks the user to perform some tasks and answer some questions. When finished the UIA is able to decide which group the user identifies with. This thesis takes special focus on Dialogue Manager as it is the core component of the system architecture. It coordinates the activity of several subcomponents in a dialogue system and its main goal is to maintain a representation of the current state of the ongoing dialogue. This document presents the design of the Dialogue Manager that will run in the GUIDE framework. Additionally, in order to the Dialogue Manager and the other components understand the applications’ user interface it was implemented a tool that extracts a User Interface Markup Language (UIML) from a Web based application

    Detecting Deceptive Dark-Pattern Web Advertisements for Blind Screen-Reader Users

    Get PDF
    Advertisements have become commonplace on modern websites. While ads are typically designed for visual consumption, it is unclear how they affect blind users who interact with the ads using a screen reader. Existing research studies on non-visual web interaction predominantly focus on general web browsing; the specific impact of extraneous ad content on blind users\u27 experience remains largely unexplored. To fill this gap, we conducted an interview study with 18 blind participants; we found that blind users are often deceived by ads that contextually blend in with the surrounding web page content. While ad blockers can address this problem via a blanket filtering operation, many websites are increasingly denying access if an ad blocker is active. Moreover, ad blockers often do not filter out internal ads injected by the websites themselves. Therefore, we devised an algorithm to automatically identify contextually deceptive ads on a web page. Specifically, we built a detection model that leverages a multi-modal combination of handcrafted and automatically extracted features to determine if a particular ad is contextually deceptive. Evaluations of the model on a representative test dataset and \u27in-the-wild\u27 random websites yielded F1 scores of 0.86 and 0.88, respectively
    corecore