485 research outputs found

    Automatic Understanding of ATC Speech: Study of Prospectives and Field Experiments for Several Controller Positions

    Get PDF
    Although there has been a lot of interest in recognizing and understanding air traffic control (ATC) speech, none of the published works have obtained detailed field data results. We have developed a system able to identify the language spoken and recognize and understand sentences in both Spanish and English. We also present field results for several in-tower controller positions. To the best of our knowledge, this is the first time that field ATC speech (not simulated) is captured, processed, and analyzed. The use of stochastic grammars allows variations in the standard phraseology that appear in field data. The robust understanding algorithm developed has 95% concept accuracy from ATC text input. It also allows changes in the presentation order of the concepts and the correction of errors created by the speech recognition engine improving it by 17% and 25%, respectively, absolute in the percentage of fully correctly understood sentences for English and Spanish in relation to the percentages of fully correctly recognized sentences. The analysis of errors due to the spontaneity of the speech and its comparison to read speech is also carried out. A 96% word accuracy for read speech is reduced to 86% word accuracy for field ATC data for Spanish for the "clearances" task confirming that field data is needed to estimate the performance of a system. A literature review and a critical discussion on the possibilities of speech recognition and understanding technology applied to ATC speech are also given

    Adaptation of multimodal input

    Get PDF
    Tese de mestrado em Engenharia Informática (Sistemas de Informação), apresentada à Universidade de Lisboa, através da Faculdade de Ciências, 2011This thesis is strongly coupled with the European project GUIDE (Gentle User Interfaces for Elderly Citizens) which intends to deliver a toolbox of adaptive multimodal interfaces to run on TV set-top boxes. The goal of this framework is to address some of the limitations and disabilities shown by elderly users and automatically adapt web-based applications to their needs also freeing the developers of the need of tackling accessibility issues. The User Trials Application is a multimodal application that was designed to perform user trials, which consisted on observing the users interacting with a multimodal system that supported multiple input/output modalities and capturing data about this interaction. This application allowed an high customization regarding tests including which interactive elements should appear on screen and their properties. A Wizard-of-Oz technique was used to empower the person running the tests and to allow a greater degree of control and information gathering. A second application developed, the User Initialization Application, constituted a prototype of the final version that is going to be present in the GUIDE framework, aimed for introducing the user to the system and input devices as well as gathering information about the user limitations so it could be assigned to a specific user model. The tests included in the prototype used various modalities such as speech and gestures. One of the main features of this application is the use of adaptation throughout the test sequence, changing properties such as volume, text size, color, among others. The third application discussed in this thesis is the GUIDE Fusion Core, responsible for user-adapted input combination. A frame-based algorithm was used to combine information and a weight-based approach to imprint adaptive behavior into it. Although the implementation of the GUIDE Fusion core is still in its early development, some focus was given to designing an evaluation framework capable of measuring, according to some metrics, the performance of the fusion core.Esta tese tem um forte foco em sistemas multimodais e respectivos módulos de fusão. O trabalho realizado ao longo deste ano está em quase toda a sua maioria relacionado com o projecto europeu científico GUIDE (Gently User Interfaces for Elderly and Disabled Citizens). Os resultados obtidos deste trabalho contribuíram significativamente para o desenvolvimento do projecto e alguma parte continuará a ser desenvolvida no decorrer do próximo ano. O desenvolvimento de aplicações multimodais pode ser por vezes um processo complexo devido ao número de dispositivos de entrada e saída existentes e o tipo de modalidades disponíveis para interagir. Tornar aplicações acessíveis ´e normalmente uma tarefa que exige esforço, tempo, e recursos aos desenvolvedores, tornando-a bastante negligenciada. Um segmento da população¸ ao que é fortemente afectado por este facto são utilizadores idosos, os quais, na sua maioria, sofrem de algum tipo de limitação física ou cognitiva. O objectivo do projecto GUIDE ´e desenvolver uma toolbox de interfaces multimodais adaptativas direccionada para os problemas de accessibilidade apresentados por utilizadores idosos. Esta framework irá diminuir o esforço necessário por parte dos desenvolvedores de aplicações em implementar técnicas de accessibilidade. As aplicações que irão ser executadas na framework GUIDE são automaticamente adaptadas às necessidades e limitações de cada utilizador. Nesta tese, são apresentadas três aplicações que foram desenvolvidas ao longo deste ano no âmbito do projecto GUIDE. A UTA (User Trials Application) é uma aplicação multimodal que foi desenhada, implementada e usada para efectuar o levantamento de requisitos e preferências de utilizador, um processo ao qual foi dada bastante enfâse nos primeiros meses do projecto. As tarefas realizadas pelos utilizadores ao longo das várias sessões de testes, envolviam diferentes modalidades tais como visão, audição ou cognição. A UTA, como sistema multimodal que é, permite o uso de diferentes meios de entrada e saída de maneira a testar todas as modalidades pretendidas. Um dos aspectos fundamentais desta aplicação é o seu elevado grau de customização, o qual permite fácil e flexivelmente definir os testes a serem realizados, o que inclui controlar variáveis tais como o tipo de elementos interactivos que devem surgir no ecrã e as suas propriedades. Outra importante característica da UTA, é incluir uma aproximação baseada na técnica Wizard-of-Oz, proporcionando um certo nível de controlo ao indivíduo que supervisiona a sessão de testes, dando-lhe a hipótese de gerir a execução da aplicação ou o registo de resultados. Ambas as tarefas mencionadas são automaticamente realizadas pela aplicação, mas para uma maior eficácia no levantamento de requisitos e preferências são também auxiliadas pelo wizard. A segunda aplicação desenvolvida nesta tese foi a UIA (User Initialization Application). Esta aplicação funcionou como um protótipo da versão final que irá estar presente dentro da framework GUIDE cujo objectivo é servir como um primeiro contacto do utilizador com o sistema. Este objectivo tem dois fins. O primeiro é através de uma série de ecrãs informativos dar ao utilizador uma noção de como fazer uso dos dispositivos de entrada à sua disposição. O segundo fim desta aplicação é, através de uma série de tarefas a realizar, capturar informação sobre o utilizador, em termos das suas capacidades e limitações, e automaticamente atribuir-lhe um modelo de utilizador que irá servir como referência para adaptação. A UIA inclui diversos testes que abrangem várias modalidades de entrada e saída. Este protótipo, para além de mostrar exemplos de testes que podem ser realizados para caracterizar um utilizador, demonstra também a importância da adaptação em aplicações multimodais. Ao longo da execução do protótipo, à medida que o utilizador interage com a aplicação demonstrando as suas preferências, esta é capaz de se auto-adaptar dinamicamente alterando variáveis tais como tamanho de letra, distância entre botões ou volume. A última fase desta tese concentra-se em descrever o desenvolvimento do módulo de fusão a ser integrado dentro da framework GUIDE. Este componente tem a responsabilidade de combinar entradas multimodais geradas por utilizadores e gerar uma interpretação a partir desses eventos. A análise de resultados observados durante o período de testes em que a UTA foi utilizada, permitiu concluir que os utilizadores quando interagem de forma multimodal, diferem entre si, na medida em que pode existir utilizadores que prefiram combinar modalidades de uma certa maneira ou de outra. Este facto trouxe um reforço à necessidade da existência de fusão num sistema multimodal como é o caso do GUIDE. A aproximação arquitectural escolhida para implementar fusão de entradas no GFC (Guide Fusion Core) é baseada em frames, estruturas de dados que neste contexto, uma vez activados, despoletam o envio de acções ou respostas para outros componentes da framework, o que pode provocar uma mudança de estado de uma aplicação. Um frame contém um conjunto de condições correspondentes a determinadas modalidades e um conjunto de respostas. Cada frame pode ser visto como uma sequência de acções que no contexto actual da aplicação deverá gerar uma determinada resposta pelo sistema. Neste documento é dado um certo foco aos componentes que interagem directamente com o módulo de fusão, de maneira a perceber a sua relação e os tipos de eventos que são trocados entre eles. O processo de criação de frames necessita de ter uma noção dos elementos interactivos que estão a qualquer momento, disponíveis ao utilizador. Este requisito é suportado pela capacidade de o módulo de fusão receber e analisar uma representação concreta da interface referente ao estado actual da aplicação. Este processo é algo que é expectável que ocorra múltiplas vezes durante o ciclo de vida de uma aplicação, à medida que o estado desta se altera. Outros dos principais aspectos sobre o módulo de fusão discutido nesta tese é a sua capacidade de adaptação. Muitos dos componentes da framework GUIDE possuem comportamentos adaptativos que são geridos por si próprios mas também auxiliados por outros componentes. Por um lado os principais factores que governam a adaptação feita dentro do módulo de fusão são os eventos de entrada fornecidos pelos diferentes reconhecedores do sistema e informações retiradas do modelo de utilizador que retratam a aptitude do utilizador no uso de diversas modalidades. Por outro lado, o módulo de fusão também é susceptível de desencadear adaptação em outros componentes tais como reconhecedores (e.g. enviando os comando disponíveis para determinado contexto da aplicação) ou componentes centrais da framework (Dialogue Manager) que ao receber interpretações das acções dos utilizadores alteram o estado da aplicação. A aproximação escolhida para implementar adaptação no GFC foi uma aproximação baseada em pesos, que permite à arquitectura baseada em frames usar o modelo de utilizador para garantir que a activação de frames não depende só da fiabilidade dos eventos de entrada recebidos mas também das características do utilizador que são traduzidas para valores de confiança (pesos). Uma das principais lacunas no desenvolvimento de sistemas multimodais ´e a sua falta de avaliação. Apesar de a implementação actual do módulo de fusão e respectivas estratégias adaptativas estarem ainda no ´ınicio do seu desenvolvimento, já se começou a dar atenção a métodos de avaliação que possam medir a performance do GFC em termos de eficácia e tempo de resposta. A solução que está a ser desenvolvida a par do GFC, é uma framework de avaliação que permite simular o envio de eventos de entradas e controlar os seus parâmetros mais relevantes tais como por exemplo instantes de início e fim, conteúdo semântico ou instante de chegada

    PHONOTACTIC AND ACOUSTIC LANGUAGE RECOGNITION

    Get PDF
    Práce pojednává o fonotaktickém a akustickém přístupu pro automatické rozpoznávání jazyka. První část práce pojednává o fonotaktickém přístupu založeném na výskytu fonémových sekvenci v řeči. Nejdříve je prezentován popis vývoje fonémového rozpoznávače jako techniky pro přepis řeči do sekvence smysluplných symbolů. Hlavní důraz je kladen na dobré natrénování fonémového rozpoznávače a kombinaci výsledků z několika fonémových rozpoznávačů trénovaných na různých jazycích (Paralelní fonémové rozpoznávání následované jazykovými modely (PPRLM)). Práce také pojednává o nové technice anti-modely v PPRLM a studuje použití fonémových grafů místo nejlepšího přepisu. Na závěr práce jsou porovnány dva přístupy modelování výstupu fonémového rozpoznávače -- standardní n-gramové jazykové modely a binární rozhodovací stromy. Hlavní přínos v akustickém přístupu je diskriminativní modelování cílových modelů jazyků a první experimenty s kombinací diskriminativního trénování a na příznacích, kde byl odstraněn vliv kanálu. Práce dále zkoumá různé druhy technik fúzi akustického a fonotaktického přístupu. Všechny experimenty jsou provedeny na standardních datech z NIST evaluaci konané v letech 2003, 2005 a 2007, takže jsou přímo porovnatelné s výsledky ostatních skupin zabývajících se automatickým rozpoznáváním jazyka. S fúzí uvedených technik jsme posunuli state-of-the-art výsledky a dosáhli vynikajících výsledků ve dvou NIST evaluacích.This thesis deals with phonotactic and acoustic techniques for automatic language recognition (LRE). The first part of the thesis deals with the phonotactic language recognition based on co-occurrences of phone sequences in speech. A thorough study of phone recognition as tokenization technique for LRE is done, with focus on the amounts of training data for phone recognizer and on the combination of phone recognizers trained on several language (Parallel Phone Recognition followed by Language Model - PPRLM). The thesis also deals with novel technique of anti-models in PPRLM and investigates into using phone lattices instead of strings. The work on phonotactic approach is concluded by a comparison of classical n-gram modeling techniques and binary decision trees. The acoustic LRE was addressed too, with the main focus on discriminative techniques for training target language acoustic models and on initial (but successful) experiments with removing channel dependencies. We have also investigated into the fusion of phonotactic and acoustic approaches. All experiments were performed on standard data from NIST 2003, 2005 and 2007 evaluations so that the results are directly comparable to other laboratories in the LRE community. With the above mentioned techniques, the fused systems defined the state-of-the-art in the LRE field and reached excellent results in NIST evaluations.

    Personalizing Human-Robot Dialogue Interactions using Face and Name Recognition

    Get PDF
    Task-oriented dialogue systems are computer systems that aim to provide an interaction indistinguishable from ordinary human conversation with the goal of completing user- defined tasks. They are achieving this by analyzing the intents of users and choosing respective responses. Recent studies show that by personalizing the conversations with this systems one can positevely affect their perception and long-term acceptance. Personalised social robots have been widely applied in different fields to provide assistance. In this thesis we are working on development of a scientific conference assistant. The goal of this assistant is to provide the conference participants with conference information and inform about the activities for their spare time during conference. Moreover, to increase the engagement with the robot our team has worked on personalizing the human-robot interaction by means of face and name recognition. To achieve this personalisation, first the name recognition ability of available physical robot was improved, next by the concent of the participants their pictures were taken and used for memorization of returning users. As acquiring the consent for personal data storage is not an optimal solution, an alternative method for participants recognition using QR Codes on their badges was developed and compared to pre-trained model in terms of speed. Lastly, the personal details of each participant, as unviversity, country of origin, was acquired prior to conference or during the conversation and used in dialogues. The developed robot, called DAGFINN was displayed at two conferences happened this year in Stavanger, where the first time installment did not involve personalization feature. Hence, we conclude this thesis by discussing the influence of personalisation on dialogues with the robot and participants satisfaction with developed social robot

    Multimodal interaction with mobile devices : fusing a broad spectrum of modality combinations

    Get PDF
    This dissertation presents a multimodal architecture for use in mobile scenarios such as shopping and navigation. It also analyses a wide range of feasible modality input combinations for these contexts. For this purpose, two interlinked demonstrators were designed for stand-alone use on mobile devices. Of particular importance was the design and implementation of a modality fusion module capable of combining input from a range of communication modes like speech, handwriting, and gesture. The implementation is able to account for confidence value biases arising within and between modalities and also provides a method for resolving semantically overlapped input. Tangible interaction with real-world objects and symmetric multimodality are two further themes addressed in this work. The work concludes with the results from two usability field studies that provide insight on user preference and modality intuition for different modality combinations, as well as user acceptance for anthropomorphized objects.Diese Dissertation präsentiert eine multimodale Architektur zum Gebrauch in mobilen Umständen wie z. B. Einkaufen und Navigation. Außerdem wird ein großes Gebiet von möglichen modalen Eingabekombinationen zu diesen Umständen analysiert. Um das in praktischer Weise zu demonstrieren, wurden zwei teilweise gekoppelte Vorführungsprogramme zum \u27stand-alone\u27; Gebrauch auf mobilen Geräten entworfen. Von spezieller Wichtigkeit war der Entwurf und die Ausführung eines Modalitäts-fusion Modul, das die Kombination einer Reihe von Kommunikationsarten wie Sprache, Handschrift und Gesten ermöglicht. Die Ausführung erlaubt die Veränderung von Zuverlässigkeitswerten innerhalb einzelner Modalitäten und außerdem ermöglicht eine Methode um die semantisch überlappten Eingaben auszuwerten. Wirklichkeitsnaher Dialog mit aktuellen Objekten und symmetrische Multimodalität sind zwei weitere Themen die in dieser Arbeit behandelt werden. Die Arbeit schließt mit Resultaten von zwei Feldstudien, die weitere Einsicht erlauben über die bevorzugte Art verschiedener Modalitätskombinationen, sowie auch über die Akzeptanz von anthropomorphisierten Objekten
    corecore