7 research outputs found

    Multimodal speaker identification using an adaptive classifier cascade based on modality reliability

    Full text link

    Identity Verification Using Speech and Face Information

    Get PDF
    This article first provides an review of important concepts in the field of information fusion, followed by a review of important milestones in audio–visual person identification and verification. Several recent adaptive and nonadaptive techniques for reaching the verification decision (i.e., to accept or reject the claimant), based on speech and face information, are then evaluated in clean and noisy audio conditions on a common database; it is shown that in clean conditions most of the nonadaptive approaches provide similar performance and in noisy conditions most exhibit a severe deterioration in performance; it is also shown that current adaptive approaches are either inadequate or utilize restrictive assumptions. A new category of classifiers is then introduced, where the decision boundary is fixed but constructed to take into account how the distributions of opinions are likely to change due to noisy conditions; compared to a previously proposed adaptive approach, the proposed classifiers do not make a direct assumption about the type of noise that causes the mismatch between training and testing conditions

    Competitive Learning Neural Network Ensemble Weighted by Predicted Performance

    Get PDF
    Ensemble approaches have been shown to enhance classification by combining the outputs from a set of voting classifiers. Diversity in error patterns among base classifiers promotes ensemble performance. Multi-task learning is an important characteristic for Neural Network classifiers. Introducing a secondary output unit that receives different training signals for base networks in an ensemble can effectively promote diversity and improve ensemble performance. Here a Competitive Learning Neural Network Ensemble is proposed where a secondary output unit predicts the classification performance of the primary output unit in each base network. The networks compete with each other on the basis of classification performance and partition the stimulus space. The secondary units adaptively receive different training signals depending on the competition. As the result, each base network develops ¡°preference¡± over different regions of the stimulus space as indicated by their secondary unit outputs. To form an ensemble decision, all base networks¡¯ primary unit outputs are combined and weighted according to the secondary unit outputs. The effectiveness of the proposed approach is demonstrated with the experiments on one real-world and four artificial classification problems

    On the Use of Speech and Face Information for Identity Verification

    Get PDF
    {T}his report first provides a review of important concepts in the field of information fusion, followed by a review of important milestones in audio-visual person identification and verification. {S}everal recent adaptive and non-adaptive techniques for reaching the verification decision (i.e., to accept or reject the claimant), based on speech and face information, are then evaluated in clean and noisy audio conditions on a common database; it is shown that in clean conditions most of the non-adaptive approaches provide similar performance and in noisy conditions most exhibit a severe deterioration in performance; it is also shown that current adaptive approaches are either inadequate or utilize restrictive assumptions. A new category of classifiers is then introduced, where the decision boundary is fixed but constructed to take into account how the distributions of opinions are likely to change due to noisy conditions; compared to a previously proposed adaptive approach, the proposed classifiers do not make a direct assumption about the type of noise that causes the mismatch between training and testing conditions. {T}his report is an extended and revised version of {IDIAP-RR} 02-33

    An information theoretic framework for weight estimation in the combination of probabilistic classifiers for speaker identification

    No full text
    In this paper, we describe a relation between classification systems and information transmission systems. By looking at the classification systems from this perspective, we propose a method of classifier weight estimation for the linear (LIN-OP) and logarithmic opinion pool (LOG-OP) type classifier combination schemes for which some tools from information theory are used. These weights provide contextual information about the classifiers such as class dependent classifier reliability and global classifier reliability. A measure for decision consensus among the classifiers is also proposed which is formulated as a multiplicative part of the classifier weights. A method of selecting the classifiers which provide complementary information for the combination operation is given. Using the proposed method, two classifiers are selected to be used in the combination operation. Simulation experiments in closed set speaker identification have shown that the method of weight estimation described in this paper improved the identification rates of both linear and logarithmic opinion type combination schemes. A comparison between the proposed method and some other methods of weight selection is also given at the end of the paper

    Adaptation of multimodal input

    Get PDF
    Tese de mestrado em Engenharia Informática (Sistemas de Informação), apresentada à Universidade de Lisboa, através da Faculdade de Ciências, 2011This thesis is strongly coupled with the European project GUIDE (Gentle User Interfaces for Elderly Citizens) which intends to deliver a toolbox of adaptive multimodal interfaces to run on TV set-top boxes. The goal of this framework is to address some of the limitations and disabilities shown by elderly users and automatically adapt web-based applications to their needs also freeing the developers of the need of tackling accessibility issues. The User Trials Application is a multimodal application that was designed to perform user trials, which consisted on observing the users interacting with a multimodal system that supported multiple input/output modalities and capturing data about this interaction. This application allowed an high customization regarding tests including which interactive elements should appear on screen and their properties. A Wizard-of-Oz technique was used to empower the person running the tests and to allow a greater degree of control and information gathering. A second application developed, the User Initialization Application, constituted a prototype of the final version that is going to be present in the GUIDE framework, aimed for introducing the user to the system and input devices as well as gathering information about the user limitations so it could be assigned to a specific user model. The tests included in the prototype used various modalities such as speech and gestures. One of the main features of this application is the use of adaptation throughout the test sequence, changing properties such as volume, text size, color, among others. The third application discussed in this thesis is the GUIDE Fusion Core, responsible for user-adapted input combination. A frame-based algorithm was used to combine information and a weight-based approach to imprint adaptive behavior into it. Although the implementation of the GUIDE Fusion core is still in its early development, some focus was given to designing an evaluation framework capable of measuring, according to some metrics, the performance of the fusion core.Esta tese tem um forte foco em sistemas multimodais e respectivos módulos de fusão. O trabalho realizado ao longo deste ano está em quase toda a sua maioria relacionado com o projecto europeu científico GUIDE (Gently User Interfaces for Elderly and Disabled Citizens). Os resultados obtidos deste trabalho contribuíram significativamente para o desenvolvimento do projecto e alguma parte continuará a ser desenvolvida no decorrer do próximo ano. O desenvolvimento de aplicações multimodais pode ser por vezes um processo complexo devido ao número de dispositivos de entrada e saída existentes e o tipo de modalidades disponíveis para interagir. Tornar aplicações acessíveis ´e normalmente uma tarefa que exige esforço, tempo, e recursos aos desenvolvedores, tornando-a bastante negligenciada. Um segmento da população¸ ao que é fortemente afectado por este facto são utilizadores idosos, os quais, na sua maioria, sofrem de algum tipo de limitação física ou cognitiva. O objectivo do projecto GUIDE ´e desenvolver uma toolbox de interfaces multimodais adaptativas direccionada para os problemas de accessibilidade apresentados por utilizadores idosos. Esta framework irá diminuir o esforço necessário por parte dos desenvolvedores de aplicações em implementar técnicas de accessibilidade. As aplicações que irão ser executadas na framework GUIDE são automaticamente adaptadas às necessidades e limitações de cada utilizador. Nesta tese, são apresentadas três aplicações que foram desenvolvidas ao longo deste ano no âmbito do projecto GUIDE. A UTA (User Trials Application) é uma aplicação multimodal que foi desenhada, implementada e usada para efectuar o levantamento de requisitos e preferências de utilizador, um processo ao qual foi dada bastante enfâse nos primeiros meses do projecto. As tarefas realizadas pelos utilizadores ao longo das várias sessões de testes, envolviam diferentes modalidades tais como visão, audição ou cognição. A UTA, como sistema multimodal que é, permite o uso de diferentes meios de entrada e saída de maneira a testar todas as modalidades pretendidas. Um dos aspectos fundamentais desta aplicação é o seu elevado grau de customização, o qual permite fácil e flexivelmente definir os testes a serem realizados, o que inclui controlar variáveis tais como o tipo de elementos interactivos que devem surgir no ecrã e as suas propriedades. Outra importante característica da UTA, é incluir uma aproximação baseada na técnica Wizard-of-Oz, proporcionando um certo nível de controlo ao indivíduo que supervisiona a sessão de testes, dando-lhe a hipótese de gerir a execução da aplicação ou o registo de resultados. Ambas as tarefas mencionadas são automaticamente realizadas pela aplicação, mas para uma maior eficácia no levantamento de requisitos e preferências são também auxiliadas pelo wizard. A segunda aplicação desenvolvida nesta tese foi a UIA (User Initialization Application). Esta aplicação funcionou como um protótipo da versão final que irá estar presente dentro da framework GUIDE cujo objectivo é servir como um primeiro contacto do utilizador com o sistema. Este objectivo tem dois fins. O primeiro é através de uma série de ecrãs informativos dar ao utilizador uma noção de como fazer uso dos dispositivos de entrada à sua disposição. O segundo fim desta aplicação é, através de uma série de tarefas a realizar, capturar informação sobre o utilizador, em termos das suas capacidades e limitações, e automaticamente atribuir-lhe um modelo de utilizador que irá servir como referência para adaptação. A UIA inclui diversos testes que abrangem várias modalidades de entrada e saída. Este protótipo, para além de mostrar exemplos de testes que podem ser realizados para caracterizar um utilizador, demonstra também a importância da adaptação em aplicações multimodais. Ao longo da execução do protótipo, à medida que o utilizador interage com a aplicação demonstrando as suas preferências, esta é capaz de se auto-adaptar dinamicamente alterando variáveis tais como tamanho de letra, distância entre botões ou volume. A última fase desta tese concentra-se em descrever o desenvolvimento do módulo de fusão a ser integrado dentro da framework GUIDE. Este componente tem a responsabilidade de combinar entradas multimodais geradas por utilizadores e gerar uma interpretação a partir desses eventos. A análise de resultados observados durante o período de testes em que a UTA foi utilizada, permitiu concluir que os utilizadores quando interagem de forma multimodal, diferem entre si, na medida em que pode existir utilizadores que prefiram combinar modalidades de uma certa maneira ou de outra. Este facto trouxe um reforço à necessidade da existência de fusão num sistema multimodal como é o caso do GUIDE. A aproximação arquitectural escolhida para implementar fusão de entradas no GFC (Guide Fusion Core) é baseada em frames, estruturas de dados que neste contexto, uma vez activados, despoletam o envio de acções ou respostas para outros componentes da framework, o que pode provocar uma mudança de estado de uma aplicação. Um frame contém um conjunto de condições correspondentes a determinadas modalidades e um conjunto de respostas. Cada frame pode ser visto como uma sequência de acções que no contexto actual da aplicação deverá gerar uma determinada resposta pelo sistema. Neste documento é dado um certo foco aos componentes que interagem directamente com o módulo de fusão, de maneira a perceber a sua relação e os tipos de eventos que são trocados entre eles. O processo de criação de frames necessita de ter uma noção dos elementos interactivos que estão a qualquer momento, disponíveis ao utilizador. Este requisito é suportado pela capacidade de o módulo de fusão receber e analisar uma representação concreta da interface referente ao estado actual da aplicação. Este processo é algo que é expectável que ocorra múltiplas vezes durante o ciclo de vida de uma aplicação, à medida que o estado desta se altera. Outros dos principais aspectos sobre o módulo de fusão discutido nesta tese é a sua capacidade de adaptação. Muitos dos componentes da framework GUIDE possuem comportamentos adaptativos que são geridos por si próprios mas também auxiliados por outros componentes. Por um lado os principais factores que governam a adaptação feita dentro do módulo de fusão são os eventos de entrada fornecidos pelos diferentes reconhecedores do sistema e informações retiradas do modelo de utilizador que retratam a aptitude do utilizador no uso de diversas modalidades. Por outro lado, o módulo de fusão também é susceptível de desencadear adaptação em outros componentes tais como reconhecedores (e.g. enviando os comando disponíveis para determinado contexto da aplicação) ou componentes centrais da framework (Dialogue Manager) que ao receber interpretações das acções dos utilizadores alteram o estado da aplicação. A aproximação escolhida para implementar adaptação no GFC foi uma aproximação baseada em pesos, que permite à arquitectura baseada em frames usar o modelo de utilizador para garantir que a activação de frames não depende só da fiabilidade dos eventos de entrada recebidos mas também das características do utilizador que são traduzidas para valores de confiança (pesos). Uma das principais lacunas no desenvolvimento de sistemas multimodais ´e a sua falta de avaliação. Apesar de a implementação actual do módulo de fusão e respectivas estratégias adaptativas estarem ainda no ´ınicio do seu desenvolvimento, já se começou a dar atenção a métodos de avaliação que possam medir a performance do GFC em termos de eficácia e tempo de resposta. A solução que está a ser desenvolvida a par do GFC, é uma framework de avaliação que permite simular o envio de eventos de entradas e controlar os seus parâmetros mais relevantes tais como por exemplo instantes de início e fim, conteúdo semântico ou instante de chegada
    corecore