9 research outputs found

    Concept Type Prediction and Responsive Adaptation in a Dialogue System

    Get PDF
    Responsive adaptation in spoken dialog systems involves a change in dialog system behavior in response to a user or a dialog situation. In this paper we address responsive adaptation in the automatic speech recognition (ASR) module of a spoken dialog system. We hypothesize that information about the content of a user utterance may help improve speech recognition for the utterance. We use a two-step process to test this hypothesis: first, we automatically predict the task-relevant concept types likely to be present in a user utterance using features from the dialog context and from the output of first-pass ASR of the utterance; and then, we adapt the ASR's language model to the predicted content of the user's utterance and run a second pass of ASR. We show that: (1) it is possible to achieve high accuracy in determining presence or absence of particular concept types in a post-confirmation utterance; and (2) 2-pass speech recognition with concept type classification and language model adaptation can lead to improved speech recognition performance for post-confirmation utterances

    Los modelos de diálogo y sus aplicaciones en sistemas de diálogo hombre-máquina: revisión de la literatura

    Get PDF
    Un proceso de diálogo entre humanos involucra una serie de actos del habla, cuya finalidad es transmitir los deseos, intenciones y creencias entre las partes involucradas en el mismo. El reconocimiento y clasificación de los actos del habla, la construcción de modelos basados en estos actos del habla y la evaluación de los modelos construidos, es el objetivo de los modelos de diálogo. Además, estos modelos, incorporados en un sistema informático, permiten la interacción hombre-máquina usando el habla para la solución de diversos problemas cotidianos como: comprar un tiquete de tren, reservar un vuelo, etc. En este artículo se recogen las diferentes técnicas para la construcción de modelos de diálogo y algunos de los diversos sistemas informáticos que surgieron a partir de ellos, con el fin de determinar la aplicabilidad de los modelos de diálogo en el proceso de captura de requisitos durante la fase de definición del ciclo de vida de una aplicación de software

    Acquiring and Maintaining Knowledge by Natural Multimodal Dialog

    Get PDF

    Toward Widely-Available and Usable Multimodal Conversational Interfaces

    Get PDF
    Thesis (Ph. D.)--Massachusetts Institute of Technology, Dept. of Electrical Engineering and Computer Science, 2009.Cataloged from PDF version of thesis.Includes bibliographical references (p. 159-166).Multimodal conversational interfaces, which allow humans to interact with a computer using a combination of spoken natural language and a graphical interface, offer the potential to transform the manner by which humans communicate with computers. While researchers have developed myriad such interfaces, none have made the transition out of the laboratory and into the hands of a significant number of users. This thesis makes progress toward overcoming two intertwined barriers preventing more widespread adoption: availability and usability. Toward addressing the problem of availability, this thesis introduces a new platform for building multimodal interfaces that makes it easy to deploy them to users via the World Wide Web. One consequence of this work is City Browser, the first multimodal conversational interface made publicly available to anyone with a web browser and a microphone. City Browser serves as a proof-of-concept that significant amounts of usage data can be collected in this way, allowing a glimpse of how users interact with such interfaces outside of a laboratory environment. City Browser, in turn, has served as the primary platform for deploying and evaluating three new strategies aimed at improving usability. The most pressing usability challenge for conversational interfaces is their limited ability to accurately transcribe and understand spoken natural language. The three strategies developed in this thesis - context-sensitive language modeling, response confidence scoring, and user behavior shaping - each attack the problem from a different angle, but they are linked in that each critically integrates information from the conversational context.by Alexander Gruenstein.Ph.D

    Gestión avanzada de turnos para la interacción natural

    Get PDF
    A medida que la tecnología gana en complejidad y se extiende a más aspectos de nuestras vidas, se requiere de ella que se haga, a la vez, más transparente y accesible para las personas. Es por ello que cada vez toman mayor relevancia los denominados Sistemas de Interacción Natural, enmarcados en la interacción hombre máquina, cuyo objetivo es el de hacer accesible la tecnología a los usuarios a través de los mismos modos, códigos y procedimientos que los humanos utilizan de forma natural para comunicarse entre sí, sin requerir conocimientos previos o habilidades tecnológicas específicas, es decir, según una interacción natural. Este propósito afecta a todos los niveles en los que se estructura el diálogo: organización local, organización global y organización temporal. De todos ellos, es este último nivel el que menos ha sido tratado hasta el momento en el ámbito de los Sistemas de Interacción Natural. Por lo general, en este tipo de sistemas la toma de turno tiende a ser simplificada a un proceso de paso de testigo, en el que los participantes contribuyen a la interacción en un orden predefinido e invariable y en el que es el participante en posesión de la palabra quien decide de qué contenidos dotará a su contribución y durante cuánto tiempo la desarrollará. Esta rigidez en la toma de turno es la causa de alguna de las principales limitaciones que pueden apreciarse en los actuales Sistemas de Interacción Natural: interacciones exclusivamente bipartitas; enunciaciones interpretadas y generadas como elementos indivisibles en el tiempo (sin posibilidades de evolución incremental); omisión del tratamiento de turnos solapados, interrupciones y disfluencias (de gran frecuencia de aparición e importancia en el correcto desarrollo de la interacción natural); o intervenciones producidas como mera consecuencia de los turnos previos o de eventos internos (sin tomar en consideración la oportunidad y necesidad de producir turnos según las reglas de la toma de turno que rigen la interacción humana). Este trabajo parte de las teorías parte de las teorías más aceptadas sobre la forma en la que se desarrolla la toma de turno en la interacción humana para analizar, definir, implementar y evaluar nuevos modelos de conocimiento que permitan a estos sistemas participar en interacciones desarrolladas bajo una toma de turno más humana, donde el orden de intervención de los participantes no esté definido de antemano, la duración de las contribuciones no quede determinada unilateralmente por el participante que la produce, y donde las posibles formas de contribución no queden restringidas a intervenciones primarias producidas exclusivamente bajo la posesión de la palabra. En definitiva, se pretende hacer al sistema parte activa en el reparto de los turnos de la interacción, partiendo de una concepción de la toma de turno como una acción combinada en la que cada participante desarrolla su decisión de toma de turno en cada instante y en función de: sus conjeturas sobre el estado de las metas; el compromiso alcanzado entre los participantes sobre ellas; las circunstancias sociolingüísticas en las que se desarrolla la interacción; y el estado de la toma de turno (qué turnos que se están desarrollando, quién ostenta la posesión de la palabra y quiénes son los candidatos a tomarla). Una decisión de toma de turno que pueda incluso afectar a las contribuciones en curso del sistema, que lejos de desarrollase según una rígida formalización preeliminar, podrán ser reformuladas (e incluso interrumpidas) durante su generación. Resolver estos problemas pasa por revisar las arquitecturas de los Sistemas de Interacción Natural, especialmente en lo que respecta a los componentes Gestor de Presentación y Gestor de Interacción, sobre quienes recaen las nuevas habilidades de toma de turno. Estas habilidades serán: interpretación incremental de las contribuciones de los interlocutores; generación incremental de las enunciaciones del sistema; decisión de toma de turno; estimación del estado de los turnos, estimación del estado de posesión de la palabra; estimación de los participantes designados o candidatos a tomarla; y gestión del estado de las metas de la interacción. El trabajo se completa con la implementación y evaluación de un prototipo que incluye los modelos de conocimiento propuestos. Se presenta una metodología de evaluación que permite comparar diferentes configuraciones de toma de turno sobre un mismo sistema de interacción. Las configuraciones analizadas son: toma de turno por ciclo de interacción; toma de turno según la estrategia descrita en este trabajo; y toma de turno humana. Se hace especial hincapié en evaluar las habilidades descritas con independencia de los componentes de adquisición, síntesis y procesamiento de lenguaje natural, para lo cual se disponen participantes humanos desempeñando las funciones de interfaz de entrada y salida entre el sistema y el usuario. La evaluación considera, tanto parámetros técnicos objetivos de la eficiencia, eficacia y calidad del funcionamiento del sistema, como la valoración subjetiva de la naturalidad de la interacción percibida por el usuario. Los resultados revelan una elevada naturalidad de esta estrategia de toma de turno desarrollada por la propuesta de Sistema de Interacción Natural en aspectos como el orden en el desarrollo de la interacción, la preferencia de los usuarios y lo adecuada y cómoda que resulta la estrategia en situaciones de toma de turno avanzada. Del mismo modo, se consigue una importante mejora con respecto a la toma de turno por ciclo de interacción. -----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------As technology spreads to the different aspects of our life and it becomes more and more complex, we demand that this technology become more transparent and accessible to the people. It is for this reason that the called Natural Interaction Systems, framed in the humancomputer interaction, are becoming of more importance in the last years. These systems try to make technology accessible through the same codes, modalities and procedures that people use when interacting with one another, without the need of applying neither previous knowledge nor specific technological abilities. In short, they seek to imitate human behaviour through a natural interaction. Natural Interaction is structured in three organizational levels: global, which describes the links that exist between the different goals of the interaction; local, that represents the internal development of each goal; and temporal, also known as turn-taking. From among all of them, temporal organization of the interaction has been barely dealt up to this moment in the field of Natural Interaction Systems. These systems usually simplify turn-taking to a pass-thebaton process, considering it a collaborative process where two parties, user and system, alternately act in a non-overlapped way. The turn to intervene is passed from one participant to another in an organized manner, and only the one who has gained the floor can contribute to the interaction, and determine unilaterally how he will do so. In short, interaction develops from the beginning to the end as a cyclical process (that we call interaction cycle). For certain interaction domains, for example some transactional domains, this could be a valid approach. However, as technology evolution and potential users demand enhanced interactive abilities (particularly pro-active capabilities and representation of sociolinguistic circumstances), such an approach seems mechanical and unnatural. The current state of the art in Natural Interaction Systems reflects several limitations related with the turn-taking developed in the interaction. Some of these limitations are: solely bipartite interactions; utterances interpreted and generated as indivisible elements (blocking the possibility of develop an incremental processing); no handling neither overlapped turns, nor interruptions and disfluencies (phenomena of utmost importance and frequency in the development of a natural interaction); and interventions produced just as consequence of a previous turn or an internal event (without an evaluation of the opportunity and necessity of generate turns considering the rules that governs turn-taking in human interaction). This work starts from the most accepted theories that describe how turn-taking is developed in the human interaction and applies them in the analysis, definition, implementation and evaluation of a set of new knowledge models that enable these systems to participate in interactions that are developed under a more human turn-taking strategy, where the order of participants’ interventions are not defined beforehand, the lengths and contents of the contributions are not defined unilaterally by the participant who produces them, and where the set of possible types of contribution are not limited to primary contributions, produced only under the possession of the floor. In short, it is attempted to make the system an active participant in the sharing out of turns in the interaction. With this aim, turn-taking is considered as a joint action where each participant realize his own turn-taking decision at each moment, taking into account a set of conjectures related with: the state of the goals; the commitment reached by the participants on them; the sociolinguistic circumstances that surround the interaction; the possession of floor; and finally the candidates to take it. It is tried a turn-taking decision which could even affect the ongoing system’s contributions, that, far of being developed following a rigid preliminary formalization, could be reformulated (and even interrupted) during its generation. In order to solve these problems, Natural Interaction System architectures are revised, especially with regard to the Presentation and Interaction Managers, the components that are responsible of these new turn-taking skills. These skills are: incremental interpretation of users’ contributions; incremental generation of system’s contributions; turn-taking decision; estimation of turn-taking state (turns state, possession of floor and candidates to take it); and goals management in the interaction.Esta tesis ha recibido el apoyo de las redes MAVIR (S-0505/TIC-0267) y MA2VICMR (S2009/TIC-1542); y de los proyectos IntegraTV4ALL (FIT-350301-2004-2), SOPAT (CIT-410000-2007-12), THUBAN y SemAnts (AVANZA I+D TSI-020110-2009-419

    Language Modeling for Dialog System

    No full text
    Language modeling for speech recognizer in dialog systems can take two forms. Human input can be constrained through a directed dialog, allowing the decoder to use a state-specific language model to improve recognition accuracy. Mixedinitiative systems allow for human input that while domainspecific might not be state-specific. Nevertheless, for the most part human input to a mixed-initiative system is predictable, particularly when given information about the immediately preceding system prompt. The work reported in this paper addresses the problem of balancing state-specific and general language modeling in a mixed-initiative dialog system. Byincorporating dialog state adaptation of the language model, we have reduced the recognition error rate by 11.5%</p

    Language Modeling for Dialog System

    No full text
    take two forms. Human input can be constrained through a directed dialog, allowing the decoder to use a state-specific language model to improve recognition accuracy. Mixedinitiative systems allow for human input that while domainspecific might not be state-specific. Nevertheless, for the most part human input to a mixed-initiative system is predictable, particularly when given information about the immediately preceding system prompt. The work reported in this paper addresses the problem of balancing state-specific and general language modeling in a mixed-initiative dialog system. By incorporating dialog state adaptation of the language model, we have reduced the recognition error rate by 11.5%
    corecore