5 research outputs found
Eighty Challenges Facing Speech Input/Output Technologies
ABSTRACT During the past three decades, we have witnessed remarkable progress in the development of speech input/output technologies. Despite these successes, we are far from reaching human capabilities of recognizing nearly perfectly the speech spoken by many speakers, under varying acoustic environments, with essentially unrestricted vocabulary. Synthetic speech still sounds stilted and robot-like, lacking in real personality and emotion. There are many challenges that will remain unmet unless we can advance our fundamental understanding of human communication -how speech is produced and perceived, utilizing our innate linguistic competence. This paper outlines some of these challenges, ranging from signal presentation and lexical access to language understanding and multimodal integration, and speculates on how these challenges could be met
Robust framework for gathering information from the World Wide Web
Thesis (S.B. and M.Eng.)--Massachusetts Institute of Technology, Dept. of Electrical Engineering and Computer Science, February 1999.Includes bibliographical references (leaves 60-61).by Hyung-Jin Kim.S.B.and M.Eng
Webgalaxy - Integrating Spoken Language And Hypertext Navigation
The growth in the quantity of information and services offered online has been phenomenal. Nevertheless, access mechanisms have remained relatively primitive, requiring users to primarily point and click their way through a forest of Web links and to expend valuable cognitive capacities to track the geography of the Web space. Conversational systems can provide an intuitive, flexible multi-modal interface to online resources. The explosive growth of the World Wide Web, the continuing standardization of Web related technologies, and the growing penetration of Internet access enable us to embed a very thin client inside a standard Web browser, making conversational interfaces available to a much wider audience. This paper presents WebGALAXY, a conversational spoken language system for access to selected online resources from within a typical browser. A thin Java based client is employed as the front end with much of the speech and natural language processing occuring on remote servers. 1..
The use of speaker correlation information for automatic speech recognition
Thesis (Ph. D.)--Massachusetts Institute of Technology, Dept. of Electrical Engineering and Computer Science, 1998.Includes bibliographical references (p. 171-179).by Timothy J. Hazen.Ph.D
Desarrollo y evaluación de diferentes metodologías para la gestión automática del diálogo
El objetivo principal de la tesis que se presenta es el estudio y
desarrollo de diferentes metodologías para la gestión del diálogo
en sistemas de diálogo hablado. El principal reto planteado en la
tesis reside en el desarrollo de metodologías puramente
estadísticas para la gestión del diálogo, basadas en el
aprendizaje de un modelo a partir de un corpus de diálogos
etiquetados. En este campo, se presentan diferentes aproximaciones
para realizar la gestión, la mejora del modelo estadístico y la
evaluación del sistema del diálogo.
Para la implementación práctica de estas metodologías, en el
ámbito de una tarea específica, ha sido necesaria la adquisición y
etiquetado de un corpus de diálogos. El hecho de disponer de un
gran corpus de diálogos ha facilitado el aprendizaje y evaluación
del modelo de gestión desarrollado. Así mismo, se ha implementado
un sistema de diálogo completo, que permite evaluar el
funcionamiento práctico de las metodologías de gestión en
condiciones reales de uso.
Para evaluar las técnicas de gestión del diálogo se proponen
diferentes aproximaciones: la evaluación mediante usuarios reales;
la evaluación con el corpus adquirido, en el cual se han definido
unas particiones de entrenamiento y prueba; y la utilización de
técnicas de simulación de
usuarios. El simulador de usuario desarrollado
permite modelizar de forma estadística el proceso completo del
diálogo. En la aproximación que se presenta, tanto la obtención de
la respuesta del sistema como la generación del turno de usuario
se modelizan como un problema de clasificación, para el que se
codifica como entrada un conjunto de variables que representan el
estado actual del diálogo y como resultado de la clasificación se
obtienen las probabilidades de seleccionar cada una de las
respuestas (secuencia de actos de diálogo) definidas
respectivamente para el usuario y el sistema.Griol Barres, D. (2007). Desarrollo y evaluación de diferentes metodologías para la gestión automática del diálogo [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/1956Palanci