1 research outputs found
Category-based language models in a Spanish spoken dialogue system
El objetivo principal de este trabajo es comprobar si un modelo de
lenguaje basado en categorÃas puede mejorar el rendimiento de un sistema de diálogo,
de la misma forma que lo hace para aplicaciones que utilizan bases de datos no
espontáneas y de mayores dimensiones en inglés. En primer lugar, se obtienen diversos
conjuntos de categorÃas generados en base a diferentes criterios de clasificación.
Para cada grupo de categorÃas se generan dos modelos: Un modelo de lenguaje
basado en k-gramas de categorÃas y un modelo hÃbrido que es una interpolación de
un modelo de lenguaje basado en palabras y uno basado en categorÃas. Finalmente,
se presentan los experimentos realizados sobre un corpus de diálogo espontáneo en
castellano para los que se han obtenido resultados de Perplejidad y Word Error Rate.The main goal of this work is to study if a language model based on
categories could improve the performance of a dialogue system application as it does
when not spontaneous and bigger English corpora are used. Firstly, several sets of
categories, which are generated on the basis of different classification criteria, are
obtained. Then, for each criterion, two language models are generated: A language
model based on category k-grams and a hybrid model that is an interpolation of a
word-based language model and a category-based language model. Finally, experiments
on a spontaneous dialogue corpus in Spanish are reported. These experiments
have been carried out in terms of Perplexity and Word Error Rate.This work has been partially supported by the
CICYT project TIN2005-08660-C04-03 and by the
Universidad del PaÃs Vasco under grant 9/UPV
00224.310-15900/2004