7 research outputs found

    Large vocabulary continuous speech recognition of wall street journal data

    No full text

    Prozedurale Anforderungen an die maschinelle Sprachverarbeitung : Workshop während der Jahrestagung KI-94 Saarbrücken

    Get PDF
    Die Verarbeitung gesprochener Sprache stellt besondere Anforderungen an die Architektur und die Gestaltung einzelner Komponenten in Systemen zur maschinelle Sprachverarbeitung Der Workshop thematisiert die Konsequenzen, die sich aus der Forderung nach inkrementeller und zeitsynchroner Verarbeitung, sowie aus der inhärenten Unsicherheit bei der Interpretation des Sprachsignals ergeben. Sprachliche Kommunikation, insbesondere in natürlichen Dialogsituationen, unterliegt einer Reihe von einschneidenden prozeduralen Anforderungen. Solche Anforderungen ergeben sich zum einen aus der strikten Bindung von Sprachperzeption und -produktion an die zeitliche Dimension des Sprachsignals. Die prinzipielle Begrenztheit der menschlichen (und maschinellen) Verarbeitungskapazität setzt hierbei zwangsläufig eine hocheffiziente Organisation der Verarbeitungsprozesse voraus, um auch unter dem Einfluß von Streßfaktoren ein Schritthalten der Verarbeitung mit den Erfordernissen der jeweiligen Kommunikationssituation gewährleisten zu können. Prozedurale Anforderungen resultieren zum anderen aus der erheblichen intra- und interindividuellen Varianz des Sprachsignals. Sie stellt eine wesentliche Quelle von Erkennungsunsicherheit dar und hat zur Folge, dass jedwede interpretierende Beschreibung des sprachlichen Inputs nur Hypothesencharakter tragen kann. Im Bereich der Schriftsprache ist die Zeitdimension auf Anordnungsrelationen zwischen sprachlichen Zeichen reduziert. Erkennungsunsicherheit spielt - zumindest bei der tastaturgebundenen Eingabe - keine entscheidende Rolle. Nur aufgrund dieser Abstraktionen ist es letztendlich auch möglich, eine Verarbeitungsaufgabe vollständig auf der Basis rein deklarativer Spezifikationen zu beschreiben und von einem kombinatorischen und atemporalen Deduktionsmechanismus verarbeiten zu lassen. Wenn nunmehr in diesem Workshop gerade die prozeduralen Aspekte der zeitlichen Strukturierung und der Verwaltung konkurrierender Hypothesen in den Mittelpunkt gestellt werden, so versteht sich das keineswegs als Absage an die Verwendung deklarativer Repräsentationsformalismen. Vielmehr wird hierbei gerade zu klären sein, auf welche Weise deklarative Spezifikationen in eine geeignete Verarbeitungsarchitektur eingebetet werden können, um auf dieser Grundlage die gewünschten Verarbeitungscharakteristika zu erzielen. Als Ausgangspunkt, Vergleichsmaßstab und Inspirationsquelle bietet sich naturgemäß das menschliche Vorbild an, ist es doch bisher einzig der Mensch der über Sprachverarbeitungskapazitäten der angestrebten Art verfügt. Eine wesentliche Eigenschaft natürlicher Sprachverarbeitung ist ihre Inkrementalität. Teilabschnitte einer sprachlichen Äußerung werden dabei auf den verschiedenen Ebenen zeitlich parallel und praktisch verzögerungsfrei bearbeitet Insbesondere schließt inkrementelle Verarbeitung ausdrücklich das traditionell dominierende Verarbeitungsmodell aus, das vom Vorliegen vollständiger Eingabedaten schon bei Verarbeitungsbeginn ausgeht. Zum einen ermöglicht erst eine inkrementelle Verarbeitung ein natürliches Dialogverhalten, das sich etwa durch unmittelbare Reaktionen auf die Beiträge der Dialogpartner, sowie die Fähigkeit zur Übernahme der Dialoginitiative auszeichne. Zum anderen ist sie Voraussetzung für die dynamische Generierung von Diskurserwartungen, dem wohl wirksamsten Mittel zur Suchraumbeschränkung beim Sprachverstehen. Die Forderung nach inkrementeller Verarbeitung besteht für ein Sprachverarbeitungssystem in seiner Gesamtheit Inkrementalität kann in ihren Vorzügen nur dann voll zur Wirkung kommen, wenn sie auf allen Ebenen des Verarbeitungsprozesses durchgängig realisiert ist. Nicht zuletzt aus diesem Grunde sind auf dem Workshop Beiträge zu inkrementellen Verfahren in so unterschiedlichen Bereichen wie der Worterkennung, der syntaktischen Analyse und der Generierung vertreten. Menschliche Sprachverarbeitung verläuft in ihren wesentlichen Zügen zeitsynchron. Eine solche Forderung auch auf maschinelle Sprachverarbeitungssysteme zu übertragen, scheint auf den ersten Blick nahe liegend, ist aber angesichts der kombinatorischen Eigenschaften der üblichen Verarbeitungsalgorithmen durchaus nicht selbstverständlich und schon gar nicht trivial. Die Anpassung der Verarbeitungsprozesse an den aktuell gegebenen zeitlichen Verarbeitungsdruck erfordert ein explizites und zeitsensitives Scheduling für die vorhandenen Verarbeitungskapazitäten Fragen der Aufmerksamkeitsfokussierung und des systematischen Vergessens von Teilergebnissen werden zwangsläufig eine wichtige Rolle spielen. Grundlage dafür sind Relevanzabschätzungen, die mit der erforderlichen Zuverlässigkeit wiederum nur vor dem Hintergrund von aussagekräftigen Diskurserwartungen getroffen werden können. Zu all diesen Fragestellungen befindet sich die Forschung noch ganz am Anfang

    Prozedurale Anforderungen an die maschinelle Sprachverarbeitung : Workshop während der Jahrestagung KI-94 Saarbrücken

    Get PDF
    Die Verarbeitung gesprochener Sprache stellt besondere Anforderungen an die Architektur und die Gestaltung einzelner Komponenten in Systemen zur maschinelle Sprachverarbeitung Der Workshop thematisiert die Konsequenzen, die sich aus der Forderung nach inkrementeller und zeitsynchroner Verarbeitung, sowie aus der inhärenten Unsicherheit bei der Interpretation des Sprachsignals ergeben. Sprachliche Kommunikation, insbesondere in natürlichen Dialogsituationen, unterliegt einer Reihe von einschneidenden prozeduralen Anforderungen. Solche Anforderungen ergeben sich zum einen aus der strikten Bindung von Sprachperzeption und -produktion an die zeitliche Dimension des Sprachsignals. Die prinzipielle Begrenztheit der menschlichen (und maschinellen) Verarbeitungskapazität setzt hierbei zwangsläufig eine hocheffiziente Organisation der Verarbeitungsprozesse voraus, um auch unter dem Einfluß von Streßfaktoren ein Schritthalten der Verarbeitung mit den Erfordernissen der jeweiligen Kommunikationssituation gewährleisten zu können. Prozedurale Anforderungen resultieren zum anderen aus der erheblichen intra- und interindividuellen Varianz des Sprachsignals. Sie stellt eine wesentliche Quelle von Erkennungsunsicherheit dar und hat zur Folge, dass jedwede interpretierende Beschreibung des sprachlichen Inputs nur Hypothesencharakter tragen kann. Im Bereich der Schriftsprache ist die Zeitdimension auf Anordnungsrelationen zwischen sprachlichen Zeichen reduziert. Erkennungsunsicherheit spielt - zumindest bei der tastaturgebundenen Eingabe - keine entscheidende Rolle. Nur aufgrund dieser Abstraktionen ist es letztendlich auch möglich, eine Verarbeitungsaufgabe vollständig auf der Basis rein deklarativer Spezifikationen zu beschreiben und von einem kombinatorischen und atemporalen Deduktionsmechanismus verarbeiten zu lassen. Wenn nunmehr in diesem Workshop gerade die prozeduralen Aspekte der zeitlichen Strukturierung und der Verwaltung konkurrierender Hypothesen in den Mittelpunkt gestellt werden, so versteht sich das keineswegs als Absage an die Verwendung deklarativer Repräsentationsformalismen. Vielmehr wird hierbei gerade zu klären sein, auf welche Weise deklarative Spezifikationen in eine geeignete Verarbeitungsarchitektur eingebetet werden können, um auf dieser Grundlage die gewünschten Verarbeitungscharakteristika zu erzielen. Als Ausgangspunkt, Vergleichsmaßstab und Inspirationsquelle bietet sich naturgemäß das menschliche Vorbild an, ist es doch bisher einzig der Mensch der über Sprachverarbeitungskapazitäten der angestrebten Art verfügt. Eine wesentliche Eigenschaft natürlicher Sprachverarbeitung ist ihre Inkrementalität. Teilabschnitte einer sprachlichen Äußerung werden dabei auf den verschiedenen Ebenen zeitlich parallel und praktisch verzögerungsfrei bearbeitet Insbesondere schließt inkrementelle Verarbeitung ausdrücklich das traditionell dominierende Verarbeitungsmodell aus, das vom Vorliegen vollständiger Eingabedaten schon bei Verarbeitungsbeginn ausgeht. Zum einen ermöglicht erst eine inkrementelle Verarbeitung ein natürliches Dialogverhalten, das sich etwa durch unmittelbare Reaktionen auf die Beiträge der Dialogpartner, sowie die Fähigkeit zur Übernahme der Dialoginitiative auszeichne. Zum anderen ist sie Voraussetzung für die dynamische Generierung von Diskurserwartungen, dem wohl wirksamsten Mittel zur Suchraumbeschränkung beim Sprachverstehen. Die Forderung nach inkrementeller Verarbeitung besteht für ein Sprachverarbeitungssystem in seiner Gesamtheit Inkrementalität kann in ihren Vorzügen nur dann voll zur Wirkung kommen, wenn sie auf allen Ebenen des Verarbeitungsprozesses durchgängig realisiert ist. Nicht zuletzt aus diesem Grunde sind auf dem Workshop Beiträge zu inkrementellen Verfahren in so unterschiedlichen Bereichen wie der Worterkennung, der syntaktischen Analyse und der Generierung vertreten. Menschliche Sprachverarbeitung verläuft in ihren wesentlichen Zügen zeitsynchron. Eine solche Forderung auch auf maschinelle Sprachverarbeitungssysteme zu übertragen, scheint auf den ersten Blick nahe liegend, ist aber angesichts der kombinatorischen Eigenschaften der üblichen Verarbeitungsalgorithmen durchaus nicht selbstverständlich und schon gar nicht trivial. Die Anpassung der Verarbeitungsprozesse an den aktuell gegebenen zeitlichen Verarbeitungsdruck erfordert ein explizites und zeitsensitives Scheduling für die vorhandenen Verarbeitungskapazitäten Fragen der Aufmerksamkeitsfokussierung und des systematischen Vergessens von Teilergebnissen werden zwangsläufig eine wichtige Rolle spielen. Grundlage dafür sind Relevanzabschätzungen, die mit der erforderlichen Zuverlässigkeit wiederum nur vor dem Hintergrund von aussagekräftigen Diskurserwartungen getroffen werden können. Zu all diesen Fragestellungen befindet sich die Forschung noch ganz am Anfang

    Aportación a la extracción paramétrica en reconocimiento de voz robusto basada en la aplicación de conocimiento de fonética acústica

    Full text link
    This thesis is based on the following hypothesis: the introduction of direct knowledge from the acoustic-phonetic field to the speech recognition problem, especially in the feature extraction step, may constitute a solid base of analysis for the determination of the behavior and capabilities of those systems and their improvement, as well. Most of the complexity of this Ph.D. thesis comes from the different subjects related with the speech processing área. The application of acoustic-phonetic information to the speech recognition research área implies a deep knowledge of both subjects. The research carried out in this work has been divided in two main parts: analysis of the current feature extraction methods and a study of several possible procedures about the incorporation of phonetic-acoustic knowledge to those systems. Abundant recognition and related quality measure results are presented for 50 different parameter extraction models. Details about the real-time implementation on a DSP platform (TMS3230C31-60) of two different parameter extraction models are presented. Finally, a set of computer tools developed for building and testing new speech recognition systems has been produced. Besides, the application of several results from this work can be extended to other speech processing áreas, such as computer assisted language learning, linguistic rehabilitation, etc.---ABSTRACT---La hipótesis en la que se basa el desarrollo de esta tesis, se centra en la suposición de que la aportación de conocimiento directo, proveniente del campo de la fonética acústica, al problema del reconocimiento automático de la voz, en concreto a la etapa de extracción de características, puede constituir una base sólida con la que poder analizar el comportamiento y capacidad de discriminación de dichos sistemas, así como una forma de mejorar sus prestaciones. Parte de la complejidad que presenta esta tesis doctoral, viene motivada por las diferentes disciplinas que están relacionadas con el área de procesamiento de la voz. La aplicación de información fonética-acústica al campo de investigación del reconocimiento del habla requiere un amplio conocimiento de ambas materias. Las investigaciones desarrolladas en este trabajo se han dividido en dos bloques fundamentales: análisis de los métodos actuales de extracción de rasgos fonéticos y un estudio de algunas posibles formas de incorporación de conocimiento fonético-acústico a dichos sistemas. En esta tesis se ofrecen abundantes resultados relativos a tasas de reconocimiento y medidas acerca de la calidad de este proceso, para un total de 50 modelos de extracción de parámetros. Así mismo se incluyen los detalles de la implementación en tiempo real para una plataforma DSP, en concreto TMS320C31-60, de dos diferentes modelos de extracción de rasgos. Además, se ha desarrollado un conjunto de las herramientas informáticas que pueden servir de base para construir y validar de forma sencilla, nuevos sistemas de reconocimiento. La aplicación de algunos de los resultados del trabajo puede extenderse también a otras áreas del tratamiento de la voz, tales como la enseñanza de una segunda lengua, logopedia, etc

    Arquitecturas y métodos en sistemas de reconocimiento automático de habla de gran vocabulario

    Get PDF
    La tesis que se presenta en este documento, se enmarca en el área del Reconocimiento Automático de Habla y específicamente en el diseño de sistemas de reconocimiento de gran vocabulario. En todos los casos, la tecnología de base en lo que se refiere al modelado, la aportan los modelos ocultos de Markov que, hoy por hoy, representan el paradigma de modelado dominante. En concreto, se utilizarán técnicas de modelado discreto y semicontinuo, dependiente e independiente del contexto. En primer lugar, y a partir de una clasificación de alternativas arquitecturales en el diseño de sistemas de reconocimiento se hace un estudio teórico de la formulación del comportamiento de arquitecturas multi-módulo, tanto en coste computacional como en tasa de reconocimiento, definiendo una metodología de diseño para determinar la adecuación de módulos particulares de cara a su uso conjunto, que es validada con la experimentación correspondiente. Igualmente, se hace énfasis en el estudio y evaluación de algunas de las alternativas de compresión del espacio de búsqueda, estableciendo relaciones de compromiso entre coste y tasa, que es el binomio decisivo a la hora de abordar el diseño de sistemas en tiempo real. Se presentan estudios sobre distintas estrategias de organización del espacio de búsqueda orientadas a exploración y búsqueda con algoritmos de programación dinámica: árboles y grafos, deterministas y no deterministas, proponiendo soluciones prometedoras para incrementar la tasa de inclusión obtenible sobre estructuras de grafo (en las que la compresión del espacio de búsqueda produce peores resultados que con la búsqueda lineal o en árbol). Especialmente importante es el trabajo sobre estimación de listas variables de preselección, analizando métodos paramétricos y no paramétricos, centrándonos en el uso de redes neuronales como mecanismo estimador. Se ha propuesto una metodología de selección de parámetros de entrada, topologías y métodos de codificación, en base a su potencia discriminativa en una tarea simplificada. Dicha propuesta que ha sido ampliamente evaluada y comparada con el enfoque tradicional de uso de listas fijas, mostrando la consistente mejora tanto en tasa como en coste computacional conseguible con el uso de redes neuronales. Dicho estudio sobre listas variables ha sido extendido de forma natural al problema de estimación de fiabilidad de hipótesis, habiéndose aprovechando estos resultados, de nuevo, para la estimación de longitudes de listas, obteniendo también buenos resultados. En lo que respecta al repertorio de unidades de reconocimiento y a la composición de los diccionarios usados (en cuanto al uso de múltiples pronunciaciones), se aplican, evalúan y comparan métodos dirigidos por datos y basados en conocimiento. En el apartado de introducción de variantes de pronunciación se ha discutido ampliamente la problemática de contar con bases de datos representativas y haciendo énfasis en la importancia de atender y evaluar las mejoras marginales obtenidas con algunos de estos métodos. La evaluación de los resultados es planteada cuidadosamente, sobre dos tareas radicalmente distintas: habla telefónica independiente del locutor y habla aislada dependiente, ambas usando gran vocabulario (hasta 10000 palabras), lo que permite obtener conclusiones y claves de diseño para cada una de ellas, con lo que se consigue una generalización más fundamentada de su bondades o perjuicios. En este sentido se aplican análisis de validez y relevancia estadística que pongan en su justo sitio las mejoras o degradaciones observadas. En los procesos de evaluación se han propuesto nuevas métricas y mecanismos originales de comparación
    corecore