4 research outputs found

    Multi-level acoustic modeling for automatic speech recognition

    Get PDF
    Thesis (Ph. D.)--Massachusetts Institute of Technology, Dept. of Electrical Engineering and Computer Science, 2012.Cataloged from PDF version of thesis.Includes bibliographical references (p. 183-192).Context-dependent acoustic modeling is commonly used in large-vocabulary Automatic Speech Recognition (ASR) systems as a way to model coarticulatory variations that occur during speech production. Typically, the local phoneme context is used as a means to define context-dependent units. Because the number of possible context-dependent units can grow exponentially with the length of the contexts, many units will not have enough training examples to train a robust model, resulting in a data sparsity problem. For nearly two decades, this data sparsity problem has been dealt with by a clustering-based framework which systematically groups different context-dependent units into clusters such that each cluster can have enough data. Although dealing with the data sparsity issue, the clustering-based approach also makes all context-dependent units within a cluster have the same acoustic score, resulting in a quantization effect that can potentially limit the performance of the context-dependent model. In this work, a multi-level acoustic modeling framework is proposed to address both the data sparsity problem and the quantization effect. Under the multi-level framework, each context-dependent unit is associated with classifiers that target multiple levels of contextual resolution, and the outputs of the classifiers are linearly combined for scoring during recognition. By choosing the classifiers judiciously, both the data sparsity problem and the quantization effect can be dealt with. The proposed multi-level framework can also be integrated into existing large-vocabulary ASR systems, such as FST-based ASR systems, and is compatible with state-of-the-art error reduction techniques for ASR systems, such as discriminative training methods. Multiple sets of experiments have been conducted to compare the performance of the clustering-based acoustic model and the proposed multi-level model. In a phonetic recognition experiment on TIMIT, the multi-level model has about 8% relative improvement in terms of phone error rate, showing that the multi-level framework can help improve phonetic prediction accuracy. In a large-vocabulary transcription task, combining the proposed multi-level modeling framework with discriminative training can provide more than 20% relative improvement over a clustering baseline model in terms of Word Error Rate (WER), showing that the multi-level framework can be integrated into existing large-vocabulary decoding frameworks and that it combines well with discriminative training methods. In speaker adaptive transcription task, the multi-level model has about 14% relative WER improvement, showing that the proposed framework can adapt better to new speakers, and potentially to new environments than the conventional clustering-based approach.by Hung-An Chang.Ph.D

    Smart ERP: How business processes in small- and medium-sized service enterprises are affected by artificial intelligence.

    Get PDF
    En los 煤ltimos a帽os, la inteligencia artificial (IA) se ha integrado en m谩s facetas de la vida. En el aspecto de los hogares inteligentes, la IA puede controlar el entorno en funci贸n de las preferencias aprendidas de los residentes o en los autom贸viles que apoya al conductor, mientras que los asistentes personales inteligentes (IPA) ayudan con tareas habituales, como concertar citas o proporcionar informaci贸n. Esta silenciosa pero floreciente integraci贸n de la IA en otras 谩reas de la vida no se limita a las esferas privadas; las experiencias privadas con IA est谩n aumentando las expectativas de los procesos inteligentes en las aplicaciones empresariales y, por lo tanto, la IA se abre paso cada vez m谩s en los procesos empresariales. El uso de IPA en aplicaciones comerciales como el sistema de planificaci贸n de recursos empresariales (ERP) es un aspecto tan importante como la integraci贸n del aprendizaje autom谩tico (ML) en los procesos comerciales. Sin embargo, las peque帽as y medianas empresas (PYME) se enfrentan particularmente al desaf铆o de integrar la IA en los procesos comerciales, ya que generalmente est谩n luchando con desaf铆os existentes como la digitalizaci贸n. La optimizaci贸n de procesos a trav茅s de la IA es un desaf铆o adicional porque, seg煤n la literatura, las pymes a menudo no tienen los conocimientos necesarios para integrar la IA por s铆 mismas. De acuerdo con la literatura, las PyMEs tambi茅n a menudo carecen de casos de uso concretos en los que la IA pueda integrarse en los procesos comerciales de manera significativa y valiosa. Aqu铆 es donde entra esta tesis y desarrolla casos de uso concretos adaptados a los procesos de las pymes alemanas en el sector de servicios con el fin de optimizarlos con IA. Sobre la base de estos casos de uso, se cre贸 un marco que proporciona funciones IPA y ML y se puede integrar sin problemas en un sistema ERP. La disertaci贸n est谩 guiada por la pregunta de investigaci贸n: 屎驴Qu茅 funciones espec铆ficas de IA e IPA se reconocen como 煤tiles en el contexto empresarial de las PYME en el sector de servicios?屎 La implementaci贸n fue realizada por Design Science Research como un marco para cumplir con los requisitos tanto desde una perspectiva cient铆fica como empresarial. Como parte de esta implementaci贸n, se desarroll贸 una IPA a trav茅s de la cual se puede recuperar informaci贸n de un sistema ERP y tambi茅n ingresar mediante comandos de voz. Adem谩s, se cre贸 una funci贸n completamente nueva que permite a la IPA dar al usuario retroalimentaci贸n audiovisual sobre una descripci贸n gr谩fica de modo que tenga lugar una explicaci贸n y preinterpretaci贸n de los valores mostrados. Esto introduce un nuevo elemento de investigaci贸n, hasta ahora inexplorado, que ha sido analizado en el marco de metodolog铆as cuantitativas y cualitativas sobre su utilidad y los factores relevantes que influyen en su valor agregado. A trav茅s de la integraci贸n en casos de uso, tanto el marco IPA como el ML se exploran de manera pr谩ctica. En el primer paso, se realiz贸 una encuesta cuantitativa en la que los usuarios pudieron evaluar sus experiencias con el prototipo de IPA y comunicar mejoras funcionales. Sobre la base de esta retroalimentaci贸n, el prototipo se expandi贸 y se combin贸 con el marco ML. A partir del prototipo final, se aplic贸 la metodolog铆a cualitativa de la entrevista a expertos para identificar la aplicabilidad y los factores que influyen en la utilidad de casos de uso espec铆ficos. Para ello, se entrevist贸 a 10 expertos con conocimientos relevantes en el campo de la gesti贸n empresarial en las PYME alemanas y el conocimiento del proceso correspondiente. A partir de la extracci贸n inductiva de los factores de influencia de los protocolos de entrevista, se realiz贸 otra encuesta cuantitativa entre los expertos para verificar y clasificar los factores de influencia identificados. La entrevista con el experto ha demostrado que el potencial de la IA en las pymes del sector servicios depende de varios factores, algunos de los cuales dependen del proceso individual, como los canales de comunicaci贸n, pero tambi茅n hay factores como el volumen o la 屎generalizabilidad屎 que afectan a varias 谩reas del proceso. El volumen se identific贸 como el factor de influencia m谩s importante en todos los procesos, mientras que el campo de aplicaci贸n se identific贸 como el factor individual m谩s importante. A partir del prototipo final, se aplic贸 la metodolog铆a cualitativa de la entrevista a expertos para identificar la aplicabilidad y los factores que influyen en la utilidad de casos de uso espec铆ficos. Para ello, se entrevist贸 a 10 expertos con conocimientos relevantes en el campo de la gesti贸n empresarial en las PYME alemanas y el conocimiento del proceso correspondiente. A partir de la extracci贸n inductiva de los factores de influencia de los protocolos de entrevista, se realiz贸 otra encuesta cuantitativa entre los expertos para verificar y clasificar los factores de influencia identificados. La entrevista con el experto ha demostrado que el potencial de la IA en las pymes del sector servicios depende de varios factores, algunos de los cuales dependen del proceso individual, como los canales de comunicaci贸n, pero tambi茅n hay factores como el volumen o la 屎generalizabilidad屎 que afectan a varias 谩reas del proceso. El volumen se identific贸 como el factor de influencia m谩s importante en todos los procesos, mientras que el campo de aplicaci贸n se identific贸 como el factor individual m谩s importante. Adem谩s, se consult贸 el potencial de optimizaci贸n para procesarlos en el marco de un an谩lisis de costo鈥恇eneficio. Dentro del an谩lisis de costo鈥恇eneficio, el potencial de ahorro de costos determinado se compar贸 con los costos de implementaci贸n esperados para determinar en qu茅 escenarios una integraci贸n de IA tiene sentido econ贸mico. Para validar el potencial de ahorro estimado por los expertos, se realiz贸 un experimento en el que se compar贸 la velocidad de ingresar notas de venta mediante teclado y rat贸n con ingresarlas mediante comandos de voz a trav茅s del IPA. Con base en el an谩lisis de datos, se pudo demostrar que la introducci贸n de la IA en los procesos comerciales tiene un potencial de ahorro de costos de m谩s del 30%. Se debe enfatizar que el potencial de ahorro de costos de la API para la recuperaci贸n y entrada de informaci贸n est谩 significativamente por encima de este promedio en m谩s del 37%. De acuerdo con la evaluaci贸n cient铆fica de los casos de uso en combinaci贸n con los factores de influencia identificados y el potencial de optimizaci贸n, se desarroll贸 una gu铆a sobre c贸mo se pueden mejorar los procesos en las PYMES a trav茅s de la IA. Esta directriz, en combinaci贸n con el prototipo, permite a las pymes operar mejor el uso de la IA. La implicaci贸n te贸rica m谩s importante es que la implementaci贸n del modo de explicaci贸n para las API en el entorno empresarial ha creado un elemento de investigaci贸n completamente nuevo y se ha introducido en la comunidad acad茅mica. En el 谩rea de las implicaciones pr谩cticas, se debe enfatizar que el an谩lisis de 16 casos de uso relevantes para la pr谩ctica brind贸 una descripci贸n general completa de las implementaciones de IA para las PYMES en la industria de servicios. Los responsables de la toma de decisiones pueden adaptar los procesos descritos para beneficiarse directamente del potencial de optimizaci贸n. La directriz antes mencionada puede ayudar a los responsables de la toma de decisiones a seleccionar los procesos adecuados y proporcionar orientaci贸n para el proceso de implementaci贸n. Adem谩s, fue posible mostrar de una manera cient铆ficamente s贸lida el potencial de optimizaci贸n de la IA en los procesos comerciales y qu茅 factores influyentes son de particular relevancia para la realizaci贸n de este potencial de optimizaci贸n.Administraci贸n y Direcci贸n de Empresa

    Automatic Speech Recognition and Its Application to Information Extraction

    No full text
    This paper describes recent progress and the author's perspectives of speech recognition technology. Applications of speech recognition technology can be classified into two main areas, dictation and human-computer dialogue systems. In the dictation domain, the automatic broadcast news transcription is now actively investigated, especially under the DARPA project. The broadcast news dictation technology has recently been integrated with information extraction and retrieval technology and many application systems, such as automatic voice document indexing and retrieval systems, are under development. In the human-computer interaction domain, a variety of experimental systems for information retrieval through spoken dialogue are being investigated. In spite of the remarkable recent progress, we are still behind our ultimate goal of understanding free conversational speech uttered by any speaker under any environment. This paper also describes the most important research issues that we should attack in order to advance to our ultimate goal of fluent speech recognition
    corecore