6 research outputs found
Automatic speaker recognition
06.03.2018 tarihli ve 30352 sayılı Resmi Gazetede yayımlanan “Yükseköğretim Kanunu İle Bazı Kanun Ve Kanun Hükmünde Kararnamelerde Değişiklik Yapılması Hakkında Kanun” ile 18.06.2018 tarihli “Lisansüstü Tezlerin Elektronik Ortamda Toplanması, Düzenlenmesi ve Erişime Açılmasına İlişkin Yönerge” gereğince tam metin erişime açılmıştır
Sistema de reconocimiento automático de habla basado en máxima entropía
El presente trabajo describe la aplicación de técnicas de medida de confianza en reconocimiento automático del habla. Las mismas tienen por objeto medir la confiabilidad de las palabras reconocidas por el sistema de reconocimiento y detectar aquellas que puedan tener errores con el fin de aceptar como válida, o rechazar una frase reconocida. El objetivo final de dichas técnicas, es mejorar la confiabilidad de los sistemas de reconocimiento automático del habla. Concretamente el trabajo se centra en la implementación de un sistema de verificación de palabras basado en características que aportan información útil para la corrección de palabras reconocidas. Dichas características son utilizadas dentro de un clasificador estadístico basado en el modelo de máxima entropía. La posibilidad de combinar diferentes fuentes de información que permiten los modelos de máxima entropía es utilizada en este trabajo para combinar las características mencionadas con otras propiedades de las palabras, logrando un aumento significativo en el rendimiento del sistema de verificación.
La evaluación del sistema completo se realiza en el marco de un sistema automático de reserva y consulta de disponibilidades en un hotel por medio de la voz.In this work we present the application of confidence measures in automatic speech recognition in order to obtain a reliable measure of recognized words performed by a speech recognizer. This measure is then used to detect wrong words in order to accept or reject the whole utterance. The main goal of such techniques is to increase the reliability of automatic speech recognition systems. This work focus on the implementation of a word verification system based on scores which give truthful information in testing recognized words.
Those scores are embedded inside a statistical classifier based on the maximum entropy paradigm. Maximum entropy models have the ability to combine different sources of information. This property is applied to combine mentioned scores with other words properties. As a consequence, significant improvement on the reliability of the verification system is obtained. Evaluation of the whole system is performed on a automatic voice driven hotel book system.Red de Universidades con Carreras en Informática (RedUNCI
Sistema de reconocimiento automático de habla basado en máxima entropía
El presente trabajo describe la aplicación de técnicas de medida de confianza en reconocimiento automático del habla. Las mismas tienen por objeto medir la confiabilidad de las palabras reconocidas por el sistema de reconocimiento y detectar aquellas que puedan tener errores con el fin de aceptar como válida, o rechazar una frase reconocida. El objetivo final de dichas técnicas, es mejorar la confiabilidad de los sistemas de reconocimiento automático del habla. Concretamente el trabajo se centra en la implementación de un sistema de verificación de palabras basado en características que aportan información útil para la corrección de palabras reconocidas. Dichas características son utilizadas dentro de un clasificador estadístico basado en el modelo de máxima entropía. La posibilidad de combinar diferentes fuentes de información que permiten los modelos de máxima entropía es utilizada en este trabajo para combinar las características mencionadas con otras propiedades de las palabras, logrando un aumento significativo en el rendimiento del sistema de verificación.
La evaluación del sistema completo se realiza en el marco de un sistema automático de reserva y consulta de disponibilidades en un hotel por medio de la voz.In this work we present the application of confidence measures in automatic speech recognition in order to obtain a reliable measure of recognized words performed by a speech recognizer. This measure is then used to detect wrong words in order to accept or reject the whole utterance. The main goal of such techniques is to increase the reliability of automatic speech recognition systems. This work focus on the implementation of a word verification system based on scores which give truthful information in testing recognized words.
Those scores are embedded inside a statistical classifier based on the maximum entropy paradigm. Maximum entropy models have the ability to combine different sources of information. This property is applied to combine mentioned scores with other words properties. As a consequence, significant improvement on the reliability of the verification system is obtained. Evaluation of the whole system is performed on a automatic voice driven hotel book system.Red de Universidades con Carreras en Informática (RedUNCI
"This sentence is wrong." Detecting errors in machine-translated sentences.
International audienceMachine translation systems are not reliable enough to be used ''as is'': except for the most simple tasks, they can only be used to grasp the general meaning of a text or assist human translators. The purpose of confidence measures is to detect erroneous words or sentences produced by a machine translation system. In this article after reviewing the mathematical foundations of confidence estimation we propose a comparison of several state-of-the-art confidence measures, predictive parameters and classifiers. We also propose two original confidence measures based on Mutual Information and a method for automatically generating data for training and testing classifiers. We applied these techniques to data from WMT campaign 2008 and found that the best confidence measures yielded an Equal Error Rate of 36.3% at word level and 34.2% at sentence level, but combining different measures reduced these rates to respectively 35.0\% and 29.0\%. We also present the results of an experiment aimed at determining how helpful confidence measures are in a post edition task. Preliminary results suggest that our system is not yet ready to efficiently help post editors, but we now have a software and protocol we can apply to further experiments, and user feedback has indicated aspects which must be improved in order to increase the level of helpfulness of confidence measures
CONTRIBUTIONS TO EFFICIENT AUTOMATIC TRANSCRIPTION OF VIDEO LECTURES
Tesis por compendio[ES] Durante los últimos años, los repositorios multimedia en línea se han convertido
en fuentes clave de conocimiento gracias al auge de Internet, especialmente en
el área de la educación. Instituciones educativas de todo el mundo han dedicado
muchos recursos en la búsqueda de nuevos métodos de enseñanza, tanto para
mejorar la asimilación de nuevos conocimientos, como para poder llegar a una
audiencia más amplia. Como resultado, hoy en día disponemos de diferentes
repositorios con clases grabadas que siven como herramientas complementarias en
la enseñanza, o incluso pueden asentar una nueva base en la enseñanza a
distancia. Sin embargo, deben cumplir con una serie de requisitos para que la
experiencia sea totalmente satisfactoria y es aquí donde la transcripción de los
materiales juega un papel fundamental. La transcripción posibilita una búsqueda
precisa de los materiales en los que el alumno está interesado, se abre la
puerta a la traducción automática, a funciones de recomendación, a la
generación de resumenes de las charlas y además, el poder hacer
llegar el contenido a personas con discapacidades auditivas. No obstante, la
generación de estas transcripciones puede resultar muy costosa.
Con todo esto en mente, la presente tesis tiene como objetivo proporcionar
nuevas herramientas y técnicas que faciliten la transcripción de estos
repositorios. En particular, abordamos el desarrollo de un conjunto de herramientas
de reconocimiento de automático del habla, con énfasis en las técnicas de aprendizaje
profundo que contribuyen a proporcionar transcripciones precisas en casos de
estudio reales. Además, se presentan diferentes participaciones en competiciones
internacionales donde se demuestra la competitividad del software comparada con
otras soluciones. Por otra parte, en aras de mejorar los sistemas de
reconocimiento, se propone una nueva técnica de adaptación de estos sistemas al
interlocutor basada en el uso Medidas de Confianza. Esto además motivó el
desarrollo de técnicas para la mejora en la estimación de este tipo de medidas
por medio de Redes Neuronales Recurrentes.
Todas las contribuciones presentadas se han probado en diferentes repositorios
educativos. De hecho, el toolkit transLectures-UPV es parte de un conjunto de
herramientas que sirve para generar transcripciones de clases en diferentes
universidades e instituciones españolas y europeas.[CA] Durant els últims anys, els repositoris multimèdia en línia s'han convertit
en fonts clau de coneixement gràcies a l'expansió d'Internet, especialment en
l'àrea de l'educació. Institucions educatives de tot el món han dedicat
molts recursos en la recerca de nous mètodes d'ensenyament, tant per
millorar l'assimilació de nous coneixements, com per poder arribar a una
audiència més àmplia. Com a resultat, avui dia disposem de diferents
repositoris amb classes gravades que serveixen com a eines complementàries en
l'ensenyament, o fins i tot poden assentar una nova base a l'ensenyament a
distància. No obstant això, han de complir amb una sèrie de requisits perquè la
experiència siga totalment satisfactòria i és ací on la transcripció dels
materials juga un paper fonamental. La transcripció possibilita una recerca
precisa dels materials en els quals l'alumne està interessat, s'obri la
porta a la traducció automàtica, a funcions de recomanació, a la
generació de resums de les xerrades i el poder fer
arribar el contingut a persones amb discapacitats auditives. No obstant, la
generació d'aquestes transcripcions pot resultar molt costosa.
Amb això en ment, la present tesi té com a objectiu proporcionar noves
eines i tècniques que faciliten la transcripció d'aquests repositoris. En
particular, abordem el desenvolupament d'un conjunt d'eines de reconeixement
automàtic de la parla, amb èmfasi en les tècniques d'aprenentatge profund que
contribueixen a proporcionar transcripcions precises en casos d'estudi reals. A
més, es presenten diferents participacions en competicions internacionals on es
demostra la competitivitat del programari comparada amb altres solucions.
D'altra banda, per tal de millorar els sistemes de reconeixement, es proposa una
nova tècnica d'adaptació d'aquests sistemes a l'interlocutor basada en l'ús de
Mesures de Confiança. A més, això va motivar el desenvolupament de tècniques per
a la millora en l'estimació d'aquest tipus de mesures per mitjà de Xarxes
Neuronals Recurrents.
Totes les contribucions presentades s'han provat en diferents repositoris
educatius. De fet, el toolkit transLectures-UPV és part d'un conjunt d'eines
que serveix per generar transcripcions de classes en diferents universitats i
institucions espanyoles i europees.[EN] During the last years, on-line multimedia repositories have become key
knowledge assets thanks to the rise of Internet and especially in the area of
education. Educational institutions around the world have devoted big efforts
to explore different teaching methods, to improve the transmission of knowledge
and to reach a wider audience. As a result, online video lecture repositories
are now available and serve as complementary tools that can boost the learning
experience to better assimilate new concepts. In order to guarantee the success
of these repositories the transcription of each lecture plays a very important
role because it constitutes the first step towards the availability of many other
features. This transcription allows the searchability of learning materials,
enables the translation into another languages, provides recommendation
functions, gives the possibility to provide content summaries, guarantees
the access to people with hearing disabilities, etc. However, the
transcription of these videos is expensive in terms of time and human cost.
To this purpose, this thesis aims at providing new tools and techniques that
ease the transcription of these repositories. In particular, we address the
development of a complete Automatic Speech Recognition Toolkit with an special
focus on the Deep Learning techniques that contribute to provide accurate
transcriptions in real-world scenarios. This toolkit is tested against many
other in different international competitions showing comparable transcription
quality. Moreover, a new technique to improve the recognition accuracy has been
proposed which makes use of Confidence Measures, and constitutes the spark that
motivated the proposal of new Confidence Measures techniques that helped to
further improve the transcription quality. To this end, a new speaker-adapted
confidence measure approach was proposed for models based on Recurrent Neural
Networks.
The contributions proposed herein have been tested in real-life scenarios in
different educational repositories. In fact, the transLectures-UPV toolkit is
part of a set of tools for providing video lecture transcriptions in many
different Spanish and European universities and institutions.Agua Teba, MÁD. (2019). CONTRIBUTIONS TO EFFICIENT AUTOMATIC TRANSCRIPTION OF VIDEO LECTURES [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/130198TESISCompendi