75 research outputs found

    Characterizing phonetic transformations and fine-grained acoustic differences across dialects

    Get PDF
    Thesis (Ph. D.)--Harvard-MIT Division of Health Sciences and Technology, 2011.Cataloged from PDF version of thesis.Includes bibliographical references (p. 169-175).This thesis is motivated by the gaps between speech science and technology in analyzing dialects. In speech science, investigating phonetic rules is usually manually laborious and time consuming, limiting the amount of data analyzed. Without sufficient data, the analysis could potentially overlook or over-specify certain phonetic rules. On the other hand, in speech technology such as automatic dialect recognition, phonetic rules are rarely modeled explicitly. While many applications do not require such knowledge to obtain good performance, it is beneficial to specifically model pronunciation patterns in certain applications. For example, users of language learning software can benefit from explicit and intuitive feedback from the computer to alter their pronunciation; in forensic phonetics, it is important that results of automated systems are justifiable on phonetic grounds. In this work, we propose a mathematical framework to analyze dialects in terms of (1) phonetic transformations and (2) acoustic differences. The proposed Phonetic based Pronunciation Model (PPM) uses a hidden Markov model to characterize when and how often substitutions, insertions, and deletions occur. In particular, clustering methods are compared to better model deletion transformations. In addition, an acoustic counterpart of PPM, Acoustic-based Pronunciation Model (APM), is proposed to characterize and locate fine-grained acoustic differences such as formant transitions and nasalization across dialects. We used three data sets to empirically compare the proposed models in Arabic and English dialects. Results in automatic dialect recognition demonstrate that the proposed models complement standard baseline systems. Results in pronunciation generation and rule retrieval experiments indicate that the proposed models learn underlying phonetic rules across dialects. Our proposed system postulates pronunciation rules to a phonetician who interprets and refines them to discover new rules or quantify known rules. This can be done on large corpora to develop rules of greater statistical significance than has previously been possible. Potential applications of this work include speaker characterization and recognition, automatic dialect recognition, automatic speech recognition and synthesis, forensic phonetics, language learning or accent training education, and assistive diagnosis tools for speech and voice disorders.by Nancy Fang-Yih Chen.Ph.D

    Current trends in multilingual speech processing

    Get PDF
    In this paper, we describe recent work at Idiap Research Institute in the domain of multilingual speech processing and provide some insights into emerging challenges for the research community. Multilingual speech processing has been a topic of ongoing interest to the research community for many years and the field is now receiving renewed interest owing to two strong driving forces. Firstly, technical advances in speech recognition and synthesis are posing new challenges and opportunities to researchers. For example, discriminative features are seeing wide application by the speech recognition community, but additional issues arise when using such features in a multilingual setting. Another example is the apparent convergence of speech recognition and speech synthesis technologies in the form of statistical parametric methodologies. This convergence enables the investigation of new approaches to unified modelling for automatic speech recognition and text-to-speech synthesis (TTS) as well as cross-lingual speaker adaptation for TTS. The second driving force is the impetus being provided by both government and industry for technologies to help break down domestic and international language barriers, these also being barriers to the expansion of policy and commerce. Speech-to-speech and speech-to-text translation are thus emerging as key technologies at the heart of which lies multilingual speech processin

    Subspace Gaussian Mixture Models for Language Identification and Dysarthric Speech Intelligibility Assessment

    Get PDF
    En esta Tesis se ha investigado la aplicación de técnicas de modelado de subespacios de mezclas de Gaussianas en dos problemas relacionados con las tecnologías del habla, como son la identificación automática de idioma (LID, por sus siglas en inglés) y la evaluación automática de inteligibilidad en el habla de personas con disartria. Una de las técnicas más importantes estudiadas es el análisis factorial conjunto (JFA, por sus siglas en inglés). JFA es, en esencia, un modelo de mezclas de Gaussianas en el que la media de cada componente se expresa como una suma de factores de dimensión reducida, y donde cada factor representa una contribución diferente a la señal de audio. Esta factorización nos permite compensar nuestros modelos frente a contribuciones indeseadas presentes en la señal, como la información de canal. JFA se ha investigado como clasficador y como extractor de parámetros. En esta última aproximación se modela un solo factor que representa todas las contribuciones presentes en la señal. Los puntos en este subespacio se denominan i-Vectors. Así, un i-Vector es un vector de baja dimensión que representa una grabación de audio. Los i-Vectors han resultado ser muy útiles como vector de características para representar señales en diferentes problemas relacionados con el aprendizaje de máquinas. En relación al problema de LID, se han investigado dos sistemas diferentes de acuerdo al tipo de información extraída de la señal. En el primero, la señal se parametriza en vectores acústicos con información espectral a corto plazo. En este caso, observamos mejoras de hasta un 50% con el sistema basado en i-Vectors respecto al sistema que utilizaba JFA como clasificador. Se comprobó que el subespacio de canal del modelo JFA también contenía información del idioma, mientras que con los i-Vectors no se descarta ningún tipo de información, y además, son útiles para mitigar diferencias entre los datos de entrenamiento y de evaluación. En la fase de clasificación, los i-Vectors de cada idioma se modelaron con una distribución Gaussiana en la que la matriz de covarianza era común para todos. Este método es simple y rápido, y no requiere de ningún post-procesado de los i-Vectors. En el segundo sistema, se introdujo el uso de información prosódica y formántica en un sistema de LID basado en i-Vectors. La precisión de éste estaba por debajo de la del sistema acústico. Sin embargo, los dos sistemas son complementarios, y se obtuvo hasta un 20% de mejora con la fusión de los dos respecto al sistema acústico solo. Tras los buenos resultados obtenidos para LID, y dado que, teóricamente, los i-Vectors capturan toda la información presente en la señal, decidimos usarlos para la evaluar de manera automática la inteligibilidad en el habla de personas con disartria. Los logopedas están muy interesados en esta tecnología porque permitiría evaluar a sus pacientes de una manera objetiva y consistente. En este caso, los i-Vectors se obtuvieron a partir de información espectral a corto plazo de la señal, y la inteligibilidad se calculó a partir de los i-Vectors obtenidos para un conjunto de palabras dichas por el locutor evaluado. Comprobamos que los resultados eran mucho mejores si en el entrenamiento del sistema se incorporaban datos de la persona que iba a ser evaluada. No obstante, esta limitación podría aliviarse utilizando una mayor cantidad de datos para entrenar el sistema.In this Thesis, we investigated how to effciently apply subspace Gaussian mixture modeling techniques onto two speech technology problems, namely automatic spoken language identification (LID) and automatic intelligibility assessment of dysarthric speech. One of the most important of such techniques in this Thesis was joint factor analysis (JFA). JFA is essentially a Gaussian mixture model where the mean of the components is expressed as a sum of low-dimension factors that represent different contributions to the speech signal. This factorization makes it possible to compensate for undesired sources of variability, like the channel. JFA was investigated as final classiffer and as feature extractor. In the latter approach, a single subspace including all sources of variability is trained, and points in this subspace are known as i-Vectors. Thus, one i-Vector is defined as a low-dimension representation of a single utterance, and they are a very powerful feature for different machine learning problems. We have investigated two different LID systems according to the type of features extracted from speech. First, we extracted acoustic features representing short-time spectral information. In this case, we observed relative improvements with i-Vectors with respect to JFA of up to 50%. We realized that the channel subspace in a JFA model also contains language information whereas i-Vectors do not discard any language information, and moreover, they help to reduce mismatches between training and testing data. For classification, we modeled the i-Vectors of each language with a Gaussian distribution with covariance matrix shared among languages. This method is simple and fast, and it worked well without any post-processing. Second, we introduced the use of prosodic and formant information with the i-Vectors system. The performance was below the acoustic system but both were found to be complementary and we obtained up to a 20% relative improvement with the fusion with respect to the acoustic system alone. Given the success in LID and the fact that i-Vectors capture all the information that is present in the data, we decided to use i-Vectors for other tasks, specifically, the assessment of speech intelligibility in speakers with different types of dysarthria. Speech therapists are very interested in this technology because it would allow them to objectively and consistently rate the intelligibility of their patients. In this case, the input features were extracted from short-term spectral information, and the intelligibility was assessed from the i-Vectors calculated from a set of words uttered by the tested speaker. We found that the performance was clearly much better if we had available data for training of the person that would use the application. We think that this limitation could be relaxed if we had larger databases for training. However, the recording process is not easy for people with disabilities, and it is difficult to obtain large datasets of dysarthric speakers open to the research community. Finally, the same system architecture for intelligibility assessment based on i-Vectors was used for predicting the accuracy that an automatic speech recognizer (ASR) system would obtain with dysarthric speakers. The only difference between both was the ground truth label set used for training. Predicting the performance response of an ASR system would increase the confidence of speech therapists in these systems and would diminish health related costs. The results were not as satisfactory as in the previous case, probably because an ASR is a complex system whose accuracy can be very difficult to be predicted only with acoustic information. Nonetheless, we think that we opened a door to an interesting research direction for the two problems

    Spoken content retrieval: A survey of techniques and technologies

    Get PDF
    Speech media, that is, digital audio and video containing spoken content, has blossomed in recent years. Large collections are accruing on the Internet as well as in private and enterprise settings. This growth has motivated extensive research on techniques and technologies that facilitate reliable indexing and retrieval. Spoken content retrieval (SCR) requires the combination of audio and speech processing technologies with methods from information retrieval (IR). SCR research initially investigated planned speech structured in document-like units, but has subsequently shifted focus to more informal spoken content produced spontaneously, outside of the studio and in conversational settings. This survey provides an overview of the field of SCR encompassing component technologies, the relationship of SCR to text IR and automatic speech recognition and user interaction issues. It is aimed at researchers with backgrounds in speech technology or IR who are seeking deeper insight on how these fields are integrated to support research and development, thus addressing the core challenges of SCR

    Grapheme-to-phoneme conversion in the era of globalization

    Get PDF
    This thesis focuses on the phonetic transcription in the framework of text-to-speech conversion, especially on improving adaptability, reliability and multilingual support in the phonetic module. The language is constantly evolving making the adaptability one of major concerns in phonetic transcription. The phonetic transcription has been addressed from a data- based approach. On one hand, several classifiers such as Decision Trees, Finite State Transducers, Hidden Markov Models were studied and applied to the grapheme-to-phoneme conversion task. In addition, we analyzed a method of generation of pronunciation by analogy, considering different strategies. Further improvements were obtained by means of application of the transformation-based error-driven learning algorithm. The most significant improvements were obtained for classifiers with higher error rates. The experimental results show that the adaptability of phonetic module was improved, having obtained word error rates as low as 12% (for English). Next, steps were taken towards increasing reliability of the output of the phonetic module. Although, the G2P results were quite good, in order to achieve a higher level of reliability we propose using dictionary fusion. The ways the pronunciations are represented in different lexica depend on many factors such as: expert¿s opinion, local accent specifications, phonetic alphabet chosen, assimilation level (for proper names), etc. There are often discrepancies between pronunciations of the same word found in different lexica. The fusion system is a system that learns phoneme-to-phoneme transformations and converts pronunciations from the source lexicon into pronunciations from the target lexicon. Another important part of this thesis consisted in acing the challenge of multilingualism, a phenomenon that is becoming a usual part of our daily lives. Our goal was to obtain such pronunciations for foreign inclusions that would not be totally unfamiliar either to a native or proficient speakers of the language to be adapted, or to speakers of this language with average to low proficiency. Nativization by analogy was applied to both orthographic and phonetic forms of the word. The results obtained show that phonetic analogy gives better performance than analogy in the orthographic domain for both proper names and common nouns. Both objective and perceptual results obtained show the validity of this proposal.Fa tan sols uns deu anys les aplicacions de sistemes TTS eren molt més limitades, encara que un passat tan recent sembla més llunyà a causa dels canvis produïts en les nostres vides per la invasió massiva de les tecnologies intel·ligents. Els processos d’automatització de serveis també han assolit nous nivells. Què és el que defineix un bon sistema TTS avui dia? El mercat exigeix que aquest sigui molt adaptable a qualsevol tipus d’àmbit. També és imprescindible un alt nivell de fiabilitat ja que un simple error d’un TTS pot causar problemes seriosos en el nostre dia a dia. La nostra agenda és cada vegada més exigent i hem de fer front a més volums d’informació en menys temps. Deleguem les nostres tasques quotidianes als nostres dispositius intel·ligents que ens ajuden a llegir llibres, triar productes, trobar un lloc al mapa, etc. A més viatgem més i més cada dia. Aprenem a parlar noves llengües, les barregem, en un món més i més globalitzat. Un sistema TTS que no és capaç de fer front a les entrades multilingües no serà capaç de sostenir la competència. Els sistemes TTS moderns han de ser multilingües. La transcripció fonètica és el primer mòdul del TTS per la qual cosa el seu correcte funcionament és fonamental. Aquesta tesi se centra en la millora de l’adaptabilitat, fiabilitat i suport multilingüe del mòdul fonètic del nostre sistema TTS. El mòdul de transcripció fonètica del TTS va passar de ser basat en regles o diccionaris a ser automàtic, derivat de dades. La llengua està en constant evolució, igual que tots els organismes vius. És per això que l’adaptabilitat és un dels principals problemes de la transcripció fonètica. Per millorar-la es necessita un mètode basat en dades que funcioni bé per a derivar la pronunciació de paraules no trobades al lèxic del sistema. En aquesta tesi es comparen diferents mètodes G2P impulsats per dades que utilitzen les mateixes dades d’entrenament i test i es proposen millores. S’han aplicat diversos classificadors basats en dades, com ara arbres de decisió, traductors d’estats finits i models de Markov, a la tasca de transcripció fonètica, analitzant i comparant els resultats. L’algorisme TBL, basat en aprenentatge dels errors proporciona millores adicionals als classificadors esmentats. Aquest mètode permet capturar patrons d’errors i corregir-los. Les millores més significatives s’obtenen per classificadors amb taxes d’errors més gran. Els millors resultats s’obtenen mitjançant l’aplicació del millor classificador FST amb posterior correcció dels errors pel TBL. Els resultats obtingut per altres classificadors i corregits pel TBL mostren millores entre 2-4 punts percentuals en la taxa d’error de les paraules. La millora que s’obté mitjançant l’aplicació del TBL per als resultats del classificador més simple basat només en correspondències lletra-fonema presents en el corpus d’entrenament, ML, és enorme (77-83 punts percentuals depenent del lèxic), el que demostra l’eficàcia del TBL per si sol. L’èxit de l’algorisme TBL demostra l’eficàcia de l’aprenentatge basat en els errors, que és bastant similar a l’aprenentatge de llengües pels humans. Una altra tècnica que els éssers humans utilitzen de forma regular en l’aprenentatge d’idiomes és la pronunciació per analogia. Això és encara més cert per a llengües amb ortografia profunda, on la correspondència entre la forma escrita i parlada és bastant ambigua. Per millorar encara més la capacitat d’adaptació del nostre mòdul de pronunciació fonètica, es va desenvolupar un algorisme de pronunciació per analogia. Aquest algorisme troba arcs de lletres als quals correspon la mateixa pronunciació i calcula la seva freqüència. La pronunciació d’una nova paraula es construeix amb els arcs més llargs que constitueixen el camí més curt a través del graf de totes les pronunciacions disponibles per a aquesta paraula. Es basa en paràmetres com ara la freqüència d’arc, posició en la paraula, etc. Les pronunciacions que contenen el menor nombre d’arcs (si hi ha més d’una) es donen un rang i les estratègies de puntuació escullen la millor opció. En aquest treball s’han proposat noves estratègies de puntuació i s’han obtingut resultats prometedors. Una de les noves estratègies propostes clarament supera a les altres. Les noves estratègies propostes també apareixen a la llista de les millors combinacions d’estratègies. Els millors resultats per al PbA són entre 63 i 88 % paraules correctes segons el lèxic. S’han avaluat els G2P no solament per a l’anglès, si no també per altres idiomes europeus. També s’ha considerat el cas de la parla contínua. Per L’anglès, La adaptació de la pronunciació a la parla contínua considera les formes febles. Els resultats generals mostren que la capacitat d’adaptació del mòdul fonètic ha estat millorada. També s’ha actuat en línies que permeten augmentar la fiabilitat del mòdul fonètic. Tot i que els resultats experimentals per al G2P són bastant bons, encara hi ha errors que poden impedir que la intel·ligibilitat de certes paraules i, per tant, reduir la qualitat de la parla en general. Es proposa aconseguir un major nivell de fiabilitat a través de fusió de diccionaris. Les pronunciació de les paraules presents en els diccionaris depèn de molts factors, per exemple: opinió experta, especificacions de l’accent local, alfabet fonètic triat, nivell d’assimilació (per a noms propis), etc. Sovint hi ha discrepàncies entre la pronunciació de la mateixa paraula en diferents lèxics. En general, aquestes discrepàncies, encara que de vegades significatives, no obstaculitzen greument la pronunciació global de la paraula ja que totes les pronunciacions lèxic han estat prèviament validades per un lingüista expert. Aquestes discrepàncies normalment es troben a la pronunciació de vocals i diftongs. La substitució de vocals per similars no es considera un error greu perquè no afecta la intel·ligibilitat i per tant la qualitat de veu. El sistema de fusió proposat es basa en el mètode P2P, que transforma les pronunciacions del lèxic d’origen a les pronunciacions del lèxic de destí (el sistema està capacitat per aprendre aquestes transformacions). Per entrenar el classificador, es seleccionen les entrades comunes entre el lèxic font i destí. Els experiments es duen a terme tant per paraules comuns com per a noms propis. Els experiment realitzat s’han basat en les tècniques DT i FST. Els resultats mostren que la qualitat de la parla en general es pot millorar significativament donadas les baixes taxes d’error de G2P i una àmplia cobertura del diccionari del sistema. El sistema TTS final és més adaptable i fiable, més preparat per afrontar el repte del multilingüisme, el fenomen que ja forma part habitual de les nostres vides quotidianes. Aquesta tesi considera contextos que contenen la barreja de llengües, on la llengua pot canviar de forma inesperada. Aquestes situacions abunden en les xarxes socials, fòrums, etc. Es proposa un esquema de G2P multilingüe incloent la nativització. El primer component d’un TTS multilingüe és el mòdul d’identificació d’idioma. S’ha desenvolupat un identificador d’idioma basat en n -gramas (de lletres) obtenint bons resultats. Els contextos amb llengües mixtes han de ser tractats amb especial delicadesa. En general, cada frase o paràgraf tenen una llengua principal i les paraules estrangeres presents s’hi consideren inclusions. A l’hora de decidir com pronunciar frases en diverses llengües es poden considerar dos escenaris: 1) aplicar, per cada llengua el diferents G2P classificadors propis de la llengua (es produiria canvis fonètics bruscs que sonarien molt poc natural); 2) aplicar el classificador G2P per a l’idioma principal de la frase suposant que aquesta pronunciació seria més acceptable que la que conté fonemes estrangers. I si cap de les propostes anteriors es acceptada? Per països com Espanya, on el domini de llengües estrangeres per la població general és bastant limitat, proposem nativitzar la pronunciació de paraules estrangeres en frases espanyoles. Quins criteris s’han d’utilitzar tenint en compte les significatives diferències en l’inventari de fonemes? El nostre objectiu és obtenir pronunciacions que no són del tot desconegudes i que siguin acceptades tant per parlants nadius o amb alt domini de l’idioma estranger com per parlants d’aquesta llengua amb nivell mitjà o baix. En aquest treball la nativització es porta a terme per a les inclusions angleses i catalanes en frases en castellà. Quan hi ha diferències significatives en els inventaris de fonemes entre les llengües nativització presenta reptes addicionals. Per tal de validar ràpidament la idea de nativització es van crear taules de mapeig de fonemes estrangers als nativizats, també es va dur a terme una avaluació perceptual. La nativització basada en taules mostra un major nivell d’acceptació per part del públic que la síntesi sense cap nativiztació. Per tal de millorar encara més els resultats de nativització de forma eficaç es necessita un mètode basat en dades. Com a gran part de pronunciacions estrangeres s’aprenen per analogia, l’aplicació del PbA a aquesta tasca és idoni, sobretot perquè ja ha demostrat excel·lents resultats per a la tasca de transcripció fonètica. Per a això s’explora l’analogia tant en el domini ortogràfic com fonètic. Tots els mètodes basats en dades requereixen un corpus d’entrenament i PbA, per descomptat, no és una excepció. Ja que cap corpus de nativització adequat per a la tasca estava disponible es va prendre la decisió de crear un corpus d’entrenament i test per entrenar i validar el nostre classificador per inclusions angleses en castellà, i un altre joc per a les catalanes. Tots els dos corpus d’entrenament contenen 1.000 paraules i són ortogràficament equilibrats. S’aplica la nativització per analogia basada en la forma ortogràfica de la paraula G2Pnat i també basada en la forma fonètica acs ppnat per tal d’nativitzar paraules comunes i noms propis en anglès i paraules comunes en català en frases en castellà. Els resultats obtinguts mostren que l’analogia fonètica dóna un millor rendiment que l’analogia en el domini ortogràfic pels noms propis i paraules comunes. No obstant això, els resultats obtinguts per als noms propis anglesos es troben uns 12 punts percentuals per sota dels obtinguts per a les paraules comunes en anglès. Això és degut al fet que la pronunciació noms propis està influenciada per factors més complexos i fins i tot per als éssers humans presenta importants reptes. L’algorisme TBL també s’ha aplicat per millorar els resultats de nativización per inclusions angleses. S’obtenen millores per als resultats obtinguts per P2Pnat, així com per als resultats obtinguts per les taules de nativiztació. Els bons resultats obtinguts per l’algorisme TBL aplicat a la predicció del mètode ML demostra l’eficàcia del mètode d’aprenentatge a partir d’errors, també per a aquesta tasca. A l’avaluació perceptual duta a terme per inclusions angleses en castellà, es va demanar als oients que votessin el millor dels tres mètodes disponibles: G2P (per castellà), NatTAB i P2Pnat. P2Pnat és triat com el millor en el 50 % dels casos mentre que el G2P per a espanyol obté la majoria de vots negatius (45 % dels casos). Aquests resultats perceptuals i els encoratjadors resultats objectius demostren la idoneïtat de nativització per sistemes TTS multilingüesHace tan sólo unos diez años, las aplicaciones de sistemas TTS estaban mucho más limitadas, aunque un pasado tan reciente parece más lejano debido a los cambios producidos en nuestras vidas por la invasión masiva de las tecnologías inteligentes. Los procesos de automatización de los servicios han alcanzado a nuevos niveles. ¿Qué es lo que define un buen sistema TTS hoy en día? El mercado exige que éste sea muy adaptable a cualquier tipo de ámbito. También es imprescindible un alto nivel de fiabilidad, ya que un simple error de un TTS puede causar problemas serios en nuestro día a día. Nuestra agenda es cada vez más exigente y tenemos que hacer frente a un volumen cada vez mayor de información en menos tiempo. Delegamos nuestras tareas cotidianas a nuestros dispositivos inteligentes que nos ayudan a leer libros, elegir productos, encontrar un lugar en el mapa, etc. Además, cada día viajamos más, aprendemos a hablar nuevas lenguas, las mezclamos, volviéndonos más y más globalizados. Un sistema TTS que no sea capaz de hacer frente a las entradas multilngües no será capaz de sostener la competencia. Los sistemas TTS modernos tienen que ser multilngües. La transcripción fonética es el primer módulo del TTS por lo cual su correcto funcionamiento es fundamental. Esta tesis se centra en la mejora de la adaptabilidad, fiabilidad y soporte del módulo fonético de nuestro sistema TTS. El módulo de transcripción fonética del TTS pasó de ser basado en reglas o diccionarios a ser automática, basada en datos. La lengua está en constante evolución al igual que todos los organismos vivos. Es por eso que la adaptabilidad es uno de los principales problemas de la transcripción fonética. Para mejorarla se necesita un método basado en datos que funcione bien para derivar la pronunciación de palabras no encontradas en el léxico del sistema. En esta tesis se comparan diferentes métodos G2P basados en datos, utilizando los mismos datos de entrenamiento y test y se proponen mejoras. Se han estudiado clasificadores basados en datos, tales como árboles de decisión, traductores de estados finitos y modelos de Markov, aplicados a la tarea de transcripción fonética y comparando los resultados. El algoritmo TBL, basado en aprendizaje de los errores y que permite capturar patrones de errores y corregirlos ha aportado nuevas mejoras, que han sido especialmente significativas para los clasificadores con tasa de error más alta. Los mejores resultados se obtienen mediante la aplicación del mejor clasificador FST con posterior corrección de los errores por el TBL. Los resultados obtenido por otros clasificadores y corregidos por el TBL muestran mejoras entre 2-4 puntos porcentuales en la tasa de error de las palabras. La mejora que se obtiene mediante la aplicación del TBL para a los resultados del clasificador más simple, basado solamente en correspondencias letra-fonema presentes en el corpus de entrenamiento, ML, es enorme (77-83 puntos porcentuales dependiendo del léxico), lo que demuestra la eficacia del TBL por si solo. El éxito del algoritmo TBL demuestra la eficacia del aprendizaje basado en los errores, que es bastante similar al aprendizaje de lenguas por los humanos. Otra técnica que los seres humanos utilizan de forma regular en el aprendizaje de idiomas es pronunciación por analogía. Esto es aún más cierto para lenguas con ortografía profunda, donde la correspondencia entre la forma escrita y hablada es bastante ambigua. Para mejorar aún más la capacidad de adaptación de nuestro módulo de pronunciación fonética, se ha estudiado un algoritmo de pronunciación por analogía. Este algoritmo encuentra arcos de letras a los que corresponde la misma pronunciación y calcula su frecuencia. La pronunciación de una nueva palabra se construye con los arcos más largos que constituyen el camino más corto a través del grafo de todas las pronunciaciones disponibles para esta palabra. Se basa en parámetros tales como la frecuencia de arco, posición en la palabra, etc., las pronunciaciones que contienen el menor número de arcos (si hay más de una ) se dan un rango y las estrategias de puntuación escogen la mejor opción. En esta tesis se han propuesto nuevas estrategias de puntuación, obteniéndose resultados prometedores. Una de las nuevas estrategias propuestas claramente supera a los demás. Además, las estrategias propuestas también aparecen seleccionadas al observar las mejores combinaciones de estrategias. Los mejores resultados para PbA son entre 63 y 88% palabras correctas según el léxico. Se obtienen resultados G2P no solamente para el inglés, sino también para otros idiomas europeos. También se ha considerado el caso del habla continua, adaptando la pronunciación para el habla continua del inglés, utilizando las llamadas formas débiles. Los resultados generales muestran que la capacidad de adaptación del módulo fonético ha sido mejorada. Otra línea de investigación en esta tesis se encamina a aumentar la fiabilidad del módulo fonético. Aunque, los resultados experimentales para el G2P son bastante buenos, todavía existen errores que pueden impedir que la inteligibilidad de ciertas palabras y, por lo tanto, reducir la calidad del habla en general. Para lograr un mayor nivel de fiabilidad se propone utilizar la fusión de diccionarios. Las pronunciación de las palabras presentes en los distintos diccionarios depende de muchos factores, por ejemplo: opinión experta, especificaciones del acento local, alfabeto fonético elegido, nivel de asimilación (para nombres propios), etc. A menudo hay discrepancias entre la pronunciación de la misma palabra en diferentes léxicos. Por lo general, estas discrepancias, aunque a veces significativas, no obstaculizan gravemente la pronunciación global de la palabra ya que todas las pronunciaciones léxico han sido previamente validadas por un lingüista experto. Estas discrepancias normalmente se encuentran en la pronunciación de vocales y diptongos. La sustitución de vocales por otras similares no se considera un error grave porque no afecta la inteligibilidad y por lo tanto la calidad de voz. El sistema de fusión estudiado es un sistema P2P que transforma las pronunciaciones del léxico de origen en pronunciaciones del léxico destino (el sistema está capacitado para aprender estas transformaciones). Para entrenar el clasificador, se seleccionan las entradas comunes entre el léxico fuente y destino. Se han realizado experimentos tanto para las palabras comunes como para los nombres propios, considerando los métodos de transformación basados en DT y FST. Los resultados experimentales muestran que la calidad del habla en general se puede mejorar significativamente dadas las bajas tasas de error de G2P y la amplia cobertura del diccionario del sistema. Un sistema TTS adaptable y fiable tiene que estar preparado para afrontar el reto del multilingüísmo, fenómeno que ya forma parte habitual de nuestras vidas cotidianas. Esta tesis también ha considerado contextos que contienen la mezcla de lenguas, en los que la lengua puede cambiar de forma inesperada. Este tipo de contextos abundan en las redes sociales, foros, etc. Se propone un esquema de G2P multilngüe incluyendo la nativización. El primer componente de un TTS multilngüe es el módulo de identificación de idioma. Se ha desarrollado un identificador de idioma basado n -gramas (de letras) que proporciona buenos resultados. Los contextos en los que intervienen varias lenguas deben ser tratados con especial delicadeza. Por lo general, cada frase o párrafo tienen una lengua principal y las palabras extranjeras presentes en ella se consideran inclusiones. Al definir la estrategia sobre cómo pronunciar frases en varias lenguas puede partirse de dos escenarios: 1) aplicar a cada lengua un clasificador G2P distinto e independiente (que produciría cambios fonéticos bruscos que sonarían muy poco natural); 2) aplicar el clasificador G2P para el idioma principal de la frase suponiendo que es

    Exploring variabilities through factor analysis in automatic acoustic language recognition

    Get PDF
    La problématique traitée par la Reconnaissance de la Langue (LR) porte sur la définition découverte de la langue contenue dans un segment de parole. Cette thèse se base sur des paramètres acoustiques de courte durée, utilisés dans une approche d adaptation de mélanges de Gaussiennes (GMM-UBM). Le problème majeur de nombreuses applications du vaste domaine de la re- problème connaissance de formes consiste en la variabilité des données observées. Dans le contexte de la Reconnaissance de la Langue (LR), cette variabilité nuisible est due à des causes diverses, notamment les caractéristiques du locuteur, l évolution de la parole et de la voix, ainsi que les canaux d acquisition et de transmission. Dans le contexte de la reconnaissance du locuteur, l impact de la variabilité solution peut sensiblement être réduit par la technique d Analyse Factorielle (Joint Factor Analysis, JFA). Dans ce travail, nous introduisons ce paradigme à la Reconnaissance de la Langue. Le succès de la JFA repose sur plusieurs hypothèses. La première est que l information observée est décomposable en une partie universelle, une partie dépendante de la langue et une partie de variabilité, qui elle est indépendante de la langue. La deuxième hypothèse, plus technique, est que la variabilité nuisible se situe dans un sous-espace de faible dimension, qui est défini de manière globale.Dans ce travail, nous analysons le comportement de la JFA dans le contexte d un dispositif de LR du type GMM-UBM. Nous introduisons et analysons également sa combinaison avec des Machines à Vecteurs Support (SVM). Les premières publications sur la JFA regroupaient toute information qui est amélioration nuisible à la tâche (donc ladite variabilité) dans un seul composant. Celui-ci est supposé suivre une distribution Gaussienne. Cette approche permet de traiter les différentes sortes de variabilités d une manière unique. En pratique, nous observons que cette hypothèse n est pas toujours vérifiée. Nous avons, par exemple, le cas où les données peuvent être groupées de manière logique en deux sous-parties clairement distinctes, notamment en données de sources téléphoniques et d émissions radio. Dans ce cas-ci, nos recherches détaillées montrent un certain avantage à traiter les deux types de données par deux systèmes spécifiques et d élire comme score de sortie celui du système qui correspond à la catégorie source du segment testé. Afin de sélectionner le score de l un des systèmes, nous avons besoin d un analyses détecteur de canal source. Nous proposons ici différents nouveaux designs pour engendrées de tels détecteurs automatiques. Dans ce cadre, nous montrons que les facteurs de variabilité (du sous-espace) de la JFA peuvent être utilisés avec succès pour la détection de la source. Ceci ouvre la perspective intéressante de subdiviser les5données en catégories de canal source qui sont établies de manière automatique. En plus de pouvoir s adapter à des nouvelles conditions de source, cette propriété permettrait de pouvoir travailler avec des données d entraînement qui ne sont pas accompagnées d étiquettes sur le canal de source. L approche JFA permet une réduction de la mesure de coûts allant jusqu à généraux 72% relatives, comparé au système GMM-UBM de base. En utilisant des systèmes spécifiques à la source, suivis d un sélecteur de scores, nous obtenons une amélioration relative de 81%.Language Recognition is the problem of discovering the language of a spoken definitionutterance. This thesis achieves this goal by using short term acoustic information within a GMM-UBM approach.The main problem of many pattern recognition applications is the variability of problemthe observed data. In the context of Language Recognition (LR), this troublesomevariability is due to the speaker characteristics, speech evolution, acquisition and transmission channels.In the context of Speaker Recognition, the variability problem is solved by solutionthe Joint Factor Analysis (JFA) technique. Here, we introduce this paradigm toLanguage Recognition. The success of JFA relies on several assumptions: The globalJFA assumption is that the observed information can be decomposed into a universalglobal part, a language-dependent part and the language-independent variabilitypart. The second, more technical assumption consists in the unwanted variability part to be thought to live in a low-dimensional, globally defined subspace. In this work, we analyze how JFA behaves in the context of a GMM-UBM LR framework. We also introduce and analyze its combination with Support Vector Machines(SVMs).The first JFA publications put all unwanted information (hence the variability) improvemen tinto one and the same component, which is thought to follow a Gaussian distribution.This handles diverse kinds of variability in a unique manner. But in practice,we observe that this hypothesis is not always verified. We have for example thecase, where the data can be divided into two clearly separate subsets, namely datafrom telephony and from broadcast sources. In this case, our detailed investigations show that there is some benefit of handling the two kinds of data with two separatesystems and then to elect the output score of the system, which corresponds to the source of the testing utterance.For selecting the score of one or the other system, we need a channel source related analyses detector. We propose here different novel designs for such automatic detectors.In this framework, we show that JFA s variability factors (of the subspace) can beused with success for detecting the source. This opens the interesting perspectiveof partitioning the data into automatically determined channel source categories,avoiding the need of source-labeled training data, which is not always available.The JFA approach results in up to 72% relative cost reduction, compared to the overall resultsGMM-UBM baseline system. Using source specific systems followed by a scoreselector, we achieve 81% relative improvement.AVIGNON-Bib. numérique (840079901) / SudocSudocFranceF

    IberSPEECH 2020: XI Jornadas en Tecnología del Habla and VII Iberian SLTech

    Get PDF
    IberSPEECH2020 is a two-day event, bringing together the best researchers and practitioners in speech and language technologies in Iberian languages to promote interaction and discussion. The organizing committee has planned a wide variety of scientific and social activities, including technical paper presentations, keynote lectures, presentation of projects, laboratories activities, recent PhD thesis, discussion panels, a round table, and awards to the best thesis and papers. The program of IberSPEECH2020 includes a total of 32 contributions that will be presented distributed among 5 oral sessions, a PhD session, and a projects session. To ensure the quality of all the contributions, each submitted paper was reviewed by three members of the scientific review committee. All the papers in the conference will be accessible through the International Speech Communication Association (ISCA) Online Archive. Paper selection was based on the scores and comments provided by the scientific review committee, which includes 73 researchers from different institutions (mainly from Spain and Portugal, but also from France, Germany, Brazil, Iran, Greece, Hungary, Czech Republic, Ucrania, Slovenia). Furthermore, it is confirmed to publish an extension of selected papers as a special issue of the Journal of Applied Sciences, “IberSPEECH 2020: Speech and Language Technologies for Iberian Languages”, published by MDPI with fully open access. In addition to regular paper sessions, the IberSPEECH2020 scientific program features the following activities: the ALBAYZIN evaluation challenge session.Red Española de Tecnologías del Habla. Universidad de Valladoli

    Practical Analysis of Encrypted Network Traffic

    Get PDF
    The growing use of encryption in network communications is an undoubted boon for user privacy. However, the limitations of real-world encryption schemes are still not well understood, and new side-channel attacks against encrypted communications are disclosed every year. Furthermore, encrypted network communications, by preventing inspection of packet contents, represent a significant challenge from a network security perspective: our existing infrastructure relies on such inspection for threat detection. Both problems are exacerbated by the increasing prevalence of encrypted traffic: recent estimates suggest that 65% or more of downstream Internet traffic will be encrypted by the end of 2016. This work addresses these problems by expanding our understanding of the properties and characteristics of encrypted network traffic and exploring new, specialized techniques for the handling of encrypted traffic by network monitoring systems. We first demonstrate that opaque traffic, of which encrypted traffic is a subset, can be identified in real-time and how this ability can be leveraged to improve the capabilities of existing IDS systems. To do so, we evaluate and compare multiple methods for rapid identification of opaque packets, ultimately pinpointing a simple hypothesis test (which can be implemented on an FPGA) as an efficient and effective detector of such traffic. In our experiments, using this technique to “winnow”, or filter, opaque packets from the traffic load presented to an IDS system significantly increased the throughput of the system, allowing the identification of many more potential threats than the same system without winnowing. Second, we show that side channels in encrypted VoIP traffic enable the reconstruction of approximate transcripts of conversations. Our approach leverages techniques from linguistics, machine learning, natural language processing, and machine translation to accomplish this task despite the limited information leaked by such side channels. Our ability to do so underscores both the potential threat to user privacy which such side channels represent and the degree to which this threat has been underestimated. Finally, we propose and demonstrate the effectiveness of a new paradigm for identifying HTTP resources retrieved over encrypted connections. Our experiments demonstrate how the predominant paradigm from prior work fails to accurately represent real-world situations and how our proposed approach offers significant advantages, including the ability to infer partial information, in comparison. We believe these results represent both an enhanced threat to user privacy and an opportunity for network monitors and analysts to improve their own capabilities with respect to encrypted traffic.Doctor of Philosoph
    corecore