1,676 research outputs found
Comparison between rule-based and data-driven natural language processing algorithms for Brazilian Portuguese speech synthesis
Due to the exponential growth in the use of computers, personal digital assistants and smartphones, the development of Text-to-Speech (TTS) systems have become highly demanded during the last years. An important part of these systems is the Text Analysis block, that converts the input text into linguistic specifications that are going to be used to generate the final speech waveform. The Natural Language Processing algorithms presented in this block are crucial to the quality of the speech generated by synthesizers. These algorithms are responsible for important tasks such as Grapheme-to-Phoneme Conversion, Syllabification and Stress Determination. For Brazilian Portuguese (BP), solutions for the algorithms presented in the Text Analysis block have been focused in rule-based approaches. These algorithms perform well for BP but have many disadvantages. On the other hand, there is still no research to evaluate and analyze the performance of data-driven approaches that reach state-of-the-art results for complex languages, such as English. So, in this work, we compare different data-driven approaches and rule-based approaches for NLP algorithms presented in a TTS system. Moreover, we propose, as a novel application, the use of Sequence-to-Sequence models as solution for the Syllabification and Stress Determination problems. As a brief summary of the results obtained, we show that data-driven algorithms can achieve state-of-the-art performance for the NLP algorithms presented in the Text Analysis block of a BP TTS system.Nos últimos anos, devido ao grande crescimento no uso de computadores, assistentes pessoais e smartphones, o desenvolvimento de sistemas capazes de converter texto em fala tem sido bastante demandado. O bloco de análise de texto, onde o texto de entrada é convertido em especificações linguÃsticas usadas para gerar a onda sonora final é uma parte importante destes sistemas. O desempenho dos algoritmos de Processamento de Linguagem Natural (NLP) presentes neste bloco é crucial para a qualidade dos sintetizadores de voz. Conversão Grafema-Fonema, separação silábica e determinação da sÃlaba tônica são algumas das tarefas executadas por estes algoritmos. Para o Português Brasileiro (BP), os algoritmos baseados em regras têm sido o foco na solução destes problemas. Estes algoritmos atingem bom desempenho para o BP, contudo apresentam diversas desvantagens. Por outro lado, ainda não há pesquisa no intuito de avaliar o desempenho de algoritmos data-driven, largamente utilizados para lÃnguas complexas, como o inglês. Desta forma, expõe-se neste trabalho uma comparação entre diferentes técnicas data-driven e baseadas em regras para algoritmos de NLP utilizados em um sintetizador de voz. Além disso, propõe o uso de Sequence-to-Sequence models para a separação silábica e a determinação da tonicidade. Em suma, o presente trabalho demonstra que o uso de algoritmos data-driven atinge o estado-da-arte na performance dos algoritmos de Processamento de Linguagem Natural de um sintetizador de voz para o Português Brasileiro
Anonimização automatizada de contratos jurÃdicos em português
With the introduction of the General Data Protection Regulation, many organizations
were left with a large amount of documents containing public information
that should have been private. Given that we are talking about quite large quantities
of documents, it would be a waste of resources to edit them manually. The
objective of this dissertation is the development of an autonomous system for the
anonymization of sensitive information in contracts written in Portuguese.
This system uses Google Cloud Vision, an API to apply the OCR tecnology, to
extract any text present in a document. As there is a possibility that these documents
are poorly readable, an image pre-processing is done using the OpenCV
library to increase the readability of the text present in the images. Among others,
the application of binarization, skew correction and noise removal algorithms were
explored.
Once the text has been extracted, it will be interpreted by an NLP library. In this
project we chose to use spaCy, which contains a Portuguese pipeline trained with
the WikiNer and UD Portuguese Bosque datasets. This library not only allows a
very complete identification of the part of speech, but also contains four different
categories of named entity recognition in its model. In addition to the processing
carried out using the spaCy library, and since the Portuguese language does not
have a great support, some rule-based algorithms were implemented in order to
identify other types of more specific information such as identification number and
postal codes. In the end, the information considered confidential is covered by
a black rectangle drawn by OpenCV through the coordinates returned by Google
Cloud Vision OCR and a new PDF is generated.Com a introdução do Regulamento Geral de Proteção de Dados, muitas organizações
ficaram com uma grande quantidade de documentos contendo informações
públicas que deveriam ser privadas. Dado que estamos a falar de quantidades
bastante elevadas de documentos, seria um desperdÃcio de recursos editá-los manualmente.
O objetivo desta dissertação é o desenvovimento de um sistema autónomo
de anonimização de informação sensÃvel em contratos escritos na lÃngua
Portuguesa.
Este sistema utiliza a Google Cloud Vision, uma API de OCR, para extrair qualquer
texto presente num documento. Como existe a possibilidade desses documentos
serem pouco legÃveis, é feito um pré-processamento de imagem através da biblioteca
OpenCV para aumentar a legibilidade do texto presente nas imagens. Entre
outros, foi explorada a aplicação de algoritmos de binarização, correção da inclinação
e remoção de ruÃdo.
Uma vez extraÃdo o texto, este será interpretado por uma biblioteca de nlp, neste
projeto optou-se pelo uso do spaCy, que contém um pipeline português treinado
com os conjuntos de dados WikiNer e UD Portuguese Bosque. Esta biblioteca
não permite apenas uma identificação bastante completa da parte do discurso,
mas também contém quatro categorias diferentes de reconhecimento de entidade
nomeada no seu modelo. Para além do processamento efetuado com o recurso Ã
biblioteca de spaCy, e uma vez que a lÃngua portuguesa não tem um grande suporte,
foram implementados alguns algoritmos baseados em regras de modo a identificar
outros tipos de informação mais especifica como número de identificação e códigos
postais. No final, as informações consideradas confidenciais são cobertas por um
retângulo preto desenhado pelo OpenCV através das coordenadas retornadas pelo
OCR do Google Cloud Vision e será gerado um novo PDF.Mestrado em Engenharia de Computadores e Telemátic
Discovery of sensitive data with natural language processing
The process of protecting sensitive data is continually growing and becoming increasingly important,
especially as a result of the directives and laws imposed by the European Union. The effort
to create automatic systems is continuous, but in most cases, the processes behind them are
still manual or semi-automatic. In this work, we have developed a component that can extract
and classify sensitive data, from unstructured text information in European Portuguese. The
objective was to create a system that allows organizations to understand their data and comply
with legal and security purposes. We studied a hybrid approach to the problem of Named
Entities Recognition for the Portuguese language. This approach combines several techniques
such as rule-based/lexical-based models, machine learning algorithms and neural networks. The
rule-based and lexical-based approaches were used only for a set of specific classes. For the remaining
classes of entities, SpaCy and Stanford NLP tools were tested, two statistical models –
Conditional Random Fields and Random Forest – were implemented and, finally, a Bidirectional-
LSTM approach as experimented. The best results were achieved with the Stanford NER model
(86.41%), from the Stanford NLP tool. Regarding the statistical models, we realized that Conditional
Random Fields is the one that can obtain the best results, with a f1-score of 65.50%. With
the Bi-LSTM approach, we have achieved a result of 83.01%. The corpora used for training and
testing were HAREM Golden Collection, SIGARRA News Corpus and DataSense NER Corpus.O processo de preservação de dados sensÃveis está em constante crescimento e cada vez apresenta
maior importância, proveniente especialmente das diretivas e leis impostas pela União Europeia.
O esforço para criar sistemas automáticos é contÃnuo, mas o processo é realizado na maioria dos
casos de forma manual ou semiautomática. Neste trabalho desenvolvemos um componente de
Extração e Classificação de dados sensÃveis, que processa textos não-estruturados em Português
Europeu. O objetivo consistiu em criar um sistema que permite às organizações compreender
os seus dados e cumprir com fins legais de conformidade e segurança. Para resolver este problema,
foi estudada uma abordagem hÃbrida de Reconhecimento de Entidades Mencionadas para
a lÃngua Portuguesa. Esta abordagem combina técnicas baseadas em regras e léxicos, algoritmos
de aprendizagem automática e redes neuronais. As primeiras abordagens baseadas em regras e
léxicos, foram utilizadas apenas para um conjunto de classes especificas. Para as restantes classes
de entidades foram utilizadas as ferramentas SpaCy e Stanford NLP, testados dois modelos estatÃsticos
— Conditional Random Fields e Random Forest – e por fim testada uma abordagem
baseada em redes neuronais – Bidirectional-LSTM. Ao nÃvel das ferramentas utilizadas os melhores
resultados foram conseguidos com o modelo Stanford NER (86,41%). Através dos modelos
estatÃsticos percebemos que o Conditional Random Fields é o que consegue obter melhores resultados,
com um f1-score de 65,50%. Com a última abordagem, uma rede neuronal Bi-LSTM,
conseguimos resultado de f1-score de aproximadamente 83,01%. Para o treino e teste das diferentes
abordagens foram utilizados os conjuntos de dados HAREM Golden Collection, SIGARRA
News Corpus e DataSense NER Corpus
Grapheme-to-phoneme conversion in the era of globalization
This thesis focuses on the phonetic transcription in the framework of text-to-speech conversion, especially on improving adaptability, reliability and multilingual support in the phonetic module. The language is constantly evolving making the adaptability one of major concerns in phonetic transcription. The phonetic transcription has been addressed from a data- based approach. On one hand, several classifiers such as Decision Trees, Finite State Transducers, Hidden Markov Models were studied and applied to the grapheme-to-phoneme conversion task. In addition, we analyzed a method of generation of pronunciation by analogy, considering different strategies. Further improvements were obtained by means of application of the transformation-based error-driven learning algorithm. The most significant improvements were obtained for classifiers with higher error rates. The experimental results show that the adaptability of phonetic module was improved, having obtained word error rates as low as 12% (for English).
Next, steps were taken towards increasing reliability of the output of the phonetic module. Although, the G2P results were quite good, in order to achieve a higher level of reliability we propose using dictionary fusion. The ways the pronunciations are represented in different lexica depend on many factors such as: expert¿s opinion, local accent specifications, phonetic alphabet chosen, assimilation level (for proper names), etc. There are often discrepancies between pronunciations of the same word found in different lexica. The fusion system is a system that learns phoneme-to-phoneme transformations and converts pronunciations from the source lexicon into pronunciations from the target lexicon.
Another important part of this thesis consisted in acing the challenge of multilingualism, a phenomenon that is becoming a usual part of our daily lives. Our goal was to obtain such pronunciations for foreign inclusions that would not be totally unfamiliar either to a native or proficient speakers of the language to be adapted, or to speakers of this language with average to low proficiency. Nativization by analogy was applied to both orthographic and phonetic forms of the word. The results obtained show that phonetic analogy gives better performance than analogy in the orthographic domain for both proper names and common nouns. Both objective and perceptual results obtained show the validity of this proposal.Fa tan sols uns deu anys les aplicacions de sistemes TTS eren molt més limitades, encara que un passat tan recent sembla més llunyà a causa dels canvis produïts en les nostres vides per la invasió massiva de les tecnologies intel·ligents. Els processos d’automatització de serveis també han assolit nous nivells. Què és el que defineix un bon sistema TTS avui dia? El mercat exigeix que aquest sigui molt adaptable a qualsevol tipus d’à mbit. També és imprescindible un alt nivell de fiabilitat ja que un simple error d’un TTS pot causar problemes seriosos en el nostre dia a dia. La nostra agenda és cada vegada més exigent i hem de fer front a més volums d’informació en menys temps. Deleguem les nostres tasques
quotidianes als nostres dispositius intel·ligents que ens ajuden a llegir llibres, triar productes, trobar un lloc al mapa, etc. A més viatgem més i més cada dia. Aprenem a parlar noves llengües, les barregem, en un món més i més globalitzat. Un sistema TTS que no és capaç de fer front a les entrades multilingües no serà capaç de sostenir la competència. Els sistemes TTS moderns han de ser multilingües. La transcripció fonètica és el primer mòdul del TTS per la qual cosa el seu correcte funcionament és fonamental. Aquesta tesi se centra en la millora de l’adaptabilitat, fiabilitat i suport multilingüe del mòdul fonètic del nostre sistema TTS. El mòdul de transcripció fonètica del TTS va passar de ser basat en regles o
diccionaris a ser automà tic, derivat de dades. La llengua està en constant evolució, igual que tots els organismes vius. És per això que l’adaptabilitat és un dels principals problemes de la transcripció fonètica. Per millorar-la es necessita un mètode basat en dades que funcioni bé per a derivar la pronunciació de paraules no trobades al lèxic del sistema. En aquesta tesi es comparen diferents mètodes G2P impulsats per dades que utilitzen les mateixes dades d’entrenament i test i es proposen millores. S’han aplicat diversos classificadors basats en dades, com ara arbres de decisió, traductors d’estats finits i models de Markov, a la tasca de transcripció fonètica, analitzant i comparant els resultats.
L’algorisme TBL, basat en aprenentatge dels errors proporciona millores adicionals als classificadors esmentats. Aquest mètode permet capturar patrons d’errors i corregir-los. Les millores més significatives s’obtenen per classificadors amb taxes d’errors més gran. Els millors resultats s’obtenen mitjançant l’aplicació del millor classificador FST amb posterior correcció dels errors pel TBL. Els resultats obtingut per altres classificadors i corregits pel TBL mostren millores entre 2-4 punts percentuals en la taxa d’error de les paraules.
La millora que s’obté mitjançant l’aplicació del TBL per als resultats del classificador més simple basat només en correspondències lletra-fonema presents en el corpus d’entrenament, ML, és enorme (77-83 punts percentuals depenent del lèxic), el que demostra l’eficà cia del TBL per si sol. L’èxit de l’algorisme TBL demostra l’eficà cia de l’aprenentatge basat en els errors, que és bastant similar a l’aprenentatge de llengües pels humans.
Una altra tècnica que els éssers humans utilitzen de forma regular en l’aprenentatge d’idiomes és la pronunciació per analogia. Això és encara més cert per a llengües amb ortografia profunda, on la correspondència entre la forma escrita i parlada és bastant ambigua. Per millorar encara més la capacitat d’adaptació del nostre mòdul de pronunciació fonètica, es va desenvolupar un algorisme de pronunciació per analogia. Aquest algorisme troba arcs de lletres als quals correspon la mateixa pronunciació i calcula la seva freqüència.
La pronunciació d’una nova paraula es construeix amb els arcs més llargs que constitueixen el camà més curt a través del graf de totes les pronunciacions disponibles per a aquesta paraula. Es basa en parà metres com ara la freqüència d’arc, posició en la paraula, etc. Les
pronunciacions que contenen el menor nombre d’arcs (si hi ha més d’una) es donen un rang i les estratègies de puntuació escullen la millor opció. En aquest treball s’han proposat noves estratègies de puntuació i s’han obtingut resultats prometedors. Una de les noves estratègies propostes clarament supera a les altres. Les noves estratègies propostes també apareixen a la llista de les millors combinacions d’estratègies. Els millors resultats per al PbA són entre 63 i 88 % paraules correctes segons el lèxic. S’han avaluat els G2P no solament per a l’anglès, si no també per altres idiomes europeus. També s’ha considerat el cas de la parla contÃnua. Per L’anglès, La adaptació de la pronunciació a la parla contÃnua considera les formes febles. Els resultats generals mostren que la capacitat d’adaptació del mòdul fonètic ha estat millorada. També s’ha actuat en lÃnies que permeten augmentar la fiabilitat del mòdul fonètic.
Tot i que els resultats experimentals per al G2P són bastant bons, encara hi ha errors que poden impedir que la intel·ligibilitat de certes paraules i, per tant, reduir la qualitat de la parla en general. Es proposa aconseguir un major nivell de fiabilitat a través de fusió de diccionaris. Les pronunciació de les paraules presents en els diccionaris depèn de molts factors, per exemple: opinió experta, especificacions de l’accent local, alfabet fonètic triat, nivell d’assimilació (per a noms propis), etc. Sovint hi ha discrepà ncies entre la pronunciació de la mateixa paraula en diferents lèxics. En general, aquestes discrepà ncies, encara que de vegades significatives, no obstaculitzen greument la pronunciació global de la paraula ja que totes les pronunciacions lèxic han estat prèviament validades per un lingüista expert. Aquestes discrepà ncies normalment es troben a la pronunciació de vocals i diftongs. La substitució de vocals per similars no es considera un error greu perquè no afecta la intel·ligibilitat i per tant la qualitat de veu. El sistema de fusió proposat es basa en el mètode P2P, que transforma les pronunciacions del lèxic d’origen a les pronunciacions
del lèxic de destà (el sistema està capacitat per aprendre aquestes transformacions). Per entrenar el classificador, es seleccionen les entrades comunes entre el lèxic font i destÃ.
Els experiments es duen a terme tant per paraules comuns com per a noms propis. Els experiment realitzat s’han basat en les tècniques DT i FST. Els resultats mostren que la qualitat de la parla en general es pot millorar significativament donadas les baixes taxes d’error de G2P i una à mplia cobertura del diccionari del sistema. El sistema TTS final és més adaptable i fiable, més preparat per afrontar el repte del multilingüisme, el fenomen que ja forma part habitual de les nostres vides quotidianes.
Aquesta tesi considera contextos que contenen la barreja de llengües, on la llengua pot canviar de forma inesperada. Aquestes situacions abunden en les xarxes socials, fòrums, etc. Es proposa un esquema de G2P multilingüe incloent la nativització. El primer component d’un TTS multilingüe és el mòdul d’identificació d’idioma. S’ha desenvolupat un identificador d’idioma basat en n -gramas (de lletres) obtenint bons resultats. Els contextos amb llengües mixtes han de ser tractats amb especial delicadesa. En general, cada frase o parà graf tenen una llengua principal i les paraules estrangeres presents s’hi consideren inclusions. A l’hora de decidir com pronunciar frases en diverses llengües es poden considerar
dos escenaris: 1) aplicar, per cada llengua el diferents G2P classificadors propis de la llengua (es produiria canvis fonètics bruscs que sonarien molt poc natural); 2) aplicar el classificador G2P per a l’idioma principal de la frase suposant que aquesta pronunciació seria més acceptable que la que conté fonemes estrangers. I si cap de les propostes anteriors es acceptada? Per països com Espanya, on el domini de llengües estrangeres per la població general és bastant limitat, proposem nativitzar la pronunciació de paraules estrangeres en frases espanyoles. Quins criteris s’han d’utilitzar tenint en compte les significatives diferències en l’inventari de fonemes? El nostre objectiu és obtenir pronunciacions que
no són del tot desconegudes i que siguin acceptades tant per parlants nadius o amb alt domini de l’idioma estranger com per parlants d’aquesta llengua amb nivell mitjà o baix.
En aquest treball la nativització es porta a terme per a les inclusions angleses i catalanes en frases en castellà . Quan hi ha diferències significatives en els inventaris de fonemes entre les llengües nativització presenta reptes addicionals. Per tal de validar rà pidament la idea de nativització es van crear taules de mapeig de fonemes estrangers als nativizats, també es va dur a terme una avaluació perceptual. La nativització basada en taules mostra un major nivell d’acceptació per part del públic que la sÃntesi sense cap nativiztació.
Per tal de millorar encara més els resultats de nativització de forma eficaç es necessita un mètode basat en dades. Com a gran part de pronunciacions estrangeres s’aprenen per analogia, l’aplicació del PbA a aquesta tasca és idoni, sobretot perquè ja ha demostrat excel·lents resultats per a la tasca de transcripció fonètica. Per a això s’explora l’analogia tant en el domini ortogrà fic com fonètic. Tots els mètodes basats en dades requereixen un corpus d’entrenament i PbA, per descomptat, no és una excepció. Ja que cap corpus de nativització adequat per a la tasca estava disponible es va prendre la decisió de crear un corpus d’entrenament i test per entrenar i validar el nostre classificador per inclusions
angleses en castellà , i un altre joc per a les catalanes. Tots els dos corpus d’entrenament contenen 1.000 paraules i són ortogrà ficament equilibrats. S’aplica la nativització per analogia basada en la forma ortogrà fica de la paraula G2Pnat i també basada en la forma fonètica acs ppnat per tal d’nativitzar paraules comunes i noms propis en anglès i paraules comunes en català en frases en castellà . Els resultats obtinguts mostren que l’analogia fonètica dóna un millor rendiment que l’analogia en el domini ortogrà fic pels noms propis i paraules comunes. No obstant això, els resultats obtinguts per als noms propis anglesos es troben uns 12 punts percentuals per sota dels obtinguts per a les paraules comunes en
anglès. Això és degut al fet que la pronunciació noms propis està influenciada per factors més complexos i fins i tot per als éssers humans presenta importants reptes. L’algorisme TBL també s’ha aplicat per millorar els resultats de nativización per inclusions angleses.
S’obtenen millores per als resultats obtinguts per P2Pnat, aixà com per als resultats obtinguts per les taules de nativiztació. Els bons resultats obtinguts per l’algorisme TBL aplicat a la predicció del mètode ML demostra l’eficà cia del mètode d’aprenentatge a partir d’errors, també per a aquesta tasca. A l’avaluació perceptual duta a terme per inclusions angleses en castellà , es va demanar als oients que votessin el millor dels tres mètodes disponibles: G2P (per castellà ), NatTAB i P2Pnat. P2Pnat és triat com el millor en el 50 % dels casos mentre que el G2P per a espanyol obté la majoria de vots negatius (45 % dels casos). Aquests resultats perceptuals i els encoratjadors resultats objectius demostren la idoneïtat de nativització per sistemes TTS multilingüesHace tan sólo unos diez años, las aplicaciones de sistemas TTS estaban mucho más limitadas, aunque un pasado tan reciente parece más lejano debido a los cambios producidos en nuestras vidas por la invasión masiva de las tecnologÃas inteligentes. Los procesos de automatización de los servicios han alcanzado a nuevos niveles. ¿Qué es lo que define un buen sistema TTS hoy en dÃa? El mercado exige que éste sea muy adaptable a cualquier tipo de ámbito. También es imprescindible un alto nivel de fiabilidad, ya que un simple error de un TTS puede causar problemas serios en nuestro dÃa a dÃa. Nuestra agenda es cada vez más exigente y tenemos que hacer frente a un volumen cada vez mayor de información en menos tiempo. Delegamos nuestras tareas cotidianas a nuestros dispositivos inteligentes que nos ayudan a leer libros, elegir productos, encontrar un lugar en el mapa, etc.
Además, cada dÃa viajamos más, aprendemos a hablar nuevas lenguas, las mezclamos, volviéndonos más y más globalizados. Un sistema TTS que no sea capaz de hacer frente a las entradas multilngües no será capaz de sostener la competencia. Los sistemas TTS modernos tienen que ser multilngües. La transcripción fonética es el primer módulo del TTS por lo cual su correcto funcionamiento es fundamental.
Esta tesis se centra en la mejora de la adaptabilidad, fiabilidad y soporte del módulo fonético de nuestro sistema TTS. El módulo de transcripción fonética del TTS pasó de ser basado en reglas o diccionarios a ser automática, basada en datos. La lengua está en constante evolución al igual que todos los organismos vivos. Es por eso que la adaptabilidad es uno de los principales problemas de la transcripción fonética. Para mejorarla se necesita un método basado en datos que funcione bien para derivar la pronunciación de palabras no encontradas en el léxico del sistema. En esta tesis se comparan diferentes métodos G2P basados en datos, utilizando los mismos datos de entrenamiento y test y se proponen mejoras. Se han estudiado clasificadores basados en datos, tales como árboles de decisión, traductores de estados finitos y modelos de Markov, aplicados a la tarea de transcripción fonética y comparando los resultados.
El algoritmo TBL, basado en aprendizaje de los errores y que permite capturar patrones de errores y corregirlos ha aportado nuevas mejoras, que han sido especialmente significativas para los clasificadores con tasa de error más alta. Los mejores resultados se obtienen mediante la aplicación del mejor clasificador FST con posterior corrección de los errores por el TBL. Los resultados obtenido por otros clasificadores y corregidos por el
TBL muestran mejoras entre 2-4 puntos porcentuales en la tasa de error de las palabras. La mejora que se obtiene mediante la aplicación del TBL para a los resultados del clasificador más simple, basado solamente en correspondencias letra-fonema presentes en el corpus de entrenamiento, ML, es enorme (77-83 puntos porcentuales dependiendo del léxico), lo que demuestra la eficacia del TBL por si solo. El éxito del algoritmo TBL demuestra la eficacia del aprendizaje basado en los errores, que es bastante similar al aprendizaje de lenguas por los humanos.
Otra técnica que los seres humanos utilizan de forma regular en el aprendizaje de idiomas es pronunciación por analogÃa. Esto es aún más cierto para lenguas con ortografÃa profunda, donde la correspondencia entre la forma escrita y hablada es bastante ambigua. Para mejorar aún más la capacidad de adaptación de nuestro módulo de pronunciación fonética, se ha estudiado un algoritmo de pronunciación por analogÃa. Este algoritmo encuentra arcos de letras a los que corresponde la misma pronunciación y calcula su frecuencia. La pronunciación de una nueva palabra se construye con los arcos más largos que constituyen el camino más corto a través del grafo de todas las pronunciaciones disponibles para esta
palabra. Se basa en parámetros tales como la frecuencia de arco, posición en la palabra, etc., las pronunciaciones que contienen el menor número de arcos (si hay más de una ) se dan un rango y las estrategias de puntuación escogen la mejor opción.
En esta tesis se han propuesto nuevas estrategias de puntuación, obteniéndose resultados prometedores. Una de las nuevas estrategias propuestas claramente supera a los demás. Además, las estrategias propuestas también aparecen seleccionadas al observar las mejores
combinaciones de estrategias. Los mejores resultados para PbA son entre 63 y 88% palabras correctas según el léxico. Se obtienen resultados G2P no solamente para el inglés, sino también para otros idiomas europeos. También se ha considerado el caso del habla continua, adaptando la pronunciación para el habla continua del inglés, utilizando las llamadas formas débiles. Los resultados generales muestran que la capacidad de adaptación del módulo fonético ha sido mejorada.
Otra lÃnea de investigación en esta tesis se encamina a aumentar la fiabilidad del módulo fonético. Aunque, los resultados experimentales para el G2P son bastante buenos, todavÃa existen errores que pueden impedir que la inteligibilidad de ciertas palabras y, por lo tanto, reducir la calidad del habla en general. Para lograr un mayor nivel de fiabilidad se propone utilizar la fusión de diccionarios. Las pronunciación de las palabras presentes en los distintos diccionarios depende de muchos factores, por ejemplo: opinión experta, especificaciones del acento local, alfabeto fonético elegido, nivel de asimilación (para nombres propios), etc. A menudo hay discrepancias entre la pronunciación de la misma palabra en diferentes léxicos. Por lo general, estas discrepancias, aunque a veces significativas, no obstaculizan gravemente la pronunciación global de la palabra ya que todas las pronunciaciones léxico han sido previamente validadas por un lingüista experto. Estas discrepancias normalmente se encuentran en la pronunciación de vocales y diptongos. La sustitución de vocales por otras similares no se considera un error grave porque no afecta la inteligibilidad y por lo tanto la calidad de voz. El sistema de fusión estudiado es un sistema P2P que transforma las pronunciaciones del léxico de origen en pronunciaciones del léxico destino (el sistema está capacitado para aprender estas transformaciones). Para entrenar el clasificador,
se seleccionan las entradas comunes entre el léxico fuente y destino. Se han realizado experimentos tanto para las palabras comunes como para los nombres propios, considerando los métodos de transformación basados en DT y FST. Los resultados experimentales muestran que la calidad del habla en general se puede mejorar significativamente dadas las bajas tasas de error de G2P y la amplia cobertura del diccionario del sistema. Un sistema TTS adaptable y fiable tiene que estar preparado para afrontar el reto del multilingüÃsmo, fenómeno que ya forma parte habitual de nuestras vidas cotidianas.
Esta tesis también ha considerado contextos que contienen la mezcla de lenguas, en los que la lengua puede cambiar de forma inesperada. Este tipo de contextos abundan en las redes sociales, foros, etc. Se propone un esquema de G2P multilngüe incluyendo la nativización. El primer componente de un TTS multilngüe es el módulo de identificación de idioma. Se ha desarrollado un identificador de idioma basado n -gramas (de letras) que proporciona buenos resultados. Los contextos en los que intervienen varias lenguas deben ser tratados con especial delicadeza. Por lo general, cada frase o párrafo tienen una lengua principal y las palabras extranjeras presentes en ella se consideran inclusiones.
Al definir la estrategia sobre cómo pronunciar frases en varias lenguas puede partirse de dos escenarios: 1) aplicar a cada lengua un clasificador G2P distinto e independiente (que producirÃa cambios fonéticos bruscos que sonarÃan muy poco natural); 2) aplicar el clasificador G2P para el idioma principal de la frase suponiendo que es
Proceedings of the Fifth Workshop on NLP for Similar Languages, Varieties and Dialects (VarDial 2018)
Peer reviewe
Automatic Speech Recognition without Transcribed Speech or Pronunciation Lexicons
Rapid deployment of automatic speech recognition (ASR) in new languages, with very limited data, is of great interest and importance for intelligence gathering, as well as for humanitarian assistance and disaster relief (HADR). Deploying ASR systems in these languages often relies on cross-lingual acoustic modeling followed by supervised adaptation and almost always assumes that either a pronunciation lexicon using the International Phonetic Alphabet (IPA), and/or some amount of transcribed speech exist in the new language of interest. For many languages, neither requirement is generally true -- only a limited amount of text and untranscribed audio is available. This work focuses specifically on scalable techniques for building ASR systems in most languages without any existing transcribed speech or pronunciation lexicons.
We first demonstrate how cross-lingual acoustic model transfer, when phonemic pronunciation lexicons do exist in a new language, can significantly reduce the need for target-language transcribed speech. We then explore three methods for handling languages without a pronunciation lexicon. First we examine the effectiveness of graphemic acoustic model transfer, which allows for pronunciation lexicons to be trivially constructed. We then present two methods for rapid construction of phonemic pronunciation lexicons based on submodular selection of a small set of words for manual annotation, or words from other languages for which we have IPA pronunciations. We also explore techniques for training sequence-to-sequence models with very small amounts of data by transferring models trained on other languages, and leveraging large unpaired text corpora in training. Finally, as an alternative to acoustic model transfer, we present a novel hybrid generative/discriminative semi-supervised training framework that merges recent progress in Energy Based Models (EBMs) as well as lattice-free maximum mutual information (LF-MMI) training, capable of making use of purely untranscribed audio.
Together, these techniques enabled ASR capabilities that supported triage of spoken communications in real-world HADR work-flows in many languages using fewer than 30 minutes of transcribed speech. These techniques were successfully applied in multiple NIST evaluations and were among the top-performing systems in each evaluation
EVALITA Evaluation of NLP and Speech Tools for Italian Proceedings of the Final Workshop
Editor of the proceedings of EVALITA 2016
Automatic speech recognition for European Portuguese
Dissertação de mestrado em Informatics EngineeringThe process of Automatic Speech Recognition (ASR) opens doors to a vast amount of possible
improvements in customer experience. The use of this type of technology has increased
significantly in recent years, this change being the result of the recent evolution in ASR
systems. The opportunities to use ASR are vast, covering several areas, such as medical,
industrial, business, among others. We must emphasize the use of these voice recognition
systems in telecommunications companies, namely, in the automation of consumer assistance
operators, allowing the service to be routed to specialized operators automatically through
the detection of matters to be dealt with through recognition of the spoken utterances. In
recent years, we have seen big technological breakthrough in ASR, achieving unprecedented
accuracy results that are comparable to humans. We are also seeing a move from what
is known as the Traditional approach of ASR systems, based on Hidden Markov Models
(HMM), to the newer End-to-End ASR systems that obtain benefits from the use of deep
neural networks (DNNs), large amounts of data and process parallelization.
The literature review showed us that the focus of this previous work was almost exclusively
for the English and Chinese languages, with little effort being made in the development of
other languages, as it is the case with Portuguese. In the research carried out, we did not
find a model for the European Portuguese (EP) dialect that is freely available for general
use. Focused on this problem, this work describes the development of a End-to-End ASR
system for EP. To achieve this goal, a set of procedures was followed that allowed us to
present the concepts, characteristics and all the steps inherent to the construction of these
types of systems. Furthermore, since the transcribed speech needed to accomplish our goal
is very limited for EP, we also describe the process of collecting and formatting data from a
variety of different sources, most of them freely available to the public. To further try and
improve our results, a variety of different data augmentation techniques were implemented
and tested. The obtained models are based on a PyTorch implementation of the Deep Speech
2 model.
Our best model achieved an Word Error Rate (WER) of 40.5%, in our main test corpus,
achieving slightly better results to those obtained by commercial systems on the same data.
Around 150 hours of transcribed EP was collected, so that it can be used to train other ASR
systems or models in different areas of investigation. We gathered a series of interesting
results on the use of different batch size values as well as the improvements provided by
the use of a large variety of data augmentation techniques. Nevertheless, the ASR theme is vast and there is still a variety of different methods and interesting concepts that we could
research in order to seek an improvement of the achieved results.O processo de Reconhecimento Automático de Fala (ASR) abre portas para uma grande
quantidade de melhorias possÃveis na experiência do cliente. A utilização deste tipo de
tecnologia tem aumentado significativamente nos últimos anos, sendo esta alteração o
resultado da evolução recente dos sistemas ASR. As oportunidades de utilização do ASR
são vastas, abrangendo diversas áreas, como médica, industrial, empresarial, entre outras.
É
de realçar que a utilização destes sistemas de reconhecimento de voz nas empresas de
telecomunicações, nomeadamente, na automatização dos operadores de atendimento ao
consumidor, permite o encaminhamento automático do serviço para operadores especializados
através da detecção de assuntos a tratar através do reconhecimento de voz. Nos
últimos anos, vimos um grande avanço tecnológico em ASR, alcançando resultados de
precisão sem precedentes que são comparáveis aos atingidos por humanos. Por outro lado,
vemos também uma mudança do que é conhecido como a abordagem tradicional, baseados
em modelos de Markov ocultos (HMM), para sistemas mais recentes ponta-a-ponta que
reúnem benefÃcios do uso de redes neurais profundas, em grandes quantidades de dados e
da paralelização de processos.
A revisão da literatura efetuada mostra que o foco do trabalho anterior foi quase que
exclusivamente para as lÃnguas inglesa e chinesa, com pouco esforço no desenvolvimento de
outras lÃnguas, como é o caso do português. Na pesquisa realizada, não encontramos um
modelo para o dialeto português europeu (PE) que se encontre disponÃvel gratuitamente para
uso geral. Focado neste problema, este trabalho descreve o desenvolvimento de um sistema
de ASR ponta-a-ponta para o PE. Para atingir este objetivo, foi seguido um conjunto de
procedimentos que nos permitiram apresentar os conceitos, caracterÃsticas e todas as etapas
inerentes à construção destes tipos de sistemas. Além disso, como a fala transcrita necessária
para cumprir o nosso objetivo é muito limitada para PE, também descrevemos o processo
de coleta e formatação desses dados em uma variedade de fontes diferentes, a maioria
delas disponÃveis gratuitamente ao público. Para tentar melhorar os nossos resultados, uma
variedade de diferentes técnicas de aumento de dados foram implementadas e testadas. Os
modelos obtidos são baseados numa implementação PyTorch do modelo Deep Speech 2.
O nosso melhor modelo obteve uma taxa de erro de palavras (WER) de 40,5% no nosso
corpus de teste principal, obtendo resultados ligeiramente melhores do que aqueles obtidos
por sistemas comerciais sobre os mesmos dados. Foram coletadas cerca de 150 horas de PE
transcritas, que podem ser utilizadas para treinar outros sistemas ou modelos de ASR em
diferentes áreas de investigação. Reunimos uma série de resultados interessantes sobre o uso de diferentes valores de batch size, bem como as melhorias fornecidas pelo uso de uma
grande variedade de técnicas de data augmentation. O tema ASR é vasto e ainda existe uma
grande variedade de métodos diferentes e conceitos interessantes que podemos investigar
para melhorar os resultados alcançados
Modelo acústico de lÃngua inglesa falada por portugueses
Trabalho de projecto de mestrado em Engenharia Informática, apresentado à Universidade de Lisboa, através da Faculdade de Ciências, 2007No contexto do reconhecimento robusto de fala baseado em modelos de Markov não observáveis (do inglês Hidden Markov Models - HMMs) este trabalho descreve algumas metodologias e experiências tendo em vista o reconhecimento de oradores estrangeiros. Quando falamos em Reconhecimento de Fala falamos obrigatoriamente em Modelos Acústicos também. Os modelos acústicos reflectem a maneira como pronunciamos/articulamos uma lÃngua, modelando a sequência de sons emitidos aquando da fala. Essa modelação assenta em segmentos de fala mÃnimos, os fones, para os quais existe um conjunto de sÃmbolos/alfabetos que representam a sua pronunciação. É no campo da fonética articulatória e acústica que se estuda a representação desses sÃmbolos, sua articulação e pronunciação. Conseguimos descrever palavras analisando as unidades que as constituem, os fones. Um reconhecedor de fala interpreta o sinal de entrada, a fala, como uma sequência de sÃmbolos codificados. Para isso, o sinal é fragmentado em observações de sensivelmente 10 milissegundos cada, reduzindo assim o factor de análise ao intervalo de tempo onde as caracterÃsticas de um segmento de som não variam. Os modelos acústicos dão-nos uma noção sobre a probabilidade de uma determinada observação corresponder a uma determinada entidade. É, portanto, através de modelos sobre as entidades do vocabulário a reconhecer que é possÃvel voltar a juntar esses fragmentos de som. Os modelos desenvolvidos neste trabalho são baseados em HMMs. Chamam-se assim por se fundamentarem nas cadeias de Markov (1856 - 1922): sequências de estados onde cada estado é condicionado pelo seu anterior. Localizando esta abordagem no nosso domÃnio, há que construir um conjunto de modelos - um para cada classe de sons a reconhecer - que serão treinados por dados de treino. Os dados são ficheiros áudio e respectivas transcrições (ao nÃvel da palavra) de modo a que seja possÃvel decompor essa transcrição em fones e alinhá-la a cada som do ficheiro áudio correspondente. Usando um modelo de estados, onde cada estado representa uma observação ou segmento de fala descrita, os dados vão-se reagrupando de maneira a criar modelos estatÃsticos, cada vez mais fidedignos, que consistam em representações das entidades da fala de uma determinada lÃngua. O reconhecimento por parte de oradores estrangeiros com pronuncias diferentes da lÃngua para qual o reconhecedor foi concebido, pode ser um grande problema para precisão de um reconhecedor. Esta variação pode ser ainda mais problemática que a variação dialectal de uma determinada lÃngua, isto porque depende do conhecimento que cada orador têm relativamente à lÃngua estrangeira. Usando para uma pequena quantidade áudio de oradores estrangeiros para o treino de novos modelos acústicos, foram efectuadas diversas experiências usando corpora de Portugueses a falar Inglês, de Português Europeu e de Inglês. Inicialmente foi explorado o comportamento, separadamente, dos modelos de Ingleses nativos e Portugueses nativos, quando testados com os corpora de teste (teste com nativos e teste com não nativos). De seguida foi treinado um outro modelo usando em simultâneo como corpus de treino, o áudio de Portugueses a falar Inglês e o de Ingleses nativos. Uma outra experiência levada a cabo teve em conta o uso de técnicas de adaptação, tal como a técnica MLLR, do inglês Maximum Likelihood Linear Regression. Esta última permite a adaptação de uma determinada caracterÃstica do orador, neste caso o sotaque estrangeiro, a um determinado modelo inicial. Com uma pequena quantidade de dados representando a caracterÃstica que se quer modelar, esta técnica calcula um conjunto de transformações que serão aplicadas ao modelo que se quer adaptar. Foi também explorado o campo da modelação fonética onde estudou-se como é que o orador estrangeiro pronuncia a lÃngua estrangeira, neste caso um Português a falar Inglês. Este estudo foi feito com a ajuda de um linguista, o qual definiu um conjunto de fones, resultado do mapeamento do inventário de fones do Inglês para o Português, que representam o Inglês falado por Portugueses de um determinado grupo de prestÃgio. Dada a grande variabilidade de pronúncias teve de se definir este grupo tendo em conta o nÃvel de literacia dos oradores. Este estudo foi posteriormente usado na criação de um novo modelo treinado com os corpora de Portugueses a falar Inglês e de Portugueses nativos. Desta forma representamos um reconhecedor de Português nativo onde o reconhecimento de termos ingleses é possÃvel. Tendo em conta a temática do reconhecimento de fala este projecto focou também a recolha de corpora para português europeu e a compilação de um léxico de Português europeu. Na área de aquisição de corpora o autor esteve envolvido na extracção e preparação dos dados de fala telefónica, para posterior treino de novos modelos acústicos de português europeu. Para compilação do léxico de português europeu usou-se um método incremental semi-automático. Este método consistiu em gerar automaticamente a pronunciação de grupos de 10 mil palavras, sendo cada grupo revisto e corrigido por um linguista. Cada grupo de palavras revistas era posteriormente usado para melhorar as regras de geração automática de pronunciações.The tremendous growth of technology has increased the need of integration of spoken language technologies into our daily applications, providing an easy and natural access to information. These applications are of different nature with different user’s interfaces. Besides voice enabled Internet portals or tourist information systems, automatic speech recognition systems can be used in home user’s experiences where TV and other appliances could be voice controlled, discarding keyboards or mouse interfaces, or in mobile phones and palm-sized computers for a hands-free and eyes-free manipulation. The development of these systems causes several known difficulties. One of them concerns the recognizer accuracy on dealing with non-native speakers with different phonetic pronunciations of a given language. The non-native accent can be more problematic than a dialect variation on the language. This mismatch depends on the individual speaking proficiency and speaker’s mother tongue. Consequently, when the speaker’s native language is not the same as the one that was used to train the recognizer, there is a considerable loss in recognition performance. In this thesis, we examine the problem of non-native speech in a speaker-independent and large-vocabulary recognizer in which a small amount of non-native data was used for training. Several experiments were performed using Hidden Markov models, trained with speech corpora containing European Portuguese native speakers, English native speakers and English spoken by European Portuguese native speakers. Initially it was explored the behaviour of an English native model and non-native English speakers’ model. Then using different corpus weights for the English native speakers and English spoken by Portuguese speakers it was trained a model as a pool of accents. Through adaptation techniques it was used the Maximum Likelihood Linear Regression method. It was also explored how European Portuguese speakers pronounce English language studying the correspondences between the phone sets of the foreign and target languages. The result was a new phone set, consequence of the mapping between the English and the Portuguese phone sets. Then a new model was trained with English Spoken by Portuguese speakers’ data and Portuguese native data. Concerning the speech recognition subject this work has other two purposes: collecting Portuguese corpora and supporting the compilation of a Portuguese lexicon, adopting some methods and algorithms to generate automatic phonetic pronunciations. The collected corpora was processed in order to train acoustic models to be used in the Exchange 2007 domain, namely in Outlook Voice Access
- …