16 research outputs found
Sistema de conversión texto-voz en lengua gallega basado en la selección combinada de unidades acústicas y prosódicas
En esta comunicación se describe un sistema de conversión texto-voz en lengua
gallega basado en las denominadas “técnicas de síntesis basadas en corpus”. A diferencia de los
tradicionales sintetizadores de voz por concatenación, que normalmente utilizan un conjunto de
unidades de síntesis reducido, los sistemas de síntesis basados en corpus consideran múltiples
realizaciones de cada unidad y, mediante técnicas de programación dinámica, seleccionan
aquella secuencia de unidades que minimiza una función de coste. Por otro lado,
tradicionalmente, la generación de la información prosódica se realiza en una etapa previa a la
selección de unidades, lo que ocasiona que en muchas ocasiones sea necesario manipular en
exceso las unidades seleccionadas con el fin de ajustarlas a la entonación, duración y energía
deseadas. En este artículo también se propone la selección conjunta del contorno entonativo y
de las unidades de síntesis, con objeto de minimizar la distorsión causada por las modificaciones
prosódicas.In this contribution we describe a corpus-based text-to-speech system for Galician.
While traditional concatenative speech-synthesis systems generally employ a quite reduced set
of speech units, corpus-based synthesis systems consider many instances of every unit and, by
means of dynamic programming techniques, select the sequence of units that minimizes a cost
function. With reference to prosody, traditionally, the generation of the prosodic information is
carried out in a previous stage to unit selection. This fact implies that, in many cases, the
selected speech units must be manipulated in excess in order to fit the desired prosody. In this
paper we also propose a method for combined selection of the intonation contour and the
sequence of speech units in order to minimize the distortion due to prosodic modifications
Search engine for multilingual audiovisual contents
This paper describes the BUCEADOR search engine, a web
server that allows retrieving. multimedia documents (text, audio, video)
in different languages. All the documents are translated into the user
language and are presented either as text (for instance, subtitles in video documents) or dubbed audio. The user query consist in a sequence of keywords and can be typed or spoken. Multiple Spoken Language Technologies (SLT) servers have been implemented, such as speech recognition, speech machine translation and text-to-speech conversion. The platform can be used in the four Spanish official (Spanish, Basque, Catalan and Galician) and in English.Peer ReviewedPostprint (published version
BUCEADOR, a multi-language search engine for digital libraries
This paper presents a web-based multimedia search engine built within the Buceador (www.buceador.org) research project. A proof-of-concept tool has been implemented which is able to retrieve information from a digital library made of multimedia documents in the 4 official languages in Spain (Spanish, Basque, Catalan and Galician). The retrieved documents are presented in the user language after translation and dubbing (the four previous languages + English). The paper presents the tool functionality, the architecture, the digital library and provide some information about the technology involved in the fields of automatic speech recognition, statistical machine translation, text-to-speech synthesis and information retrieval. Each technology has been adapted to the purposes of the presented tool as well as to interact with the rest of the technologies involved.Peer ReviewedPostprint (published version
Corilga. Corpus Oral Informatizado da Lingua Galega
Póster presentado no XIII Congreso Internacional de Lingüística Xeral (CILX 2018), celebrado en Vigo do 13 ao 15 de xuño de 2018
Evaluación del modelado acústico y prosódico del sistema de conversión texto-voz Cotovía
La elevada calidad de los sistemas de conversión texto-voz basados en
corpus los ha convertido en el método de síntesis sobre el que más se investiga en
la actualidad. En la literatura existen múltiples trabajos sobre los aspectos clave de
esta tecnología, es decir, el diseño de las funciones de coste, la caracterización de los
segmentos de voz y la estimación de la prosodia, pero hay muy poca claridad sobre
las formas más adecuadas para evaluar la calidad de la voz sintética obtenida. En
este trabajo se presentan las pruebas de evaluación, tanto subjetivas como objetivas,
que se realizaron sobre nuestro conversor de voz Cotovía.Unit selection speech synthesis has become the most researched area
in speech technology, as a result of its high-quality performance. There are many
approaches about the key points in this technology, that is, the cost functions design,
speech parameterisation and prosody estimation, but there is very little research
about suitable methods for evaluating the improvements in synthetic speech. In this
work the subjective and objective tests performed on our TTS system Cotovía are
presented.Este trabajo ha sido financiado parcialmente
por el Ministerio de Ciencia y Tecnología, fondos FEDER y la Xunta de Galicia, dentro de los proyectos TIC2002-02208, PGIDT01PXI32205PN y PGIDT02PXI32201PR
Proposición de un marco adecuado para el estudio de contornos de F0 para la síntesis de voz
La entonación humana, concretada en la curva de frecuencia fundamental (f0), es un complejo proceso en el que pueden observarse una serie de fenómenos (como la declinación o el acento de entonación) cuyo alcance se extiende sobre unidades de distinta longitud. Para un estudio adecuado de estos fenómenos en esta contribución se propone un modelo de descripción jerárquica que discretiza el contorno de f0 en una serie de puntos que se asignan a los distintos niveles implicados (nivel de grupo fónico, de grupo tónico y segmental). Esta descripción posibilita el alineamiento de los contornos, de forma que se pueda realizar fácilmente un estudio comparativo y se permita observar comportamientos y tendencias comunes susceptibles de ser aplicadas a un sintetizador de voz. Aunque la metodología aquí propuesta estaba inicialmente dirigida al estudio de la lengua gallega, resulta también adecuada para otras lenguas afines
Proposición de un marco adecuado para el estudio de contornos de F0 para síntesis de voz
La entonación humana, concretada en la curva de frecuencia fundamental (f0), es un complejo proceso en el que pueden observarse una serie de fenómenos (como la declinación o el acento de entonación) cuyo alcance se extiende sobre unidades de distinta longitud. Para un estudio adecuado de estos fenómenos en esta contribución se propone un modelo de descripción jerárquica que discretiza el contorno de f0 en una serie de puntos que se asignan a los distintos niveles implicados (nivel de grupo fónico, de grupo tónico y segmental). Esta descripción posibilita el alineamiento de los contornos, de forma que se pueda realizar fácilmente un estudio comparativo y se permita observar comportamientos y tendencias comunes susceptibles de ser aplicadas a un sintetizador de voz. Aunque la metodología aquí propuesta estaba inicialmente dirigida al estudio de la lengua gallega, resulta también adecuada para otras lenguas afines
El sistema HiFST aplicado a la tarea de castellano-inglés del Europarl
En este artículo presentamos resultados para la tarea de traducción castellano-inglés de EuroParl. Utilizamos HiFST, un novedoso traductor jerárquico que construye las hipótesis como transductores en vez de listas.In this paper we present results for the Europarl Spanish-to-English translation task. We use HiFST, a novel hierarchical phrase-based translation system implemented with finite-state technology that creates target lattices rather than k-best lists.This work was supported in part by the GALE program of the Defense Advanced Research Projects Agency, Contract No. HR0011-06-C-0022. G. Iglesias supported by Spanish Government research grant BES-2007-15956 (project TEC2006-13694-C03-03)
Modelado lingüístico y acústico para un sistema de conversión de texto a habla
En esta comunicación se presenta un sistema basado en la concatenación de dífonos que utiliza nuevos algoritmos de procesado lingüístico y acústico con objeto de mejorar la inteligibilidad y naturalidad de sistemas precedentes. A partir del texto de entrada, un módulo lingüístico-prosódico obtiene la transcripción fonética y un conjunto de marcas prosódicas que reflejan su estructura sintáctica y rítmica. El procesado acústico está basado en la concatenación de dífonos, utilizando para ello un codificador armónico multibanda que permite las modificaciones prosódicas de manera sencilla y eficiente, a la vez que proporciona una señal sintética de buena calidad