Search CORE

16 research outputs found

Sistema de conversión texto-voz en lengua gallega basado en la selección combinada de unidades acústicas y prosódicas

Author: Campillo Díaz Francisco
Fernández Rei Elisa
Méndez Pazó Francisco
Rodríguez Banga Eduardo
Publication venue: Sociedad Española para el Procesamiento del Lenguaje Natural
Publication date: 01/01/2002
Field of study

En esta comunicación se describe un sistema de conversión texto-voz en lengua gallega basado en las denominadas “técnicas de síntesis basadas en corpus”. A diferencia de los tradicionales sintetizadores de voz por concatenación, que normalmente utilizan un conjunto de unidades de síntesis reducido, los sistemas de síntesis basados en corpus consideran múltiples realizaciones de cada unidad y, mediante técnicas de programación dinámica, seleccionan aquella secuencia de unidades que minimiza una función de coste. Por otro lado, tradicionalmente, la generación de la información prosódica se realiza en una etapa previa a la selección de unidades, lo que ocasiona que en muchas ocasiones sea necesario manipular en exceso las unidades seleccionadas con el fin de ajustarlas a la entonación, duración y energía deseadas. En este artículo también se propone la selección conjunta del contorno entonativo y de las unidades de síntesis, con objeto de minimizar la distorsión causada por las modificaciones prosódicas.In this contribution we describe a corpus-based text-to-speech system for Galician. While traditional concatenative speech-synthesis systems generally employ a quite reduced set of speech units, corpus-based synthesis systems consider many instances of every unit and, by means of dynamic programming techniques, select the sequence of units that minimizes a cost function. With reference to prosody, traditionally, the generation of the prosodic information is carried out in a previous stage to unit selection. This fact implies that, in many cases, the selected speech units must be manipulated in excess in order to fit the desired prosody. In this paper we also propose a method for combined selection of the intonation contour and the sequence of speech units in order to minimize the distortion due to prosodic modifications

Repositorio Institucional de la Universidad de Alicante

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

Secretaría de Estado de Cultura

Search engine for multilingual audiovisual contents

Author: Bonafonte Cávez Antonio
Cardenal Antonio
Moreno Bilbao M. Asunción
Navas Eva
Pérez José David
Rodríguez Banga Eduardo
Rodríguez Fonollosa José Adrián
Ruiz Costa-Jussà Marta
Publication venue
Publication date: 01/01/2012
Field of study

This paper describes the BUCEADOR search engine, a web server that allows retrieving. multimedia documents (text, audio, video) in different languages. All the documents are translated into the user language and are presented either as text (for instance, subtitles in video documents) or dubbed audio. The user query consist in a sequence of keywords and can be typed or spoken. Multiple Spoken Language Technologies (SLT) servers have been implemented, such as speech recognition, speech machine translation and text-to-speech conversion. The platform can be used in the four Spanish official (Spanish, Basque, Catalan and Galician) and in English.Peer ReviewedPostprint (published version

UPCommons. Portal del coneixement obert de la UPC

BUCEADOR, a multi-language search engine for digital libraries

Author: Adell Mercado Jordi
Bonafonte Cávez Antonio
Cardenal Antonio
Moreno Bilbao M. Asunción
Navas Eva
Rodríguez Banga Eduardo
Rodríguez Fonollosa José Adrián
Ruiz Costa-Jussà Marta
Publication venue
Publication date: 01/01/2012
Field of study

This paper presents a web-based multimedia search engine built within the Buceador (www.buceador.org) research project. A proof-of-concept tool has been implemented which is able to retrieve information from a digital library made of multimedia documents in the 4 official languages in Spain (Spanish, Basque, Catalan and Galician). The retrieved documents are presented in the user language after translation and dubbing (the four previous languages + English). The paper presents the tool functionality, the architecture, the digital library and provide some information about the technology involved in the fields of automatic speech recognition, statistical machine translation, text-to-speech synthesis and information retrieval. Each technology has been adapted to the purposes of the presented tool as well as to interact with the rest of the technologies involved.Peer ReviewedPostprint (published version

UPCommons. Portal del coneixement obert de la UPC

Corilga. Corpus Oral Informatizado da Lingua Galega

Author: Amarelo Montero Daniel
Cardenal López Antonio
Dopazo Entenza José Manuel
Fernández Rei Elisa
García Mateo Carmen
Regueira Fernández Xosé Luís
Rial Montes Tamara
Rodríguez Banga Eduardo
Rodríguez Rodríguez Reyes
Publication venue
Publication date: 01/01/2018
Field of study

Póster presentado no XIII Congreso Internacional de Lingüística Xeral (CILX 2018), celebrado en Vigo do 13 ao 15 de xuño de 2018

Repositorio Institucional da Universidade de Santiago de Compostela

Evaluación del modelado acústico y prosódico del sistema de conversión texto-voz Cotovía

Author: Campillo Díaz Francisco
Rodríguez Banga Eduardo
Publication venue: Sociedad Española para el Procesamiento del Lenguaje Natural
Publication date: 01/01/2005
Field of study

La elevada calidad de los sistemas de conversión texto-voz basados en corpus los ha convertido en el método de síntesis sobre el que más se investiga en la actualidad. En la literatura existen múltiples trabajos sobre los aspectos clave de esta tecnología, es decir, el diseño de las funciones de coste, la caracterización de los segmentos de voz y la estimación de la prosodia, pero hay muy poca claridad sobre las formas más adecuadas para evaluar la calidad de la voz sintética obtenida. En este trabajo se presentan las pruebas de evaluación, tanto subjetivas como objetivas, que se realizaron sobre nuestro conversor de voz Cotovía.Unit selection speech synthesis has become the most researched area in speech technology, as a result of its high-quality performance. There are many approaches about the key points in this technology, that is, the cost functions design, speech parameterisation and prosody estimation, but there is very little research about suitable methods for evaluating the improvements in synthetic speech. In this work the subjective and objective tests performed on our TTS system Cotovía are presented.Este trabajo ha sido financiado parcialmente por el Ministerio de Ciencia y Tecnología, fondos FEDER y la Xunta de Galicia, dentro de los proyectos TIC2002-02208, PGIDT01PXI32205PN y PGIDT02PXI32201PR

Repositorio Institucional de la Universidad de Alicante

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

Secretaría de Estado de Cultura

Proposición de un marco adecuado para el estudio de contornos de F0 para la síntesis de voz

Author: Fernández Salgado Xavier
Rodríguez Banga Eduardo
Publication venue: Sociedad Española para el Procesamiento del Lenguaje Natural
Publication date: 01/01/2000
Field of study

La entonación humana, concretada en la curva de frecuencia fundamental (f0), es un complejo proceso en el que pueden observarse una serie de fenómenos (como la declinación o el acento de entonación) cuyo alcance se extiende sobre unidades de distinta longitud. Para un estudio adecuado de estos fenómenos en esta contribución se propone un modelo de descripción jerárquica que discretiza el contorno de f0 en una serie de puntos que se asignan a los distintos niveles implicados (nivel de grupo fónico, de grupo tónico y segmental). Esta descripción posibilita el alineamiento de los contornos, de forma que se pueda realizar fácilmente un estudio comparativo y se permita observar comportamientos y tendencias comunes susceptibles de ser aplicadas a un sintetizador de voz. Aunque la metodología aquí propuesta estaba inicialmente dirigida al estudio de la lengua gallega, resulta también adecuada para otras lenguas afines

Secretaría de Estado de Cultura

Proposición de un marco adecuado para el estudio de contornos de F0 para síntesis de voz

Author: Fernández Salgado Xavier
Rodríguez Banga Eduardo
Publication venue: Sociedad Española para el Procesamiento del Lenguaje Natural
Publication date: 01/01/2000
Field of study

Repositorio Institucional de la Universidad de Alicante

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

El sistema HiFST aplicado a la tarea de castellano-inglés del Europarl

Author: Byrne William
Gispert Ramis Adrià de
Iglesias Iglesias Gonzalo
Rodríguez Banga Eduardo
Publication venue: Sociedad Española para el Procesamiento del Lenguaje Natural
Publication date: 01/01/2009
Field of study

En este artículo presentamos resultados para la tarea de traducción castellano-inglés de EuroParl. Utilizamos HiFST, un novedoso traductor jerárquico que construye las hipótesis como transductores en vez de listas.In this paper we present results for the Europarl Spanish-to-English translation task. We use HiFST, a novel hierarchical phrase-based translation system implemented with finite-state technology that creates target lattices rather than k-best lists.This work was supported in part by the GALE program of the Defense Advanced Research Projects Agency, Contract No. HR0011-06-C-0022. G. Iglesias supported by Spanish Government research grant BES-2007-15956 (project TEC2006-13694-C03-03)

Repositorio Institucional de la Universidad de Alicante

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

Modelado lingüístico y acústico para un sistema de conversión de texto a habla

Author: García Mateo Carmen
Hernández Gómez Luis
López Gonzalo Eduardo
Rodríguez Banga Eduardo
Publication venue: Sociedad Española para el Procesamiento del Lenguaje Natural
Publication date: 01/01/1994
Field of study

En esta comunicación se presenta un sistema basado en la concatenación de dífonos que utiliza nuevos algoritmos de procesado lingüístico y acústico con objeto de mejorar la inteligibilidad y naturalidad de sistemas precedentes. A partir del texto de entrada, un módulo lingüístico-prosódico obtiene la transcripción fonética y un conjunto de marcas prosódicas que reflejan su estructura sintáctica y rítmica. El procesado acústico está basado en la concatenación de dífonos, utilizando para ello un codificador armónico multibanda que permite las modificaciones prosódicas de manera sencilla y eficiente, a la vez que proporciona una señal sintética de buena calidad

Repositorio Institucional de la Universidad de Alicante

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

Modelado lingüistico y acústico para un sistema de conversión de texto a habla

Author: García Mateo Carmen
Hernández Gómez Luis Alfonso
López Gonzalo
Rodríguez Banga Eduardo
Publication venue: Sociedad Española para el Procesamiento del Lenguaje Natural
Publication date: 01/01/1994
Field of study

Secretaría de Estado de Cultura