16 research outputs found

    Sistema de conversión texto-voz en lengua gallega basado en la selección combinada de unidades acústicas y prosódicas

    Get PDF
    En esta comunicación se describe un sistema de conversión texto-voz en lengua gallega basado en las denominadas “técnicas de síntesis basadas en corpus”. A diferencia de los tradicionales sintetizadores de voz por concatenación, que normalmente utilizan un conjunto de unidades de síntesis reducido, los sistemas de síntesis basados en corpus consideran múltiples realizaciones de cada unidad y, mediante técnicas de programación dinámica, seleccionan aquella secuencia de unidades que minimiza una función de coste. Por otro lado, tradicionalmente, la generación de la información prosódica se realiza en una etapa previa a la selección de unidades, lo que ocasiona que en muchas ocasiones sea necesario manipular en exceso las unidades seleccionadas con el fin de ajustarlas a la entonación, duración y energía deseadas. En este artículo también se propone la selección conjunta del contorno entonativo y de las unidades de síntesis, con objeto de minimizar la distorsión causada por las modificaciones prosódicas.In this contribution we describe a corpus-based text-to-speech system for Galician. While traditional concatenative speech-synthesis systems generally employ a quite reduced set of speech units, corpus-based synthesis systems consider many instances of every unit and, by means of dynamic programming techniques, select the sequence of units that minimizes a cost function. With reference to prosody, traditionally, the generation of the prosodic information is carried out in a previous stage to unit selection. This fact implies that, in many cases, the selected speech units must be manipulated in excess in order to fit the desired prosody. In this paper we also propose a method for combined selection of the intonation contour and the sequence of speech units in order to minimize the distortion due to prosodic modifications

    Search engine for multilingual audiovisual contents

    Get PDF
    This paper describes the BUCEADOR search engine, a web server that allows retrieving. multimedia documents (text, audio, video) in different languages. All the documents are translated into the user language and are presented either as text (for instance, subtitles in video documents) or dubbed audio. The user query consist in a sequence of keywords and can be typed or spoken. Multiple Spoken Language Technologies (SLT) servers have been implemented, such as speech recognition, speech machine translation and text-to-speech conversion. The platform can be used in the four Spanish official (Spanish, Basque, Catalan and Galician) and in English.Peer ReviewedPostprint (published version

    BUCEADOR, a multi-language search engine for digital libraries

    Get PDF
    This paper presents a web-based multimedia search engine built within the Buceador (www.buceador.org) research project. A proof-of-concept tool has been implemented which is able to retrieve information from a digital library made of multimedia documents in the 4 official languages in Spain (Spanish, Basque, Catalan and Galician). The retrieved documents are presented in the user language after translation and dubbing (the four previous languages + English). The paper presents the tool functionality, the architecture, the digital library and provide some information about the technology involved in the fields of automatic speech recognition, statistical machine translation, text-to-speech synthesis and information retrieval. Each technology has been adapted to the purposes of the presented tool as well as to interact with the rest of the technologies involved.Peer ReviewedPostprint (published version

    Evaluación del modelado acústico y prosódico del sistema de conversión texto-voz Cotovía

    Get PDF
    La elevada calidad de los sistemas de conversión texto-voz basados en corpus los ha convertido en el método de síntesis sobre el que más se investiga en la actualidad. En la literatura existen múltiples trabajos sobre los aspectos clave de esta tecnología, es decir, el diseño de las funciones de coste, la caracterización de los segmentos de voz y la estimación de la prosodia, pero hay muy poca claridad sobre las formas más adecuadas para evaluar la calidad de la voz sintética obtenida. En este trabajo se presentan las pruebas de evaluación, tanto subjetivas como objetivas, que se realizaron sobre nuestro conversor de voz Cotovía.Unit selection speech synthesis has become the most researched area in speech technology, as a result of its high-quality performance. There are many approaches about the key points in this technology, that is, the cost functions design, speech parameterisation and prosody estimation, but there is very little research about suitable methods for evaluating the improvements in synthetic speech. In this work the subjective and objective tests performed on our TTS system Cotovía are presented.Este trabajo ha sido financiado parcialmente por el Ministerio de Ciencia y Tecnología, fondos FEDER y la Xunta de Galicia, dentro de los proyectos TIC2002-02208, PGIDT01PXI32205PN y PGIDT02PXI32201PR

    Proposición de un marco adecuado para el estudio de contornos de F0 para la síntesis de voz

    No full text
    La entonación humana, concretada en la curva de frecuencia fundamental (f0), es un complejo proceso en el que pueden observarse una serie de fenómenos (como la declinación o el acento de entonación) cuyo alcance se extiende sobre unidades de distinta longitud. Para un estudio adecuado de estos fenómenos en esta contribución se propone un modelo de descripción jerárquica que discretiza el contorno de f0 en una serie de puntos que se asignan a los distintos niveles implicados (nivel de grupo fónico, de grupo tónico y segmental). Esta descripción posibilita el alineamiento de los contornos, de forma que se pueda realizar fácilmente un estudio comparativo y se permita observar comportamientos y tendencias comunes susceptibles de ser aplicadas a un sintetizador de voz. Aunque la metodología aquí propuesta estaba inicialmente dirigida al estudio de la lengua gallega, resulta también adecuada para otras lenguas afines

    Proposición de un marco adecuado para el estudio de contornos de F0 para síntesis de voz

    No full text
    La entonación humana, concretada en la curva de frecuencia fundamental (f0), es un complejo proceso en el que pueden observarse una serie de fenómenos (como la declinación o el acento de entonación) cuyo alcance se extiende sobre unidades de distinta longitud. Para un estudio adecuado de estos fenómenos en esta contribución se propone un modelo de descripción jerárquica que discretiza el contorno de f0 en una serie de puntos que se asignan a los distintos niveles implicados (nivel de grupo fónico, de grupo tónico y segmental). Esta descripción posibilita el alineamiento de los contornos, de forma que se pueda realizar fácilmente un estudio comparativo y se permita observar comportamientos y tendencias comunes susceptibles de ser aplicadas a un sintetizador de voz. Aunque la metodología aquí propuesta estaba inicialmente dirigida al estudio de la lengua gallega, resulta también adecuada para otras lenguas afines

    El sistema HiFST aplicado a la tarea de castellano-inglés del Europarl

    Get PDF
    En este artículo presentamos resultados para la tarea de traducción castellano-inglés de EuroParl. Utilizamos HiFST, un novedoso traductor jerárquico que construye las hipótesis como transductores en vez de listas.In this paper we present results for the Europarl Spanish-to-English translation task. We use HiFST, a novel hierarchical phrase-based translation system implemented with finite-state technology that creates target lattices rather than k-best lists.This work was supported in part by the GALE program of the Defense Advanced Research Projects Agency, Contract No. HR0011-06-C-0022. G. Iglesias supported by Spanish Government research grant BES-2007-15956 (project TEC2006-13694-C03-03)

    Modelado lingüístico y acústico para un sistema de conversión de texto a habla

    No full text
    En esta comunicación se presenta un sistema basado en la concatenación de dífonos que utiliza nuevos algoritmos de procesado lingüístico y acústico con objeto de mejorar la inteligibilidad y naturalidad de sistemas precedentes. A partir del texto de entrada, un módulo lingüístico-prosódico obtiene la transcripción fonética y un conjunto de marcas prosódicas que reflejan su estructura sintáctica y rítmica. El procesado acústico está basado en la concatenación de dífonos, utilizando para ello un codificador armónico multibanda que permite las modificaciones prosódicas de manera sencilla y eficiente, a la vez que proporciona una señal sintética de buena calidad
    corecore