45 research outputs found

    Sintetizador paramétrico multidispositivo de lengua de signos española

    Full text link
    Tesis doctoral inédita. Universidad Autónoma de Madrid, Escuela Politécnica Superior, septiembre de 200

    Estrategias para la mejora de la naturalidad y la incorporación de variedad emocional a la conversión texto a voz en castellano

    Full text link
    En esta Tesis se abordan tres subproblemas relacionados con la variedad y la naturalidad en la conversión texto habla en castellano: el procesado lingüístico orientado a prosodia, el modelado de la frecuencia fundamental en un dominio restringido y el análisis, modelado y conversión texto a voz con emociones. El capítulo del estado de la cuestión recoge con detalle los principales progresos en cada módulo de un conversor. El primer apartado destacable está dedicado al análisis gramatical y sintáctico, cubriendo las técnicas de normalización del texto, los corpora anotados, las bases de datos léxicas disponibles en castellano, las técnicas de desambiguación contextual y de análisis sintáctico y los sistemas disponibles en castellano. En cuanto al modelado prosódico, se tratan los modelos empleados tanto para la frecuencia fundamental como el ritmo, las duraciones y el pausado, las principales escuelas de análisis de la curva de frecuencia fundamental y las técnicas avanzadas de diseño de las bases de datos. En el apartado dedicado a la voz emotiva se describen y comentan los principales sistemas internacionales desarrollados y las bases de datos disponibles. Como en general la síntesis por formantes ha dominado este campo, se describe esta técnica, para finalizar con una revisión de las alternativas de evaluación empleadas en síntesis de voz con emociones. En el capítulo dedicado a las investigaciones en procesado lingüístico del texto se comienza describiendo en detalle los corpora empleado en la experimentación, tanto en normalización como en etiquetado. La técnica desarrollada en normalización emplea reglas de experto, con muy buenos resultados tanto en precisión como en cobertura, destacando el empleo de reglas de silabicación para la detección precisa de palabras extranjeras. Al afrontar la desambiguación gramatical, se comparan tres técnicas: reglas de experto, aprendizaje automático de reglas y modelado estocástico, obteniéndose los mejores resultados con esta última técnica, debido a su capacidad de procesar más adecuadamente textos fuera del dominio de entrenamiento. Finalmente se aborda el análisis sintáctico por medio de gramática de contexto libre como un proceso en dos fases:, una primera sintagmática y una segunda relacional básica, a fin de maximizar la cobertura del análisis. Para la resolución de las ambigüedades que nos permiten alcanzar gran cobertura se adapta el principio de mínima longitud de descripción con notables resultados. Las gramáticas desarrolladas se encuentran comentadas y ejemplificadas en un apéndice. Para el modelado de F0 en un dominio restringido se emplean perceptrones multicapa. En una primera etapa se describe y evalúa una nueva técnica de diseño de base de datos basada en un algoritmo voraz moderado mediante subobjetivos intermedios. La exhaustiva experimentación con los diversos parámetros de predicción, la configuración de la red y las subdivisiones de la base de datos ocupa la mayor parte del capítulo, destacando la aportación de un parámetro específico del dominio restringido (el número de la frase portadora del texto que sintetizar) junto a otros más clásicos (acentuación, tipo de grupo fónico y posición en el mismo). El capítulo dedicado a la voz emotiva comienza detallando el proceso de creación de una nueva voz castellana masculina en síntesis por formantes con modelo mejorado de fuente (reglas y metodología), evaluando las posibilidades de personalización de voz que ofrece. Para trabajar con voz con emociones se diseña, graba y etiqueta una base de datos de voz en la que un actor simula tristeza, alegría, sorpresa, enfado y también una voz neutra. Por medio de técnicas paramétricas (modelo de picos y valles en tono, y multiplicativo en las duraciones) se analiza prosódicamente la base de datos y se establece una primera caracterización de la voz en las distintas emociones. Empleando como base la voz personalizable se desarrolla el sistema completo de conversión texto a voz con emociones y se evalúa, destacando la rápida adaptación de los usuarios en cuanto a la identificación de la emoción expresada. Finalmente se experimenta con síntesis por concatenación y síntesis por copia, llegando a las siguientes conclusiones: la voz sorprendida se identifica prosódicamente, las características segmentales son las que caracterizan al enfado en frío; y, finalmente, la tristeza y la alegría son de naturaleza mixta

    Base de datos de difonos para la síntesis del habla del español peruano

    Get PDF
    La síntesis del habla como elemento de interacción hombre máquina, es un tema que hace que los investigadores continúen en el trabajo del perfeccionamiento de la emulación de la voz humana. Esta investigación comprende una de las fases del proceso de síntesis del habla, que es obtener una base de datos de difonos del español peruano, la misma que pueda servir para emular con cierto nivel de similitud una voz natural. Se presenta la técnica empleada para la obtención de los difonos y su almacenamiento respectivo. Luego, mediante un instrumento de concatenación de los mismos, se generan los audios con voz sintetizada. Para determinar el nivel de similitud de la voz sintetizada con la voz natural, se han realizado las pruebas de naturalidad e inteligibilidad.Tesi

    Síntesis de voz aplicada a la traducción voz a voz

    Get PDF
    In the field of speech technologies, text-to-speech conversion is the automatic generation of artificial voices that sound identical to a human voice when reading a text in loud speech. Inside a text-to-speech system, the prosody module produces the prosodic information that is necessary to generate a natural voice: intonational phrases, intonation of the sentence, duration and energy of phonemes, etc. The correct generation of this information directly impacts in the naturalness and expressiveness of the system. The main goals of this thesis is the development of new algorithms to train models for prosody generation that may be used in a text-to-speech system, and their use in the framework of speech-to-speech translation. In this thesis several alternatives were studied for intonation modeling. They combine the parameterization and the intonation model generation as a integrated process. Such approach was successfully judged both with objective and subjective evaluations. The influence of segmental and suprasegmental factors in duration modeling was also studied. Several algorithms were proposed with the results of these studies that may combine segmental and suprasegmental information, likewise other publications of this field. Finally, an analysis of various phrase break models was also performed, both with words and accent groups: classification trees (CART), language modeling (LM) and finite state transducers (FST). The use of the same data set in the experiments was useful to obtain relevant conclusions about the differences between these models. One of the main goals of this thesis was the improvement of naturalness, expressiveness and consistency with the style of the source speaker in text-to-speech systems. This may be done by using the prosody of the source speaker in the framework of speech-to-speech translation as an additional information source. Several algorithms were developed for prosody generation that may integrate such additional information for the prediction of intonation, phoneme duration and phrase breaks. In that direction several approaches were studied to transfer the intonation from one language to the other. The chosen approach was an automatic clustering algorithm that finds a certain number of tonal movements that are related between languages, without any limitation about their number. In this way, it is possible to use this coding for intonation modeling of the target language. Experimental results show an improvement, that is more relevant in close languages, such as Spanish and Catalan. Although no segmental duration transfer was performed between languages, in this thesis is proposed the transfer of rhythm from one language to the other. For that purpose a method that combines the rhythm transfer and audio synchronization was proposed. The synchronizations is included because of its importance for the speech-to-speech translation technology when video is also used. Lastly, in this thesis was also proposed a pause transfer technique in the framework of speech-to-speech translation, by means of alignment information. Studies in training data have shown the advantage of tuples for this task. In order to predict any pause that can not be transferred using the before mentioned method, conventional pause prediction algorithms are used (CART, CART+LM, FST), taking into account the already transferred pauses.Dentro de las tecnologías del habla, la conversión texto a voz consiste en la generación, por medios automáticos, de una voz artificial que genera idéntico sonido al producido por una persona al leer un texto en voz alta. En resumen, los conversores texto a voz son sistemas que permiten la conversión de textos en voz sintética. El proceso de conversión texto a voz se divide en tres módulos básicos: procesamiento del texto, generación de la prosodia y generación de la voz sintética. En el primero de los módulos se realiza la normalización del texto (para expandir abreviaciones, convertir números y fechas en texto, etc), y en ocasiones, luego también se hace un etiquetado morfosintáctico. A continuación se procede a la conversión de los grafemas en fonemas y a la silabificación para obtener la secuencia de fonemas necesaria para reproducir el texto. Posteriormente, el módulo de prosodia genera la información prosódica para poder producir la voz. Para ello se predicen las frases entonativas y la entonación de la oración, y también la duración y la energía de los fonemas, etc. La correcta generación de esta información repercutirá directamente en la naturalidad y expresividad del sistema. En el último modulo de generación de la voz es donde se produce la voz considerando la información provista por los módulos de procesamiento del texto y prosodia. El objetivo de la presente tesis es el desarrollo de nuevos algoritmos para el entrenamiento de modelos de generación de prosodia para la conversión texto a voz, y su aplicación en el marco de la traducción voz a voz. En el caso de los algoritmos de modelado de entonación, en la literatura se proponen generalmente enfoques que incluyen una estilización previa a la parametrización. En esta tesis se estudiaron alternativas para evitar esa estilización, combinando la parametrización y la generación del modelo de entonación en un todo integrado. Dicho enfoque ha resultado exitoso tanto en la evaluación objetiva (usando medidas como el error cuadrático medio o el coeficiente de correlación Pearson) como en la subjetiva. Los evaluadores han considerado que el enfoque propuesto tiene una calidad y una naturalidad superiores a otros algoritmos existentes en la literatura incluidos en las evaluaciones, alcanzando un MOS de naturalidad de 3,55 (4,63 para la voz original) y un MOS de calidad de 3,78 (4,78 para la voz original).Postprint (published version

    Variación sintáctica y discursiva en el español hablado en Santiago de Chile : análisis sociolingüístico del queísmo, el dequeísmo, el discurso referido y los marcadores de reformulación.

    Get PDF
    En esta investigación de tesis se analizaron las características de la variación lingüística correspondiente a los niveles sintáctico y discursivo de la lengua, en una muestra del español hablado en Santiago de Chile. Para ello se seleccionaron cuatro fenómenos, los que son el foco del análisis: dos del nivel sintáctico (el queísmo y el dequeísmo) y dos del nivel discursivo (el discurso referido y los marcadores de reformulación). El objetivo general del estudio consistió en determinar cuáles aspectos de la construcción sintáctica y la estructuración discursiva relativa a los fenómenos seleccionados en el español hablado en Santiago son describibles en términos de variación lingüística. Específicamente, se intentó demostrar si era posible correlacionar factores sociodemográficos del hablante como su sexo, su edad y su pertenencia a un determinado grupo socioeconómico con la frecuencia de uso de los fenómenos en estudio. Asimismo, se trató de establecer si existían condicionamientos lingüísticos que propiciaran dicho empleo.Departamento de Lengua Español

    Clasificación automática de vídeos

    Get PDF
    La actual tendencia a digitalizar los diferentes contenidos audiovisuales para su almacenamiento y posible explotación en medios informáticos y de telecomunicaciones está haciendo que distintas líneas de investigación se centren en procesar y analizar dichos documentos, así como buscar posibles soluciones a ciertos problemas y necesidades que traen consigo estos contenidos. La búsqueda de documentos en texto es una de las necesidades actuales mejor satisfechas mediante buscadores como Google o Yahoo en Internet, mas no es el caso de los contenidos audiovisuales. Poder consultar tanto por temática como por contenido en vídeos, audios y documentos de este estilo, abre un abanico de posibilidades bastante extenso. La clasificación automática de contenidos audiovisuales puede ayudar a digitalizar de forma más rápida los cientos de miles de contenidos de este tipo de años atrás, consiguiendo así un ahorro de recursos y de tiempo. Puede permitir detectar vídeos con contenidos violentos, pornográficos u otros que deban ser tratados de distinta manera por ciertos usuarios. El presente estudio pretende analizar las actuales técnicas de clasificación automática de vídeos, que distingue dos fases bien definidas, el reconocimiento automático del habla y la clasificación automática de texto. El reconocimiento automático del habla permite realizar la transcripción a texto del contenido audiovisual para posteriormente ser clasificado como un documento de texto. Las actuales líneas de investigación en clasificación automática de textos están bastante avanzadas y es por ello que el proyecto pretende seguir esta línea, convirtiendo los documentos audiovisuales en documentos de texto para, posteriormente ser procesados con técnicas de procesamiento del lenguaje natural y métodos de clasificación automática. En definitiva, la clasificación y búsqueda de documentos audiovisuales es algo necesario en la actualidad, y aunque de momento no sea una tarea prioritaria, poco a poco debe ganar posiciones, ya que, la sociedad y en concreto el mundo que rodea Internet, requiere de documentos como vídeos y audios donde los usuarios puedan realizar consultas sobre dichos contenidos. El proyecto que se presenta a continuación ha realizado un estudio avanzado sobre la clasificación automática de vídeos obteniendo unos resultados aceptables en un caso práctico realizado, con una precisión superior al 40% y una cobertura similar. Permite hacerse una idea de la viabilidad de estos sistemas y ofrece un estudio detallado de las actuales técnicas y líneas de investigación.Ingeniería Técnica en Informática de Gestió

    Diseño e implementación de manos robóticas para la generación de movimientos del alfabeto dactilológico.

    Get PDF
    El presente trabajo describe el diseño e implementación de un prototipo de manos robóticas para la generación de movimientos del alfabeto dactilológico del diccionario oficial de lengua de señas ecuatoriano, que facilitarán el proceso de enseñanza/aprendizaje de personas con discapacidad auditiva con el fin de mejorar el sistema de educación que se imparte a dicha población con métodos tradicionales. El diseño parte del estudio de las medidas antropométricas de la mano humana, sus movimientos y articulaciones, para en una etapa posterior haciendo uso del software SOLIDWORKS originar un diseño inédito de piezas y ensamble que proporcionen un modelo de mano robótica para mecanizarlo haciendo uso de la tecnología de impresión 3D. Se realizó el análisis cinemático directo empleando el algoritmo de Denavit-Hartenberg y el cinemático inverso mediante el método geométrico para fijar las posiciones del efector final y las coordenadas articulares respectivamente. Mediante la formulación de Euler-Lagrange se planteó un modelo dinámico expresado en forma canónica del prototipo robótico. Empleando la plataforma de LabVIEW se desarrolló una interfaz gráfica como medio de interacción entre el usuario y el prototipo robótico. Un Arduino actúa como pasarela para control del tráfico de instrucciones a través de una interfaz serial desde la plataforma gráfica hacia los actuadores del prototipo. Se obtuvo un prototipo robótico con 20 grados de libertad, al cubrir un ciclo de pruebas se alcanzó un 89% de precisión en la generación de los movimientos del alfabeto dactilológico. La interfaz gráfica desarrollada conjuga los movimientos del actuador robótico con recursos gráficos que impacta en el usuario para ganar su atención. Para futuras investigaciones se recomendaría incrementar el número de grados de libertad para la generación de palabras.The present work describes the design and implementation of a prototype robotic hands for the generation of movements of the alphabet dactilologic of the official dictionary of Ecuadorian sign language, which will facilitate the teaching/learning process of hearing impaired people in order to improve the system of education provided to this population with traditional methods. The design part of the study of anthropometric measurements of the human hand, their movements and joints, for at a later stage by making use of the SOLIDWORKS software to give rise to a design of parts and assembly to provide a model of robotic hand to mechanize by making use of the 3D printing technology. The kinematic analysis was performed using the algorithm of direct and inverse kinematic Denavit-Hartenberg using the geometric method to set the positions of the end effector and articular coordinates respectively. Using the Euler-Lagrange formulation of a dynamic model was raised as expressed in canonical form of robotic prototype. Using the LabVIEW Platform developed a graphical interface as a means of interaction between the user and the robotic prototype. An Arduino acts as a gateway for traffic control instructions through a serial interface from the graphics platform toward the actuators of the prototype. A robotic prototype was obtained with 20 degrees of freedom, to cover a test cycle is reached a 89% accuracy in the generation of the movements of the alphabet dactilologic. The graphical interface developed combines the movements of the robotic actuator with graphic resources that impacts the user to gain your attention. For future research would be recommended to increase the number of degrees of freedom for the generation of words

    Evaluación e intervención morfosintáctica en adolescentes y jóvenes con Síndrome de Down

    Get PDF
    Las personas con síndrome de Down presentan una especial dificultad en el desarrollo de su lenguaje, especialmente en su aspecto expresivo, lo que influye en su capacidad de expresar mensajes que transmitan sentimientos, ideas, opiniones… Puesto que estas personas tardan mucho tiempo en comenzar a producir las primeras frases, si este desarrollo, como apuntan algunos autores , no sigue realizándose en la adolescencia, las personas con síndrome de Down , tienen muy poco tiempo para continuar evolucionando en este aspecto fundamental del lenguaje. Así, para comprobar si este desarrollo sigue produciéndose durante esta etapa de su vida, se ha aplicado un programa específico de intervención morfosintáctica a una muestra de dieciocho jóvenes y adolescentes con síndrome de Down. Este programa incide de una manera intencional, gradual y sistématica sobre su nivel anterior de desarrollo. Los resultados obtenidos muestran como este nivel de desarrollo sigue produciéndose con la consiguiente repercusión en su capacidad de comunicarse oralmente con su entorno.People with Down syndrome have particular difficulty in language development, mainly in expressive language. These difficulties influence their ability to express feelings, ideas, opinions… Due to these people take a long time to say the first words, if their development not continues during the adolescent period, they would have very little time to develop the expressive language. Thus, a specific program of morphosyntactic intervention was tested to determine this development throughout this life stage. Eighteen young people and teenagers with Down syndrome were evaluated by means the above program. This program influenced systematically, gradually and intentionally over their earlier development level. Results show the development level of these young people increases, and this affects to their ability of oral communication

    Nuevas tecnologías, nuevos vocablos

    Get PDF
    Depto. de Periodismo y Nuevos MediosFac. de Ciencias de la InformaciónTRUEpu

    La estrategia del aprendizaje cooperativo y su influencia en la comprensión lectora en los estudiantes de primero de secundaria de la institución educativa Abraham Valdelomar

    Get PDF
    El aprendizaje cooperativo permite al docente a lograr varias metas en beneficio de sus estudiantes. En primer lugar, ayuda a elevar el rendimiento académico, incluyendo a aquellos estudiantes que tienen dificultades para aprender. En segundo lugar, ayuda a establecer relaciones positivas entre los estudiantes. En tercer lugar, permite a los estudiantes un desarrollo social, psicológico y cognitivo. En cuarto lugar, motiva a los estudiantes a trabajar en equipo de manera coordinada la comprensión lectora. Por tal motivo, es dar gran importancia la aplicación de la estrategia del aprendizaje cooperativo en las aulas de clase. En la actualidad el problema preocupante es la comprensión lectora de los estudiantes del primero de secundaria, este problema es una realidad en las instituciones educativas a nivel nacional. Para dar solución se realizó esta investigación, por eso se aplicó la estrategia de aprendizaje en la Institución Educativa Abraham Valdelomar. Por estas razones, se planificó una investigación de tipo aplicativo o experimental con un enfoque cuantitativo para comprobar que la aplicación de la estrategia de aprendizaje cooperativo influye o no en la comprensión lectora en los estudiantes del primer grado de educación secundaria de la Institución Educativa Abraham Valdelomar. Con este propósito se elaboró el instrumento : Prueba de comprensión de texto ; luego se validó por juicio de experto y después se aplicó el pretest y postest a los estudiantes del mencionado grado. Con los datos obtenidos se procedió al análisis estadístico y como resultado se determinó que la estrategia del aprendizaje cooperativo influye significativamente en la comprensión lectora de los estudiantes del primer grado de educación secundaria de la Institución Educativa Abraham Valdelomar; tal como se evidencia en la prueba de hipótesis general, donde la asintótica (bilateral) = 0.00 que es menor que 0.05, por lo que se niega la hipótesis nula y por consiguiente se acepta la Ha .Universidad Nacional de Educación Enrique Guzmán y Valle
    corecore