873 research outputs found

    Modelo de duración para conversión de texto a voz en euskera

    Get PDF
    En este artículo se presenta el trabajo realizado en el modelado de la duración de los fonemas en euskera estándar, para ser utilizado en conversión de texto a voz. El modelado estadístico se ha llevado a cabo mediante árboles binarios de regresión utilizando un corpus de 57.300 fonemas. Se han realizado varios experimentos de predicción testeando diferentes factores de influencia. El resultado obtenido en la predicción de la duración tiene un RMSE de 22.23 ms.This paper presents the modelling of phone durations in standard Basque, to be included in a text-to-speech system. The statistical modelling has been done using binary regression trees and a large corpus containing 57.300 phones. Several experiments have been performed, testing different sets of predicting factors. The result when predicting durations with this model has a RMSE of 22.23 ms.Este trabajo ha sido parcialmente financiado por el Ministerio de Ciencia y Tecnología (TIC2000-1005-C03-03 y TIC2000-1669-C04-03)

    Mayordomo: controla tu smart home a través de la voz

    Get PDF
    La conectividad y la electrónica de bajo coste están posibilitando que cada vez más elementos de nuestra casa se vuelvan inteligentes y puedan ser controlados remotamente. Hasta ahora, la única forma de gestionar estos dispositivos era a través de aplicaciones móviles, pero últimamente están proliferando cada vez más sistemas basados en la voz. Mediante este proyecto se pretende construir una plataforma de código abierto que permi- ta interactuar con los elementos domóticos del hogar de forma sencilla. Además, tendrá que ser modular para que su uso pueda extenderse a otros ámbitos y tener la capacidad de procesar comandos en diferentes idiomas, convirtiéndose así en la primera plataforma en poder ser usada íntegramente en euskera. De forma trasversal, el proyecto requerirá trabajar con tecnologías lingüísticas y permitirá aprender y profundizar en las técnicas empleadas en el procesamiento de lenguaje natural

    Mayordomo: controla tu smart home a través de la voz

    Get PDF
    La conectividad y la electrónica de bajo coste están posibilitando que cada vez más elementos de nuestra casa se vuelvan inteligentes y puedan ser controlados remotamente. Hasta ahora, la única forma de gestionar estos dispositivos era a través de aplicaciones móviles, pero últimamente están proliferando cada vez más sistemas basados en la voz. Mediante este proyecto se pretende construir una plataforma de código abierto que permi- ta interactuar con los elementos domóticos del hogar de forma sencilla. Además, tendrá que ser modular para que su uso pueda extenderse a otros ámbitos y tener la capacidad de procesar comandos en diferentes idiomas, convirtiéndose así en la primera plataforma en poder ser usada íntegramente en euskera. De forma trasversal, el proyecto requerirá trabajar con tecnologías lingüísticas y permitirá aprender y profundizar en las técnicas empleadas en el procesamiento de lenguaje natural

    Técnicas de personalización de voces sintéticas para su uso por personas con discapacidad oral

    Get PDF
    151 p.Esta tesis presenta avances realizados en la personalización de voces sintéticas que emplean los sistemas de conversión de texto a voz utilizados por personas con alguna discapacidad oral. Se presenta un nuevo algoritmo de adaptación de locutor para voces sintéticas basadas en síntesis estadístico paramétrica. Este algoritmo hace uso únicamente de fragmentos vocálicos para imitar la voz del locutor objetivo y se ha demostrado que es robusto frente a la escasez de datos y que tiene un desempeño similar a otros algoritmos del estado del arte.También se describe el diseño e implementación de un banco de voces en el cual cualquier persona puede realizar grabaciones de su voz real para generar una voz sintética que posteriormente puede ser empleada por otro usuario. De esta manera las personas pueden ¿donar¿ su voz.Por último, se presenta una metodología que hace uso de diversas medidas objetivas de evaluación de señales de voz para puntuar la calidad de las voces disponibles en el banco de voces

    Técnicas para la mejora de la inteligibilidad en voces patológicas

    Get PDF
    229 p.Los laringectomizados son personas cuya laringe ha sido extirpada quirúrgicamente, normalmente comoconsecuencia de un tumor. Al tratarse éste de un órgano fundamental para la producción de la voz,pierden la capacidad de hablar. Sin embargo, muchas de ellas consiguen re-aprender a hablar de unamanera distinta. Este tipo de habla se conoce como voz esofágica y es bastante distinta de la voz sana. Sunaturalidad e inteligibilidad es menor hasta el punto de que ciertos oyentes tienen que hacer un esfuerzopara comprender lo que se les está diciendo.Esto supone un perjuicio en la calidad de vida de los laringectomizados ya que sus capacidadescomunicativas se ven afectadas, no solo en las interacciones entre personas sino también en las interfaceshombre-máquina controladas por la voz. En esta tesis se abordan diferentes métodos para la mejora de lainteligibilidad de las voces alaríngeas de manera que palíen estos problemas.Un aspecto importante ha sido analizar las características propias de la voz esofágica. No es fácilencontrar el material necesario para hacer este análisis y los recursos disponibles son escasos. Esta tesisha querido llenar este vacío mediante la grabación de una base de datos paralela de locutores esofágicos.Esta base de datos ha sido caracterizada acústicamente. Con este objetivo se ha comprobado los efectosque tiene el método de extracción de la frecuencia fundamental a la hora de analizar las características delas señales esofágicas. Se ha propuesto utilizar el análisis del residuo glotal ya que capta mejor laspeculiaridades de este tipo de voces.Es necesario también disponer de algún método para evaluar de manera objetiva el impacto que tienen losmétodos propuestos para mejorar la inteligibilidad. Con este propósito se ha implementado unreconocedor cuyas características y particularidades se recogen en este documento. Este ASR se validóparticipando en una evaluación de detección de términos hablados organizada por la Red Temática enTecnologías del Habla.Para la mejora de la inteligibilidad de las voces esofágicas primero se han analizado diferentes algoritmosbasados en las técnicas de conversión de voz existentes aplicadas a voces sanas. Se ha evaluado tanto elcomportamiento de técnicas clásicas basadas en mezclas de Gaussianas como el de técnicas deconversión basadas en aprendizaje profundo.Por último, se han adaptado con éxito estas técnicas de conversión a las voces esofágicas. Estasconversiones se han evaluado de manera objetiva mediante el ASR construido, y subjetivamentemediante tests de preferencia. Aunque los resultados de las pruebas subjetivas exponen que para losoyentes no hay diferencias significativas entre las voces convertidas y las esofágicas originales, losresultados del reconocimiento automático muestran que las técnicas de conversión aplicadas a este tipode voces consiguen disminuir la tasa de error obtenida

    Técnicas para la mejora de la inteligibilidad en voces patológicas

    Get PDF
    229 p.Los laringectomizados son personas cuya laringe ha sido extirpada quirúrgicamente, normalmente comoconsecuencia de un tumor. Al tratarse éste de un órgano fundamental para la producción de la voz,pierden la capacidad de hablar. Sin embargo, muchas de ellas consiguen re-aprender a hablar de unamanera distinta. Este tipo de habla se conoce como voz esofágica y es bastante distinta de la voz sana. Sunaturalidad e inteligibilidad es menor hasta el punto de que ciertos oyentes tienen que hacer un esfuerzopara comprender lo que se les está diciendo.Esto supone un perjuicio en la calidad de vida de los laringectomizados ya que sus capacidadescomunicativas se ven afectadas, no solo en las interacciones entre personas sino también en las interfaceshombre-máquina controladas por la voz. En esta tesis se abordan diferentes métodos para la mejora de lainteligibilidad de las voces alaríngeas de manera que palíen estos problemas.Un aspecto importante ha sido analizar las características propias de la voz esofágica. No es fácilencontrar el material necesario para hacer este análisis y los recursos disponibles son escasos. Esta tesisha querido llenar este vacío mediante la grabación de una base de datos paralela de locutores esofágicos.Esta base de datos ha sido caracterizada acústicamente. Con este objetivo se ha comprobado los efectosque tiene el método de extracción de la frecuencia fundamental a la hora de analizar las características delas señales esofágicas. Se ha propuesto utilizar el análisis del residuo glotal ya que capta mejor laspeculiaridades de este tipo de voces.Es necesario también disponer de algún método para evaluar de manera objetiva el impacto que tienen losmétodos propuestos para mejorar la inteligibilidad. Con este propósito se ha implementado unreconocedor cuyas características y particularidades se recogen en este documento. Este ASR se validóparticipando en una evaluación de detección de términos hablados organizada por la Red Temática enTecnologías del Habla.Para la mejora de la inteligibilidad de las voces esofágicas primero se han analizado diferentes algoritmosbasados en las técnicas de conversión de voz existentes aplicadas a voces sanas. Se ha evaluado tanto elcomportamiento de técnicas clásicas basadas en mezclas de Gaussianas como el de técnicas deconversión basadas en aprendizaje profundo.Por último, se han adaptado con éxito estas técnicas de conversión a las voces esofágicas. Estasconversiones se han evaluado de manera objetiva mediante el ASR construido, y subjetivamentemediante tests de preferencia. Aunque los resultados de las pruebas subjetivas exponen que para losoyentes no hay diferencias significativas entre las voces convertidas y las esofágicas originales, losresultados del reconocimiento automático muestran que las técnicas de conversión aplicadas a este tipode voces consiguen disminuir la tasa de error obtenida

    Revisão do módulo de transcrição fonética para implementação no sintetizador de fala da empresa Verbio Technologies SL

    Get PDF
    Dissertação de mest., Processamento de Linguagem Natural e Indústrias da Língua, Faculdade de Ciências Humanas e Sociais, Univ. do Algarve, 2013O objetivo deste trabanlho é contribuir para a melhoria da qualidade do sistema de conversão de texto em fala elaborado para o Português do Brasil e desenvolvido pela empresa Verbio Technologies SL. Tais modificações foram possíveis a partir da revisão minuciosa e das consequentes modificações no módulo de transcrição fonética do sintetizador. Devido às alterações introduzidas pela Nova Ortografia do Português foram feitas modificações nas regras de transformação dos grafemas em fonemas, parte integrante do transcritor fonético que compõe o sistema desenvolvido pela empresa. O novo acordo ortográfico consiste na reestruturação ortográfica da língua portuguesa, deste modo, muitas palavras sofreram modificações e, tais alterações deverão ser abarcadas pelo transcritor grafema-fonema do sistema de síntese de fala. Além das novas regras da ortografia portuguesa, também foi utilizado um dicionário desenvolvido pelo Centro de Pesquisa e Desenvolvimento em Telecomunicações (CPqD), versão 1.4 de maio de 2003. Este dicionário foi usado como ponto de partida para a definição dos fonemas e do subsequente desenvolvimento das novas regras. A metodologia de estudo consistiu na análise detalhada de duas variantes linguísticas do português brasileiro: a variante falada no Rio de Janeiro e a variante falada São Paulo, regiões economicamente desenvolvidas e onde a aplicação de um sintetizador se justica. Além da incorporação das novas regras de ortografia da língua portuguesa, foram definidas também algumas regras que contemplam determinados processos fonológicos frequentes no português brasileiro, como é o caso da epêntese vocálica

    Integración de bases de datos para la detección de ataques mediante Spoofing

    Get PDF
    La seguridad es una demanda inherente a la condición humana sobre cualquiera de nuestros actos, pertenencias y nosotros mismos, en definitiva. La información, y su repercusión sobre nuestra propia integridad, tampoco está excluida de dicha demanda y los investigadores hemos de integrar el concepto de SEGURIDAD en el desarrollo de cada uno de los proyectos que abordamos. En este campo podemos diferenciar dos ámbitos principales, la seguridad física y la seguridad de la información. La seguridad física es una estrategia para proteger las instalaciones, los activos, los recursos y las personas de los incidentes o acciones que pueden causar pérdidas o daños a estas entidades. La seguridad de la información, es una estrategia para proteger la integridad y privacidad del contenido con seguridad digital. A día de hoy la forma de identificación más común es el uso de contraseñas, llaves, tarjetas… Una pega de estos métodos es que pueden ser robados u olvidados. Por otro lado, encontramos herramientas como la biometría, una práctica más nueva, que se está utilizando para implementar seguridad tanto física como de información. En comparación con los métodos tradicionales de contraseñas, llaves y similares, la biometría es una posesión que siempre se posee y ahí reside su principal ventaja. En la seguridad biométrica es común el uso de la huella dactilar, estructura facial, el iris o la voz. En lo que a esta última se refiere, la biometría de la voz, es la ciencia de utilizar la voz de una persona como una característica biológica de identificación única para autenticarla. También conocida como verificación de voz o reconocimiento de hablante, la biometría de voz permite un acceso rápido, no intrusivo y seguro para una variedad de casos de uso, desde call centers, aplicaciones móviles o aplicaciones en línea, hasta chatbots, dispositivos IoT (Internet of Things) y de acceso físico. Si existe la necesidad de implementar sistemas de seguridad es por la existencia, a su vez, de un riesgo cierto; hay algo o alguien de quien protegerse. En el caso de la biometría de voz, son los denominados ataques spoofing o de suplantación de identidad los que constituyen una gran amenaza para la seguridad. De cara a hacer frente a estos ataques, diversos estudios e instituciones tienden a implementar módulos de detección de habla sintética (SSD). El funcionamiento de esta tecnología se basa en un clasificador que dispone de dos modelos diferentes, uno de habla humana y otro de habla sintética. Cuando un usuario trata de verificarse frente al sistema, la señal se compara con ambos modelos y, si la diferencia de similitudes supera un umbral, se acepta como humana, en caso contrario se rechaza clasificándola como sintética. Durante el desarrollo de esta tecnología, los sistemas deben ser entrenados y para ello se utiliza una gran cantidad de grabaciones de voz, que servirán para crear los modelos mencionados antes. A lo largo de este Trabajo de Fin de Grado se estudia la utilización de bases de datos por parte de estos sistemas para la detección de ataques mediante spoofing. Para llevar a cabo esta tarea se hace uso de un SSD basado tanto en parámetros espectrales MFCC como los parámetros de la fase armónica, RPS. Asimismo, se realizan pruebas con redes neuronales con el objetivo último de obtener resultados con menor probabilidad de error. Se hace uso de las denominadas redes neuronales DNN (Deep Neural Networks) para la mejora de la tarea de clasificación.Segurtasuna giza izaerari datxekion eskaria da, gure egintza, ondasun eta, azken batean, geure buruaren gainekoa. Informazioa eta horrek gure osotasunean duen eragina ere ez daude eskari horretatik kanpo, eta ikertzaileok segurtasunaren kontzeptua txertatu behar dugu lantzen dugun proiektu bakoitzaren garapenean. Eremu honetan, bi eremu nagusi bereiz ditzakegu: segurtasun fisikoa eta informazioaren segurtasuna. Segurtasun fisikoa estrategia bat da instalazioak, aktiboak, baliabideak eta pertsonak erakunde horiei galerak edo kalteak eragin diezazkieketen intzidenteetatik edo ekintzetatik babesteko. Informazioaren segurtasuna berriz, edukiaren osotasuna eta pribatutasuna segurtasun digitalarekin babesteko estrategia bat da. Gaur egun, identifikatzeko modurik ohikoena pasahitzak, giltzak eta txartelak erabiltzea da. Metodo horien alde txarra , lapurtu edo ahaztu egin daitezkeela da. Bestalde, biometria bezalako tresnak aurkitzen ditugu, praktika berriago bat, segurtasun fisikoa zein informaziokoa ezartzeko erabiltzen dena. Pasahitz, giltza eta antzekoen metodo tradizionalen aldean, biometria beti edukitzen den edukitza da, eta hor datza bere abantaila nagusia. Segurtasun biometrikoan ohikoa da hatz-marka, aurpegi-egitura, irisa edo ahotsa erabiltzea. Azken horri dagokionez, ahotsaren biometria pertsona baten ahotsa identifikatzeko ezaugarri biologiko bakar gisa erabiltzeko zientzia da. Ahots-egiaztapen edo hiztun-aintzatespen gisa ere ezagutzen da, eta ahots-biometriak sarbide azkarra, ez intrusiboa eta segurua ahalbidetzen du erabilera-kasu anitzetarako: call center-ak, aplikazio mugikorrak edo lineako aplikazioak, chatbotak, IoT gailuak (Internet of Things) eta sarbide fisikokoak. Segurtasun-sistemak inplementatzeko beharra, aldi berean, arrisku ziurra dagoela esan nahi du, hau da, bada babesteko zerbait edo norbait. Ahots-biometriaren kasuan, spoofing edo nortasuna ordezteko erasoak dira segurtasunerako mehatxu handiak. Eraso horiei aurre egiteko, hainbat azterlan eta erakundek hizkera sintetikoa hautemateko moduluak (SSD) inplementatzeko joera dute. Teknologia honen funtzionamendua bi eredu desberdin dituen sailkatzaile batean oinarritzen da, bata giza hizkerakoa eta bestea hizkuntza sintetikokoa. Erabiltzaile bat sistemaren aurrean bere burua egiaztatzen saiatzen denean, seinalea bi ereduekin alderatzen da eta, antzekotasun-aldeak atalase bat gainditzen badu, gizakitzat hartzen da; bestela, baztertu egiten da, sintetikotzat sailkatuz. Teknologia hori garatzeko prozesuan, sistemak entrenatu egin behar dira, eta, horretarako, ahots-grabazio ugari erabiltzen dira, lehen aipatutako ereduak sortzeko. Gradu Amaierako Lan honetan, datu baseen erabilera aztertzen da sistema hauek spoofing bidezko erasoak detektatzeko atazan. Zeregin hau Aurrera eramateko, SSD bat erabiltzen da, MFCC parametro espektraletan eta fase harmonikoaren parametroetan (RPS) oinarrituta. Halaber, probak egiten dira sare neuronalekin, errore-probabilitate txikiagoko emaitzak lortzeko azken helburuarekin. DNN (Deep Neural Networks) sare neuronalak erabiltzen dira sailkapen-lana hobetzeko.Security is an inherent demand of the human condition on any of our acts, belongings and ourselves in short. The information, and its repercussion on our own integrity, is not excluded from this demand either, and researchers must integrate the concept of SECURITY in the development of each of the projects that we tackle. In this field we can differentiate two main areas, physical security and information security. Physical security is a strategy to protect facilities, assets, resources, and people from incidents or actions that can cause loss or damage to these entities. Information security is a strategy to protect the integrity and privacy of content with digital security. Today the most common form of identification is the use of passwords, keys, cards ... One drawback to these methods is that they can be stolen or forgotten. On the other hand, we find tools such as biometrics, a newer practice, which is being used to implement both physical and information security. Compared to traditional methods of passwords, keys and similar, biometrics is a possession that is always possessed and that is its main advantage. In biometric security, the use of fingerprint, facial structure, iris or voice is common. As far as the latter is concerned, voice biometrics is the science of using a person's voice as a uniquely identifying biological feature to authenticate them. Also known as voice verification or speaker recognition, voice biometrics enables fast, non-intrusive and secure access for a variety of use cases, from call centers, mobile applications, or online applications, to chatbots, IoT (Internet of Things) and physical access. If there is a need to implement security systems, it is due to the existence, in turn, of a certain risk; there is something or someone to protect yourself from. In the case of voice biometrics, it is the so-called spoofing or spoofing attacks that constitute a great security threat. In order to deal with these attacks, various studies and institutions tend to implement synthetic speech detection (SSD) modules. The operation of this technology is based on a classifier that has two different models, one of human speech and the other of synthetic speech. When a user tries to verify against the system, the signal is compared with both models and, if the difference in similarities exceeds a threshold, it is accepted as human; otherwise, it is rejected, classifying it as synthetic. During the development of this technology, the systems must be trained and in order to accomplish this, a large number of voice recordings are used, which will serve to create the models mentioned above. Throughout this Final Degree Project, it is studied the use of databases by these systems to detect spoofing attacks. To carry out this task, an SSD is used based on both MFCC spectral parameters and the harmonic phase parameters, RPS. Likewise, tests are carried out with neural networks with the ultimate objective of obtaining results with a lower probability of error. In this project, the so-called DNN neural networks (Deep Neural Networks) are used to improve the classification task

    Sabotajes de la cultura vasca: acerca de la nación encima del canon y hacia una nación-otra bajo tachadura

    Get PDF
    Esta tesis, Sabotajes de la cultura vasca: acerca de la nación encima del canon y hacia una nación-otra bajo tachadura, pretende comprender la producción cultural vasca como agente performativo que toma parte en formaciones de posiciones de sujeto hegemónicos y subalternos. Esta tesis no está tan interesada en estudiar la identidad vasca, sino que espera comprender los múltiples procesos que toman parte en su formación y el carácter modelador que asumen. En esta tesis defiendo que Ziutateaz, Bilbao-New York-Bilbao, la poesía de Itxaro Borda y la música punk de Hertzainak hacen posible que la lectora pueda elaborar una crítica estratégica de la modernidad, de las formaciones del estado y la nación, y de las posiciones heterogéneas de sujeto que son silenciadas a través de estos discursos hegemónicos. Para ello, utilizo los siguientes conceptos teóricos que consolidan mi trabajo analítico. Sabotaje, de la propuesta crítica de Manuel Asensi (2011), hace referencia a una estrategia de lectura capaz de discernir entre textos que naturalizan o revelan, las matrices modernas de dominación. En consecuencia, dicha estrategia tanto dinamita los procesos de naturalización, como hace patente su labor reveladora, respectivamente. En Segundo lugar, haciendo uso de un espectro post-estructuralista más amplio, que conecta el trabajo de Jacques Derrida (1975) con otros pensadores no-estructuralistas como son, entre otros, Mikhail Bakhtin (1991), Joseba Gabilondo (2006), Walter Mignolo (2003), y Gayatri Spivak (2010), intento colocar la nación bajo tachadura con el objetivo de pensar una nación otra. Colocar la nación bajo tachadura hace referencia a la inescapabilidad que conlleva la utilización del concepto nación, junto a la necesidad de vaciar ese concepto de sus trampas y cercos metafísicos. La forma de colectividad alternativa que emerge de dicho proceso conlleva pensar la comunidad en otros términos: eso es lo que comprendo como una nación otra. Finalmente, utilizo el concepto democracia radical tal y como se propone en el trabajo de Ernesto Laclau y Chantel Mouffe (1996) donde el insuturable espacio social se convierte en la arena en la que las diferentes luchas democráticas de las diversas posiciones de sujeto se encuentran. He organizado el texto siguiendo la estructura clásica de una tesis, dividiéndolo en tres secciones: Metodología; Resultados y desarrollo argumental; y Conclusiones finales. En la primera sección presento los conceptos literatura comparada y nación como dos de los marcos conceptuales principales que sostienen esta tesis. La segunda sección está dividida en tres apartados. El primero profundiza en la construcción del sujeto vasco hegemónico, comenzando con la Monarquía Católica y finalizando con Mayo de 68, la dictadura de Franco, y las primeras racionalidades neoliberales. El segundo apartado lee autores canónicos de la literatura vasca como son Bernardo Atxaga y Kirmen Uribe. El tercer apartado, se aproxima a las figuraciones realizadas por Itxaro Borda y Hertzainak, y su sabotaje del canon. Esta Tesis, espera ser parte de aquello que Paul Gilroy pensó como investigación intervencionista –interventionist scholar work– (1993) al referirse a pensadores como Stuart Hall, Cornell West, y bell hooks. Siguiendo las palabras de Judith Butler en su introducción a Gender Trouble, “trouble is inevitable and the task, how to best make it, how best way to be in it” (2011). Es por ello que considero que mi trabajo de investigación es parte de una tradición crítica formada por creadores de problemas como, entre otros, Imanol Galfosoro, Ur Apalategi, Joseba Gabilondo e Iratxe Retolaza
    corecore