51 research outputs found

    Las aplicaciones de las tecnologías del habla

    Get PDF

    Implementar voz sobre IP con la utilización de protocolo SIP y telefonía para la Universidad UNIANDES extensión Ibarra

    Get PDF
    Implementar voz sobre IP con la utilización de protocolo SIP y telefonía móvil para tener una comunicación eficiente y consulta de notas en la Universidad UNIANDES Extensión Ibarra.El presente proyecto consiste en diseñar e implementar voz sobre IP para brindar comunicación y acceso a un módulo IVR (Interactive voice Responce), basado en asterisk que se integra con la base de datos SQL Server para realizar una consulta de notas que dispone la universidad Uniandes Extensión Ibarra. Para el desarrollo de esta solución se utiliza software libre como Issabel PBX (servidor de comunicaciones unificadas), asterisk dispone de una funcionalidad llamada AGI(Asterisk Gateway interface), la que permite la interacción con lenguajes de programación como PHP, en este caso se utiliza un script desarrollado en PHP para consultar la base de datos SQL Server y para transformar de texto a voz se dispone de una herramientas TTS(conversor de texto a voz) como Festival y para comunicarse se instala en el teléfono inteligente una aplicación sofphone que está diseñado para manipular protocolos de telefonía ip. Integrado la central telefónica y el servidor SQL Server se utiliza la aplicación zoiper que me permite la comunicación ip entre clientes que se encuentran en el campus universitario. La central telefónica Issabel PBX, también cuenta con soporte para realizar video llamadas, es así como puedo establecer la comunicación de dos formas, permitiendo de esta manera la optimización de los recursos que dispone la institución. Con esta aplicación se podrá entablar una comunicación directa entre estudiantes y la consulta de notas se la aria de manera simple y sencilla logrando con esto una mejor optimización de los recursos que dispone la universidad.Ingenierí

    Comprensión y generación de lenguaje natural en un sistema de diálogo usando inteligencia artificial para servicios telefónicos de información de cines

    Get PDF
    El presente documento es resultado de la investigación sobre automatización inteligente - comprensión y generación de lenguaje natural- en un Sistema de Diálogo, para optimar el servicio de atención al cliente actualmente brindado por un operador vía telefónica.Tesi

    Propuesta de diseño de un canal de televisión online para fortalecer los servicios académicos de la Universidad Nacional Pedro Ruiz Gallo

    Get PDF
    En este proyecto de tesis se presenta propuesta de diseño de un canal de televisión online para fortalecer los servicios académicos de la Universidad Nacional Pedro Ruiz Gallo. El proyecto está centrado en el uso de tecnologías libres tanto en la parte del servidor como el de edición, esto con el fin de evitar licencias y junto a ello aprovechar la comunidad de la que disponen detrás. Como software servidor de streaming se ha optado por el uso de ICECAST, pues es capaz de soportar diferentes formatos de audio y video, además en conjunto con un codificador adicional permite generar un archivo en formato ogg, el cual resulta simple de añadir en una página web, pudiendo así emitirse dentro un área designada dentro del sitio web universitario. Como software de emisión y edición, se optó por OBS Studio, el cual también es de código abierto, posee muchas funciones para realizar transmisiones y permite acoplar diferentes fuentes tanto para el audio como video, ya sea capturar pantalla, cámara, micrófono, audio interno, archivo almacenado en el pc, entre otros. Finalmente, para las pruebas se ha insertado la ruta de la transmisión en una página web simple, así podremos validar el correcto funcionamiento y la calidad del servicio

    Prototipo de interfaz humano-máquina basado en AIML con capacidad de realizar tareas preprogramadas

    Get PDF
    Tesis (Ingeniero en Automatización y Robótica)La inteligencia artificial está evolucionando con nuevas y mejores innovaciones todos los días. Pero fundamentalmente la I.A. siempre ha intentado perseguir y obtener rasgos de inteligencia humana.” (Bishwajeet, 2015).En el mundo actual es inevitable la evolución tecnológica hacia lo simple y automático y la expansión de esto a los distintos ámbitos de los negocios. Hoy en día existen aplicaciones que son capaces de dar respuestas satisfactorias a los usuariosa través de chat, pero aun así las capacidades de respuesta siguen siendo limitadas. Este proyecto presenta una investigación y desarrollo de un prototipo capaz de impulsar las capacidades de las actuales interfaces humano-maquina, las cuales son bastante escasas y limitadas en su funcionamiento. Haciendo uso de herramientas como el lenguaje AIML, Python 3 y Google Speech API se logró una capacidad de funcionamiento más amplía y efectiva para estas interfaces de respuesta automática. Para esto se implementó una interfaz de comunicación capaz de recibir solicitudes realizadas por voz del usuario y dar una respuesta acorde, ya sea por medio del chat, por voz, o por alguna aplicación interna de este mismo. También se realizaron pruebas para evaluar el grado de error que este tiene en sus con una metodología objetiva y subjetiva. “La evaluación de naturalidad de la conversación se ha divido en dos partes: una parte objetiva, que toma en cuenta la cantidad de respuestas erróneas y correctas y otra subjetiva, que se enfoca en la experiencia del usuario.” (Quintero, 2015). La evaluación de esta interfaz resultó ser positiva obteniendo un 80% de precisión en el reconocimiento de voz y un 90% de precisión en el procesamiento de AIML. De esto se determinó estas interfaces son benfeciosas siempre y cuando se tomen todas las medidas y se ajusten los parámetros de manera correcta. De no ser así las capacidades de procesamiento se pueden ver mermadas considerablemente. Palabras clave: AIML, Chatterbot, Google Speech API, Reconociemiento por voz, Interfaz humano-maquina, automatico.“Artificial Intelligence is coming up with new and greater innovations every day. But fundamentally, A.I. has always tried to pursue and attain intelligent human traits” (Bishwajeet, 2015). It is a fact that nowadays there are totally functional applications which are capable of giving satisfying responses to the users, frequently by chat communication, even so, the capabilites of answer are still limited. This Project presents an investigation and develpment of a prototype capable of boosting the capabilites of the current human-machine interfaces, which are very poor and limited in its functionality. Using tools like Chatterbot, AIML language and Google Speech API the performance boosting was acomplished in an efective and wider form. For this purpose an interface was developed with the capacity to receive voice request of the user and give and answer by chat, voice or an internal aplication. The margin of error of the responses to the user can also be evaluated, one of the ways is using an objective and a subjective methodology. “The evaluation of the conversation’s naturalness has been Split into two parts: an objective part, that measures the correct and incorrect answers, and a subjective part, that focuses on the user's experience”. (Quintero, 2015). The evaluation of this interface ended being positive, obtaning an 80% of accuracy in speech recognition and a 90% of accuracy in AIML processing. After this results it was determined that this interfaces can be beneficial but only if all the measurements are taken and the paremeters are adjusted correctly. If not, the processing capabilities can be decreased considerably

    Síntesis de voz aplicada a la traducción voz a voz

    Get PDF
    In the field of speech technologies, text-to-speech conversion is the automatic generation of artificial voices that sound identical to a human voice when reading a text in loud speech. Inside a text-to-speech system, the prosody module produces the prosodic information that is necessary to generate a natural voice: intonational phrases, intonation of the sentence, duration and energy of phonemes, etc. The correct generation of this information directly impacts in the naturalness and expressiveness of the system. The main goals of this thesis is the development of new algorithms to train models for prosody generation that may be used in a text-to-speech system, and their use in the framework of speech-to-speech translation. In this thesis several alternatives were studied for intonation modeling. They combine the parameterization and the intonation model generation as a integrated process. Such approach was successfully judged both with objective and subjective evaluations. The influence of segmental and suprasegmental factors in duration modeling was also studied. Several algorithms were proposed with the results of these studies that may combine segmental and suprasegmental information, likewise other publications of this field. Finally, an analysis of various phrase break models was also performed, both with words and accent groups: classification trees (CART), language modeling (LM) and finite state transducers (FST). The use of the same data set in the experiments was useful to obtain relevant conclusions about the differences between these models. One of the main goals of this thesis was the improvement of naturalness, expressiveness and consistency with the style of the source speaker in text-to-speech systems. This may be done by using the prosody of the source speaker in the framework of speech-to-speech translation as an additional information source. Several algorithms were developed for prosody generation that may integrate such additional information for the prediction of intonation, phoneme duration and phrase breaks. In that direction several approaches were studied to transfer the intonation from one language to the other. The chosen approach was an automatic clustering algorithm that finds a certain number of tonal movements that are related between languages, without any limitation about their number. In this way, it is possible to use this coding for intonation modeling of the target language. Experimental results show an improvement, that is more relevant in close languages, such as Spanish and Catalan. Although no segmental duration transfer was performed between languages, in this thesis is proposed the transfer of rhythm from one language to the other. For that purpose a method that combines the rhythm transfer and audio synchronization was proposed. The synchronizations is included because of its importance for the speech-to-speech translation technology when video is also used. Lastly, in this thesis was also proposed a pause transfer technique in the framework of speech-to-speech translation, by means of alignment information. Studies in training data have shown the advantage of tuples for this task. In order to predict any pause that can not be transferred using the before mentioned method, conventional pause prediction algorithms are used (CART, CART+LM, FST), taking into account the already transferred pauses.Dentro de las tecnologías del habla, la conversión texto a voz consiste en la generación, por medios automáticos, de una voz artificial que genera idéntico sonido al producido por una persona al leer un texto en voz alta. En resumen, los conversores texto a voz son sistemas que permiten la conversión de textos en voz sintética. El proceso de conversión texto a voz se divide en tres módulos básicos: procesamiento del texto, generación de la prosodia y generación de la voz sintética. En el primero de los módulos se realiza la normalización del texto (para expandir abreviaciones, convertir números y fechas en texto, etc), y en ocasiones, luego también se hace un etiquetado morfosintáctico. A continuación se procede a la conversión de los grafemas en fonemas y a la silabificación para obtener la secuencia de fonemas necesaria para reproducir el texto. Posteriormente, el módulo de prosodia genera la información prosódica para poder producir la voz. Para ello se predicen las frases entonativas y la entonación de la oración, y también la duración y la energía de los fonemas, etc. La correcta generación de esta información repercutirá directamente en la naturalidad y expresividad del sistema. En el último modulo de generación de la voz es donde se produce la voz considerando la información provista por los módulos de procesamiento del texto y prosodia. El objetivo de la presente tesis es el desarrollo de nuevos algoritmos para el entrenamiento de modelos de generación de prosodia para la conversión texto a voz, y su aplicación en el marco de la traducción voz a voz. En el caso de los algoritmos de modelado de entonación, en la literatura se proponen generalmente enfoques que incluyen una estilización previa a la parametrización. En esta tesis se estudiaron alternativas para evitar esa estilización, combinando la parametrización y la generación del modelo de entonación en un todo integrado. Dicho enfoque ha resultado exitoso tanto en la evaluación objetiva (usando medidas como el error cuadrático medio o el coeficiente de correlación Pearson) como en la subjetiva. Los evaluadores han considerado que el enfoque propuesto tiene una calidad y una naturalidad superiores a otros algoritmos existentes en la literatura incluidos en las evaluaciones, alcanzando un MOS de naturalidad de 3,55 (4,63 para la voz original) y un MOS de calidad de 3,78 (4,78 para la voz original).Postprint (published version

    Desarrollo y evaluación de diferentes metodologías para la gestión automática del diálogo

    Full text link
    El objetivo principal de la tesis que se presenta es el estudio y desarrollo de diferentes metodologías para la gestión del diálogo en sistemas de diálogo hablado. El principal reto planteado en la tesis reside en el desarrollo de metodologías puramente estadísticas para la gestión del diálogo, basadas en el aprendizaje de un modelo a partir de un corpus de diálogos etiquetados. En este campo, se presentan diferentes aproximaciones para realizar la gestión, la mejora del modelo estadístico y la evaluación del sistema del diálogo. Para la implementación práctica de estas metodologías, en el ámbito de una tarea específica, ha sido necesaria la adquisición y etiquetado de un corpus de diálogos. El hecho de disponer de un gran corpus de diálogos ha facilitado el aprendizaje y evaluación del modelo de gestión desarrollado. Así mismo, se ha implementado un sistema de diálogo completo, que permite evaluar el funcionamiento práctico de las metodologías de gestión en condiciones reales de uso. Para evaluar las técnicas de gestión del diálogo se proponen diferentes aproximaciones: la evaluación mediante usuarios reales; la evaluación con el corpus adquirido, en el cual se han definido unas particiones de entrenamiento y prueba; y la utilización de técnicas de simulación de usuarios. El simulador de usuario desarrollado permite modelizar de forma estadística el proceso completo del diálogo. En la aproximación que se presenta, tanto la obtención de la respuesta del sistema como la generación del turno de usuario se modelizan como un problema de clasificación, para el que se codifica como entrada un conjunto de variables que representan el estado actual del diálogo y como resultado de la clasificación se obtienen las probabilidades de seleccionar cada una de las respuestas (secuencia de actos de diálogo) definidas respectivamente para el usuario y el sistema.Griol Barres, D. (2007). Desarrollo y evaluación de diferentes metodologías para la gestión automática del diálogo [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/1956Palanci

    Uso de la aplicación kinesika para optimizar la comunicación bidireccional de personas con discapacidad auditiva de 14 a 38 años del proyecto “Centro de Jóvenes y Empleo Inclusivo” de la asociación Kallpa – Cusco 2022

    Get PDF
    La investigación titulada: "Uso de la Aplicación Kinesika para optimizar la Comunicación Bidireccional de personas con discapacidad auditiva de 14 a 38 años del proyecto Centro de Jóvenes y Empleo Inclusivo de la asociación Kallpa – Cusco, 2022” consideró el objetivo de “Determinar la eficacia del uso de la Aplicación “Kinesika” como herramienta de la comunicación bidireccional en personas con discapacidad auditiva de 14 a 38 años del proyecto Centro de jóvenes y empleo inclusivo, Cusco, 2022”. Utilizó una metodología de enfoque cuantitativo, de tipo aplicada y nivel descriptivo bajo un diseño cuasi experimental. Tomó una población de 20 PcD auditiva distribuidos en dos agrupaciones, tanto el de control (10) como el experimental (10) quienes participaron en las capacitaciones y el uso de la aplicación “Kinesika”. Para la reunión de datos obtenidos se usó la técnica de la encuesta y un cuestionario de “Comunicación Bidireccional” aplicado en dos momentos (pretest y postest). Resultados: las y los participantes de la agrupación experimental mostraron una mejoría en el desarrollo de la comunicación bidireccional (M = 56.80; DS = 1.932) que las personas del grupo control (M = 49.10; DS = 4.040, t (18) = 5.437, p< 0.05) después de implementar las capacitaciones y el uso de la aplicación “Kinesika”. Se concluye que el uso de la Aplicación “Kinesika” contribuye considerablemente en la optimización de la comunicación bidireccional en personas con discapacidad auditiva de 14 a 38 años del proyecto Centro de jóvenes y empleo inclusivo, Cusco, 2022.UNSAA
    corecore