212 research outputs found

    Customization of IBM Intu’s Voice by Connecting Text-to-Speech Services and a Voice Conversion Network

    Get PDF
    IBM has recently launched Project Intu, which extends the existing web-based cognitive service Watson with the Internet of Things to provide an intelligent personal assistant service. We propose a voice customization service that allows a user to directly customize the voice of Intu. The method for voice customization is based on IBM Watson’s text-to-speech service and voice conversion model. A user can train the voice conversion model by providing a minimum of approximately 100 speech samples in the preferred voice (target voice). The output voice of Intu (source voice) is then converted into the target voice. Furthermore, the user does not need to offer parallel data for the target voice since the transcriptions of the source speech and target speech are the same. We also suggest methods to maximize the efficiency of voice conversion and determine the proper amount of target speech based on several experiments. When we measured the elapsed time for each process, we observed that feature extraction accounts for 59.7% of voice conversion time, which implies that fixing inefficiencies in feature extraction should be prioritized. We used the mel-cepstral distortion between the target speech and reconstructed speech as an index for conversion accuracy and found that, when the number of target speech samples for training is less than 100, the general performance of the model degrades

    Ambient awareness on a sidewalk for visually impaired

    Get PDF
    Safe navigation by avoiding obstacles is vital for visually impaired while walking on a sidewalk. There are both static and dynamic obstacles to avoid. Detection, monitoring, and estimating the threat posed by obstacles remain challenging. Also, it is imperative that the design of the system must be energy efficient and low cost. An additional challenge in designing an interactive system capable of providing useful feedback is to minimize users\u27 cognitive load. We started the development of the prototype system through classifying obstacles and providing feedback. To overcome the limitations of the classification-based system, we adopted the image annotation framework in describing the scene, which may or may not include the obstacles. Both solutions partially solved the safe navigation but were found to be ineffective in providing meaningful feedback and issues with the diurnal cycle. To address such limitations, we introduce the notion of free-path and threat level imposed by the static or dynamic obstacles. This solution reduced the overhead of obstacle detection and helped in designing meaningful feedback. Affording users a natural conversation through an interactive dialog enabled interface was found to promote safer navigation. In this dissertation, we modeled the free-path and threat level using a reinforcement learning (RL) framework.We built the RL model in the Gazebo robot simulation environment and implanted that in a handheld device. A natural conversation model was created using data collected through a Wizard of OZ approach. The RL model and conversational agent model together resulted in the handheld assistive device called Augmented Guiding Torch (AGT). The AGT provides improved mobility over white cane by providing ambient awareness through natural conversation. It can inform the visually impaired about the obstacles which are helpful to be warned about ahead of time, e.g., construction site, scooter, crowd, car, bike, or big hole. Using the RL framework, the robot avoided over 95% obstacles. The visually impaired avoided over 85% obstacles with the help of AGT on a 500 feet U-shape sidewalk. Findings of this dissertation support the effectiveness of augmented guiding through RL for navigation and obstacle avoidance of visually impaired users

    Spoken content retrieval: A survey of techniques and technologies

    Get PDF
    Speech media, that is, digital audio and video containing spoken content, has blossomed in recent years. Large collections are accruing on the Internet as well as in private and enterprise settings. This growth has motivated extensive research on techniques and technologies that facilitate reliable indexing and retrieval. Spoken content retrieval (SCR) requires the combination of audio and speech processing technologies with methods from information retrieval (IR). SCR research initially investigated planned speech structured in document-like units, but has subsequently shifted focus to more informal spoken content produced spontaneously, outside of the studio and in conversational settings. This survey provides an overview of the field of SCR encompassing component technologies, the relationship of SCR to text IR and automatic speech recognition and user interaction issues. It is aimed at researchers with backgrounds in speech technology or IR who are seeking deeper insight on how these fields are integrated to support research and development, thus addressing the core challenges of SCR

    Conveying expressivity and vocal effort transformation in synthetic speech with Harmonic plus Noise Models

    Get PDF
    Aquesta tesi s'ha dut a terme dins del Grup en de Tecnologies Mèdia (GTM) de l'Escola d'Enginyeria i Arquitectura la Salle. El grup te una llarga trajectòria dins del cap de la síntesi de veu i fins i tot disposa d'un sistema propi de síntesi per concatenació d'unitats (US-TTS) que permet sintetitzar diferents estils expressius usant múltiples corpus. De forma que per a realitzar una síntesi agressiva, el sistema usa el corpus de l'estil agressiu, i per a realitzar una síntesi sensual, usa el corpus de l'estil corresponent. Aquesta tesi pretén proposar modificacions del esquema del US-TTS que permetin millorar la flexibilitat del sistema per sintetitzar múltiples expressivitats usant només un únic corpus d'estil neutre. L'enfoc seguit en aquesta tesi es basa en l'ús de tècniques de processament digital del senyal (DSP) per aplicar modificacions de senyal a la veu sintetitzada per tal que aquesta expressi l'estil de parla desitjat. Per tal de dur a terme aquestes modificacions de senyal s'han usat els models harmònic més soroll per la seva flexibilitat a l'hora de realitzar modificacions de senyal. La qualitat de la veu (VoQ) juga un paper important en els diferents estils expressius. És per això que es va estudiar la síntesi de diferents emocions mitjançant la modificació de paràmetres de VoQ de baix nivell. D'aquest estudi es van identificar un conjunt de limitacions que van donar lloc als objectius d'aquesta tesi, entre ells el trobar un paràmetre amb gran impacte sobre els estils expressius. Per aquest fet l'esforç vocal (VE) es va escollir per el seu paper important en la parla expressiva. Primer es va estudiar la possibilitat de transferir l'VE entre dues realitzacions amb diferent VE de la mateixa paraula basant-se en la tècnica de predicció lineal adaptativa del filtre de pre-èmfasi (APLP). La proposta va permetre transferir l'VE correctament però presentava limitacions per a poder generar nivells intermitjos d'VE. Amb la finalitat de millorar la flexibilitat i control de l'VE expressat a la veu sintetitzada, es va proposar un nou model d'VE basat en polinomis lineals. Aquesta proposta va permetre transferir l'VE entre dues paraules qualsevols i sintetitzar nous nivells d'VE diferents dels disponibles al corpus. Aquesta flexibilitat esta alineada amb l'objectiu general d'aquesta tesi, permetre als sistemes US-TTS sintetitzar diferents estils expressius a partir d'un únic corpus d'estil neutre. La proposta realitzada també inclou un paràmetre que permet controlar fàcilment el nivell d'VE sintetitzat. Això obre moltes possibilitats per controlar fàcilment el procés de síntesi tal i com es va fer al projecte CreaVeu usant interfícies gràfiques simples i intuïtives, també realitzat dins del grup GTM. Aquesta memòria conclou presentant el treball realitzat en aquesta tesi i amb una proposta de modificació de l'esquema d'un sistema US-TTS per incloure els blocs de DSP desenvolupats en aquesta tesi que permetin al sistema sintetitzar múltiple nivells d'VE a partir d'un corpus d'estil neutre. Això obre moltes possibilitats per generar interfícies d'usuari que permetin controlar fàcilment el procés de síntesi, tal i com es va fer al projecte CreaVeu, també realitzat dins del grup GTM. Aquesta memòria conclou presentant el treball realitzat en aquesta tesi i amb una proposta de modificació de l'esquema del sistema US-TTS per incloure els blocs de DSP desenvolupats en aquesta tesi que permetin al sistema sintetitzar múltiple nivells d'VE a partir d'un corpus d'estil neutre.Esta tesis se llevó a cabo en el Grup en Tecnologies Mèdia de la Escuela de Ingeniería y Arquitectura la Salle. El grupo lleva una larga trayectoria dentro del campo de la síntesis de voz y cuenta con su propio sistema de síntesis por concatenación de unidades (US-TTS). El sistema permite sintetizar múltiples estilos expresivos mediante el uso de corpus específicos para cada estilo expresivo. De este modo, para realizar una síntesis agresiva, el sistema usa el corpus de este estilo, y para un estilo sensual, usa otro corpus específico para ese estilo. La presente tesis aborda el problema con un enfoque distinto proponiendo cambios en el esquema del sistema con el fin de mejorar la flexibilidad para sintetizar múltiples estilos expresivos a partir de un único corpus de estilo de habla neutro. El planteamiento seguido en esta tesis esta basado en el uso de técnicas de procesamiento de señales (DSP) para llevar a cabo modificaciones del señal de voz para que este exprese el estilo de habla deseado. Para llevar acabo las modificaciones de la señal de voz se han usado los modelos harmónico más ruido (HNM) por su flexibilidad para efectuar modificaciones de señales. La cualidad de la voz (VoQ) juega un papel importante en diferentes estilos expresivos. Por ello se exploró la síntesis expresiva basada en modificaciones de parámetros de bajo nivel de la VoQ. Durante este estudio se detectaron diferentes problemas que dieron pié a los objetivos planteados en esta tesis, entre ellos el encontrar un único parámetro con fuerte influencia en la expresividad. El parámetro seleccionado fue el esfuerzo vocal (VE) por su importante papel a la hora de expresar diferentes emociones. Las primeras pruebas se realizaron con el fin de transferir el VE entre dos realizaciones con diferente grado de VE de la misma palabra usando una metodología basada en un proceso filtrado de pre-émfasis adaptativo con coeficientes de predicción lineales (APLP). Esta primera aproximación logró transferir el nivel de VE entre dos realizaciones de la misma palabra, sin embargo el proceso presentaba limitaciones para generar niveles de esfuerzo vocal intermedios. A fin de mejorar la flexibilidad y el control del sistema para expresar diferentes niveles de VE, se planteó un nuevo modelo de VE basado en polinomios lineales. Este modelo permitió transferir el VE entre dos palabras diferentes e incluso generar nuevos niveles no presentes en el corpus usado para la síntesis. Esta flexibilidad está alineada con el objetivo general de esta tesis de permitir a un sistema US-TTS expresar múltiples estilos de habla expresivos a partir de un único corpus de estilo neutro. Además, la metodología propuesta incorpora un parámetro que permite de forma sencilla controlar el nivel de VE expresado en la voz sintetizada. Esto abre la posibilidad de controlar fácilmente el proceso de síntesis tal y como se hizo en el proyecto CreaVeu usando interfaces simples e intuitivas, también realizado dentro del grupo GTM. Esta memoria concluye con una revisión del trabajo realizado en esta tesis y con una propuesta de modificación de un esquema de US-TTS para expresar diferentes niveles de VE a partir de un único corpus neutro.This thesis was conducted in the Grup en Tecnologies M`edia (GTM) from Escola d’Enginyeria i Arquitectura la Salle. The group has a long trajectory in the speech synthesis field and has developed their own Unit-Selection Text-To-Speech (US-TTS) which is able to convey multiple expressive styles using multiple expressive corpora, one for each expressive style. Thus, in order to convey aggressive speech, the US-TTS uses an aggressive corpus, whereas for a sensual speech style, the system uses a sensual corpus. Unlike that approach, this dissertation aims to present a new schema for enhancing the flexibility of the US-TTS system for performing multiple expressive styles using a single neutral corpus. The approach followed in this dissertation is based on applying Digital Signal Processing (DSP) techniques for carrying out speech modifications in order to synthesize the desired expressive style. For conducting the speech modifications the Harmonics plus Noise Model (HNM) was chosen for its flexibility in conducting signal modifications. Voice Quality (VoQ) has been proven to play an important role in different expressive styles. Thus, low-level VoQ acoustic parameters were explored for conveying multiple emotions. This raised several problems setting new objectives for the rest of the thesis, among them finding a single parameter with strong impact on the expressive style conveyed. Vocal Effort (VE) was selected for conducting expressive speech style modifications due to its salient role in expressive speech. The first approach working with VE was based on transferring VE between two parallel utterances based on the Adaptive Pre-emphasis Linear Prediction (APLP) technique. This approach allowed transferring VE but the model presented certain restrictions regarding its flexibility for generating new intermediate VE levels. Aiming to improve the flexibility and control of the conveyed VE, a new approach using polynomial model for modelling VE was presented. This model not only allowed transferring VE levels between two different utterances, but also allowed to generate other VE levels than those present in the speech corpus. This is aligned with the general goal of this thesis, allowing US-TTS systems to convey multiple expressive styles with a single neutral corpus. Moreover, the proposed methodology introduces a parameter for controlling the degree of VE in the synthesized speech signal. This opens new possibilities for controlling the synthesis process such as the one in the CreaVeu project using a simple and intuitive graphical interfaces, also conducted in the GTM group. The dissertation concludes with a review of the conducted work and a proposal for schema modifications within a US-TTS system for introducing the VE modification blocks designed in this dissertation

    Smart ERP: How business processes in small- and medium-sized service enterprises are affected by artificial intelligence.

    Get PDF
    En los últimos años, la inteligencia artificial (IA) se ha integrado en más facetas de la vida. En el aspecto de los hogares inteligentes, la IA puede controlar el entorno en función de las preferencias aprendidas de los residentes o en los automóviles que apoya al conductor, mientras que los asistentes personales inteligentes (IPA) ayudan con tareas habituales, como concertar citas o proporcionar información. Esta silenciosa pero floreciente integración de la IA en otras áreas de la vida no se limita a las esferas privadas; las experiencias privadas con IA están aumentando las expectativas de los procesos inteligentes en las aplicaciones empresariales y, por lo tanto, la IA se abre paso cada vez más en los procesos empresariales. El uso de IPA en aplicaciones comerciales como el sistema de planificación de recursos empresariales (ERP) es un aspecto tan importante como la integración del aprendizaje automático (ML) en los procesos comerciales. Sin embargo, las pequeñas y medianas empresas (PYME) se enfrentan particularmente al desafío de integrar la IA en los procesos comerciales, ya que generalmente están luchando con desafíos existentes como la digitalización. La optimización de procesos a través de la IA es un desafío adicional porque, según la literatura, las pymes a menudo no tienen los conocimientos necesarios para integrar la IA por sí mismas. De acuerdo con la literatura, las PyMEs también a menudo carecen de casos de uso concretos en los que la IA pueda integrarse en los procesos comerciales de manera significativa y valiosa. Aquí es donde entra esta tesis y desarrolla casos de uso concretos adaptados a los procesos de las pymes alemanas en el sector de servicios con el fin de optimizarlos con IA. Sobre la base de estos casos de uso, se creó un marco que proporciona funciones IPA y ML y se puede integrar sin problemas en un sistema ERP. La disertación está guiada por la pregunta de investigación: ʺ¿Qué funciones específicas de IA e IPA se reconocen como útiles en el contexto empresarial de las PYME en el sector de servicios?ʺ La implementación fue realizada por Design Science Research como un marco para cumplir con los requisitos tanto desde una perspectiva científica como empresarial. Como parte de esta implementación, se desarrolló una IPA a través de la cual se puede recuperar información de un sistema ERP y también ingresar mediante comandos de voz. Además, se creó una función completamente nueva que permite a la IPA dar al usuario retroalimentación audiovisual sobre una descripción gráfica de modo que tenga lugar una explicación y preinterpretación de los valores mostrados. Esto introduce un nuevo elemento de investigación, hasta ahora inexplorado, que ha sido analizado en el marco de metodologías cuantitativas y cualitativas sobre su utilidad y los factores relevantes que influyen en su valor agregado. A través de la integración en casos de uso, tanto el marco IPA como el ML se exploran de manera práctica. En el primer paso, se realizó una encuesta cuantitativa en la que los usuarios pudieron evaluar sus experiencias con el prototipo de IPA y comunicar mejoras funcionales. Sobre la base de esta retroalimentación, el prototipo se expandió y se combinó con el marco ML. A partir del prototipo final, se aplicó la metodología cualitativa de la entrevista a expertos para identificar la aplicabilidad y los factores que influyen en la utilidad de casos de uso específicos. Para ello, se entrevistó a 10 expertos con conocimientos relevantes en el campo de la gestión empresarial en las PYME alemanas y el conocimiento del proceso correspondiente. A partir de la extracción inductiva de los factores de influencia de los protocolos de entrevista, se realizó otra encuesta cuantitativa entre los expertos para verificar y clasificar los factores de influencia identificados. La entrevista con el experto ha demostrado que el potencial de la IA en las pymes del sector servicios depende de varios factores, algunos de los cuales dependen del proceso individual, como los canales de comunicación, pero también hay factores como el volumen o la ʺgeneralizabilidadʺ que afectan a varias áreas del proceso. El volumen se identificó como el factor de influencia más importante en todos los procesos, mientras que el campo de aplicación se identificó como el factor individual más importante. A partir del prototipo final, se aplicó la metodología cualitativa de la entrevista a expertos para identificar la aplicabilidad y los factores que influyen en la utilidad de casos de uso específicos. Para ello, se entrevistó a 10 expertos con conocimientos relevantes en el campo de la gestión empresarial en las PYME alemanas y el conocimiento del proceso correspondiente. A partir de la extracción inductiva de los factores de influencia de los protocolos de entrevista, se realizó otra encuesta cuantitativa entre los expertos para verificar y clasificar los factores de influencia identificados. La entrevista con el experto ha demostrado que el potencial de la IA en las pymes del sector servicios depende de varios factores, algunos de los cuales dependen del proceso individual, como los canales de comunicación, pero también hay factores como el volumen o la ʺgeneralizabilidadʺ que afectan a varias áreas del proceso. El volumen se identificó como el factor de influencia más importante en todos los procesos, mientras que el campo de aplicación se identificó como el factor individual más importante. Además, se consultó el potencial de optimización para procesarlos en el marco de un análisis de costo‐beneficio. Dentro del análisis de costo‐beneficio, el potencial de ahorro de costos determinado se comparó con los costos de implementación esperados para determinar en qué escenarios una integración de IA tiene sentido económico. Para validar el potencial de ahorro estimado por los expertos, se realizó un experimento en el que se comparó la velocidad de ingresar notas de venta mediante teclado y ratón con ingresarlas mediante comandos de voz a través del IPA. Con base en el análisis de datos, se pudo demostrar que la introducción de la IA en los procesos comerciales tiene un potencial de ahorro de costos de más del 30%. Se debe enfatizar que el potencial de ahorro de costos de la API para la recuperación y entrada de información está significativamente por encima de este promedio en más del 37%. De acuerdo con la evaluación científica de los casos de uso en combinación con los factores de influencia identificados y el potencial de optimización, se desarrolló una guía sobre cómo se pueden mejorar los procesos en las PYMES a través de la IA. Esta directriz, en combinación con el prototipo, permite a las pymes operar mejor el uso de la IA. La implicación teórica más importante es que la implementación del modo de explicación para las API en el entorno empresarial ha creado un elemento de investigación completamente nuevo y se ha introducido en la comunidad académica. En el área de las implicaciones prácticas, se debe enfatizar que el análisis de 16 casos de uso relevantes para la práctica brindó una descripción general completa de las implementaciones de IA para las PYMES en la industria de servicios. Los responsables de la toma de decisiones pueden adaptar los procesos descritos para beneficiarse directamente del potencial de optimización. La directriz antes mencionada puede ayudar a los responsables de la toma de decisiones a seleccionar los procesos adecuados y proporcionar orientación para el proceso de implementación. Además, fue posible mostrar de una manera científicamente sólida el potencial de optimización de la IA en los procesos comerciales y qué factores influyentes son de particular relevancia para la realización de este potencial de optimización.Administración y Dirección de Empresa
    corecore