1,064 research outputs found

    A Review of Deep Learning Techniques for Speech Processing

    Full text link
    The field of speech processing has undergone a transformative shift with the advent of deep learning. The use of multiple processing layers has enabled the creation of models capable of extracting intricate features from speech data. This development has paved the way for unparalleled advancements in speech recognition, text-to-speech synthesis, automatic speech recognition, and emotion recognition, propelling the performance of these tasks to unprecedented heights. The power of deep learning techniques has opened up new avenues for research and innovation in the field of speech processing, with far-reaching implications for a range of industries and applications. This review paper provides a comprehensive overview of the key deep learning models and their applications in speech-processing tasks. We begin by tracing the evolution of speech processing research, from early approaches, such as MFCC and HMM, to more recent advances in deep learning architectures, such as CNNs, RNNs, transformers, conformers, and diffusion models. We categorize the approaches and compare their strengths and weaknesses for solving speech-processing tasks. Furthermore, we extensively cover various speech-processing tasks, datasets, and benchmarks used in the literature and describe how different deep-learning networks have been utilized to tackle these tasks. Additionally, we discuss the challenges and future directions of deep learning in speech processing, including the need for more parameter-efficient, interpretable models and the potential of deep learning for multimodal speech processing. By examining the field's evolution, comparing and contrasting different approaches, and highlighting future directions and challenges, we hope to inspire further research in this exciting and rapidly advancing field

    Inspecting Spoken Language Understanding from Kids for Basic Math Learning at Home

    Full text link
    Enriching the quality of early childhood education with interactive math learning at home systems, empowered by recent advances in conversational AI technologies, is slowly becoming a reality. With this motivation, we implement a multimodal dialogue system to support play-based learning experiences at home, guiding kids to master basic math concepts. This work explores Spoken Language Understanding (SLU) pipeline within a task-oriented dialogue system developed for Kid Space, with cascading Automatic Speech Recognition (ASR) and Natural Language Understanding (NLU) components evaluated on our home deployment data with kids going through gamified math learning activities. We validate the advantages of a multi-task architecture for NLU and experiment with a diverse set of pretrained language representations for Intent Recognition and Entity Extraction tasks in the math learning domain. To recognize kids' speech in realistic home environments, we investigate several ASR systems, including the commercial Google Cloud and the latest open-source Whisper solutions with varying model sizes. We evaluate the SLU pipeline by testing our best-performing NLU models on noisy ASR output to inspect the challenges of understanding children for math learning in authentic homes.Comment: Proceedings of the 18th Workshop on Innovative Use of NLP for Building Educational Applications (BEA) at ACL 202

    Fillers in Spoken Language Understanding: Computational and Psycholinguistic Perspectives

    Full text link
    Disfluencies (i.e. interruptions in the regular flow of speech), are ubiquitous to spoken discourse. Fillers ("uh", "um") are disfluencies that occur the most frequently compared to other kinds of disfluencies. Yet, to the best of our knowledge, there isn't a resource that brings together the research perspectives influencing Spoken Language Understanding (SLU) on these speech events. This aim of this article is to synthesise a breadth of perspectives in a holistic way; i.e. from considering underlying (psycho)linguistic theory, to their annotation and consideration in Automatic Speech Recognition (ASR) and SLU systems, to lastly, their study from a generation standpoint. This article aims to present the perspectives in an approachable way to the SLU and Conversational AI community, and discuss moving forward, what we believe are the trends and challenges in each area.Comment: To appear in TAL Journa

    Semantic reconstruction of continuous language from MEG signals

    Full text link
    Decoding language from neural signals holds considerable theoretical and practical importance. Previous research has indicated the feasibility of decoding text or speech from invasive neural signals. However, when using non-invasive neural signals, significant challenges are encountered due to their low quality. In this study, we proposed a data-driven approach for decoding semantic of language from Magnetoencephalography (MEG) signals recorded while subjects were listening to continuous speech. First, a multi-subject decoding model was trained using contrastive learning to reconstruct continuous word embeddings from MEG data. Subsequently, a beam search algorithm was adopted to generate text sequences based on the reconstructed word embeddings. Given a candidate sentence in the beam, a language model was used to predict the subsequent words. The word embeddings of the subsequent words were correlated with the reconstructed word embedding. These correlations were then used as a measure of the probability for the next word. The results showed that the proposed continuous word embedding model can effectively leverage both subject-specific and subject-shared information. Additionally, the decoded text exhibited significant similarity to the target text, with an average BERTScore of 0.816, a score comparable to that in the previous fMRI study

    Efficient Sequence Transduction by Jointly Predicting Tokens and Durations

    Full text link
    This paper introduces a novel Token-and-Duration Transducer (TDT) architecture for sequence-to-sequence tasks. TDT extends conventional RNN-Transducer architectures by jointly predicting both a token and its duration, i.e. the number of input frames covered by the emitted token. This is achieved by using a joint network with two outputs which are independently normalized to generate distributions over tokens and durations. During inference, TDT models can skip input frames guided by the predicted duration output, which makes them significantly faster than conventional Transducers which process the encoder output frame by frame. TDT models achieve both better accuracy and significantly faster inference than conventional Transducers on different sequence transduction tasks. TDT models for Speech Recognition achieve better accuracy and up to 2.82X faster inference than RNN-Transducers. TDT models for Speech Translation achieve an absolute gain of over 1 BLEU on the MUST-C test compared with conventional Transducers, and its inference is 2.27X faster. In Speech Intent Classification and Slot Filling tasks, TDT models improve the intent accuracy up to over 1% (absolute) over conventional Transducers, while running up to 1.28X faster

    Learning speech embeddings for speaker adaptation and speech understanding

    Get PDF
    In recent years, deep neural network models gained popularity as a modeling approach for many speech processing tasks including automatic speech recognition (ASR) and spoken language understanding (SLU). In this dissertation, there are two main goals. The first goal is to propose modeling approaches in order to learn speaker embeddings for speaker adaptation or to learn semantic speech embeddings. The second goal is to introduce training objectives that achieve fairness for the ASR and SLU problems. In the case of speaker adaptation, we introduce an auxiliary network to an ASR model and learn to simultaneously detect speaker changes and adapt to the speaker in an unsupervised way. We show that this joint model leads to lower error rates as compared to a two-step approach where the signal is segmented into single speaker regions and then fed into an adaptation model. We then reformulate the speaker adaptation problem from a counterfactual fairness point-of-view and introduce objective functions to match the ASR performance of the individuals in the dataset to that of their counterfactual counterparts. We show that we can achieve lower error rate in an ASR system while reducing the performance disparity between protected groups. In the second half of the dissertation, we focus on SLU and tackle two problems associated with SLU datasets. The first SLU problem is the lack of large speech corpora. To handle this issue, we propose to use available non-parallel text data so that we can leverage the information in text to guide learning of the speech embeddings. We show that this technique increases the intent classification accuracy as compared to a speech-only system. The second SLU problem is the label imbalance problem in the datasets, which is also related to fairness since a model trained on skewed data usually leads to biased results. To achieve fair SLU, we propose to maximize the F-measure instead of conventional cross-entropy minimization and show that it is possible to increase the number of classes with nonzero recall. In the last two chapters, we provide additional discussions on the impact of these projects from both technical and social perspectives, propose directions for future research and summarize the findings

    Development and evaluation of a microservice-based virtual assistant for chronic patients support

    Get PDF
    Los asistentes virtuales (también conocidos como chatbots) son programas que interactúan con los usuarios simulando una conversación humana a través de mensajes de texto o de voz. Los asistentes virtuales destinados al cuidado de la salud ofrecen servicios, herramientas, asesoramiento, ayuda, soporte y gestión de diferentes enfermedades. Los usuarios de este tipo de asistente virtual pueden ser, por ejemplo, pacientes, cuidadores y profesionales sanitarios, los cuales poseen diferentes necesidades y requerimientos. Los pacientes con enfermedades crónicas podrían beneficiarse de los asistentes virtuales que se encargan de realizar seguimientos de su condición, proporcionar información específica, fomentar la adherencia a la medicación, etc. Para realizar estas funciones, los asistentes virtuales necesitan una arquitectura de software adecuada. Esta tesis doctoral propone el diseño de una arquitectura específica para el desarrollo de asistentes virtuales destinados a proporcionar soporte a pacientes crónicos. Hoy en día, las personas interactúan entre sí diariamente utilizando plataformas de mensajería. Para alinear este tipo de interacción con la arquitectura del asistente virtual, proponemos el uso de plataformas de mensajería para la interacción asistente virtual-paciente, prestando especial atención a las cuestiones de seguridad y privacidad (es decir, el uso de plataformas de mensajería seguras con cifrado de extremo a extremo).Los asistentes virtuales pueden implementar sistemas conversacionales para que la interacción con los pacientes sea más natural. Los sistemas conversacionales en escenarios de atención médica complejos, como la gestión de enfermedades, deben ser capaces de poder comprender oraciones complejas utilizadas durante la interacción. La adaptación de nuevos métodos con el procesamiento de lenguaje natural (NLP, por su nombre en inglés, Natural Language Processing) puede aportar una mejora a la arquitectura del asistente virtual. Los word embeddings (incrustación de palabras) se han utilizado ampliamente en NLP como entrada en las redes neuronales. Tales word embeddings pueden ayudar a comprender el objetivo final y las palabras clave en una oración. Por ello, en esta tesis estudiamos el impacto de diferentes word embeddings entrenados con corpus generales y específicos utilizando el entendimiento del lenguaje natural conjunto (Joint NLU, por su nombre en inglés, Joint Natural Language Understanding) en el dominio de la medicación en español. Los datos para entrenar el modelo NLU conjunto se generan usando plantillas. Dicho modelo se utiliza para la detección de intenciones, así como para el slot filling (llenado de ranuras). En este estudio comparamos word2vec y fastText como word embeddings y ELMo y BERT como modelos de lenguaje. Para entrenar los embeddings utilizamos tres corpus diferentes: los datos de entrenamiento generados para este escenario, la Wikipedia en español como dominio general y la base de datos de medicamentos en español como datos especializados. El mejor resultado se obtuvo con el modelo ELMo entrenado con Wikipedia en español.Dotamos al asistente virtual de capacidades de gestión de medicamentos basadas en NLP. En consecuencia, se analiza el impacto del etiquetado de slots y la longitud de los datos de entrenamiento en modelos NLU conjuntos para escenarios de gestión de medicamentos utilizando asistentes virtuales en español. En este estudio definimos las intenciones (propósitos de las oraciones) para escenarios centrados en la administración de medicamentos y dos tipos de etiquetas de slots. Para entrenar el modelo, generamos cuatro conjuntos de datos, combinando oraciones largas o cortas con slots largos o cortos. Para el análisis comparativo, elegimos seis modelos NLU conjuntos (SlotRefine, stack-propagation framework, SF-ID network, capsule-NLU, slot-gated modeling y joint SLU-LM) de la literatura existente. Tras el análisis competitivo, se observa que el mejor resultado se obtuvo utilizando oraciones y slots cortos. Nuestros resultados sugirieron que los modelos NLU conjuntos entrenados con slots cortos produjeron mejores resultados que aquellos entrenados con slots largos para la tarea de slot filling.En definitiva, proponemos una arquitectura de microservicios genérica válida para cualquier tipo de gestión de enfermedades crónicas. El prototipo genérico ofrece un asistente virtual operativo para gestionar información básica y servir de base para futuras ampliaciones. Además, en esta tesis presentamos dos prototipos especializados con el objetivo de mostrar cómo esta nueva arquitectura permite cambiar, añadir o mejorar diferentes partes del asistente virtual de forma dinámica y flexible. El primer prototipo especializado tiene como objetivo ayudar en la gestión de la medicación del paciente. Este prototipo se encargará de recordar la ingesta de medicamentos a través de la creación de una comunidad de apoyo donde los pacientes, cuidadores y profesionales sanitarios interactúen con herramientas y servicios útiles ofrecidos por el asistente virtual. La implementación del segundo prototipo especializado está diseñada para una enfermedad crónica específica, la psoriasis. Este prototipo ofrece teleconsulta y almacenamiento de fotografías.Por último, esta tesis tiene como objetivo validar la eficacia del asistente virtual integrado en las plataformas de mensajería, destinado al cuidado de la salud. Por ello, esta tesis incluye la evaluación de los dos prototipos especializados. El primer estudio tiene como objetivo mejorar la adherencia a la medicación en pacientes con diabetes mellitus tipo 2 comórbida y trastorno depresivo. Para ello, se diseñó y posteriormente se realizó un estudio piloto de nueve meses. En el estudio analizamos la Tasa de Posesión de Medicamentos (MPR, por su nombre en inglés, Medication Possession Ratio), obtuvimos la puntuación del Cuestionario sobre la Salud del Paciente (PHQ-9, por su nombre en inglés, Patient Health Questionnaire) y medimos el nivel de hemoglobina glicosilada (HbA1c), en los pacientes antes y después del estudio. También realizamos entrevistas a todos los participantes. Un total de trece pacientes y cinco enfermeras utilizaron y evaluaron el asistente virtual propuesto. Los resultados mostraron que, en promedio, la adherencia a la medicación de los pacientes mejoró. El segundo estudio tiene como objetivo evaluar un año de uso entre el asistente virtual y pacientes con psoriasis y dermatólogos, y el impacto en su calidad de vida. Para ello se diseñó y realizó un estudio prospectivo de un año de duración con pacientes con psoriasis y dermatólogos. Para medir la mejora en la calidad de vida, en este estudio analizamos los cuestionarios de Calidad de Vida de los Pacientes con Psoriasis (PSOLIFE, por su nombre en inglés, Psoriasis Quality of Life) y el Índice de Calidad de Vida en Dermatología (DLQI, por su nombre en inglés, Dermatology Life Quality Index). Además, realizamos encuestas a todos los participantes y obtuvimos el número de consultas médicas realizadas a través del asistente virtual. Se incluyeron en el estudio un total de 34 participantes (30 pacientes diagnosticados con psoriasis moderada-grave y cuatro profesionales sanitarios). Los resultados mostraron que, en promedio, la calidad de vida mejoró.<br /
    corecore