49 research outputs found

    A cross-linguistic analysis of the temporal dynamics of turn-taking cues using machine learning as a descriptive tool

    Get PDF
    In dialogue, speakers produce and perceive acoustic/prosodic turn-taking cues, which are fundamental for negotiating turn exchanges with their interlocutors. However, little of the temporal dynamics and cross-linguistic validity of these cues is known. In this work, we explore a set of acoustic/prosodic cues preceding three turn-transition types (hold, switch and backchannel) in three different languages (Slovak, American English and Argentine Spanish). For this, we use and refine a set of machine learning techniques that enable a finer-grained temporal analysis of such cues, as well as a comparison of their relative explanatory power. Our results suggest that the three languages, despite belonging to distinct linguistic families, share the general usage of a handful of acoustic/prosodic features to signal turn transitions. We conclude that exploiting features such as speech rate, final-word lengthening, the pitch track over the final 200 ms, the intensity track over the final 1000 ms, and noise-to-harmonics ratio (a voice-quality feature) might prove useful for further improving the accuracy of the turn-taking modules found in modern spoken dialogue systems.Fil: Brusco, Pablo. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Departamento de Computación; Argentina. Consejo Nacional de Investigaciones Científicas y Técnicas. Oficina de Coordinación Administrativa Ciudad Universitaria. Instituto de Investigación en Ciencias de la Computación. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Instituto de Investigación en Ciencias de la Computación; ArgentinaFil: Vidal, Jazmín. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Departamento de Computación; Argentina. Consejo Nacional de Investigaciones Científicas y Técnicas. Oficina de Coordinación Administrativa Ciudad Universitaria. Instituto de Investigación en Ciencias de la Computación. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Instituto de Investigación en Ciencias de la Computación; ArgentinaFil: Beňuš, Štefan. University in Nitra; Eslovaquia. Slovak Academy of Sciences; EslovaquiaFil: Gravano, Agustin. Consejo Nacional de Investigaciones Científicas y Técnicas. Oficina de Coordinación Administrativa Ciudad Universitaria. Instituto de Investigación en Ciencias de la Computación. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Instituto de Investigación en Ciencias de la Computación; Argentina. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Departamento de Computación; Argentin

    Análisis de la dinámica del contenido semántico de textos

    Get PDF
    El presente trabajo es el primer eslabón de un proyecto en proceso que apunta a analizar la dinámica de distintos conceptos, desde un enfoque semántico, buscando identificar patrones temporales comunes en varios corpus de texto. Como primer paso utilizaremos textos provenientes de libros o subtítulos de películas, sin embargo este análisis puede extenderse a cualquier corpus de texto. En este trabajo en particular estudiaremos la evolución semántica de conceptos a lo largo de las distintas novelas de la saga Harry Potter con el objetivo último de analizar variaciones del contenido semántico en textos utilizando herramientas de Procesamiento de Lenguaje Natural (PLN). En este contexto, mostraremos una primera aproximación a la comprensión del alcance y de las limitaciones de las herramientas clásicas de PLN para cuantificar la evolución del concepto “oscuridad” con el avance temporal de los libros. La saga de novelas de Harry Potter resulta ser un corpus de texto ideal para testear estas herramientas debido a que es de público conocimiento que dicha saga presenta un aumento gradual de la “oscuridad” a medida que se suceden los libros.Sociedad Argentina de Informática e Investigación Operativa (SADIO

    Análisis de la dinámica del contenido semántico de textos

    Get PDF
    El presente trabajo es el primer eslabón de un proyecto en proceso que apunta a analizar la dinámica de distintos conceptos, desde un enfoque semántico, buscando identificar patrones temporales comunes en varios corpus de texto. Como primer paso utilizaremos textos provenientes de libros o subtítulos de películas, sin embargo este análisis puede extenderse a cualquier corpus de texto. En este trabajo en particular estudiaremos la evolución semántica de conceptos a lo largo de las distintas novelas de la saga Harry Potter con el objetivo último de analizar variaciones del contenido semántico en textos utilizando herramientas de Procesamiento de Lenguaje Natural (PLN). En este contexto, mostraremos una primera aproximación a la comprensión del alcance y de las limitaciones de las herramientas clásicas de PLN para cuantificar la evolución del concepto “oscuridad” con el avance temporal de los libros. La saga de novelas de Harry Potter resulta ser un corpus de texto ideal para testear estas herramientas debido a que es de público conocimiento que dicha saga presenta un aumento gradual de la “oscuridad” a medida que se suceden los libros.Sociedad Argentina de Informática e Investigación Operativa (SADIO

    Análisis de la dinámica del contenido semántico de textos

    Get PDF
    El presente trabajo es el primer eslabón de un proyecto en proceso que apunta a analizar la dinámica de distintos conceptos, desde un enfoque semántico, buscando identificar patrones temporales comunes en varios corpus de texto. Como primer paso utilizaremos textos provenientes de libros o subtítulos de películas, sin embargo este análisis puede extenderse a cualquier corpus de texto. En este trabajo en particular estudiaremos la evolución semántica de conceptos a lo largo de las distintas novelas de la saga Harry Potter con el objetivo último de analizar variaciones del contenido semántico en textos utilizando herramientas de Procesamiento de Lenguaje Natural (PLN). En este contexto, mostraremos una primera aproximación a la comprensión del alcance y de las limitaciones de las herramientas clásicas de PLN para cuantificar la evolución del concepto “oscuridad” con el avance temporal de los libros. La saga de novelas de Harry Potter resulta ser un corpus de texto ideal para testear estas herramientas debido a que es de público conocimiento que dicha saga presenta un aumento gradual de la “oscuridad” a medida que se suceden los libros.Sociedad Argentina de Informática e Investigación Operativa (SADIO

    Detección de palabras claves en lenguajes sin datos de entrenamiento

    Get PDF
    Estudiamos el problema de detección de palabras claves (key-word-spotting) para idiomas que no disponen de corpus de datos con grabaciones y transcripciones fonéticas. Este problema es de central importancia para poder realizar búsquedas en bases de datos de grabaciones de habla. Usando el Boston University Radio Speech Corpus como corpus de referencia, analizamos diversas topologías y parametrizaciones de Modelos Ocultos de Markov para la detección de palabras sobre habla continua. Los modelos se basan en el uso de "fillers" para palabras no buscadas, y empleamos fonemas como unidades mínimas de detección. Para las pruebas, utilizamos un conjunto de 20 keywords entrenadas con 14 minutos de datos transcriptos y fillers entrenados con 7 horas sin transcripciones. Los resultados muestran que el mejor modelo alcanza rendimientos superiores a un 0.47 de FOM promedio, un porcentaje de detecciones correctas del 72.1% y 3.95 falsas alarmas por hora por keyword.XI Workshop Bases de Datos y Minería de DatosRed de Universidades con Carreras de Informática (RedUNCI

    Zero-shot Multi-Domain Dialog State Tracking Using Descriptive Rules

    Get PDF
    In this work, we present a framework for incorporating descriptive logical rules in state-of-the-art neural networks, enabling them to learn how to handle unseen labels without the introduction of any new training data. The rules are integrated into existing networks without modifying their architecture, through an additional term in the network’s loss function that penalizes states of the network that do not obey the designed rules.As a case of study, the framework is applied to an existing neuralbased Dialog State Tracker. Our experiments demonstrate that the inclusion of logical rules allows the prediction of unseen labels, without deteriorating the predictive capacity of the original system.Fil: Altszyler Lemcovich, Edgar Jaim. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Departamento de Computación; Argentina. Consejo Nacional de Investigaciones Científicas y Técnicas. Oficina de Coordinación Administrativa Ciudad Universitaria. Instituto de Investigación en Ciencias de la Computación. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Instituto de Investigación en Ciencias de la Computación; ArgentinaFil: Brusco, Pablo. Consejo Nacional de Investigaciones Científicas y Técnicas. Oficina de Coordinación Administrativa Ciudad Universitaria. Instituto de Investigación en Ciencias de la Computación. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Instituto de Investigación en Ciencias de la Computación; Argentina. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Departamento de Computación; ArgentinaFil: Basiou, Nikoletta. Sri International; Estados UnidosFil: Byrnes, John. Sri International; Estados UnidosFil: Vergyri, Dimitra. Sri International; Estados Unido

    Detección de palabras claves en lenguajes sin datos de entrenamiento

    Get PDF
    Estudiamos el problema de detección de palabras claves (key-word-spotting) para idiomas que no disponen de corpus de datos con grabaciones y transcripciones fonéticas. Este problema es de central importancia para poder realizar búsquedas en bases de datos de grabaciones de habla. Usando el Boston University Radio Speech Corpus como corpus de referencia, analizamos diversas topologías y parametrizaciones de Modelos Ocultos de Markov para la detección de palabras sobre habla continua. Los modelos se basan en el uso de "fillers" para palabras no buscadas, y empleamos fonemas como unidades mínimas de detección. Para las pruebas, utilizamos un conjunto de 20 keywords entrenadas con 14 minutos de datos transcriptos y fillers entrenados con 7 horas sin transcripciones. Los resultados muestran que el mejor modelo alcanza rendimientos superiores a un 0.47 de FOM promedio, un porcentaje de detecciones correctas del 72.1% y 3.95 falsas alarmas por hora por keyword.XI Workshop Bases de Datos y Minería de DatosRed de Universidades con Carreras de Informática (RedUNCI

    Detección de palabras claves en lenguajes sin datos de entrenamiento

    Get PDF
    Estudiamos el problema de detección de palabras claves (key-word-spotting) para idiomas que no disponen de corpus de datos con grabaciones y transcripciones fonéticas. Este problema es de central importancia para poder realizar búsquedas en bases de datos de grabaciones de habla. Usando el Boston University Radio Speech Corpus como corpus de referencia, analizamos diversas topologías y parametrizaciones de Modelos Ocultos de Markov para la detección de palabras sobre habla continua. Los modelos se basan en el uso de "fillers" para palabras no buscadas, y empleamos fonemas como unidades mínimas de detección. Para las pruebas, utilizamos un conjunto de 20 keywords entrenadas con 14 minutos de datos transcriptos y fillers entrenados con 7 horas sin transcripciones. Los resultados muestran que el mejor modelo alcanza rendimientos superiores a un 0.47 de FOM promedio, un porcentaje de detecciones correctas del 72.1% y 3.95 falsas alarmas por hora por keyword.XI Workshop Bases de Datos y Minería de DatosRed de Universidades con Carreras de Informática (RedUNCI

    SLUE: New Benchmark Tasks for Spoken Language Understanding Evaluation on Natural Speech

    Full text link
    Progress in speech processing has been facilitated by shared datasets and benchmarks. Historically these have focused on automatic speech recognition (ASR), speaker identification, or other lower-level tasks. Interest has been growing in higher-level spoken language understanding tasks, including using end-to-end models, but there are fewer annotated datasets for such tasks. At the same time, recent work shows the possibility of pre-training generic representations and then fine-tuning for several tasks using relatively little labeled data. We propose to create a suite of benchmark tasks for Spoken Language Understanding Evaluation (SLUE) consisting of limited-size labeled training sets and corresponding evaluation sets. This resource would allow the research community to track progress, evaluate pre-trained representations for higher-level tasks, and study open questions such as the utility of pipeline versus end-to-end approaches. We present the first phase of the SLUE benchmark suite, consisting of named entity recognition, sentiment analysis, and ASR on the corresponding datasets. We focus on naturally produced (not read or synthesized) speech, and freely available datasets. We provide new transcriptions and annotations on subsets of the VoxCeleb and VoxPopuli datasets, evaluation metrics and results for baseline models, and an open-source toolkit to reproduce the baselines and evaluate new models.Comment: Updated preprint (Sentiment annotation on test set was updated). Toolkit link https://github.com/asappresearch/slue-toolki
    corecore