Search CORE

4 research outputs found

ASLP-MULAN: Audio speech and language processing for multimedia analytics

Author: Ferreiros J.
Hurtado L.F
Justo R.
Lleida E.
Ortega A.
Pardo J.M.
Segarra E.
Torres M.I.
Publication venue: E.T.S.I. Telecomunicación (UPM)
Publication date: 01/01/2016
Field of study

Our intention is generating the right mixture of audio, speech and language technologies with big data ones. Some audio, speech and language automatic technologies are available or gaining enough degree of maturity as to be able to help to this objective: automatic speech transcription, query by spoken example, spoken information retrieval, natural language processing, unstructured multimedia contents transcription and description, multimedia files summarization, spoken emotion detection and sentiment analysis, speech and text understanding, etc. They seem to be worthwhile to be joined and put at work on automatically captured data streams coming from several sources of information like YouTube, Facebook, Twitter, online newspapers, web search engines, etc. to automatically generate reports that include both scientific based scores and subjective but relevant summarized statements on the tendency analysis and the perceived satisfaction of a product, a company or another entity by the general population

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

Repositorio Universidad de Zaragoza

Archivo Digital UPM

ASLP-MULAN: Procesado de audio, habla y lenguaje para análisis de información multimedia

Author: Ferreiros Lopez Javier
Hurtado Oliver Lluis Felip
Justo Raquel
Lleida Eduardo
Ortega Giménez Alfonso
Pardo Muñoz José Manuel
Segarra Soriano Encarnación
Torres María Inés
Publication venue: Sociedad Española para el Procesamiento del Lenguaje Natural (SEPLN)
Publication date: 01/01/2016
Field of study

[EN] Our intention is generating the right mixture of audio, speech and language technologies with big data ones. Some audio, speech and language automatic technologies are available or gaining enough degree of maturity as to be able to help to this objective: automatic speech transcription, query by spoken example, spoken information retrieval, natural language processing, unstructured multimedia contents transcription and description, multimedia files summarization, spoken emotion detection and sentiment analysis, speech and text understanding, etc. They seem to be worthwhile to be joined and put at work on automatically captured data streams coming from several sources of information like YouTube, Facebook, Twitter, online newspapers, web search engines, etc. to automatically generate reports that include both scientific based scores and subjective but relevant summarized statements on the tendency analysis and the perceived satisfaction of a product, a company or another entity by the general population.[ES] Nuestra intención es generar la mezcla ideal de tecnologías del audio, el habla y el lenguaje con las de big data. Algunas tecnologías automáticas del procesado de audio, habla y lenguaje están adquiriendo suficiente grado de madurez para ser capaces de ayudar a este objetivo: transcripción automática del habla, métodos de búsqueda por habla, recuperación de documentos hablados, procesado del lenguaje natural, transcripción y descripción de contenidos multimedia no estructurados, resumen de ficheros multimedia, detección de emoción en el habla y análisis de sentimientos, comprensión de texto y habla, etc. Parece que merece la pena unirlos y ponerlos a trabajar sobre secuencias de datos obtenidos automáticamente procedentes de diversas fuentes de información como YouTube, Facebook, Twitter, periódicos digitales, buscadores de internet, etc. para generar informes que incluyan tanto puntuaciones basadas en análisis cuantitativo como expresiones resumidas subjetivas pero significativas sobre el análisis de tendencias y la satisfacción percibida sobre un producto, una empresa u otra entidad.This Project is founded by the “Ministerio de Economía y Competitividad” TIN2014-54288-C4 and there are four reseach groups involved: ELiRF (Universitat Politècnica de València), ViVoLab (Universidad de Zaragoza), SPIN (Universidad del Pais Vasco), GTH (Universidad Politécnica de Madrid).Ferreiros Lopez, J.; Pardo Muñoz, JM.; Hurtado Oliver, LF.; Segarra Soriano, E.; Ortega Giménez, A.; Lleida, E.; Torres, MI.... (2016). ASLP-MULAN: Audio speech and language processing for multimedia analytics. Procesamiento del Lenguaje Natural. (57):147-150. http://hdl.handle.net/10251/84803S1471505

Repositorio Institucional de la Universidad de Alicante

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

RiuNet

Audio segmentation-by-classification approach based on factor analysis in broadcast news domain

Author: Castán D.
Lleida E.
Miguel A.
Ortega A.
Publication venue: 'Springer Science and Business Media LLC'
Publication date: 01/01/2014
Field of study

This paper studies a novel audio segmentation-by-classification approach based on factor analysis. The proposed technique compensates the within-class variability by using class-dependent factor loading matrices and obtains the scores by computing the log-likelihood ratio for the class model to a non-class model over fixed-length windows. Afterwards, these scores are smoothed to yield longer contiguous segments of the same class by means of different back-end systems. Unlike previous solutions, our proposal does not make use of specific acoustic features and does not need a hierarchical structure. The proposed method is applied to segment and classify audios coming from TV shows into five different acoustic classes: speech, music, speech with music, speech with noise, and others. The technique is compared to a hierarchical system with specific acoustic features achieving a significant error reduction

Crossref

Repositorio Universidad de Zaragoza

Springer - Publisher Connector

Estudio de métodos de diarización en un entorno de broadcast

Author: Ortega Giménez Alfonso
Viñals Bailo Ignacio
Publication venue: 'Universidad de Zaragoza'
Publication date: 01/01/2014
Field of study

El auge de las técnicas de procesado de voz es una realidad, aunque en bastantes casos, para lograr sus objetivos requieren ser aplicadas sobre audio procedente de un único locutor. Puesto que estas condiciones no son fácilmente replicables en la realidad, se llevarán a cabo técnicas para separar los diferentes locutores, denominadas técnicas de Diarización. Este proyecto trabajará las técnicas de Diarización en un entorno de radiodifusión o Broadcast, no muy trabajado en la bibliografía, aunque de gran complejidad, al tener que realizar la separación de un número desconocido de locutores, cuyas distribuciones de audio no son uniformes, aparte de estar contaminados tanto por ruido como por musica. En estas circunstancias, y debido a la gran cantidad de posibilidades existentes en la bibliografía, el proyecto centrará sus esfuerzos en la etapa más afectada por combatir todas estas dificultades, la etapa de Clustering. Además, se formalizará un sistema de Diarización completo, cuya etapa de Clustering será aquella obtenida en este proyecto, con la intención de comparar con otros sistemas presentes en la bibliografía

Repositorio Universidad de Zaragoza