39 research outputs found
Audio content identification
Die Entwicklung und Erforschung von inhaltsbasierenden "Music Information Retrieval (MIR)'' - Anwendungen in den letzten Jahren hat gezeigt, dass die automatische Generierung von Inhaltsbeschreibungen, die eine Identifikation oder Klassifikation von Musik oder Musikteilen ermöglichen, eine bewältigbare Aufgabe darstellt. Aufgrund der großen Massen an verfügbarer digitaler Musik und des enormen Wachstums der entsprechenden Datenbanken, werden Untersuchungen durchgeführt, die eine möglichst automatisierte Ausführung der typischen Managementprozesse von digitaler Musik ermöglichen.
In dieser Arbeit stelle ich eine allgemeine Einführung in das Gebiet des ``Music Information Retrieval'' vor, insbesondere die automatische Identifikation von Audiomaterial und den Vergleich von ähnlichkeitsbasierenden Ansätzen mit reinen inhaltsbasierenden “Fingerprint”-Technologien. Einerseits versuchen Systeme, den menschlichen Hörapparat bzw. die Wahrnehmung und Definition von "Ähnlichkeit'' zu modellieren, um eine Klassifikation in Gruppen von verwandten Musiktiteln und im Weiteren eine Identifikation zu ermöglichen. Andererseits liegt der Fokus auf der Erstellung von Signaturen, die auf eine eindeutige Wiedererkennung abzielen ohne jede Aussage über ähnlich klingende Alternativen. In der Arbeit werden eine Reihe von Tests durchgeführt, die deutlich machen sollen, wie robust, zuverlässig und anpassbar Erkennungssysteme arbeiten sollen, wobei eine möglichst hohe Rate an richtig erkannten Musikstücken angestrebt wird. Dafür werden zwei Algorithmen, Rhythm Patterns, ein ähnlichkeitsbasierter Ansatz, und FDMF, ein frei verfügbarer Fingerprint-Extraktionsalgorithmus mittels 24 durchgeführten Testfällen gegenübergestellt, um die Arbeitsweisen der Verfahren zu vergleichen. Diese Untersuchungen zielen darauf ab, eine möglichst hohe Genauigkeit in der Wiedererkennung zu erreichen. Ähnlichkeitsbasierte Ansätze wie Rhythm Patterns erreichen bei der Identifikation Wiedererkennungsraten bis zu 89.53% und übertreffen in den durchgeführten Testszenarien somit den untersuchten Fingerprint-Ansatz deutlich. Eine sorgfältige Auswahl relevanter Features, die zur Berechnung von Ähnlichkeit herangezogen werden, führen zu äußerst vielversprechenden Ergebnissen sowohl bei variierten Ausschnitten der Musikstücke als auch nach erheblichen Signalveränderungen.The development and research of content-based music information retrieval (MIR) applications in the last years have shown that the generation of descriptions enabling the identification and classification of pieces of musical audio is a challenge that can be coped with. Due to the huge masses of digital music available and the growth of the particular databases, there are investigations of how to automatically perform tasks concerning the management of audio data.
In this thesis I will provide a general introduction of the music information retrieval techniques, especially the identification of audio material and the comparison of similarity-based approaches with content-based fingerprint technology. On the one hand, similarity retrieval systems try to model the human auditory system in various aspects and therewith the model of perceptual similarity. On the other hand there are fingerprints or signatures which try to exactly identify music without any assessment of similarity of sound titles. To figure out the differences and consequences of using these approaches I have performed several experiments that make clear how robust and adaptable an identification system must work. Rhythm Patterns, a similarity based feature extraction scheme and FDMF, a free fingerprint algorithm have been investigated by performing 24 test cases in order to compare the principle behind. This evaluation has also been done focusing on the greatest possible accuracy. It has come out that similarity features like Rhythm Patterns are able to identify audio titles promisingly as well (i.e. up to 89.53 %) in the introduced test scenarios. The proper choice of features enables that music tracks are identified at best when focusing on the highest similarity between the candidates both for varied excerpts and signal modifications
Recommended from our members
Characterizing Audio Events for Video Soundtrack Analysis
There is an entire emerging ecosystem of amateur video recordings on the internet today, in addition to the abundance of more professionally produced content. The ability to automatically scan and evaluate the content of these recordings would be very useful for search and indexing, especially as amateur content tends to be more poorly labeled and tagged than professional content. Although the visual content is often considered to be of primary importance, the audio modality contains rich information which may be very helpful in the context of video search and understanding. Any technology that could help to interpret video soundtrack data would also be applicable in a number of other scenarios, such as mobile device audio awareness, surveillance, and robotics. In this thesis we approach the problem of extracting information from these kinds of unconstrained audio recordings. Specifically we focus on techniques for characterizing discrete audio events within the soundtrack (e.g. a dog bark or door slam), since we expect events to be particularly informative about content. Our task is made more complicated by the extremely variable recording quality and noise present in this type of audio. Initially we explore the idea of using the matching pursuit algorithm to decompose and isolate components of audio events. Using these components we develop an approach for non-exact (approximate) fingerprinting as a way to search audio data for similar recurring events. We demonstrate a proof of concept for this idea. Subsequently we extend the use of matching pursuit to build an actual audio fingerprinting system, with the goal of identifying simultaneously recorded amateur videos (i.e. videos taken in the same place at the same time by different people, which contain overlapping audio). Automatic discovery of these simultaneous recordings is one particularly interesting facet of general video indexing. We evaluate this fingerprinting system on a database of 733 internet videos. Next we return to searching for features to directly characterize soundtrack events. We develop a system to detect transient sounds and represent audio clips as a histogram of the transients it contains. We use this representation for video classification over a database of 1873 internet videos. When we combine these features with a spectral feature baseline system we achieve a relative improvement of 7.5% in mean average precision over the baseline. In another attempt to devise features to better describe and compare events, we investigate decomposing audio using a convolutional form of non-negative matrix factorization, resulting in event-like spectro-temporal patches. We use the resulting representation to build an event detection system that is more robust to additive noise than a comparative baseline system. Lastly we investigate a promising feature representation that has been used by others previously to describe event-like sound effect clips. These features derive from an auditory model and are meant to capture fine time structure in sound events. We compare these features and a related but simpler feature set on the task of video classification over 9317 internet videos. We find that combinations of these features with baseline spectral features produce a significant improvement in mean average precision over the baseline
Schaeffer's Solfège, Percussion, Audio Descriptors: Towards an Interactive Musical System
Pierre Schaeffer's typomorphology (1966) proposes seven criteria of musical perception for the identification and qualification of sound objects, which form the basis of his musical theory. This Solfège fits well into contexts where pitch is not the dominant dimension. Relying on similarities between the practice of reduced listening and the utilization of low-level audio descriptors, we present the first version of a real-time setup in which these descriptors are applied to qualify percussive sounds. The paper describes the tools and strategies used for addressing different criteria: envelope followers with different window sizes and filtering; detection of transients and amplitude modulations; extraction and counting of spectral components; estimation of intrinsic dissonance and spectral distribution; among others. The extracted data is subjected to simple statistical analysis, producing scalar values associated with each segmented object. Finally, we present a variety of examples
Treino não supervisionado de modelos acústicos para reconhecimento de fala
Tese de doutoramento em Engenharia Electrotécnica e de Computadores, apresentada ao Departamento de Engenharia Electrotécnica e de Computadores da Faculdade de Ciências e Tecnologia da Universidade de CoimbraEsta tese resume os trabalhos desenvolvidos na área de processamento automático de fala com o objetivo de incrementar a quantidade de recursos linguísticos disponíveis para o português europeu. O estágio de desenvolvimento e a aplicação das tecnologias de fala para uma língua estão relacionados com a quantidade e a qualidade de recursos disponíveis por esta língua. Poucas línguas apresentam, no domínio público e livre, todos os recursos necessários para desenvolver as tecnologias de fala. A língua portuguesa, como muitas outras, tem escassez de recursos públicos e livres, o que pode dificultar o desenvolvimento e a aplicação de tecnologias de fala que incorporam esta língua. Os trabalhos descritos nesta tese apresentam uma abordagem para criar bases de dados de fala, recorrendo apenas aos recursos do domínio público e livres, partindo de sinais multimédia sem transcrições ortográficas ou fonéticas. É apresentada uma solução para aproveitar a grande disponibilidade de material multimédia existente no domínio público (podcasts por exemplo) e selecionar segmentos de fala adequados para treinar modelos acústicos. Para isso, foram desenvolvidos vários sistemas para segmentar e classificar automaticamente os noticiários. Estes sistemas podem ser combinados para criar bases de dados de fala com transcrição fonética sem a intervenção humana.
Foi desenvolvido um sistema de conversão automático de grafemas para fonemas que apoia em regras fonológicas e modelos estatísticos. Esta abordagem híbrida é justificada pelos desenvolvimentos de algoritmos de aprendizagem automática aplicados a conversão de grafemas para fonemas e pelo fato do português apresentar uma razoável regularidade fonética e fonológica bem como uma ortografia de base fonológica. Com auxílio deste sistema, foi criado um dicionário de pronunciação com cerca de 40 mil entradas que foram verificadas manualmente.
Foram implementados sistemas de segmentação e de diarização de locutor para segmentar sinais de áudio. Estes sistemas utilizam várias técnicas como a impressão digital acústica, modelos com misturas de gaussianas e critério de informação bayesiana que normalmente são aplicadas noutras tarefas de processamento de fala.
Para selecionar os segmentos adequados ou descartar os segmentos com fala não preparada que podem prejudicar o treino de modelos acústicos, foi desenvolvido um sistema de deteção de estilos de fala. A deteção de estilos de fala baseia-se na combinação de parâmetros acústicos e parâmetros prosódicos, na segmentação automática e em classificadores de máquinas de vetores de suporte. Ainda neste âmbito, fez-se um estudo com o intuito de caracterizar os eventos de hesitações presentes nos noticiários em português.
A transcrição fonética da base de dados de fala é indispensável no processo de treino de modelos acústicos. É frequente recorrer a sistema de reconhecimento de fala de grande vocabulário para fazer transcrição automática quando a base de dados não apresenta nenhuma transcrição. Nesta tese, é proposto um sistema de word-spotting para fazer a transcrição fonética dos segmentos de fala. Fez-se uma implementação preliminar de um sistema de word-spotting baseado em modelos de fonemas. Foi proposta uma estratégia para diminuir o tempo de resposta do sistema, criando, a priori, uma espécie de “assinatura acústica” para cada sinal de áudio com os valores de todos os cálculos que não dependem da palavra a pesquisar, como a verosimilhanças de todos os estados dos modelos de fonemas. A deteção de uma palavra utiliza medidas de similaridades entre as verosimilhanças do modelo da palavra e do modelo de enchimento, um detetor de picos e um limiar definido por forma a minimizar os erros de deteção.
Foram publicados vários recursos para a língua portuguesa que resultaram da aplicação dos vários sistemas desenvolvidos ao longo da execução desta tese com especial destaque para o sistema de conversão de grafemas para fonemas a partir do qual publicou-se vários dicionários de pronunciação, dicionários com as palavras homógrafas heterofónicas, dicionário com estrangeirismos, modelos estatísticos para a conversão de grafemas para fonemas, código fonte de todo sistema de treino e conversão e um demonstrador online.This thesis summarizes the works done in the automatic speech processing field aiming to increase the amount of the linguistic resources available for European Portuguese language. The development stage and the application of speech technologies into a language are related to the quantity and quality of resources available for that given language. Few languages have all the required resources to implement speech technologies within free-access and public domain. Like many other language, the Portuguese language lacks public and free resources which may hinder the development and the application of speech technologies that incorporate the Portuguese language. The works described in this thesis present an approach to create speech databases, using only the public and free-access resources, starting from multimedia signals without orthographic or phonetic transcriptions. It this sense, a solution is presented to take advantage of the wide availability in the public domain of multimedia material (e.g. podcasts) and select appropriate speech segments to train acoustic models. To this end, several systems have been developed to automatically segment and classify broadcast news. These systems can be combined to build speech databases with phonetic transcription without human intervention.
A system was developed to automatically convert graphemes to phonemes based on phonological rules and statistical models. This hybrid approach is justified by the developments in machine learning algorithms applied to the conversion of graphemes into phonemes and by the fact that the Portuguese language presents a reasonable phonetic/phonologic regularity and an orthography that is roughly phonologically based. Using this system, a pronunciation dictionary was created including about 40 thousands entries that where manually confirmed.
They were implemented a system for segmentation into five predetermined acoustic classes (speech, music, noise, speech with music and speech with noise) and a system for speaker diarization. These systems use various techniques such as acoustic fingerprint, Gaussian mixture model and Bayesian information criterion that normally are used in other speech processing tasks.
In order to select appropriate audio segments or discard non-prepared speech segments that may impair acoustic models training, it was developed a system to detect speaking styles. The detection of speaking styles is based on the combination of acoustic and prosodic parameters, on automatic segmentation and on support vector machine classifiers. Also in this scope, a study was made in order to characterize the hesitation events present in the Portuguese broadcast news.
The transcription of the audio databases is essential in the process of acoustic models training. The large-vocabulary continuous speech recognition system is usually used to do automatic transcription wen the database do not have any transcripts. In this thesis, it is proposed to use word-spotting system to provide phonetic transcriptions of speech segments. A preliminary implementation of a word-spotting system based on phoneme models was conducted. A strategy was proposed to decrease the system response time, creating, a priori, a sort of “acoustic signature” for each audio signal with the values of all calculations which do not depend on the searching word as for example the likelihood of all states of phoneme models. The detection of a word uses similarity measures based on likelihood of word model and likelihood of filler model, a peak detector and a threshold value defined as to minimize detection errors.
Several resources for the Portuguese language were published that resulted from the application of the various systems developed throughout the development of this thesis with particular emphasis on the graphemes to phonemes system from which it was published several dictionaries of pronunciation, dictionary with heterophonic homographs words, dictionary of foreign words, statistical models for converting graphemes to phonemes, the source code of the whole system of training as well as conversion and an online demo
TREINO NÃO SUPERVISIONADO DE MODELOS ACÚSTICOS PARA RECONHECIMENTO DE FALA
Esta tese resume os trabalhos desenvolvidos na área de processamento automático de
fala com o objetivo de incrementar a quantidade de recursos linguísticos disponíveis para
o português europeu. O estágio de desenvolvimento e a aplicação das tecnologias de fala
para uma língua estão relacionados com a quantidade e a qualidade de recursos
disponíveis para esta língua. Poucas línguas apresentam, no domínio público e livre, todos
os recursos necessários para desenvolver as tecnologias de fala. A língua portuguesa,
como muitas outras, tem escassez de recursos públicos e livres, o que pode dificultar o
desenvolvimento e a aplicação de tecnologias de fala que incorporam esta língua. Os
trabalhos descritos nesta tese apresentam uma abordagem para criar bases de dados de
fala, recorrendo apenas aos recursos do domínio público e livres, partindo de sinais
multimédia sem transcrições ortográficas ou fonéticas. É apresentada uma solução para
aproveitar a grande disponibilidade de material multimédia existente no domínio público
(podcasts por exemplo) e selecionar segmentos de fala adequados para treinar modelos
acústicos. Para isso, foram desenvolvidos vários sistemas para segmentar e classificar
automaticamente os noticiários. Estes sistemas podem ser combinados para criar bases
de dados de fala com transcrição fonética sem a intervenção humana.
Foi desenvolvido um sistema de conversão automático de grafemas para fonemas que se
apoia em regras fonológicas e modelos estatísticos. Esta abordagem híbrida é justificada
pelos desenvolvimentos de algoritmos de aprendizagem automática aplicados a
conversão de grafemas para fonemas e pelo fato do português apresentar uma razoável
regularidade fonética e fonológica bem como uma ortografia de base fonológica. Com
auxílio deste sistema, foi criado um dicionário de pronunciação com cerca de 40 mil
entradas, que foram verificadas manualmente.
Foram implementados sistemas de segmentação e de diarização de locutor para
segmentar sinais de áudio. Estes sistemas utilizam várias técnicas como a impressão
digital acústica, modelos com misturas de gaussianas e critério de informação bayesiana
que normalmente são aplicadas noutras tarefas de processamento de fala.
Para selecionar os segmentos adequados ou descartar os segmentos com fala não
preparada que podem prejudicar o treino de modelos acústicos, foi desenvolvido um
sistema de deteção de estilos de fala. A deteção de estilos de fala baseia-se na
combinação de parâmetros acústicos e parâmetros prosódicos, na segmentação
automática e em classificadores de máquinas de vetores de suporte. Ainda neste âmbito,
fez-se um estudo com o intuito de caracterizar os eventos de hesitações presentes nos
noticiários em português.
A transcrição fonética da base de dados de fala é indispensável no processo de treino de
modelos acústicos. É frequente recorrer a sistemas de reconhecimento de fala de grande
vocabulário para fazer transcrição automática quando a base de dados não apresenta
nenhuma transcrição. Nesta tese, é proposto um sistema de word-spotting para fazer a
transcrição fonética dos segmentos de fala. Fez-se uma implementação preliminar de um
sistema de word-spotting baseado em modelos de fonemas. Foi proposta uma estratégia
para diminuir o tempo de resposta do sistema, criando, a priori, uma espécie de
“assinatura acústica” para cada sinal de áudio com os valores de todos os cálculos que
não dependem da palavra a pesquisar, como a verosimilhanças de todos os estados dos
modelos de fonemas. A deteção de uma palavra utiliza medidas de similaridade entre as
verosimilhanças do modelo da palavra e do modelo de enchimento, um detetor de picos
e um limiar definido por forma a minimizar os erros de deteção.
Foram publicados vários recursos para a língua portuguesa que resultaram da aplicação
dos vários sistemas desenvolvidos ao longo da execução desta tese com especial
destaque para o sistema de conversão de grafemas para fonemas a partir do qual se
publicaram vários dicionários de pronunciação, dicionários com as palavras homógrafas
heterofónicas, dicionário com estrangeirismos, modelos estatísticos para a conversão de
grafemas para fonemas, o código fonte de todo sistema de treino e conversão e um
demonstrador online
Empreintes audio et stratégies d'indexation associées pour l'identification audio à grande échelle
N this work we give a precise definition of large scale audio identification. In particular, we make a distinction between exact and approximate matching. In the first case, the goal is to match two signals coming from one same recording with different post-processings. In the second case, the goal is to match two signals that are musically similar. In light of these definitions, we conceive and evaluate different audio-fingerprint models.Dans cet ouvrage, nous définissons précisément ce qu’est l’identification audio à grande échelle. En particulier, nous faisons une distinction entre l’identification exacte, destinée à rapprocher deux extraits sonores provenant d’un même enregistrement, et l’identification approchée, qui gère également la similarité musicale entre les signaux. A la lumière de ces définitions, nous concevons et examinons plusieurs modèles d’empreinte audio et évaluons leurs performances, tant en identification exacte qu’en identificationapprochée