4 research outputs found

    A TEMPO-INSENSITIVE DISTANCE MEASURE FOR COVER SONG IDENTIFICATION BASED ON CHROMA FEATURES

    Get PDF
    We present a distance measure between audio files designed to identify cover songs, which are new renditions of previously recorded songs. For each song we compute the chromagram, remove phase information and apply exponentially distributed bands in order to obtain a feature matrix that compactly describes a song and is insensitive to changes in instrumentation, tempo and time shifts. As distance between two songs, we use the Frobenius norm of the difference between their feature matrices normalized to unit norm. When computing the distance, we take possible transpositions into account. In a test collection of 80 songs with two versions of each, 38 % of the covers were identified. The system was also evaluated on an independent, international evaluation where it despite having much lower complexity performed on par with the winner of last year. Index Terms — Feature extraction, Music. 1

    Detección de música en contenidos multimedia mediante ritmo y armonía

    Full text link
    Este Trabajo Fin de Grado se encuadra en el ámbito de la segmentación de audio, más concretamente en la detección de contenidos musicales en señales de audio. Al ser la musicalidad una propiedad de las señales de audio más subjetiva que, por ejemplo, la presencia de voz hablada, es necesario establecer qué propiedades objetivas de la señal de audio influirán en la decisión sobre presencia o ausencia de música. Para el desarrollo de este trabajo, se toman como referencias de la musicalidad de un audio la presencia de un pulso rítmico en su evolución temporal y la aparición de armonía o cromaticidad en sus componentes frecuenciales. El sistema desarrollado en este TFG toma las decisiones de detección de música a partir de los dos componentes citados: ritmo y armonía. Para ello, cuenta con dos detectores dedicados a cada uno de los componentes, que pueden funcionar conjuntamente para detectar la presencia de contenidos musicales, pero también por separado para segmentar la señal en función del ritmo o de la armonía. El detector de ritmo se basa, principalmente, en la periodicidad de la energía localizada de la señal de audio. Esta periodicidad puede cuantificarse mediante la construcción y el análisis de matrices de autocorrelación, que contienen la evolución de la función autocorrelación a lo largo de la duración de la señal de audio. Por otra parte, el detector de armonía o cromaticidad parte del cálculo del cromagrama, una representación espectral basada en la Transformada de Fourier de Tiempo Corto, o ShortTime Fourier Transform (STFT). La peculiaridad de un cromagrama frente a un espectrograma es que acumula las componentes frecuenciales pertenecientes a una misma nota musical, permitiendo observar si existe una distribución del espectro que favorezca ciertas notas, denotando la presencia de armonía. En el desarrollo de este trabajo también se incluyen pruebas de rendimiento sobre la base de datos ATVS-Radio, que contiene 25 horas de audio etiquetado según la presencia de música y de vozThis Bachelor Thesis is framed within the area of audio segmentation, as it is focused in the detection of musical contents in audio signals. Musicality is a more subjective property of audio signals than, for example, speech activity, so it is necessary to define which objective properties of the signal will be relevant when assessing whether there is music present in it or not. The features evaluated as traces of musicality are the presence of a rhythmic beat and the harmony (chromaticity) found in the frequency spectrum of the signal. Our system bases its decisions in both components: rhythm and harmony. For that purpose, it uses two specific detectors, each one focused in one of the components. These detectors can work together to detect different kinds of musical contents, but they can also run separately to segment the audio based only on rhythm or harmony. The rhythm detector mainly evaluates the periodicity found in the local energy of the audio signal. This periodicity can be quantified building and analyzing the autocorrelation matrix of the audio. These matrices show the evolution of the autocorrelation function along the audio signal. On its side, the harmony detector starts from the chromagram matrix of the audio, a spectral representation derived from the Short-Time Fourier Transform (STFT). Unlike the spectrogram representation, a chromagram clusters the spectral components belonging to the same musical note, showing if the spectral distribution stimulates certain notes more than others, suggesting the existence of harmony. The realization of this Bachelor Thesis also includes some performance tests using the ATVS-Radio database, which contains 25 hours of audio with music and speech activity tags

    Identificación de versiones musicales (covers) utilizando aprendizaje maquinal

    Get PDF
    The task of recognizing when a song is a version or cover of another is a relatively easy task to do for humans when the song is known. However, to cause that a machine perform this work is complex due to the number of variables involved in preparing the cover, including variations in rhythm, tempo, instrumentation, genre and duration compared to the original version. In this project a methodology to identify covers from the application and analysis of machine-learning techniques, statistical signal processing and second order statistics was developed, in order to get that configuration to give the best results. For this we worked with the database Dataset Million Songs that gave us the metadata of the songs, from which data belonging to the acoustic characteristics of the song, such as pitches and timbres were used. Throughout the project we experimented with different data treatment techniques applied to the metadata provided by the database and we could see its usefulness to the task at hand. According to the results, a system that integrates processing frequency on pitches aligned with the beat, the implementation of a sparse coding and a data clustering system that showed a 63% correct identification of covers was obtained. Information on the possible use of supervised learning techniques combined with different types of metrics giving rise to future experiments to improve the results was also obtained.La tarea de reconocer cuándo una canción es una versión o cover de otra es una tarea relativamente fácil para el ser humano cuando se conoce la canción. Sin embargo, hacer que una máquina realice este trabajo resulta complejo debido al número de variables que se involucran en la elaboración del cover, mismas que incluyen variaciones en el ritmo, tempo, instrumentación, género y duración con respecto a la versión original. En este proyecto se desarrolló una metodología para identificar covers a partir de la aplicación y análisis de técnicas de aprendizaje maquinal, procesamiento de señales y estadística de segundo orden con la finalidad de obtener aquella configuración que diera los mejores resultados. Para esto se trabajó con la base de datos Million Songs Dataset que nos otorgó los metadatos de las canciones, a partir de los cuales se utilizaron los datos pertenecientes a las características acústicas de la canción, tales como, pitches y timbres. A lo largo del proyecto se experimentó con diferentes técnicas de tratamiento de los metadatos que proporcionó la base de datos y se pudo apreciar su utilidad para la tarea a desarrollar. De acuerdo a los resultados obtenidos, se obtuvo un sistema que integra un procesamiento en frecuencia sobre los pitches alineados con el beat, la aplicación de una codificación rala y un sistema de agrupamiento de datos que arrojó un 63% de identificación correcta de covers. También se obtuvo información sobre el posible uso de técnicas combinadas de aprendizaje supervisado con diferentes tipos de métricas dando pie a futuras experimentaciones para mejorar los resultados

    Analyse de structures répétitives dans les séquences musicales

    Get PDF
    Cette thèse rend compte de travaux portant sur l inférence de structures répétitives à partir du signal audio à l aide d algorithmes du texte. Son objectif principal est de proposer et d évaluer des algorithmes d inférence à partir d une étude formelle des notions de similarité et de répétition musicale.Nous présentons d abord une méthode permettant d obtenir une représentation séquentielle à partir du signal audio. Nous introduisons des outils d alignement permettant d estimer la similarité entre de telles séquences musicales, et évaluons l application de ces outils pour l identi cation automatique de reprises. Nous adaptons alors une technique d indexation de séquences biologiques permettant une estimation e cace de la similarité musicale au sein de bases de données conséquentes.Nous introduisons ensuite plusieurs répétitions musicales caractéristiques et employons les outils d alignement pour identi er ces répétitions. Une première structure, la répétition d un segment choisi, est analysée et évaluée dans le cadre dela reconstruction de données manquantes. Une deuxième structure, la répétition majeure, est dé nie, analysée et évaluée par rapport à un ensemble d annotations d experts, puis en tant qu alternative d indexation pour l identi cation de reprises.Nous présentons en n la problématique d inférence de structures répétitives telle qu elle est traitée dans la littérature, et proposons notre propre formalisation du problème. Nous exposons alors notre modélisation et proposons un algorithme permettant d identi er une hiérarchie de répétitions. Nous montrons la pertinence de notre méthode à travers plusieurs exemples et en l évaluant par rapport à l état de l art.The work presented in this thesis deals with repetitive structure inference from audio signal using string matching techniques. It aims at proposing and evaluating inference algorithms from a formal study of notions of similarity and repetition in music.We rst present a method for representing audio signals by symbolic strings. We introduce alignment tools enabling similarity estimation between such musical strings, and evaluate the application of these tools for automatic cover song identi cation. We further adapt a bioinformatics indexing technique to allow e cient assessments of music similarity in large-scale datasets. We then introduce several speci c repetitive structures and use alignment tools to analyse these repetitions. A rst structure, namely the repetition of a chosen segment, is retrieved and evaluated in the context of automatic assignment of missingaudio data. A second structure, namely the major repetition, is de ned, retrieved and evaluated regarding expert annotations, and as an alternative indexing method for cover song identi cation.We nally present the problem of repetitive structure inference as addressed in literature, and propose our own problem statement. We further describe our model and propose an algorithm enabling the identi cation of a hierarchical music structure. We emphasize the relevance of our method through several examples and by comparing it to the state of the art.BORDEAUX1-Bib.electronique (335229901) / SudocSudocFranceF
    corecore