343 research outputs found

    Evaluation framework for automatic singing transcription

    Get PDF
    In this paper, we analyse the evaluation strategies used in previous works on automatic singing transcription, and we present a novel, comprehensive and freely available evaluation framework for automatic singing transcription. This framework consists of a cross-annotated dataset and a set of extended evaluation measures, which are integrated in a Matlab toolbox. The presented evaluation measures are based on standard MIREX note-tracking measures, but they provide extra information about the type of errors made by the singing transcriber. Finally, a practical case of use is presented, in which the evaluation framework has been used to perform a comparison in detail of several state-of-the-art singing transcribers.Universidad de Málaga. Campus de Excelencia Internacional Andalucía Tech. This work has been funded by the Ministerio de Economía y Competitividad of the Spanish Government under Project No. TIN2013-47276-C6-2-R and by the Junta de Andalucía under Project No. P11-TIC-7154

    Singing information processing: techniques and applications

    Get PDF
    Por otro lado, se presenta un método para el cambio realista de intensidad de voz cantada. Esta transformación se basa en un modelo paramétrico de la envolvente espectral, y mejora sustancialmente la percepción de realismo al compararlo con software comerciales como Melodyne o Vocaloid. El inconveniente del enfoque propuesto es que requiere intervención manual, pero los resultados conseguidos arrojan importantes conclusiones hacia la modificación automática de intensidad con resultados realistas. Por último, se propone un método para la corrección de disonancias en acordes aislados. Se basa en un análisis de múltiples F0, y un desplazamiento de la frecuencia de su componente sinusoidal. La evaluación la ha realizado un grupo de músicos entrenados, y muestra un claro incremento de la consonancia percibida después de la transformación propuesta.La voz cantada es una componente esencial de la música en todas las culturas del mundo, ya que se trata de una forma increíblemente natural de expresión musical. En consecuencia, el procesado automático de voz cantada tiene un gran impacto desde la perspectiva de la industria, la cultura y la ciencia. En este contexto, esta Tesis contribuye con un conjunto variado de técnicas y aplicaciones relacionadas con el procesado de voz cantada, así como con un repaso del estado del arte asociado en cada caso. En primer lugar, se han comparado varios de los mejores estimadores de tono conocidos para el caso de uso de recuperación por tarareo. Los resultados demuestran que \cite{Boersma1993} (con un ajuste no obvio de parámetros) y \cite{Mauch2014}, tienen un muy buen comportamiento en dicho caso de uso dada la suavidad de los contornos de tono extraídos. Además, se propone un novedoso sistema de transcripción de voz cantada basada en un proceso de histéresis definido en tiempo y frecuencia, así como una herramienta para evaluación de voz cantada en Matlab. El interés del método propuesto es que consigue tasas de error cercanas al estado del arte con un método muy sencillo. La herramienta de evaluación propuesta, por otro lado, es un recurso útil para definir mejor el problema, y para evaluar mejor las soluciones propuestas por futuros investigadores. En esta Tesis también se presenta un método para evaluación automática de la interpretación vocal. Usa alineamiento temporal dinámico para alinear la interpretación del usuario con una referencia, proporcionando de esta forma una puntuación de precisión de afinación y de ritmo. La evaluación del sistema muestra una alta correlación entre las puntuaciones dadas por el sistema, y las puntuaciones anotadas por un grupo de músicos expertos

    An Auditory Model Based Transcriber of Vocal Queries

    Get PDF
    In this paper a new auditory model-based transcriber of melodic queries produced by a human voice is presented. The newly presented system is tested systematically, together with some other state-of-the-art systems, on three types of vocal queries: singing with syllables, singing with words and whistling. The experimental results show that the new system can transcribe these queries with an accuracy between 76% (whistling) to 85% (singing with syllables), and that it clearly outperforms the other systems included in the test on all three query modes

    Melodic Transcription of Flamenco Singing from Monophonic and Polyphonic Music Recordings

    Get PDF
    We propose a method for the automatic transcription of flamenco singing from monophonic and polyphonic music recordings. Our transcription system is based on estimating the fundamental frequency (f0) of the singing voice, and follows an iterative strategy for note segmentation and labelling. The generated transcriptions are used in the context of melodic similarity, style classification and pattern detection. In our study, we discuss the difficulties found in transcribing flamenco singing and in evaluating the obtained transcriptions, we analyze the influence of the different steps of the algorithm, and we state the main limitations of our approach and discuss the challenges for future studies

    Automatic Music Transcription as We Know it Today

    Full text link

    A HMM-Based Pitch Tracker for Audio Queries

    Get PDF
    In this paper we present an approach to the transcription of musical queries based on a HMM. The HMM is used to model the audio features related to the singing voice, and the transcription is obtained through Viterbi decoding. We report our preliminary work on evaluation of the system

    Tarsos: a platform to explore pitch scales in non-western and western music

    Get PDF

    Exploring African tone scales

    Get PDF
    [TODO] Add abstract here

    Devil in the Strawstack, Devil in the Details: A Comparative Study of Old-Time Fiddle Tune Transcriptions

    Get PDF
    This thesis asks what transcriptions of old-time fiddle tunes might tell us about their underlying purposes and the nature of transcription. How could differing approaches to transcription reflect the intentions of the author, and what are those intentions? What does this suggest about how aural information is prioritized? Through a comparative analysis of three transcriptions of the same recording—Tommy Jarrell’s “Devil in the Strawstack”—this thesis examines how musical information is prioritized and how transcribers have adapted their methods to better reflect the nuances of old-time music. The three transcriptions come from Clare Milliner and Walt Koken (The Milliner-Koken Collection of American Fiddle Tunes), Drew Beisswenger (Appalachian Fiddle Tunes), and John Engle. The analysis of these transcriptions suggests new frameworks for interpreting old-time fiddling, further conversations about the possibilities and limitations of transcription, and provides insight into the underlying purposes of transcription
    corecore