343 research outputs found
Evaluation framework for automatic singing transcription
In this paper, we analyse the evaluation strategies used in previous works on automatic singing transcription, and we present a novel, comprehensive and freely available evaluation framework for automatic singing transcription. This framework consists of a cross-annotated dataset and a set of extended evaluation measures, which are integrated in a Matlab toolbox. The presented evaluation measures are based on standard MIREX note-tracking measures, but they provide extra information about the type of errors made by the singing transcriber. Finally, a practical case of use is presented, in which the evaluation framework has been used to perform a comparison in detail of several state-of-the-art singing transcribers.Universidad de Málaga. Campus de Excelencia Internacional Andalucía Tech. This work has been funded by the Ministerio de Economía y Competitividad of the Spanish Government under Project No. TIN2013-47276-C6-2-R and by the Junta de Andalucía under Project No. P11-TIC-7154
Singing information processing: techniques and applications
Por otro lado, se presenta un método para el cambio realista de intensidad de voz cantada. Esta transformación se basa en un modelo paramétrico de la envolvente espectral, y mejora sustancialmente la percepción de realismo al compararlo con software comerciales como Melodyne o Vocaloid. El inconveniente del enfoque propuesto es que requiere intervención manual, pero los resultados conseguidos arrojan importantes conclusiones hacia la modificación automática de intensidad con resultados realistas.
Por último, se propone un método para la corrección de disonancias en acordes aislados. Se basa en un análisis de múltiples F0, y un desplazamiento de la frecuencia de su componente sinusoidal. La evaluación la ha realizado un grupo de músicos entrenados, y muestra un claro incremento de la consonancia percibida después de la transformación propuesta.La voz cantada es una componente esencial de la música en todas las culturas del mundo, ya que se trata de una forma increíblemente natural de expresión musical. En consecuencia, el procesado automático de voz cantada tiene un gran impacto desde la perspectiva de la industria, la cultura y la ciencia. En este contexto, esta Tesis contribuye con un conjunto variado de técnicas y aplicaciones relacionadas con el procesado de voz cantada, así como con un repaso del estado del arte asociado en cada caso.
En primer lugar, se han comparado varios de los mejores estimadores de tono conocidos para el caso de uso de recuperación por tarareo. Los resultados demuestran que \cite{Boersma1993} (con un ajuste no obvio de parámetros) y \cite{Mauch2014}, tienen un muy buen comportamiento en dicho caso de uso dada la suavidad de los contornos de tono extraídos.
Además, se propone un novedoso sistema de transcripción de voz cantada basada en un proceso de histéresis definido en tiempo y frecuencia, así como una herramienta para evaluación de voz cantada en Matlab. El interés del método propuesto es que consigue tasas de error cercanas al estado del arte con un método muy sencillo. La herramienta de evaluación propuesta, por otro lado, es un recurso útil para definir mejor el problema, y para evaluar mejor las soluciones propuestas por futuros investigadores.
En esta Tesis también se presenta un método para evaluación automática de la interpretación vocal. Usa alineamiento temporal dinámico para alinear la interpretación del usuario con una referencia, proporcionando de esta forma una puntuación de precisión de afinación y de ritmo. La evaluación del sistema muestra una alta correlación entre las puntuaciones dadas por el sistema, y las puntuaciones anotadas por un grupo de músicos expertos
An Auditory Model Based Transcriber of Vocal Queries
In this paper a new auditory model-based transcriber of melodic queries produced by a human voice is presented. The newly presented system is tested systematically, together with some other state-of-the-art systems, on three types of vocal queries: singing with syllables, singing with words and whistling. The experimental results show that the new system can transcribe these queries with an accuracy between 76% (whistling) to 85% (singing with syllables), and that it clearly outperforms the other systems included in the test on all three query modes
Melodic Transcription of Flamenco Singing from Monophonic and Polyphonic Music Recordings
We propose a method for the automatic transcription of flamenco singing from monophonic and
polyphonic music recordings. Our transcription system is based on estimating the fundamental frequency (f0)
of the singing voice, and follows an iterative strategy for note segmentation and labelling. The generated
transcriptions are used in the context of melodic similarity, style classification and pattern detection. In our
study, we discuss the difficulties found in transcribing flamenco singing and in evaluating the obtained
transcriptions, we analyze the influence of the different steps of the algorithm, and we state the main
limitations of our approach and discuss the challenges for future studies
A HMM-Based Pitch Tracker for Audio Queries
In this paper we present an approach to the transcription of musical queries based on a HMM. The HMM is used to model the audio features related to the singing voice, and the transcription is obtained through Viterbi decoding. We report our preliminary work on evaluation of the system
Exploring African tone scales
[TODO] Add abstract here
Devil in the Strawstack, Devil in the Details: A Comparative Study of Old-Time Fiddle Tune Transcriptions
This thesis asks what transcriptions of old-time fiddle tunes might tell us about their underlying purposes and the nature of transcription. How could differing approaches to transcription reflect the intentions of the author, and what are those intentions? What does this suggest about how aural information is prioritized? Through a comparative analysis of three transcriptions of the same recording—Tommy Jarrell’s “Devil in the Strawstack”—this thesis examines how musical information is prioritized and how transcribers have adapted their methods to better reflect the nuances of old-time music. The three transcriptions come from Clare Milliner and Walt Koken (The Milliner-Koken Collection of American Fiddle Tunes), Drew Beisswenger (Appalachian Fiddle Tunes), and John Engle. The analysis of these transcriptions suggests new frameworks for interpreting old-time fiddling, further conversations about the possibilities and limitations of transcription, and provides insight into the underlying purposes of transcription
- …