1,276 research outputs found

    Automatic comparison of global children’s and adult songs supports a sensorimotor hypothesis for the origin of musical scales

    Get PDF
    Music throughout the world varies greatly, yet some musical features like scale structure display striking crosscultural similarities. Are there musical laws or biological constraints that underlie this diversity? The “vocal mistuning” hypothesis proposes that cross-cultural regularities in musical scales arise from imprecision in vocal tuning, while the integer-ratio hypothesis proposes that they arise from perceptual principles based on psychoacoustic consonance. In order to test these hypotheses, we conducted automatic comparative analysis of 100 children’s and adult songs from throughout the world. We found that children’s songs tend to have narrower melodic range, fewer scale degrees, and less precise intonation than adult songs, consistent with motor limitations due to their earlier developmental stage. On the other hand, adult and children’s songs share some common tuning intervals at small-integer ratios, particularly the perfect 5th (~3:2 ratio). These results suggest that some widespread aspects of musical scales may be caused by motor constraints, but also suggest that perceptual preferences for simple integer ratios might contribute to cross-cultural regularities in scale structure. We propose a “sensorimotor hypothesis” to unify these competing theories

    Modeling musicological information as trigrams in a system for simultaneous chord and local key extraction

    Get PDF
    In this paper, we discuss the introduction of a trigram musicological model in a simultaneous chord and local key extraction system. By enlarging the context of the musicological model, we hoped to achieve a higher accuracy that could justify the associated higher complexity and computational load of the search for the optimal solution. Experiments on multiple data sets have demonstrated that the trigram model has indeed a larger predictive power (a lower perplexity). This raised predictive power resulted in an improvement in the key extraction capabilities, but no improvement in chord extraction when compared to a system with a bigram musicological model

    Speech Decomposition and Enhancement

    Get PDF
    The goal of this study is to investigate the roles of steady-state speech sounds and transitions between these sounds in the intelligibility of speech. The motivation for this approach is that the auditory system may be particularly sensitive to time-varying frequency edges, which in speech are produced primarily by transitions between vowels and consonants and within vowels. The possibility that selectively amplifying these edges may enhance speech intelligibility is examined. Computer algorithms to decompose speech into two different components were developed. One component, which is defined as a tonal component, was intended to predominately include formant activity. The second component, which is defined as a non-tonal component, was intended to predominately include transitions between and within formants.The approach to the decomposition is to use a set of time-varying filters whose center frequencies and bandwidths are controlled to identify the strongest formant components in speech. Each center frequency and bandwidth is estimated based on FM and AM information of each formant component. The tonal component is composed of the sum of the filter outputs. The non-tonal component is defined as the difference between the original speech signal and the tonal component.The relative energy and intelligibility of the tonal and non-tonal components were compared to the original speech. Psychoacoustic growth functions were used to assess the intelligibility. Most of the speech energy was in the tonal component, but this component had a significantly lower maximum word recognition than the original and non-tonal component had. The non-tonal component averaged 2% of the original speech energy, but this component had almost equal maximum word recognition as the original speech. The non-tonal component was amplified and recombined with the original speech to generate enhanced speech. The energy of the enhanced speech was adjusted to be equal to the original speech, and the intelligibility of the enhanced speech was compared to the original speech in background noise. The enhanced speech showed higher recognition scores at lower SNRs, and the differences were significant. The original and enhanced speech showed similar recognition scores at higher SNRs. These results suggest that amplification of transient information can enhance the speech in noise and this enhancement method is more effective at severe noise conditions

    Automated manipulation of musical grammars to support episodic interactive experiences

    Get PDF
    Music is used to enhance the experience of participants and visitors in a range of settings including theatre, film, video games, installations and theme parks. These experiences may be interactive, contrastingly episodic and with variable duration. Hence, the musical accompaniment needs to be dynamic and to transition between contrasting music passages. In these contexts, computer generation of music may be necessary for practical reasons including distribution and cost. Automated and dynamic composition algorithms exist but are not well-suited to a highly interactive episodic context owing to transition-related problems including discontinuity, abruptness, extended repetitiveness and lack of musical granularity and musical form. Addressing these problems requires algorithms capable of reacting to participant behaviour and episodic change in order to generate formic music that is continuous and coherent during transitions. This thesis presents the Form-Aware Transitioning and Recovering Algorithm (FATRA) for realtime, adaptive, form-aware music generation to provide continuous musical accompaniment in episodic context. FATRA combines stochastic grammar adaptation and grammar merging in real time. The Form-Aware Transition Engine (FATE) implementation of FATRA estimates the time-occurrence of upcoming narrative transitions and generates a harmonic sequence as narrative accompaniment with a focus on coherent, form-aware music transitioning between music passages of contrasting character. Using FATE, FATRA has been evaluated in three perceptual user studies: An audioaugmented real museum experience, a computer-simulated museum experience and a music-focused online study detached from narrative. Music transitions of FATRA were benchmarked against common approaches of the video game industry, i.e. crossfading and direct transitions. The participants were overall content with the music of FATE during their experience. Transitions of FATE were significantly favoured against the crossfading benchmark and competitive against the direct transitions benchmark, without statistical significance for the latter comparison. In addition, technical evaluation demonstrated capabilities of FATRA including form generation, repetitiveness avoidance and style/form recovery in case of falsely predicted narrative transitions. Technical results along with perceptual preference and competitiveness against the benchmark approaches are deemed as positive and the structural advantages of FATRA, including form-aware transitioning, carry considerable potential for future research

    Comparison Structure Analysis

    Get PDF
    This study presents an automatic, computer-aided analytical method called Comparison Structure Analysis (CSA), which can be applied to different dimensions of music. The aim of CSA is first and foremost practical: to produce dynamic and understandable representations of musical properties by evaluating the prevalence of a chosen musical data structure through a musical piece. Such a comparison structure may refer to a mathematical vector, a set, a matrix or another type of data structure and even a combination of data structures. CSA depends on an abstract systematic segmentation that allows for a statistical or mathematical survey of the data. To choose a comparison structure is to tune the apparatus to be sensitive to an exclusive set of musical properties. CSA settles somewhere between traditional music analysis and computer aided music information retrieval (MIR). Theoretically defined musical entities, such as pitch-class sets, set-classes and particular rhythm patterns are detected in compositions using pattern extraction and pattern comparison algorithms that are typical within the field of MIR. In principle, the idea of comparison structure analysis can be applied to any time-series type data and, in the music analytical context, to polyphonic as well as homophonic music. Tonal trends, set-class similarities, invertible counterpoints, voice-leading similarities, short-term modulations, rhythmic similarities and multiparametric changes in musical texture were studied. Since CSA allows for a highly accurate classification of compositions, its methods may be applicable to symbolic music information retrieval as well. The strength of CSA relies especially on the possibility to make comparisons between the observations concerning different musical parameters and to combine it with statistical and perhaps other music analytical methods. The results of CSA are dependent on the competence of the similarity measure. New similarity measures for tonal stability, rhythmic and set-class similarity measurements were proposed. The most advanced results were attained by employing the automated function generation – comparable with the so-called genetic programming – to search for an optimal model for set-class similarity measurements. However, the results of CSA seem to agree strongly, independent of the type of similarity function employed in the analysis.Tämä tutkimus esittelee uuden musiikkianalyyttisen metodin, vertailurakenneanalyysin (VRA, engl. Comparison Structure Analysis, CSA), jonka avulla voidaan analysoida musiikin eri ulottuvuuksia, kuten harmoniaa tai rytmiä. VRA:n ideana on mitata tietyn ennalta valitun musiikillisen rakenteen, vaikkapa jonkin sävelasteikon, vallitsevuutta musiikin kullakin ajanhetkellä. Tämä edellyttää kolmea asiaa. Ensiksi, intuitiivisesti tai muulla tavoin valittu musiikillinen piirre, jota tässä kutsutaan yleisesti vertailurakenteeksi, on esitettävä matemaattisessa muodossa, esimerkiksi matemaattisen avaruuden vektorina. Vertailurakenne voidaan muodostaa myös useiden eri tyyppisten, musiikin eri ulottuvuuksiin liittyvien tietorakenteiden yhdistelmänä. Toiseksi, analysoitava musiikillinen data, esimerkiksi musiikista muodostetut sävelluokat (C:stä H:hon), on pystyttävä ryhmittelemään vastaavantyyppisiksi objekteiksi. Lisäksi tarvitaan vielä matemaattinen funktio, joka kykenee mittaamaan valitun vertailurakenteen ja musiikista ryhmiteltyjen segmenttien välistä samankaltaisuutta tai vastaavasti, etäisyyttä. Toisin sanoen, VRA:ssa verrataan valittua vertailurakennetta, esimerkiksi diatonista asteikkoa, kaikkiin musiikista segmentoituihin vastaavantyyppisiin objekteihin. Mittaustulokset saadaan lukuarvoina yleensä välillä 0–1, jossa arvo 1 voi – mittausfunktion luonteesta riippuen – tarkoittaa joko täydellistä samankaltaisuutta tai suurinta mahdollista etäisyyttä. Havainnollisena analyysin kohteena voisimme kuvitella länsimaista taidemusiikkia edustavan sävellyksen, jossa siirrytään keskiaikaisesta diatonisesta musiikista historiallisesti ja tyylillisesti kohti 1900-luvun atonaalista musiikkia. Mikäli tässä tapauksessa vertailurakenteena käytettäisiin mainittua diatonista asteikkoa, VRA paljastaisi musiikissa korvinkin havaittavan ei-diatonisoitumisen. Tulosten esittämisellä esimerkiksi ajallisia muutoksia esittävin mittauskäyrin tai luokittelua havainnollistavin keskiarvopistein on merkittävä asema analyysissa. VRA sijoittuu perinteisen musiikkianalyysin ja tietokonetta hyödyntävien musiikin sisältöhakuun (music information retrieval, MIR) keskittyvien tekniikoiden välimaastoon. Sen avulla voidaan tunnistaa ja mitata perinteiselle musiikkianalyysille tyypillisia kohteita kuten karakteristisia rytmejä, sävelluokkajoukkoja, joukkoluokkia, tonaliteetteja ja käänteiskontrapunkteja soveltamalla MIR:lle tyypillisiä segmentointi- ja vertailualgoritmeja. Vertailurakenneanalyysin suurimmaksi haasteeksi on osoittautunut musiikillisten segmenttien muodostamiseen tarvittavan automaattisen algoritmin kehittäminen. Voidaan näet osoittaa, että sama musiikillinen data on useimmiten mahdollista segmentoida – musiikillisesti mielekkäästi – monella eri tavalla. Silloin, kun kyse on harmoniaan liittyvistä objekteista, tehtävä on erityisen haastava, sillä tällöin musiikin säveltapahtumia joudutaan tarkastelemaan niin ajallisessa kuin vertikaalisessakin suunnassa. Musiikin tonaalisuudessa ja sävelluokkasisällössä tapahtuvien muutosten analysoimista varten tässä tutkimuksessa kehitettiinkin kaksi erilaista segmentointialgoritmia, jotka muodostavat musiikillisesta datasta osin limittäisiä sävelluokkajoukkoja. Metodien erilaisuudesta huolimatta ‘herkkyysanalyysillä’ voitiin osoittaa, että molemmat menetelmät ovat hyvin vähän riippuvaisia syötetyn datan luonteesta; niiden avulla saadut tulokset olivat hyvin samankaltaisia. VRA:lla saatuja tuloksia voidaan edelleen tarkastella myös tilastollisen merkitsevyyden näkökulmasta. Koska VRA:lla pystytään havaitsemaan musiikin eri dimensioissa tapahtuvia muutoksia, tämän johdannaisena voidaan tutkia myös sitä, missä määrin jokin sävellys on tyylillisesti koherentti verrattuna johonkin toiseen sävellykseen eli kummassa muutokset ovat tarkasteltavan ominaisuuden suhteen keskimäärin pienemmät ja kummassa suuremmat. Lisäksi VRA tarjoaa mahdollisuuden musiikin luokitteluun saatujen mittausarvojen perusteella: mitä enemmän musiikillisia parametrejä ja useampia vertailurakenteita analyysissa hyödynnetään, sitä tarkemmin sävellyksiä voidaan luokitella. Niinpä VRA:n keinoja voidaan tulevaisuudessa kuvitella käytettävän myös musiikin sisältöhakuun (MIR). Tällaisessa tapauksessa vertailurakenne tai -rakenteet voitaisiin ‘laskea’ musiikillisesta datasta suoraan jollakin matemaattisella menetelmällä – kuten pääkomponenttianalyysilla – etukäteen suoritettavan intuitiivisen valinnan sijaan. Tutkimuksen tuloksiin lukeutuvat myös useat VRA:n tarpeisiin kehitetyt samankaltaisuusmittarit. Näistä mielenkiintoisin lienee sävelluokkajoukkojen välisen samankaltaisuuden mittaamiseen kehitetty funktio expcos, joka löytyi ns. geneettisen ohjelmoinnin avulla. Mainitussa kokeessa tietokoneella generoitiin arviolta n. 800 000 samankaltaisuusmittaria, joiden tuottamia tuloksia verrattiin ihmisten tekemiin samankaltaisuusarvioihin. Niistä n. 450 osoittautui käyttökelpoiseksi. Sensitiivisyysanalyysi osoitti, että em. funktio paitsi korreloi voimakkaammin empiiristen samankaltaisuusarvioiden kanssa, on VRA:ssa myös robustimpi kuin kenties tunnetuin samaan tarkoitukseen kehitetty funktio, REL (David Lewin, 1980). Käytännössä tällä ei ole kuitenkaan merkitystä: REL toimii VRA:ssa aivan yhtä hyvin kuin expcos. VRA:n avulla musiikkia tarkastellaan ikään kuin jonkinlaisena tilastollisena sävelmassana, eikä se niin muodoin kykene kertomaan siitä, miten analysoitava musiikki on yksityiskohtien tasolla sävelletty; perinteiset musiikkianalyysimenetelmät pureutuvat tehtävään paremmin. Toisaalta, tämä ei ole VRA:n tarkoituskaan vaan päinvastoin, sen avulla sävellysten muodosta pystytään muodostamaan laajoja yleiskuvia, jotka ovat useimmiten havaintokykymme ulottumattomissa. Vertailurakenneanalyysi on hyvin joustava menetelmä. Mikään ei nimittäin estä tarkastelemasta musiikin eri dimensioista saatuja mittaustuloksia keskenään ja näin etsimästä niiden välisiä yhteyksiä. Lisäksi menetelmän periaatteita voitaisiin kuvitella käytettävän yleisemminkin, esimerkiksi linnunlaulun muodon tarkasteluun tai vaikkapa jokipuron solinasta löytyvien toistuvien jaksojen havainnointiin. VRA:n periaatteita voidaankin soveltaa mihin tahansa numeerisesti diskreettiin muotoon saatettuun aikasarjaan.Siirretty Doriast

    Affective Music Information Retrieval

    Full text link
    Much of the appeal of music lies in its power to convey emotions/moods and to evoke them in listeners. In consequence, the past decade witnessed a growing interest in modeling emotions from musical signals in the music information retrieval (MIR) community. In this article, we present a novel generative approach to music emotion modeling, with a specific focus on the valence-arousal (VA) dimension model of emotion. The presented generative model, called \emph{acoustic emotion Gaussians} (AEG), better accounts for the subjectivity of emotion perception by the use of probability distributions. Specifically, it learns from the emotion annotations of multiple subjects a Gaussian mixture model in the VA space with prior constraints on the corresponding acoustic features of the training music pieces. Such a computational framework is technically sound, capable of learning in an online fashion, and thus applicable to a variety of applications, including user-independent (general) and user-dependent (personalized) emotion recognition and emotion-based music retrieval. We report evaluations of the aforementioned applications of AEG on a larger-scale emotion-annotated corpora, AMG1608, to demonstrate the effectiveness of AEG and to showcase how evaluations are conducted for research on emotion-based MIR. Directions of future work are also discussed.Comment: 40 pages, 18 figures, 5 tables, author versio
    corecore