2,909 research outputs found

    Algoritmeja melodian etsimiseen ja nuotinnukseen

    Get PDF
    This thesis studies two problems in music information retrieval: search for a given melody in an audio database, and automatic melody transcription. In both of the problems, the representation of the melody is symbolic, i.e., the melody consists of onset times and pitches of musical notes. In the first part of the thesis we present new algorithms for symbolic melody search. First, we present algorithms that work with a matrix representation of the audio data, that corresponds to the discrete Fourier transform. We formulate the melody search problem as a generalization of the classical maximum subarray problem. After this, we discuss algorithms that operate on a geometric representation of the audio data. In this case, the Fourier transform is converted into a set of points in the two-dimensional plane. The main contributions of the first part of the thesis lie in algorithm design. We present new efficient algorithms, most of which are based on dynamic programming optimization, i.e., calculating dynamic programming values more efficiently using appropriate data structures and algorithm design techniques. Finally, we experiment with the algorithms using real-world audio databases and melody queries, which shows that the algorithms can be successfully used in practice. Compared to previous melody search systems, the novelty in our approach is that the search can be performed directly in the Fourier transform of the audio data. The second part of the thesis focuses on automatic melody transcription. As this problem is very difficult in its pure form, we ask whether using certain additional information would facilitate the transcription. We present two melody transcription systems that extract the main melodic line from an audio signal using additional information. The first transcription system utilizes as additional information an initial transcription created by the human user of the system. It turns out that users without a musical background are able to provide the system with useful information about the melody, so that the transcription quality increases considerably. The second system takes a chord transcription as additional information, and produces a melody transcription that matches both the audio signal and the harmony given in the chord transcription. Our system is a proof of concept that the connection between melody and harmony can be used in automatic melody transcription.Väitöskirjan aiheena on kaksi musiikkitiedonhaun ongelmaa: melodian etsiminen audiotietokannasta sekä automaattinen melodian nuotinnus. Molemmissa ongelmissa melodia on esitetty symbolisesti eli melodia muodostuu nuottien alkukohdista ja korkeuksista. Väitöskirjan alkuosa esittelee uusia algoritmeja symbolisen melodian etsimiseen. Ensin tarkastelussa on tilanne, jossa audiodata on diskreettiä Fourier-muunnosta vastaavassa matriisimuodossa. Tällöin melodian etsiminen voidaan nähdä yleistyksenä klassisesta taulukon suurimman summan tuottavan välin etsimisestä. Tämän jälkeen käsittely siirtyy algoritmeihin, joissa audiodata on esitetty geometrisesti kaksiulotteisen tason pistejoukkona. Tärkeimmät kontribuutiot väitöskirjan alkuosassa liittyvät algoritmien suunnitteluun. Väitöskirja esittelee uusia tehokkaita algoritmeja, joista useimmat perustuvat dynaamisen ohjelmoinnin optimointiin. Tämä tarkoittaa, että dynaamisen ohjelmoinnin arvoja lasketaan tavallista tehokkaammin käyttämällä sopivia tietorakenteita ja algoritmien suunnittelun tekniikoita. Algoritmeja myös testataan todellisilla audiotietokannoilla ja melodiahauilla, mikä osoittaa niiden toimivuuden käytännössä. Verrattuna aiempiin tutkimuksiin väitöskirjan lähestymistavan etuna on, että melodian haku voidaan kohdistaa suoraan audiodatan Fourier-muunnokseen. Väitöskirjan jälkiosa keskittyy automaattiseen melodian nuotinnukseen. Koska ongelma on hyvin vaikea sellaisenaan, tutkimuskysymyksenä on, miten nuotinnusta voi helpottaa käyttämällä musiikillista lisätietoa. Väitöskirja esittelee kaksi melodian nuotinnukseen tarkoitettua järjestelmää, jotka pyrkivät erottamaan tärkeimmän melodialinjan audiosignaalista musiikillisen lisätiedon avulla. Ensimmäinen järjestelmä käyttää lisätietona ihmiskäyttäjän arvioita nuottien alkukohdista ja korkeuksista. Osoittautuu, että käyttäjät, joilla ei ole musiikkitaustaa, pystyvät tarjoamaan järjestelmälle hyödyllistä lisätietoa, jonka avulla nuotinnuksen laatu parantuu merkittävästi. Toisen järjestelmän lisätietona on sointukulku, joka kuvaa musiikin harmoniaa. Järjestelmä tuottaa nuotinnuksen, joka perustuu sekä audiosignaaliin että sointukulkuun. Järjestelmä on osoitus siitä, että melodian ja harmonian yhteyttä voidaan hyödyntää automaattisessa melodian nuotinnuksessa

    VGM-RNN: Recurrent Neural Networks for Video Game Music Generation

    Get PDF
    The recent explosion of interest in deep neural networks has affected and in some cases reinvigorated work in fields as diverse as natural language processing, image recognition, speech recognition and many more. For sequence learning tasks, recurrent neural networks and in particular LSTM-based networks have shown promising results. Recently there has been interest – for example in the research by Google’s Magenta team – in applying so-called “language modeling” recurrent neural networks to musical tasks, including for the automatic generation of original music. In this work we demonstrate our own LSTM-based music language modeling recurrent network. We show that it is able to learn musical features from a MIDI dataset and generate output that is musically interesting while demonstrating features of melody, harmony and rhythm. We source our dataset from VGMusic.com, a collection of user-submitted MIDI transcriptions of video game songs, and attempt to generate output which emulates this kind of music

    Automatic music transcription: challenges and future directions

    Get PDF
    Automatic music transcription is considered by many to be a key enabling technology in music signal processing. However, the performance of transcription systems is still significantly below that of a human expert, and accuracies reported in recent years seem to have reached a limit, although the field is still very active. In this paper we analyse limitations of current methods and identify promising directions for future research. Current transcription methods use general purpose models which are unable to capture the rich diversity found in music signals. One way to overcome the limited performance of transcription systems is to tailor algorithms to specific use-cases. Semi-automatic approaches are another way of achieving a more reliable transcription. Also, the wealth of musical scores and corresponding audio data now available are a rich potential source of training data, via forced alignment of audio to scores, but large scale utilisation of such data has yet to be attempted. Other promising approaches include the integration of information from multiple algorithms and different musical aspects
    corecore