Music signals are complex. When musicians play together, their instruments' sounds superimpose
and form a single complex sound mixture. Furthermore, even the sound of a single instrument
may already comprise sound components of harmonic, percussive, noise-like, and transient
nature, among others. The complexity of music signal processing tasks such as time-scale
modifcation - the task of stretching or compressing the duration of a music signal - or music
source separation - the task of separating a music recording into signals that correspond to the
individual instruments - is therefore often directly derived from the complexity of music signals
themselves.
In this thesis, our goal is to explore novel ways of approaching music signal processing tasks. One
of our core ideas is to reduce a task's complexity by decomposing a given music signal into a set
of two or more mid-level components and then process these components individually. Depending
on the audio decomposition technique, a mid-level component may reflect certain aspects of the
music signal, such as its harmonic or percussive sounds. This explicit interpretation often allows
us to apply more specialized methods for processing the mid-level components. In a last step,
the processed component signals are recombined to form a global result.
As part of our contributions, we propose various novel audio decomposition techniques for
splitting a music signal into mid-level components. For example, we present a method for
decomposing a signal into three components that contain the signal's harmonic-, percussive-, and
noise-like sounds, respectively. Furthermore, we apply the general strategy described previously
to approach different tasks in the fields of digital signal processing and music information retrieval.
In particular, we propose novel procedures for time-scale modification, singing voice separation,
vibrato analysis, and audio mosaicing. Built upon these methods, we additionally present various
prototype user interfaces and tools for analyzing, modifying, editing, and synthesizing music
signals.Musiksignale sind typischerweise hoch komplexe Klanggemische, die sich aus der Überlagerung
von einzelnen, miteinander interagierenden Instrumentalstimmen ergeben. Sogar der Klang
eines einzelnen Instruments kann sich bereits aus vielen unterschiedlichen Klangkomponenten
zusammensetzen, zum Beispiel aus harmonischen, perkussiven, rauschartigen und transienten
Anteilen. Diese Komplexität macht die automatisierte Verarbeitung von Musiksignalen, etwa für
Aufgabenstellungen wie Time-Stretching (Stauchung oder Streckung der Länge einer Musikaufnahme)
oder Quellentrennung (Zerlegung einer Musikaufnahme in Anteile die zu den einzelnen
Instrumentalstimmen korrespondieren), zu einem äußerst schwierigen Problem.
Eine Kernidee dieser Arbeit besteht darin, die Verarbeitung von komplexen Musikaufnahmen
zu erleichtern, indem man die Aufnahme zunächst in zwei oder mehrere mid-level Klangkomponenten
zerlegt und diese Teilsignale anschließend separat weiterverarbeitet. Da die extrahierten
Komponenten gewisse, von der Zerlegungstechnik vorgegebene Eigenschaften haben, lassen sich
für deren Verarbeitung oft spezialisierte Techniken verwenden. In einem letzten Schritt werden
die verarbeiteten Komponenten wieder zusammengeführt.
In dieser Arbeit stellen wir zunächst verschiedene neuartige Zerlegungstechniken für Audiodaten
vor. Eines dieser Verfahren zerlegt beispielsweise eine Musikaufnahme in drei mid-level Komponenten,
die zu den harmonischen, den perkussiven und den rauschartigen Klanganteilen der
Aufnahme korrespondieren. Diese und weitere Zerlegungstechniken werden dann verwendet um
neuartige Verfahren für Aufgabenstellungen aus den Bereichen der digitalen Audiosignalverarbeitung
und des Music Information Retrievals zu entwickeln, beispielsweise zum Time-Stretching,
zur Abtrennung der Singstimme aus polyphonen Musikaufnahmen, zur Analyse von Vibrato und
für das Audio Mosaicing. Weiterhin stellen wir mehrere prototypische Benutzerschnittstellen
und Werkzeuge zur Analyse, Modifikation, Editierung und Synthese von Musikaufnahmen vor