56 research outputs found
Proceedings of the 7th Sound and Music Computing Conference
Proceedings of the SMC2010 - 7th Sound and Music Computing Conference, July 21st - July 24th 2010
Pitch-Informed Solo and Accompaniment Separation
Das Thema dieser Dissertation ist die Entwicklung eines Systems zur
Tonhöhen-informierten Quellentrennung von Musiksignalen in Soloinstrument
und Begleitung. Dieses ist geeignet, die dominanten Instrumente aus einem
Musikstück zu isolieren, unabhängig von der Art des Instruments, der
Begleitung und Stilrichtung. Dabei werden nur einstimmige
Melodieinstrumente in Betracht gezogen. Die Musikaufnahmen liegen monaural
vor, es kann also keine zusätzliche Information aus der Verteilung der
Instrumente im Stereo-Panorama gewonnen werden.
Die entwickelte Methode nutzt Tonhöhen-Information als Basis für eine
sinusoidale Modellierung der spektralen Eigenschaften des Soloinstruments
aus dem Musikmischsignal. Anstatt die spektralen Informationen pro Frame zu
bestimmen, werden in der vorgeschlagenen Methode Tonobjekte für die
Separation genutzt. Tonobjekt-basierte Verarbeitung ermöglicht es,
zusätzlich die Notenanfänge zu verfeinern, transiente Artefakte zu
reduzieren, gemeinsame Amplitudenmodulation (Common Amplitude Modulation
CAM) einzubeziehen und besser nichtharmonische Elemente der Töne
abzuschätzen. Der vorgestellte Algorithmus zur Quellentrennung von
Soloinstrument und Begleitung ermöglicht eine Echtzeitverarbeitung und ist
somit relevant für den praktischen Einsatz.
Ein Experiment zur besseren Modellierung der Zusammenhänge zwischen
Magnitude, Phase und Feinfrequenz von isolierten Instrumententönen wurde
durchgeführt. Als Ergebnis konnte die Kontinuität der zeitlichen
Einhüllenden, die Inharmonizität bestimmter Musikinstrumente und die
Auswertung des Phasenfortschritts für die vorgestellte Methode ausgenutzt
werden. Zusätzlich wurde ein Algorithmus für die Quellentrennung in
perkussive und harmonische Signalanteile auf Basis des Phasenfortschritts
entwickelt. Dieser erreicht ein verbesserte perzeptuelle Qualität der
harmonischen und perkussiven Signale gegenüber vergleichbaren Methoden nach
dem Stand der Technik.
Die vorgestellte Methode zur Klangquellentrennung in Soloinstrument und
Begleitung wurde zu den Evaluationskampagnen SiSEC 2011 und SiSEC 2013
eingereicht. Dort konnten vergleichbare Ergebnisse im Hinblick auf
perzeptuelle Bewertungsmaße erzielt werden. Die Qualität eines
Referenzalgorithmus im Hinblick auf den in dieser Dissertation
beschriebenen Instrumentaldatensatz übertroffen werden.
Als ein Anwendungsszenario für die Klangquellentrennung in Solo und
Begleitung wurde ein Hörtest durchgeführt, der die Qualitätsanforderungen
an Quellentrennung im Kontext von Musiklernsoftware bewerten sollte. Die
Ergebnisse dieses Hörtests zeigen, dass die Solo- und Begleitspur gemäß
unterschiedlicher Qualitätskriterien getrennt werden sollten. Die
Musiklernsoftware Songs2See integriert die vorgestellte
Klangquellentrennung bereits in einer kommerziell erhältlichen Anwendung.This thesis addresses the development of a system for pitch-informed solo
and accompaniment separation capable of separating main instruments from
music accompaniment regardless of the musical genre of the track, or type
of music accompaniment. For the solo instrument, only pitched monophonic
instruments were considered in a single-channel scenario where no panning
or spatial location information is available.
In the proposed method, pitch information is used as an initial stage of a
sinusoidal modeling approach that attempts to estimate the spectral
information of the solo instrument from a given audio mixture. Instead of
estimating the solo instrument on a frame by frame basis, the proposed
method gathers information of tone objects to perform separation.
Tone-based processing allowed the inclusion of novel processing stages for
attack refinement, transient interference reduction, common amplitude
modulation (CAM) of tone objects, and for better estimation of non-harmonic
elements that can occur in musical instrument tones. The proposed solo and
accompaniment algorithm is an efficient method suitable for real-world
applications.
A study was conducted to better model magnitude, frequency, and phase of
isolated musical instrument tones. As a result of this study, temporal
envelope smoothness, inharmonicty of musical instruments, and phase
expectation were exploited in the proposed separation method. Additionally,
an algorithm for harmonic/percussive separation based on phase expectation
was proposed. The algorithm shows improved perceptual quality with respect
to state-of-the-art methods for harmonic/percussive separation.
The proposed solo and accompaniment method obtained perceptual quality
scores comparable to other state-of-the-art algorithms under the SiSEC 2011
and SiSEC 2013 campaigns, and outperformed the comparison algorithm on the
instrumental dataset described in this thesis.As a use-case of solo and
accompaniment separation, a listening test procedure was conducted to
assess separation quality requirements in the context of music education.
Results from the listening test showed that solo and accompaniment tracks
should be optimized differently to suit quality requirements of music
education. The Songs2See application was presented as commercial music
learning software which includes the proposed solo and accompaniment
separation method
Towards privacy-compliant mobile computing
Sophisticated mobile computing, sensing and recording devices like smartphones, smartwatches, and wearable cameras are carried by their users virtually around the clock, blurring the distinction between the online and offline worlds. While these devices enable transformative new applications and services, they also introduce entirely new threats to users’ privacy because they can capture a complete record of the user’s location, online and offline activities, and social encounters, including an audiovisual record. Such a record of users’ personal information is highly sensitive and is subject to numerous privacy risks. In this thesis, we have investigated and built systems to mitigate two such privacy risks: 1) privacy risks due to ubiquitous digital capture, where bystanders may inadvertently be captured in photos and videos recorded by other nearby users, 2) privacy risks to users’ personal information introduced by a popular class of apps called ‘mobile social apps’. In this thesis, we present two systems, called I-Pic and EnCore, built to mitigate these two privacy risks. Both systems aim to put the users back in control of what personal information is being collected and shared, while still enabling innovative new applications. We built working prototypes of both systems and evaluated them through actual user deployments. Overall we demonstrate that it is possible to achieve privacy-compliant digital capture and it is possible to build privacy-compliant mobile social apps, while preserving their intended functionality and ease-of-use. Furthermore, we also explore how the two solutions can be merged into a powerful combination, one which could enable novel workflows for specifying privacy preferences in image capture that do not currently exist.Die heutigen Geräte zur mobilen Kommunikation, und Messdatenerfassung und - aufzeichnung, wie Smartphones, Smartwatches und Sport-Kameras werden in der Regel von ihren Besitzern rund um die Uhr getragen, so daß der Unterschied zwischen Online- und Offline-Zeiten zunehmend verschwimmt. Diese Geräte ermöglichen zwar völlig neue Applikationen und Dienste, gefährden aber gleichzeitig die Privatsphäre ihrer Nutzer, weil sie den Standort, die gesamten On-und Offline Aktivitäten, sowie die soziale Beziehungen protokollieren, bis hin zu audio-visuellen Aufzeichnungen. Solche persönlichen Nutzerdaten sind extrem schützenswert und sind verschiedenen Risiken in Bezug auf die Privatsphäre ausgesetzt. In dieser These haben wir Systeme untersucht und gebaut, die zwei dieser Risiken für die Privatsphäre minimieren: 1) Risiko der Privatssphäre wegen omnipräsenter digitaler Aufzeichnungen Dritter, bei denen Unbeteiligte unbeabsichtigt (oder gegen ihren Wunsch) in Fotos und Videos festgehalten werden 2) Risiko für die persönlichen Informationen der Nutzer welche durch die bekannte Kategorie der sozialen Applikationen herbeigeführt werden. In dieser These stellen wir zwei Systeme, namens I-Pic und EnCore vor, welche die zwei Privatssphäre-Risiken minimieren. Beide System wollen dem Benutzer die Kontrolle zurückgeben, zu entscheiden welche seiner persönlichen Daten gesammelt und geteilt werden, während weiterhin neue innovative Applikationen ermöglicht werden. Wir haben für beide Systeme funktionsfähige Prototypen gebaut und diese mit echten Nutzerdaten evaluiert. Wir können generell zeigen dass es möglich ist, digitale Aufzeichnung zu machen, und soziale Applikationen zu bauen, welche nicht die Privatsphäre verletzen, ohne dabei die beabsichtige Funktionalität zu verlieren oder die Bedienbarkeit zu mindern. Des weiteren erforschen wir, wie diese zwei Systeme zu einem leistungsfähigeren Ansatz zusammengeführt werden können, welcher neuartige Workflows ermöglicht, um Einstellungen zur Privatsphäre für digitale Aufzeichnungen vorzunehmen, die es heute noch nicht gibt
Design and evaluation of mobile computer-assisted pronunciation training tools for second language learning
The quality of speech technology (automatic speech recognition, ASR, and textto-
speech, TTS) has considerably improved and, consequently, an increasing number
of computer-assisted pronunciation (CAPT) tools has included it. However, pronunciation
is one area of teaching that has not been developed enough since there
is scarce empirical evidence assessing the effectiveness of tools and games that include
speech technology in the field of pronunciation training and teaching. This
PhD thesis addresses the design and validation of an innovative CAPT system for
smart devices for training second language (L2) pronunciation. Particularly, it aims
to improve learner’s L2 pronunciation at the segmental level with a specific set of
methodological choices, such as learner’s first and second language connection (L1–
L2), minimal pairs, a training cycle of exposure–perception–production, individualistic
and social approaches, and the inclusion of ASR and TTS technology. The
experimental research conducted applying these methodological choices with real
users validates the efficiency of the CAPT prototypes developed for the four main
experiments of this dissertation. Data is automatically gathered by the CAPT systems
to give an immediate specific feedback to users and to analyze all results. The
protocols, metrics, algorithms, and methods necessary to statistically analyze and
discuss the results are also detailed. The two main L2 tested during the experimental
procedure are American English and Spanish. The different CAPT prototypes designed
and validated in this thesis, and the methodological choices that they implement,
allow to accurately measuring the relative pronunciation improvement of the
individuals who trained with them. Both rater’s subjective scores and CAPT’s objective
scores show a strong correlation, being useful in the future to be able to assess
a large amount of data and reducing human costs. Results also show an intensive
practice supported by a significant number of activities carried out. In the case of the
controlled experiments, students who worked with the CAPT tool achieved better
pronunciation improvement values than their peers in the traditional in-classroom
instruction group. In the case of the challenge-based CAPT learning game proposed,
the most active players in the competition kept on playing until the end and
achieved significant pronunciation improvement results.Departamento de Informática (Arquitectura y TecnologÃa de Computadores, Ciencias de la Computación e Inteligencia Artificial, Lenguajes y Sistemas Informáticos)Doctorado en Informátic
The Theoretical and Empirical Paradox of Temporal Change due to Digital Media in Germany and China
Die Arbeit untersucht theoretisch und empirisch-quantitativ wie sich das Zeitverständnis aufgrund von digitalen Medien ändert und vergleicht dabei Deutschland und China. Ausgehend vom Konzept der De-Westernisierung werden dabei zunächst die zentralen Begriffe wie Zeitverständnis, kultureller Kontext und kultureller Wandel durch digitale Medien geklärt. Das Zeitverständnis basiert auf neun Dimensionen: Vergangenheit, Gegenwart, Zukunft, Lebenstempo, interagierende Erfahrung, instrumentelle Erfahrung, Fatalismus, Zukunft als geplantes Handeln und Zukunft als vertrauensbasiertes Handeln. Mittels kulturvergleichender Befragung in Deutschland und China (n=300) und multivariater Auswertungsverfahren wird gezeigt, dass die Dimensionen entgegen der Hypothesen auf Basis von medienphilosophischen Theorien alle ansteigen und ein Paradox der Zeit entsteht. Dies kann als Erklärungsgrundlage dafür dienen, dass Zeitkonflikte entstehen und das mentale Wohlbefinden beider Kulturen durch digitale Medien beeinträchtigt wird.:Contents
1. Research Desiderates and Research Question…………………………………………9
2. Discussion of Theory Development………………………………………………….11
a. Brief Summary of Theory Development…………………………………..…11
i. Reasoning for Article 1 to Article 4………………………………….11
ii. Key Findings: The Field in 2021..……………………………………12
b. Limitations and Challenges of Theory Development………………………..19
i. Researching in the Tradition of Cultivation Analysis?........................19
ii. Modeling Cultural Change…………………………………………...19
iii. The Forgotten Sub-Dimension Past?....................................................21
iv. Surveillance, Filter Bubbles and Internet Censorship – An Update….23
3. Discussion of Empirical Results……………………………………………………...25
a. Brief Summary of Findings…………………………………………………...25
i. Reasoning for Article 5 to Article 8…………………………………..25
ii. Key Findings: The Field in 2021.…………………………………….25
b. Limitations and Challenges of Method and Findings………………………...34
i. General Remarks……………………………………………………...34
ii. Trans-Cultural Research in Practice…………………………………..36
iii. Response Patterns of German and Chinese Participants……………...38
iv. The Role of Off-liners in Digitally Induced Temporal Change………39
v. Disadvantaged Communities………………………………………....40
vi. Modeling Micro-Meso-Macro Level in Data Analysis……………….41
vii. Structural Equation Modeling………………………………………...43
viii. Interpreting in the Light of Culture Standards………………………..49
8
4. Summary……………………………………………………………………………...53
5. References…………………………………………………………………………….60
6. Appendix……………………………………………………………………………...69
a. Publication Strategy…………………………………………………………..69
b. List of Submitted Articles…………………………………………………….71
c. Versicherung………………………………………………………………….73
d. Article 1………………………………………………………………………74
e. Article 2………………………………………………………………………88
f. Article 3……………………………………………………………………...110
g. Article 4……………………………………………………………………...134
h. Article 5……………………………………………………………………...148
i. Article 6……………………………………………………………………...161
j. Article 7……………………………………………………………………...190
k. Survey Questionnaires……………………………………………………....210
i. German Version Onliners……………………………………....…...210
ii. German Version Offliners…………………………………………...240
iii. Chinese Version Onliners……………………………………...........258
iv. Chinese Version Onliners…………………………………………...283
l. Declaration of Co-Author from Article 7……………………………...........30
Studies on customisation-driven digital music instruments
From John Cage’s Prepared Piano to the turntable, the history of musical instruments is scattered with examples of musicians who deeply customised their instruments to fit personal artistic objectives, objectives that differed from the ones the instruments have been designed for. In their digital counterpart however, musical instruments are often presented in the form of closed, finalised systems with apriori symbolic rules set by their designer that leave very little room for the artists to customise the technologies for their unique art practices; in these cases the only possibility to change the mode of interaction with digital instrument is to reprogram them, a possibility available to programmers but not to musicians.
This thesis presents two digital music instruments designed with the explicit goal of being highly customisable by musicians and to provide different modes of interactions, whilst keeping simplicity and immediateness of use. The first one leverages real-time gesture recognition to provide continuous feedback to users as guidance in defining the behaviour of the system and the gestures it recognises. The second one is a novel tangible user interface which allows to transform everyday objects into expressive digital music instruments, and whose sound generated strongly depends by the particular nature of the physical object selected
A Robust Audio Similarity Estimation Method for Audio Alignment in Mobile Karaoke Apps
With smartphones further integrating into our lives, more people start to sing using mobile karaoke apps instead of going to a KTV club. However, the playback and record APIs of Android systems do not respond in real-time when called. Thus, an Android karaoke app will have to align the record music and the original accompaniment when superposing those two audios. Dynamic time warping (DTW) based algorithms are usually used to find the optimal alignment between two audios and yield best result so far. In this paper, we propose a simple yet robust approach by considering waveform similarities to solve this problem. Experimental results show that our method outperforms the state-of-the-art method in both accuracy and robustness across different genres and devices. Copyright 2014 ACM.EI
- …