18 research outputs found

    An investigation of likelihood normalization for robust ASR

    Get PDF
    International audienceNoise-robust automatic speech recognition (ASR) systems rely on feature and/or model compensation. Existing compensation techniques typically operate on the features or on the parameters of the acoustic models themselves. By contrast, a number of normalization techniques have been defined in the field of speaker verification that operate on the resulting log-likelihood scores. In this paper, we provide a theoretical motivation for likelihood normalization due to the so-called "hubness" phenomenon and we evaluate the benefit of several normalization techniques on ASR accuracy for the 2nd CHiME Challenge task. We show that symmetric normalization (S-norm) reduces the relative error rate by 43% alone and by 10% after feature and model compensation

    Notes on the Music: A social data infrastructure for music annotation

    Get PDF
    Beside transmitting musical meaning from composer to reader, symbolic music notation affords the dynamic addition of layers of information by annotation. This allows music scores to serve as rudimentary communication frameworks. Music encodings bring these affordances into the digital realm; though annotations may be represented as digital pen-strokes upon a score image, they must be captured using machine-interpretable semantics to fully benefit from this transformation. This is challenging, as annota- tors’ requirements are heterogeneous, varying both across different types of user (e.g., musician, scholar) and within these groups, de- pending on the specific use-case. A hypothetical all-encompassing tool catering to every conceivable annotation type, even if it were possible to build, would vastly complicate user interaction. This additional complexity would significantly increase cognitive load and impair usability, particularly in dynamic real-time usage con- texts, e.g., live annotation during music rehearsal or performance. To address this challenge, we present a social data infrastructure that facilitates the creation of use-case specific annotation toolkits. Its components include a selectable-score module that supports customisable click-and-drag selection of score elements (e.g., notes, measures, directives); the Web Annotations data model, extended to support the creation of custom, Web-addressable annotation types supporting the specification and (re-)use of annotation palettes; and the Music Encoding and Linked Data (MELD) Javascript client library, used to build interfaces that map annotation types to render- ing and interaction handlers. We have extended MELD to support the Solid platform for social Linked Data, allowing annotations to be privately stored in user-controlled Personal Online Datastores (Pods), or selectively shared or published. To demonstrate the feasi- bility of our proposed approach, we present annotation interfaces employing the outlined infrastructure in three distinct use-cases: scholarly communication; music rehearsal; and rating during music listening

    Automatic music information retrieval with emphasis on rhythm

    No full text
    The purpose of this thesis is to develop techniques for automatic analysis of musical signals. Great emphasis is placed on automatic analysis of rhythm, which is a fundamental characteristic of music, as it describes the temporal structure and organization of the music signal. Rhythm is a structural element in an automated music transcription system, and the rhythmic information can be used in other important applications such as indexing and retrieval of music content calculation of rhythmic similarity and mixing of music signals.Paramount importance to the development of an automated analysis system of rhythmic content is the periodicity function. The periodicity function is the "rhythmic spectrum" of a music signal, as it demonstrates the salience of different targeted periodicities. A large part of this thesis is dedicated to the extraction and processing of a periodicity function.Using modern signal processing techniques such as source separation, we propose a periodicity function, which is a robust representation of rhythmic content. Then we apply unsupervised learning techniques on the periodicity function for extracting solid rhythm features. These features are used in two problems of rhythmic categorization, the automatic categorization in rhythmic classes and the extraction of time key. We propose three different tempo extraction methods based on the periodicity function and the extracted features, as well as a method for beat tracking.Furthermore, the periodicity function is redefined so that it can be approximately reversible, i.e. it is possible to reconstruct a music signal from the periodicity function that maintains the rhythmic structure of the original signal.Finally, the rhythmic features are extended with the incorporation of timbral and harmonic features in order to build a content-based music similarity system. This system was integrated in a content based music search web platform.In summary, this thesis deals with six distinct music analysis problems, namely, music key extraction, dance style classification, tempo estimation, beat tracking, and content based similarity between music tracks. Furthermore, it proposes a method for the calculation of a "reversible" periodicity function. The proposed methods were evaluated for all the problems in a wide range of data sets and compared with other state of the art methods achieving competitive and in some cases even better results.Σκοπός της παρούσας διατριβής είναι η ανάπτυξη τεχνικών για την αυτόματη ανάλυση μουσικών σημάτων. Μεγάλη έμφαση δίνεται στην αυτόματη ανάλυση του ρυθμού, ο οποίος αποτελεί ένα θεμελιώδες μέγεθος της μουσικής, αφού ορίζει την χρονική δομή και οργάνωση του μουσικού σήματος. Αποτελεί δομικό στοιχείο σε ένα σύστημα αυτόματης μεταγραφής (transcription) της μουσικής, ενώ η ρυθμική πληροφορία μπορεί να χρησιμοποιηθεί και σε άλλες σημαντικές εφαρμογές όπως η δεικτοδότηση και ανάκτηση βάσει περιεχομένου ο υπολογισμός ρυθμικής ομοιότητας και η μίξη σημάτων.Εξέχουσα σημασία στην ανάπτυξη ενός συστήματος αυτόματης ανάλυσης ρυθμικού περιεχομένου είναι η συνάρτηση περιοδικότητας. Η συνάρτηση περιοδικότητας αποτελεί το «ρυθμικό φάσμα» ενός μουσικού σήματος, αφού μας δίνει την ισχύ των διάφορων περιοδικοτήτων. Ένα μεγάλο μέρος της παρούσας διατριβής είναι αφιερωμένο στην εξαγωγή και επεξεργασία μιας συνάρτησης περιοδικότητας. Χρησιμοποιώντας μοντέρνες τεχνικές επεξεργασίας σήματος όπως τον διαχωρισμό πηγών, προτείνεται μια συνάρτηση περιοδικότητας, η οποία αποτελεί μια εύρωστη αναπαράσταση του ρυθμικού περιεχομένου. Στη συνέχεια γίνεται επεξεργασία της συνάρτησης περιοδικότητας με τεχνικές μη επιβλεπόμενης μάθησης για την εξαγωγή συμπαγών χαρακτηριστικών. Τα χαρακτηριστικά αυτά χρησιμοποιούνται σε δύο προβλήματα ρυθμικής κατηγοριοποίησης: την αυτόματη κατηγοριοποίηση βάσει ρυθμικής κλάσης και την εξαγωγή του χρονικού κλειδιού. Στη συνέχεια προτείνονται τρεις διαφορετικές μέθοδοι εξαγωγής του τέμπο από τη συνάρτηση περιοδικότητας και τα χαρακτηριστικά της καθώς και μια τεχνική εξαγωγής των θέσεων του μουσικού παλμού έχοντας γνώση του τέμπο. Επίσης, η συνάρτηση περιοδικότητας τροποποιείται έτσι ώστε να είναι προσεγγιστικά αντιστρέψιμη, δηλαδή να είναι εφικτό να ανακατασκευαστεί ένα μουσικό σήμα από την συνάρτηση περιοδικότητας τέτοιο ώστε να διατηρεί τη ρυθμική δομή του αρχικού σήματος.Τέλος, τα ρυθμικά χαρακτηριστικά πλαισιώνονται από χαρακτηριστικά «χροιάς» και «αρμονίας» προκειμένου να δημιουργηθεί ένα ολοκληρωμένο σύστημα μουσικής ομοιότητας βάσει περιεχομένου. Το σύστημα αυτό ενσωματώθηκε σε μια διαδικτυακή πλατφόρμα αναζήτησης μουσικής βάσει περιεχομένου.Συνοψίζοντας, στα πλαίσια της παρούσας διατριβής αντιμετωπίστηκαν έξι διαφορετικά προβλήματα μουσικής ανάλυσης. Η εύρεση του μουσικού κλειδιού, η εύρεση χορευτικού στυλ, η εξαγωγή του τέμπο, η εξαγωγή του παλμού, και ο υπολογισμός της ομοιότητας βάσει περιεχομένου μεταξύ δύο μουσικών κομματιών. Επιπλέον, προτάθηκε τρόπος υπολογισμού μιας «αντιστρέψιμης» συνάρτησης περιοδικότητας. Οι προτεινόμενοι μέθοδοι αξιολογήθηκαν για όλα τα προβλήματα σε μεγάλο εύρος δεδομένων και συγκρινόμενες με άλλες μεθόδους αιχμής, πέτυχαν ανταγωνιστικά και σε αρκετές περιπτώσεις καλύτερα αποτελέσματα από οποιαδήποτε άλλη μέθοδο

    Musical Track Popularity Mining Dataset

    No full text
    Part 10: Mining Humanistic Data Workshop (MHDW)International audienceMusic Information Research requires access to real musical content in order to test efficiency and effectiveness of its methods as well as to compare developed methodologies on common data. Existing datasets do not address the research direction of musical track popularity that has recently received considerate attention. Existing sources of musical popularity do not provide easily manageable data and no standardised dataset exists. Accordingly, in this paper we present the Track Popularity Dataset (TPD) that provides different sources of popularity definition ranging from 2004 to 2014, a mapping between different track/author/album identification spaces that allows use of all different sources, information on the remaining, non popular, tracks of an album with a popular track, contextual similarity between tracks and ready for MIR use extracted features for both popular and non-popular audio tracks
    corecore