535 research outputs found

    Découverte automatique de structures musicales en temps réel par la géométrie de l'information

    Get PDF
    National audienceThis master's thesis aims at exploring the challenge of automatically retrieving musical structures within an audio file. Our main contribution is to formulate this well-studied problem in the frame- work of computational information geometry, an emerging field at the frontier between statistics, differential geometry, and data mining. In this framework, we unify the fundamental tasks of event segmentation and similarity computing in a single sequential scheme for structure discovery. Furthermore, we propose an original metric on temporal segments, which combines several criteria of geometrical comparability : divergence between centroids, as well as inclusion and intersection ratios of corresponding information balls.Ce rapport de fin de stage vise à explorer la découverte automatique de structures musicales dans un fichier audio. Notre contribution principale est de formuler ce problème dans le cadre de la géométrie de l'information computationnelle, une disci- pline émergente mêlant statistiques, géométrie différentielle, et fouille de données. Nous y rassemblons la segmentation en évènements mu- sicaux et le calcul de leurs similarités en un seul schéma séquentiel de structuration. De plus, nous proposons une métrique originale entre segments temporels, qui combine plusieurs critères de ressemblance géométrique : divergence entre centroïdes, mais aussi rapports d'inclusion et d'intersection entre les boules informationnelles associées

    Analyse de signaux musicaux multipitch

    Get PDF
    Ce mémoire de maîtrise traite de la séparation multipitch dans un signal polyphonique (en particulier les accords de guitare). Le but est de déterminer le nombre et la valeur des fréquences fondamentales présentes dans un tel signal. Pour résoudre une telle problématique, on s'est basé sur des techniques de traitement de signal, mais aussi sur des connaissances acoustiques et musicales. Le problème se concentre sur l'extraction de paramètres tels que le début de la note ou de l'accord joué, sa longueur et sa composition, dans laquelle on va retrouver les informations sur les fréquences fondamentales. La méthode développée est décomposée en 2 étages. Premièrement, à l'aide de la dérivée de l'enveloppe temporelle, le signal est segmenté dans le temps. Cela permet donc de séparer les différents accords joués. Ensuite, une procédure itérative basée sur la détection et la soustraction des raies spectrales est appliquée au spectre d'amplitude pour estimer les possibles fréquences fondamentales ou harmoniques. Afin d'améliorer la résolution fréquentielle de la transformée utilisée ( TFD ), une méthode d'interpolation fréquentielle est appliquée autour des harmoniques détectées dans le spectre."--Résumé abrégé par UMI

    Segmentation et regroupement en chanteurs. Application aux enregistrements ethnomusicologiques

    Get PDF
    Cette thèse est réalisée dans le cadre du projet ANR CONTINT DIADEMS sur l'indexation de documents ethnomusicologiques sonores. Les données que nous traitons sont fournies par les partenaires ethnomusicologues du projet et elles sont issues des archives du Musée de l'Homme de Paris. Les travaux effectués lors de cette thèse consistent à développer des méthodes permettant de faire une structuration automatique des documents musicaux et ethnomusicologiques basée sur les personnes. Cette thèse aborde le sujet encore inexploré à notre connaissance de la segmentation et du regroupement en chanteurs dans des enregistrements musicaux. Nous proposons un système complet pour ce sujet en s'inspirant des travaux réalisés en segmentation et regroupement en locuteurs. Ce système est conçu pour fonctionner aussi bien sur des enregistrements musicaux de type studio que sur des enregistrements musicaux réalisés dans des conditions terrain. Il permet, tout d'abord, de découper les zones de chant en des segments acoustiquement homogènes, i.e. en groupe de chanteur(s) afin d'avoir une segmentation en tours de chant. Ensuite, une phase de regroupement est effectuée afin de rassembler tous les segments chantés par un même groupe de chanteur(s) dans une seule classe. Notre première contribution est la définition de la notion de " tour de chant " et la proposition de règles d'annotation manuelle d'un enregistrement en des segments de tours de chant. La deuxième est la proposition d'une méthode de paramétrisation de la voix des chanteurs en implémentant une stratégie de sélection de bandes fréquentielles pertinentes basée sur la variance de celles-ci. La troisième est l'implémentation d'un algorithme de segmentation dynamique adapté à un contexte de chant en utilisant le Critère d'Information Bayésien (BIC). La quatrième est la proposition d'une méthode de Décision par Consolidation A Posteriori, nommée DCAP, pour pallier au problème de variabilité du paramètre de pénalité du BIC. En effet, comme le choix a priori d'une valeur optimale de ce paramètre n'est pas possible, nous effectuons un vote majoritaire sur plusieurs sorties de segmentations obtenues avec différentes valeurs de ce paramètre. Des gains d'environ 8% et 15% sont obtenus sur nos deux corpus avec cette méthode par rapport à une valeur standard du paramètre de pénalité. La cinquième est l'adaptation de la méthode DCAP pour la réalisation de l'étape de regroupement en chanteurs.This work was done in the context of the ANR CONTINT DIADEMS project on indexing ethno-musicological audio recordings. The data that we are studying are provided by the Musée de l'Homme, Paris, within the context of this project. The work performed in this thesis consists of developing automatic structuring methods of musical and ethno-musicological documents based on the persons. This thesis touchs on an unexplored subject in our knowledge of the segmentation and clustering in singers of musical recordings. We propose a complete system in this subject that we called singer diarization by analogy with speaker diarization system on speech context. Indeed, this system is inspired from existing studies performed in speaker diarization and is designed to work on studio music recordings as well as on recordings with a variable sound quality (done outdoors). The first step of this system is the segmentation in singer turns which consists of segmenting musical recordings into segments "acoustically homogeneous" by singer group. The second step is the clustering which consists of labelling all segments produced by the same group of singers with a unique identifier. Our first contribution involved the definition of the term " singer turns " and the proposal of rules for manual annotation in singer turns segments. The second consisted in the proposal of a feature extraction method for the characterization of singer voices by implementing a method to select the frequency coefficients, which are the most relevant, based on the variance of these coefficients. The third is the implementation of a dynamic segmentation algorithm adapted to the singing context by using the Bayesian Information Criterion (BIC). The fourth is the proposal of a method, called DCAP, to take a posteriori decisions in order to avoid the variability problem of the BIC penalty parameter. Indeed, a priori choice of an optimal value for this parameter is not possible. This led us to perform a majority voting on a several segmentations obtained with different values of this parameter. A gain of about 8% and 15% is obtained on our two corpora with this method compared to the results found with a standard value of the penalty parameter. The fifth is the adaptation of our DCAP method in order to perform singer clustering step

    La musique électroacoustique : analyse morphologique et représentation analytique

    Get PDF
    What we mean here by the analysis of electroacoustic music is a morphological description. It consist in using various criteria to describe the different aural and musical units of the musical material once they have been separated into segments. These criteria can be classi- fied in three groups : internal (spectrum, dynamic, gait, granularity and space), referential (causality, voice, effect and emotion) and structural (formal analysis).Graphical representation has become an essential tool for the analyst and it can take the form of icons — creating strong links between the sound, its analysing criteria and graphic symbolic forms — or symbols — representing sound and its criteria with extremely accurate symbols. Moreover, representation is also an ideal material for multimedia publication : the represented analysis is associated to sounds or even other media to create a very rich didactical document.The theorical plan is completed by analyses of Spirale by Pierre Henry, « Geologie sonore » by Bernard Parmegiani and Stilleben by Kaija Saariaho.L’analyse de la musique électroacoustique est ici développée sous l’angle de la description morphologique. Celle-ci consiste, après segmentation du matériau musical, à décrire, à l’aide de critères, les différentes unités sonores et musicales. Ces critères sont classées en trois groupes : interne (spectre, dynamique, allure, grain et espace), référentiel (causalité, voix, effet et émotion) et structurel (analyse formelle).La représentation graphique est devenue un outil essentiel de l’analyste et peut être envisagée sous un angle iconique — créer des liens forts entre le son, ses critères analytiques et les formes graphiques — ou symbolique — figurer le son et ses critères par un ensemble de symboles extrêmement précis. En outre, la représentation est aussi un matériau idéal pour la publication multimédia : l’analyse représentée est associée au son, voire à d’autres médias, pour former un document didactique très riche.Le plan théorique est complété par des analyses de Spirale de Pierre Henry, « Géologie sonore » de Bernard Parmegiani et Stilleben de Kaija Saariaho

    Vers une optimisation du catalogue des Bibliothèques municipales de la Ville de Genève en vue des évolutions des formats et des plateformes catalographiques

    Get PDF
    À l’heure actuelle, les Bibliothèques municipales de la Ville de Genève relèvent le défi de l’intégration des documents numériques dans leur catalogue. En même temps, elles s’interrogent au sujet de l’impact du Web sémantique, des règles et des formats catalographiques tels que RDA et FRBR. C’est pourquoi la direction des BM a mandaté cette étude sur l’optimisation des formats et des bases catalographiques du réseau bibliothécaire de la Ville de Genève. Cette analyse s’articule autour de trois axes principaux. Tout d'abord les lignes de tendances sur les nouvelles règles et formats catalographiques sont analysées à l'échelon européen, notamment en France, en Allemagne et en Suisse ainsi que sur les décisions stratégiques en terme de gouvernance et de ressources technologiques. Ensuite différents scénarios d’optimisation du catalogage et des bases de données catalographiques du réseau des BM de Genève sont proposés. Ces scénarios concernent les possibilités d’intégration du réseau des BM dans d’autres réseaux de bibliothèques (de lecture publique, patrimoniales, scientifiques) du point de vue cantonal, inter-cantonal, national et international et leurs conséquences en matière d’évolution des formats de catalogage et des bases de données catalographiques. Enfin la situation interne aux BM est étudiée en prenant en compte surtout l’efficacité des activités en lien avec le catalogage et l’indexation, les possibilités d’adaptation de la profondeur du catalogage et leur cohérence avec les besoins du public, de même que les contraintes et les opportunités du téléchargement des notices. L’optimisation de la base catalographique des BM doit donc passer par l’amélioration de la formation du personnel, la normalisation des données concernant le titre et l’auteur, la systématisation et l’uniformisation des données concernant le résumé, l’augmentation du pouvoir de négociation avec les fournisseurs de logiciels, la hiérarchisation des procédures d’harmonisation et l’analyse stratégique des niveaux de gouvernance

    Web sémantique et pratiques documentaires

    Get PDF
    euzenat2004eNational audienceLe web sémantique a l'ambition de construire pour les machines l'infrastructure correspondant au web actuel et d'offrir aux humains la puissance des machines pour gérer l'information disponible dans ce web. Les technologies du web sémantique ont donc beaucoup à offrir pour assister les pratiques documentaires à venir. On présentera les technologies destinées à décrire les ressources du web et leurs ontologies dans la perspective de leur utilisation à des fins de gestion documentaires. On présentera certaines ressources déjà existantes pouvant être utilisées dans ce but ainsi qu'une application à l'indexation de données multimédia et audiovisuelles

    Du langage cinématographique à la musique acousmatique. Écritures et structures: Cycles d’œuvres acousmatiques incluant "Topographie de la noirceur", "Champs de fouilles" et "Push&pull"

    Get PDF
    Is it possible to organize the electroacoustic musical form in the same way as the cinema structures its moving pictures? Such is the question which summarizes the main part of my project of research : Du langage cinématographique à la musique acousmatique : Écritures et structures (the film language in the acousmatic music: writings and structures). Further to an exhaustive study of the processes of the realization of a film work, I tried to establish relations of equivalences with each of the relative step to the elaboration of an electroacoustic work. Of recording of sounds by the "sound-shootings" by way of the classification, treatment, mixing, editing until the performance at the concert of the finished work, every stage of the visual lexicon offers concrete and structurally relevant stowages to the conception of a musical work. This typology of the common techniques of realization between these two similar medias in a realistic and concrete practice then allows trying something new in a composition musical approach by the addition of technical and abstract tools. The results of this research are realized by the composition of three electroacoustic works. Each of them, by the context of their genesis, investigate specific parameters of this initially visual grammar.Est-il possible d’organiser le discours musical acousmatique de la même manière que le cinéma structure les images animées ? Telle est la question qui résume l’essentiel de mon projet de recherche : Du langage cinématographique à la musique acousmatique : Écritures et structures. À la suite à d’une étude exhaustive des procédés d’écriture nécessaires à la réalisation d’une œuvre cinématographique, j’ai cherché à établir des relations d’équivalence avec chacune des étapes relatives à l’élaboration d’une œuvre électroacoustique. De la captation des sons au cours du tournage sonore en passant par les étapes de classification, de traitement, de mixage, de montage jusqu’à la diffusion en salle de l’œuvre achevée, chaque étape du lexique visuel offre des arrimages concrets et structurellement pertinents à la conception d’une œuvre musicale. Cette typologie des techniques communes de réalisation entre ces deux médias débouche sur une pratique réaliste et concrète puis permet le renouvèlement d’une démarche compositionnelle par l’ajout d’outils techniques et conceptuels. Les résultats de cette recherche se sont matérialisés sous la forme de trois œuvres acousmatiques. Chacune d’elles, par le contexte de leur genèse, explore des paramètres spécifiques de cette grammaire initialement visuelle

    Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle

    Get PDF
    M. Paul DELÉGLISE – Professeur à l'Université du Maine – Rapporteur M. Patrick GROS – Chargé de Recherche à l'IRISA Rennes – Rapporteur M. Daniel DOURS – Professeur à l'Université Toulouse III – Président du jury M. Jean CARRIVE – Ingénieur de Recherche à l'Institut National de l'Audiovisuel – Membre M. Dominique FOHR – Chargé de Recherche au LORIA Nancy – MembreTo process the quantity of audiovisual information available in a smart and rapid way, it is necessary to have robust and automatic tools. This work addresses the soundtrack indexing and structuring of multimedia documents. Their goals are to detect the primary components: speech, music and key sounds. For speech/music classification, three unusual parameters are extracted: entropy modulation, stationary segment duration (with a Forward-Backward Divergence algorithm) and the number of segments. These three parameters are merged with the classical 4 Hertz modulation energy. Experiments on radio corpora show the robustness of these parameters. The system is compared and merged with a classical system. Another partitioning consists in detecting pertinent key sounds. For jingles, the selection of candidates is done by comparing the “signature” of each jingle with the data flow. This system is simple, fast and efficient. Applause and laughter are based on GMM with spectral analysis. A TV corpus validates this study by encouraging results. The detection of key words is carried out in a traditional way: the problem here is not to improve the existing systems but to be in a structuring task: these key words inform about the program type (news, weather, documentary...). Through two studies, a reflection is done for the component uses in order to find a temporal structure of the audiovisual documents. The first study is a detection of a recurring production invariant in program collections. The second permits to structure TV news into topics. Some examples of video analysis contribution are developed.Le développement croissant des données numériques et l'explosion des accès multimédia à l'information, sont confrontés au manque d'outils automatiques efficaces. Dans ce cadre, plusieurs approches relatives à l'indexation et la structuration de la bande sonore de documents audiovisuels sont proposées. Leurs buts sont de détecter les composantes primaires telles que la parole, la musique et les sons clés (jingles, sons caractéristiques, mots clés...). Pour la classification parole/musique, trois paramètres inhabituels sont extraits : la modulation de l'entropie, la durée des segments (issue d'une segmentation automatique) et le nombre de ces segments par seconde. Les informations issues de ces trois paramètres sont ensuite fusionnées avec celle issue de la modulation de l'énergie à quatre hertz. Des expériences sur un corpus radiophonique montrent la robustesse de ces paramètres : notre système possède un taux de classification correcte supérieur à 90%. Le système est ensuite comparé, puis fusionné à un système classique basé sur des Modèles de Mélanges de lois Gaussiennes (MMG) et une analyse cepstrale. Un autre partitionnement consiste à détecter des sons clés. La sélection de candidats potentiels est effectuée en comparant la « signature » de chacun des jingles au flux de données. Ce système est simple par sa mise en œuvre mais rapide et très efficace : sur un corpus audiovisuel d'une dizaine d'heures (environ 200 jingles) aucune fausse alarme n'est présente. Il y a seulement deux omissions dans des conditions extrêmes. Les sons caractéristiques (applaudissements et rires) sont modélisés à l'aide de MMG dans le domaine spectral. Un corpus télévisuel permet de valider cette première étude par des résultats encourageants. La détection de mots clés est effectuée de manière classique : il ne s'agit pas ici d'améliorer les systèmes existants mais de se placer toujours dans un besoin de structuration. Ainsi, ces mots clés renseignent sur le type des émissions (journal, météo, documentaire...). Grâce à l'extraction de ces composantes primaires, les émissions audiovisuelles peuvent être annotées de manière automatique. Au travers de deux études, une réflexion est conduite quant à l'utilisation de ces composantes afin de trouver une structure temporelle aux documents. La première étude permet une détection d'un motif récurrent dans une collection d'émissions, dites de plateau, alors que la seconde réalise la structuration en thèmes d'un journal télévisé. Quelques pistes de réflexions sur l'apport de l'analyse vidéo sont développées et les besoins futurs sont explorés

    Vues vérifiées, écoute évacuée : la valorisation publicitaire de la musique sur YouTube

    Get PDF
    Depuis 2013, YouTube est reconnu comme la « première destination » des auditeurs de musique en France. Fondée par trois anciens employés de PayPal en 2005 comme l’éditrice d’un site de stockage et de publication de vidéos, l’entreprise a peu à peu développé un système technique et un modèle d’affaires qui entendent « monétiser » la musique publiée sur le site en articulant l’écoute « à la demande » avec un système de régie publicitaire. S’appuyant notamment sur une veille sur différents espaces de youtube.com, le blogue YouTube et l’étude de brevets, cet article s’intéresse aux médiations techniques, sémiotiques et symboliques sur lesquelles repose la valorisation marchande de la musique dans un dispositif médiatique généraliste d’abord conçu pour la vidéo. Il analyse l’hétérogénéité des calculs et des signes liés à une mesure d’audience spécifique, la « vue ». Il montre ensuite son statut d’étalon contesté parmi les acteurs du marché de la musique. Il interroge enfin les aspects anthropologiques des normes de l’économie et de la consommation des médias qui structurent l’acceptabilité d’une telle activité de mesure. Entre la prétention de YouTube à se situer au plus près des pratiques musicales des internautes pour les attirer et séduire les annonceurs et un mode de calcul conçu indépendamment de tout rapport spécifique à la musique, la médiation des valeurs de la musique sur YouTube apparaît comme un paradoxe.Since 2013, YouTube has been considered the “top destination” for music listening in France. Launched by three employees from PayPal in 2005 as editor of a website for hosting and publishing videos, the company has developed a technical system and a business model that monetises published music on the website by linking “on demand” listening with an advertising control system. Based on a media survey including YouTube.com, the YouTube blog and the study of patents, this paper uses a socio-semiotic approach to analyse technical, semiotic and symbolic mediations which support the commercial valuation of music in a generalist media apparatus initially designed for video. It first analyses how a range of techno-semiotic objects convert a multiplicity of signs into financial value. It then shows how reference to a specific audience measurement, the “view”, is a disputed standard among music market agents. Finally, it explores the anthropological aspects of media economics and consumption behaviour that support the acceptance of this measure of activity. Between Youtube’s claims to best represent web users’ musical interests and practices to attract them and seduce brands, and a technical system designed to calculate the monetary value of music without reference to musical form or practice, mediating the value of music on YouTube appears contradictory.Desde 2013, YouTube es considerado como el “primer destino” para escuchar música en Francia. Lanzada por tres empleados de PayPal, en 2005, como editor de un sitio web para hospedar y publicar videos, la empresa ha desarrollado un sistema técnico y un modelo de negocio que busca “monetizar” la música publicada en el sitio web que se “bajo demanda” y que se financia con publicidad. El artículo estudia las mediaciones técnicas, semióticas y simbólicas sobre las que reposa la valorización mercantil de la música en un dispositivo mediático generalista, especialmente concebido desde sus inicios para el video. Para ello se estudian diferentes espacios de YouTube.com, el blog de YouTube y las patentes. Previamente analiza la heterogeneidad de cálculos y de signos relacionados con la medida de una audiencia específica, la “vista”-; para con posterioridad mostrar cómo la totalidad de actores de la industria musical ponen en cuestión el estándar de medición. Posteriormente se interesa por los aspectos antropológicos de las normas económicas y del consumo de medios de comunicación que estructuran la aceptabilidad de un determinado patrón de medida

    Représentations symboliques musicales et calcul spatial

    Get PDF
    Musical symbolic representations and spatial computing. The notion of symbolic space is frequently used in music theory, analysis and composition. Representing sequences in pitch (or chord) spaces, like the Tonnetz, enables to catch some harmonic and melodic properties that elude traditional representation systems. We generalize this approach by rephrasing in spatial terms different musical purposes (style recognition, melodic and harmonic transformations, all-interval series classification, etc.). Spaces are formalized as topological collections, a notion corresponding with the label- ling of a cellular complex in algebraic topology. A cellular complex enables the discrete representation of a space through a set of topological cells linked by specific neighborhood relationships. We represent simple musical objects (for example pitches or chords) by cells and build a complex by organizing them following a particular neighborhood relationship defined by a musical property. A musical sequence is represented in a complex by a trajectory. The look of the trajectory reveals some informations concerning the style of the piece, and musical strategies used by the composer. Spaces and trajectories are computed with MGS, an experimental programming language dedicated to spatial computing, that aims at introducing the notion of space in computation. A tool, HexaChord, has been developped in order to facilitate the use of these notions for a predefined set of musical spacesReprésentations symboliques musicales et calcul spatial. La notion d'espace symbolique est fréquemment utilisée en théorie, analyse et composition musicale. La représentation de séquences dans des espaces de hauteurs, comme le Tonnetz, permet de capturer des propriétés mélodiques et harmoniques qui échappent aux systèmes de représentation traditionnels. Nous généralisons cette approche en reformulant d'un point de vue spatial différents problèmes musicaux (reconnaissance de style, transformations mélodiques et harmoniques, classification des séries tous-intervalles, etc.). Les espaces sont formalisés à l'aide de collections topologiques, une notion correspondant à la décoration d'un complexe cellulaire en topologie algébrique. Un complexe cellulaire per- met la représentation discrète d'un espace à travers un ensemble de cellules topologiques liées les unes aux autres par des relations de voisinage spécifiques. Nous représentons des objets musicaux élémentaires (par exemple des hauteurs ou des accords) par des cellules et construisons un complexe en les organisant suivant une relation de voisinage définie par une propriété musicale. Une séquence musicale est représentée dans un complexe par une trajectoire. L'aspect de la trajectoire révèle des informations sur le style de la pièce et les stratégies de composition employées. L'application d'opérations géométriques sur les trajectoires entraîne des transformations sur la pièce musicale initiale. Les espaces et les trajectoires sont construits à l'aide du langage MGS, un langage de programmation expérimental dédié au calcul spatial, qui vise à introduire la notion d'espace dans le calcul. Un outil, HexaChord, a été développé afin de faciliter l'utilisation de ces notions pour un ensemble prédéfinis d'espaces musicau
    corecore