35 research outputs found

    Réflexions sur l'acte compositionnel

    Get PDF
    Ce texte prétend montrer que l'idée de modèle et de formalisation font partie de ce que nous appelons le métier de compositeur et présente une vision de l'acte compositionnel que, nous espérons, pourra nous aider à mieux comprendre la place de l'ordinateur dans cette nouvelle discipline qu'est la Composition Assistée par Ordinateur

    La dysprosodie parkinsonienne

    No full text
    Parmi les différentes atteintes physiologiques provoquées par la maladie de Parkinson, les dysarthries ont une importance particulière par le fait, qu'elles peuvent géner les facultés communicantes des patients. Les premières atteintes dysarthriques dans la parole parkinsonienne affectent sa prosodie a travers ses trois paramètres mélodie, intensité et durée. Ces atteintes se manifestent à plusieurs niveaux. D'abord, par une dysphonie provoquée par l'état neuromoteur du patient avec en particulier la mise en évidence de l'hypertonie ou l'hypotonie du larynx. Ensuite, par la dysprosodie du discours, à travers la programmation de la courbe mélodique et la répartition des pauses.Les paramètres prosodiques semblent présenter un bon compromis entre leur facilité d'apréhension et leur bonne correspondance à l'état pathologique des patients. Ils permettent de différencier des états pathologiques très proches mais peu dissociables au moyen des méthodes traditionnelles. <BR /

    La dysprosodie parkinsonienne

    No full text
    Parmi les différentes atteintes physiologiques provoquées par la maladie de Parkinson, les dysarthries ont une importance particulière par le fait, qu'elles peuvent géner les facultés communicantes des patients. Les premières atteintes dysarthriques dans la parole parkinsonienne affectent sa prosodie a travers ses trois paramètres mélodie, intensité et durée. Ces atteintes se manifestent à plusieurs niveaux. D'abord, par une dysphonie provoquée par l'état neuromoteur du patient avec en particulier la mise en évidence de l'hypertonie ou l'hypotonie du larynx. Ensuite, par la dysprosodie du discours, à travers la programmation de la courbe mélodique et la répartition des pauses.Les paramètres prosodiques semblent présenter un bon compromis entre leur facilité d'apréhension et leur bonne correspondance à l'état pathologique des patients. Ils permettent de différencier des états pathologiques très proches mais peu dissociables au moyen des méthodes traditionnelles. <BR /

    Identification d'instruments de musique à l'aide de méthodes statistiques et d'algorithmes d'intelligence artificielle

    Get PDF
    Avec l'explosion des médias d'information, particulièrement celui d'Internet et des formats audio numériques, la quantité de musique disponible sur le marché induit une tâche colossale de maintenance, de classification et d'authentification, d'où l'importance incontestable de méthodes efficaces d'analyse automatique de la musique. L'idée première de cette analyse est de dériver les informations d'un signal sonore brut (préalablement numérisé) et de les transposer sous forme de données symboliques (nom de l'instrument, partition, style musical, etc.) intelligibles et réutilisables par différents procédés informatiques. Ce présent mémoire traite de l'identification des instruments de musique; l'idée première est de construire un système automatisé capable de déterminer quel instrument de musique est joué à partir d'un son musical. Le matériel expérimental fut constitué d'un ensemble de 6 698 notes isolées provenant de 29 instruments de musique occidentaux, lesquels sont fréquemment utilisés comme référence. Les travaux les plus cités dans le domaine de l'identification des instruments de musique sont introduits et les descripteurs classiques ainsi que les classificateurs usuels sont décrits. Différents descripteurs classiques, tels que les coefficients MFCC et LPC, les moments spectraux, les moments et la pente de l'enveloppe, le temps d'attaque et le taux de passage par zéro, ont été utilisés pour construire les vecteurs d'observations d'un système de classification. Un nouveau descripteur, le chromatimbre, fut introduit et évalué. De plus, les performances de chacun des groupes de paramètres prient individuellement furent comparées. L'effet de la normalisation sur les vecteurs d'observation fut examiné avec les normalisations mu-sigma et min-max. Deux classificateurs usuels, les k plus proches voisins ainsi que le modèle de mélange de gaussiennes, furent utilisés. Différentes variantes d'un algorithme de sélection séquentielle des paramètres permirent d'augmenter les performances des systèmes de classification. Entre autre, un système de classification hiérarchique, ayant obtenu un score d'identification des instruments de 88,32% et un score d'identification des familles de 94,74%, fut comparé à un système de classification directe : un gain de plus de 2% fut observé entre les deux approches. Différentes expérimentations mirent en évidence l'importance d'adapter la sélection des paramètres à chaque noeud de la classification hiérarchique contrairement à l'utilisation d'un vecteur d'observation statique, dont les paramètres ne varient pas en fonction du noeud

    Identification d'instruments de musique à l'aide de méthodes statistiques et d'algorithmes d'intelligence artificielle

    Get PDF
    Avec l'explosion des médias d'information, particulièrement celui d'Internet et des formats audio numériques, la quantité de musique disponible sur le marché induit une tâche colossale de maintenance, de classification et d'authentification, d'où l'importance incontestable de méthodes efficaces d'analyse automatique de la musique. L'idée première de cette analyse est de dériver les informations d'un signal sonore brut (préalablement numérisé) et de les transposer sous forme de données symboliques (nom de l'instrument, partition, style musical, etc.) intelligibles et réutilisables par différents procédés informatiques. Ce présent mémoire traite de l'identification des instruments de musique; l'idée première est de construire un système automatisé capable de déterminer quel instrument de musique est joué à partir d'un son musical. Le matériel expérimental fut constitué d'un ensemble de 6 698 notes isolées provenant de 29 instruments de musique occidentaux, lesquels sont fréquemment utilisés comme référence. Les travaux les plus cités dans le domaine de l'identification des instruments de musique sont introduits et les descripteurs classiques ainsi que les classificateurs usuels sont décrits. Différents descripteurs classiques, tels que les coefficients MFCC et LPC, les moments spectraux, les moments et la pente de l'enveloppe, le temps d'attaque et le taux de passage par zéro, ont été utilisés pour construire les vecteurs d'observations d'un système de classification. Un nouveau descripteur, le chromatimbre, fut introduit et évalué. De plus, les performances de chacun des groupes de paramètres prient individuellement furent comparées. L'effet de la normalisation sur les vecteurs d'observation fut examiné avec les normalisations mu-sigma et min-max. Deux classificateurs usuels, les k plus proches voisins ainsi que le modèle de mélange de gaussiennes, furent utilisés. Différentes variantes d'un algorithme de sélection séquentielle des paramètres permirent d'augmenter les performances des systèmes de classification. Entre autre, un système de classification hiérarchique, ayant obtenu un score d'identification des instruments de 88,32% et un score d'identification des familles de 94,74%, fut comparé à un système de classification directe : un gain de plus de 2% fut observé entre les deux approches. Différentes expérimentations mirent en évidence l'importance d'adapter la sélection des paramètres à chaque noeud de la classification hiérarchique contrairement à l'utilisation d'un vecteur d'observation statique, dont les paramètres ne varient pas en fonction du noeud

    Génération terrestre

    Get PDF
    Ce document présente ma création nommée Génération terrestre qui a pour but d'immerger le spectateur dans un monde inconnu : graphique et sonore évoluant indéfiniment via un assemblage d'algorithmes informatiques. Dans cet écrit, je souhaite présenter à mon lecteur les systèmes génératifs ainsi que l'intelligence artificielle, à travers les différents principes d'auto-développement. J'expliquerai grâce aux théories sur l'évolution comment simuler un écosystème artificiel. D'un point de vue esthétique, j'aborderai aussi les techniques graphiques et sonores qui amènent le spectateur à plonger dans cette simulation. Je mettrai en avant les différentes variations possibles d'une œuvre générative en fonction du temps. Ma problématique est donc orientée vers l'auto-conception infinie d'une œuvre d'art numérique. La création finale est présentée sur un écran relié à un matériel audio.\ud ______________________________________________________________________________ \ud MOTS-CLÉS DE L’AUTEUR : intelligence, artificielle, génératif, infini, écosystèm

    Transmission vocale via Internet utilisant les codeurs G.729 et G.729a

    Get PDF
    Différentes solutions ont été développées pour résoudre les problèmes de transmission vocale via Internet. Le premier groupe de solutions maximise le codage et le décodage de l'information. Le deuxième groupe de solutions s'attaque aux problèmes reliés au canal de communication. C'est avec les outils mathématiques que sont présentés les principes des codeurs de la grande famille des CELP ( Code Excited Linear Prediction ) et de la sous-classe des CS-ACELP ( Conjugate Structure Algebraic Code Excited Linear Prediction ) dont font partie le G.729 et le G.729a. Ces deux codeurs sont particulièrement bien adaptés à la transmission de la voix sur un réseau numérique grâce à leur résistance au bruit et aux pertes de paquets. Néanmoins, ces codeurs ajoutent au délai total du système. Lorsque le G.729 et G.729a sont intégrés à différentes plates-formes, leur potentiel est évalué pour un transfert de données en temps réel. Réussir ce test n'est toutefois pas suffisant pour parvenir à une conclusion définitive. La plate-forme doit être la plus universelle possible puisque le transfert efficace de la parole par Internet dépend aussi de son accessibilité."--Résumé abrégé par UM

    Mise en forme du bruit de codage dans la norme G.722.1 ITU-T

    Get PDF
    Le projet décrit dans ce mémoire traite de la mise en forme du bruit de codage dans la norme G.722.1 ITU-T. Cette étude a deux volets: d'une part, il s'agit d'incorporer trois techniques de mise en forme du bruit dans la norme G.722.1, à savoir, le gauchissement fréquentiel (frequency warping ), le fenêtrage adaptatif ( windows switching ), et la mise en forme temporelle du bruit ( temporal noise shaping ), dans le but d'étudier l'effet de chaque modification sur la qualité de codage à 16 kbit/s des signaux échantillonnés à 16 kHz. L'autre volet du projet a pour objet la substitution de la quantification scalaire et du codage Huffman par une quantification vectorielle algébrique. Une quantification sphérique se basant sur un réseau de Gosset à 8 dimensions, E[indice inférieur 8] , sera utilisée à cet effet pour quantifier les coefficients du spectre générés dans la norme G.722.1. Cette application va tenter de réaliser un codage des signaux audio large bande (50 Hz-7 kHz) à un taux binaire de 16 kbit/s

    Discrimination parole/musique et étude de nouveaux paramètres et modèles pour un système d'identification du locuteur dans le contexte de conférences téléphoniques

    Get PDF
    La mise en oeuvre de systèmes de compréhension automatique de parole pouvant fonctionner dans des conditions réelles implique de reproduire certaines aptitudes de l'être humain. Outre les aptitudes à comprendre la parole même lorsqu'elle est corrompue par du bruit, nous sommes capables de tenir une conversation impliquant plusieurs interlocuteurs. Ce dernier point est lié au fait que nous identifions implicitement les interlocuteurs. Cette caractérisation du locuteur nous permet par exemple de réaliser des conversations téléphoniques en mode conférence. En plus de la reconnaissance du vocabulaire ou de l'identification du locuteur, on est également capable de distinguer les séquences de la musique (en alternance, en arrière plan, etc.) qui peuvent apparaître lorsqu'un des correspondants se place en mode attente. En partant de ce contexte, on s'est intéressé à développer un système capable d'une part de discriminer entre les séquences de Parole/Musique et d'autre part d'identifier le locuteur dans des conditions téléphoniques fonctionnant en mode conférence avec une variabilité des combinés. Autrement dit, cette thèse s'intéresse à deux sujets du domaine du traitement de la parole. Le premier sujet porte sur la recherche de nouveaux paramètres pour améliorer les performances des algorithmes qui identifient les locuteurs en mode téléphonique. Le deuxième sujet est consacré à la proposition de nouvelles approches en discrimination de la parole, de la musique et de la musique chantée. En discrimination du locuteur, on présentera une première étude visant à caractériser le locuteur par des paramètres AM-FM synchrones à la glotte, extraits à la sortie d'un banc de filtres cochléaires. L'objectif visé est de trouver de nouveaux paramètres plus robustes aux bruits et à la variabilité des combinés téléphoniques. Comme résultats, on a obtenu des scores presque similaires entre le système proposé et le système de référence. Les meilleures performances ont été enregistrées lorsque le système utilise une architecture parallèle composée de deux reconnaisseurs qui se basent respectivement sur les paramètres MFCC et AM-FM. Dans le même cadre, on s'est intéressé à proposer une nouvelle technique de modélisation qui tient compte de la dépendance temporelle entre la source d'excitation et le conduit vocal. Avec les tests de courtes durées, on a obtenu de meilleures performances en comparaison à l'approche classique. Cependant, quand on augmente la durée de test, on obtient presque les mêmes performances pour tous les systèmes proposés. En discrimination Parole/Musique, on a proposé deux systèmes, le premier utilise trois modèles paramétriques entraînés respectivement pour la parole, la musique et la musique chantée sans effectuer aucune normalisation sur les vecteurs paramètres. Sur une durée test de 100 ms, on a obtenu un taux de reconnaissance en moyenne de 93,77%. Le deuxième système ne requiert aucun entraînement et se base simplement sur un seuil pour effectuer la classification

    Représentations redondantes et hiérarchiques pour l'archivage et la compression de scènes sonores

    Get PDF
    L'objet de cette thèse est l'analyse et le traitement automatique de grands volumes de données audio. Plus particulièrement, on s'intéresse à l'archivage, tâche qui regroupe, au moins, deux problématiques: la compression des données, et l'indexation du contenu de celles-ci. Ces deux problématiques définissent chacune des objectifs, parfois concurrents, dont la prise en compte simultanée s'avère donc difficile. Au centre de cette thèse, il y a donc la volonté de construire un cadre cohérent à la fois pour la compression et pour l'indexation d'archives sonores. Les représentations parcimonieuses de signaux dans des dictionnaires redondants ont récemment montré leur capacité à remplir une telle fonction. Leurs propriétés ainsi que les méthodes et algorithmes permettant de les obtenir sont donc étudiés dans une première partie de cette thèse. Le cadre applicatif relativement contraignant (volume des données) va nous amener à choisir parmi ces derniers des algorithmes itératifs, appelés également gloutons. Une première contribution de cette thèse consiste en la proposition de variantes du célèbre Matching Pursuit basées sur un sous-échantillonnage aléatoire et dynamique de dictionnaires. L'adaptation au cas de dictionnaires temps-fréquence structurés (union de bases de cosinus locaux) nous permet d'espérer une amélioration significative des performances en compression de scènes sonores. Ces nouveaux algorithmes s'accompagnent d'une modélisation statistique originale des propriétés de convergence usant d'outils empruntés à la théorie des valeurs extrêmes. Les autres contributions de cette thèse s'attaquent au second membre du problème d'archivage: l'indexation. Le même cadre est cette fois-ci envisagé pour mettre à jour les différents niveaux de structuration des données. Au premier plan, la détection de redondances et répétitions. A grande échelle, un système robuste de détection de motifs récurrents dans un flux radiophonique par comparaison d'empreintes est proposé. Ses performances comparatives sur une campagne d'évaluation du projet QUAERO confirment la pertinence de cette approche. L'exploitation des structures pour un contexte autre que la compression est également envisagé. Nous proposons en particulier une application à la séparation de sources informée par la redondance pour illustrer la variété de traitements que le cadre choisi autorise. La synthèse des différents éléments permet alors d'envisager un système d'archivage répondant aux contraintes par la hiérarchisation des objectifs et des traitements.The main goal of this work is automated processing of large volumes of audio data. Most specifically, one is interested in archiving, a process that encompass at least two distinct problems: data compression and data indexing. Jointly addressing these problems is a difficult task since many of their objectives may be concurrent. Therefore, building a consistent framework for audio archival is the matter of this thesis. Sparse representations of signals in redundant dictionaries have recently been found of interest for many sub-problems of the archival task. Sparsity is a desirable property both for compression and for indexing. Methods and algorithms to build such representations are the first topic of this thesis. Given the dimensionality of the considered data, greedy algorithms will be particularly studied. A first contribution of this thesis is the proposal of a variant of the famous Matching Pursuit algorithm, that exploits randomness and sub-sampling of very large time frequency dictionaries. We show that audio compression (especially at low bit-rate) can be improved using this method. This new algorithms comes with an original modeling of asymptotic pursuit behaviors, using order statistics and tools from extreme values theory. Other contributions deal with the second member of the archival problem: indexing. The same framework is used and applied to different layers of signal structures. First, redundancies and musical repetition detection is addressed. At larger scale, we investigate audio fingerprinting schemes and apply it to radio broadcast on-line segmentation. Performances have been evaluated during an international campaign within the QUAERO project. Finally, the same framework is used to perform source separation informed by the redundancy. All these elements validate the proposed framework for the audio archiving task. The layered structures of audio data are accessed hierarchically by greedy decomposition algorithms and allow processing the different objectives of archival at different steps, thus addressing them within the same framework.PARIS-Télécom ParisTech (751132302) / SudocSudocFranceF
    corecore