34 research outputs found

    Représentations redondantes et hiérarchiques pour l'archivage et la compression de scènes sonores

    Get PDF
    L'objet de cette thèse est l'analyse et le traitement automatique de grands volumes de données audio. Plus particulièrement, on s'intéresse à l'archivage, tâche qui regroupe, au moins, deux problématiques: la compression des données, et l'indexation du contenu de celles-ci. Ces deux problématiques définissent chacune des objectifs, parfois concurrents, dont la prise en compte simultanée s'avère donc difficile. Au centre de cette thèse, il y a donc la volonté de construire un cadre cohérent à la fois pour la compression et pour l'indexation d'archives sonores. Les représentations parcimonieuses de signaux dans des dictionnaires redondants ont récemment montré leur capacité à remplir une telle fonction. Leurs propriétés ainsi que les méthodes et algorithmes permettant de les obtenir sont donc étudiés dans une première partie de cette thèse. Le cadre applicatif relativement contraignant (volume des données) va nous amener à choisir parmi ces derniers des algorithmes itératifs, appelés également gloutons. Une première contribution de cette thèse consiste en la proposition de variantes du célèbre Matching Pursuit basées sur un sous-échantillonnage aléatoire et dynamique de dictionnaires. L'adaptation au cas de dictionnaires temps-fréquence structurés (union de bases de cosinus locaux) nous permet d'espérer une amélioration significative des performances en compression de scènes sonores. Ces nouveaux algorithmes s'accompagnent d'une modélisation statistique originale des propriétés de convergence usant d'outils empruntés à la théorie des valeurs extrêmes. Les autres contributions de cette thèse s'attaquent au second membre du problème d'archivage: l'indexation. Le même cadre est cette fois-ci envisagé pour mettre à jour les différents niveaux de structuration des données. Au premier plan, la détection de redondances et répétitions. A grande échelle, un système robuste de détection de motifs récurrents dans un flux radiophonique par comparaison d'empreintes est proposé. Ses performances comparatives sur une campagne d'évaluation du projet QUAERO confirment la pertinence de cette approche. L'exploitation des structures pour un contexte autre que la compression est également envisagé. Nous proposons en particulier une application à la séparation de sources informée par la redondance pour illustrer la variété de traitements que le cadre choisi autorise. La synthèse des différents éléments permet alors d'envisager un système d'archivage répondant aux contraintes par la hiérarchisation des objectifs et des traitements.The main goal of this work is automated processing of large volumes of audio data. Most specifically, one is interested in archiving, a process that encompass at least two distinct problems: data compression and data indexing. Jointly addressing these problems is a difficult task since many of their objectives may be concurrent. Therefore, building a consistent framework for audio archival is the matter of this thesis. Sparse representations of signals in redundant dictionaries have recently been found of interest for many sub-problems of the archival task. Sparsity is a desirable property both for compression and for indexing. Methods and algorithms to build such representations are the first topic of this thesis. Given the dimensionality of the considered data, greedy algorithms will be particularly studied. A first contribution of this thesis is the proposal of a variant of the famous Matching Pursuit algorithm, that exploits randomness and sub-sampling of very large time frequency dictionaries. We show that audio compression (especially at low bit-rate) can be improved using this method. This new algorithms comes with an original modeling of asymptotic pursuit behaviors, using order statistics and tools from extreme values theory. Other contributions deal with the second member of the archival problem: indexing. The same framework is used and applied to different layers of signal structures. First, redundancies and musical repetition detection is addressed. At larger scale, we investigate audio fingerprinting schemes and apply it to radio broadcast on-line segmentation. Performances have been evaluated during an international campaign within the QUAERO project. Finally, the same framework is used to perform source separation informed by the redundancy. All these elements validate the proposed framework for the audio archiving task. The layered structures of audio data are accessed hierarchically by greedy decomposition algorithms and allow processing the different objectives of archival at different steps, thus addressing them within the same framework.PARIS-Télécom ParisTech (751132302) / SudocSudocFranceF

    Contributions pour les applications de réalité augmentée. Suivi visuel et recalage 2D. Suivi d'objets 3D représentés par des modèles par points

    Get PDF
    Cette thèse présente plusieurs méthodes de recalage pour les applications de réalité augmentée (R.A.). Nous décrivons d'abord des expériences de R.A. utilisant des recalages et suivis uniquement 2D. Nous nous intéressons ensuite au suivi visuel d'un objet naturel dont on connaît un modèle 3D et dont l'image peut ainsi être augmentée avec une cohérence spatiale et temporelle. Dans une première partie, nous proposons d'abord d'utiliser un recalage homographique en temps-réel pour augmenter des séquences filmées par une caméra en rotation autour de son centre optique. Dans une autre application, des transformations non rigides sont calculées hors ligne pour augmenter les images naturelles des parois gravées d'une grotte préhistorique. Le recalage géométrique des interprétations graphiques d'un préhistorien permet de créer un logiciel de découverte interactive des parois. Dans la seconde et majeure partie de ce travail, nous partons des méthodes de suivi 3D de l'état de l'art prises parmi les plus performantes. Ces méthodes consistent à suivre un objet naturel connaissant sa représentation par un maillage 3D. Nous proposons une approche de suivi visuel 3D utilisant quant à elle des modèles par points de l'objet. Ce type de modèle, caractérisé par l'absence de topologie, est encore peu utilisé en vision par ordinateur mais il présente une souplesse intéressante par rapport aux modèles constitués de facettes. La méthode de suivi que nous proposons consiste à interpréter des mises en correspondances 2D entre points d'intérêt en termes de variations de positions 3D. Le processus d'estimation sous-jacent utilise des champs de mouvements déduits des modèles 3D par points et des reconstructions par Moving Least Squares et splatting. Ces techniques développées par la communauté d'informatique graphique s'attachent à reconstruire localement (explicitement ou implicitement) la surface de l'objet à suivre et certains attributs dénis de manière éparse sur le nuage de points. Nous les adaptons à l'interpolation des champs de mouvements. L'avantage de notre approche est d'aboutir à un algorithme enchaînant quelques étapes d'estimation linéaires pour la détermination du mouvement 3D inter-images. Notre technique de résolution est intégrée à une adaptation originale d'un algorithme de suivi visuel de l'état de l'art qui repose sur un suivi hybride, combinant les informations issues de l'image précédente et celles apportées par des images clés acquises hors ligne. Une des particularités de notre implantation vient aussi de l'exploitation des capacités des unités de calcul graphiques (GPU) modernes pour les parties critiques de l'algorithme (extraction de points d'intérêt, appariement et calcul de champs de mouvements)

    Un système data mining en ligne pour la maintenance ontologique d'une mémoire corporative DM

    Get PDF
    L'intégration de la connaissance dans la mémoire corporative (Ribière et Matta, 1998), (Dieng et al., 1998) fait face à l'hétérogénéité des données (Visser, Jones et al., 1997). L'utilisation de l'ontologie est une approche possible pour surmonter ce problème. Cependant, l'ontologie est une structure de donnée comme n'importe quelle structure informatique, elle est donc dynamique et évolue dans le temps à cause des conditions dynamiques résultant des changements du domaine conceptuel, les changements de conceptualisation, les changements de spécification, les changements descendants, etc. (Yildiz, 2006). Ces dernières années, plusieurs approches ont été proposées pour résoudre le problème de la maintenance des ontologies. Cependant, la précision et le rappel ne permettent pas de satisfaire les besoins des utilisateurs. De plus, ces approches ne prennent pas en compte toute l'information disponible pour prendre une décision réaliste. Pour résoudre le problème de l'évolution de la connaissance dans les ontologies, nous proposons une approche hybride qui utilise l'apprentissage machine et un processus d'alignement qui contrôle les relations syntaxiques entre les entrées dans l'ontologie. De plus, des règles structurelles et des heuristiques sont appliquées pour améliorer le degré de similitude entre les entités ontologiques. Ce processus hybride crée des règles de correspondance qui définissent comment transformer les entrées dans l'ontologie en définissant tous les types d'associations possibles entre les entités ontologiques. L'approche d'enrichissement de l'ontologie exploite les techniques de la fouille de données, les techniques du traitement automatique du langage naturel et la recherche d'information pour améliorer la performance d'apprentissage durant la tâche d'enrichissement du domaine conceptuel. L'évaluation des ontologies demeure un problème important et le choix d'une approche appropriée dépend des critères utilisés. Dans notre approche, nous adoptons la vérification de la cohérence décrite dans (Maziar Amirhosseini et al., 2011) et (Abderrazak et al., 2011).\ud ______________________________________________________________________________ \ud MOTS-CLÉS DE L’AUTEUR : Data Mining, Traitement automatique du langage naturel, Apprentissage machine, Recherche d'information, Intégration, Ontologie, Mémoire corporative, Web sémantique

    Concept lattices : a tool for primitives selection ?

    Get PDF
    In this paper, we present the problem of noisy images recognition and in particular the stage of primitives selection in a classification process. This selection stage appears after segmentation and statistical describers extraction on documentary images are realized. We describe precisely the use of decision tree in order to harmonize and compare it with another less studied method based on a concept lattice.Dans ce papier, nous présentons la problématique de la reconnaissance d'images détériorées et plus particulièrement l'étape de sélection de primitives au sein d'un traitement de classification supervisée. Cette étape de sélection a lieu après que la segmentation et l'extraction des descripteurs statistiques sur des images documentaires aient été réalisées. Nous exposons en détail l'utilisation d'un arbre de décision, afin de l'harmoniser puis la comparer avec une approche moins étudiée utilisant un treillis de Galois

    Techniques d'analyse de contenu appliquées à l'imagerie spatiale

    Get PDF
    Depuis les années 1970, la télédétection a permis d’améliorer l’analyse de la surface de la Terre grâce aux images satellites produites sous format numérique. En comparaison avec les images aéroportées, les images satellites apportent plus d’information car elles ont une couverture spatiale plus importante et une période de revisite courte. L’essor de la télédétection a été accompagné de l’émergence des technologies de traitement qui ont permis aux utilisateurs de la communauté d’analyser les images satellites avec l’aide de chaînes de traitement de plus en plus automatiques. Depuis les années 1970, les différentes missions d’observation de la Terre ont permis d’accumuler une quantité d’information importante dans le temps. Ceci est dû notamment à l’amélioration du temps de revisite des satellites pour une même région, au raffinement de la résolution spatiale et à l’augmentation de la fauchée (couverture spatiale d’une acquisition). La télédétection, autrefois cantonnée à l’étude d’une seule image, s’est progressivement tournée et se tourne de plus en plus vers l’analyse de longues séries d’images multispectrales acquises à différentes dates. Le flux annuel d’images satellite est supposé atteindre plusieurs Péta octets prochainement. La disponibilité d’une si grande quantité de données représente un atout pour développer de chaines de traitement avancées. Les techniques d’apprentissage automatique beaucoup utilisées en télédétection se sont beaucoup améliorées. Les performances de robustesse des approches classiques d’apprentissage automatique étaient souvent limitées par la quantité de données disponibles. Des nouvelles techniques ont été développées pour utiliser efficacement ce nouveau flux important de données. Cependant, la quantité de données et la complexité des algorithmes mis en place nécessitent une grande puissance de calcul pour ces nouvelles chaînes de traitement. En parallèle, la puissance de calcul accessible pour le traitement d’images s’est aussi accrue. Les GPUs («Graphic Processing Unit ») sont de plus en plus utilisés et l’utilisation de cloud public ou privé est de plus en plus répandue. Désormais, pour le traitement d’images, toute la puissance nécessaire pour les chaînes de traitements automatiques est disponible à coût raisonnable. La conception des nouvelles chaînes de traitement doit prendre en compte ce nouveau facteur. En télédétection, l’augmentation du volume de données à exploiter est devenue une problématique due à la contrainte de la puissance de calcul nécessaire pour l’analyse. Les algorithmes de télédétection traditionnels ont été conçus pour des données pouvant être stockées en mémoire interne tout au long des traitements. Cette condition est de moins en moins respectée avec la quantité d’images et leur résolution. Les algorithmes de télédétection traditionnels nécessitent d’être revus et adaptés pour le traitement de données à grande échelle. Ce besoin n’est pas propre à la télédétection et se retrouve dans d’autres secteurs comme le web, la médecine, la reconnaissance vocale,… qui ont déjà résolu une partie de ces problèmes. Une partie des techniques et technologies développées par les autres domaines doivent encore être adaptées pour être appliquée aux images satellites. Cette thèse se focalise sur les algorithmes de télédétection pour le traitement de volumes de données massifs. En particulier, un premier algorithme existant d’apprentissage automatique est étudié et adapté pour une implantation distribuée. L’objectif de l’implantation est le passage à l’échelle c’est-à-dire que l’algorithme puisse traiter une grande quantité de données moyennant une puissance de calcul adapté. Enfin, la deuxième méthodologie proposée est basée sur des algorithmes récents d’apprentissage automatique les réseaux de neurones convolutionnels et propose une méthodologie pour les appliquer à nos cas d’utilisation sur des images satellites

    Annotation sémantique 2D/3D d'images spatialisées pour la documentation et l'analyse d'objets patrimoniaux

    Get PDF
    In the field of architecture and historic preservation , the information and communication technologies enable the acquisition of large amounts of data introducing analysis media for different purposes and at different levels of details ( photographs, point cloud, scientific imaging, ...). The organization and the structure of these resources is now a major problem for the description, the analysis and the understanding of cultural heritage objects. However the existing solutions in semantic annotations on images or on 3D model are insufficient, especially in the linking of different analysis media.This thesis proposes an approach for conducting annotations on different two-dimensional media while allowing the propagation of these annotations between different representations (2D or 3D) of the object. The objective is to identify solutions to correlate (from a spatial, temporal and semantic point of view) sets of annotations within sets of images. Thus, the system is based on the principle of data spatialization for establishing a relationship between the 3D representations, incorporating all the geometric complexity of the object and therefore to the metric information extraction, and 2D representations of object. The approach seeks to the establishment of an information continuity from the image acquisition to the construction of 3D representations semantically enhanced by incorporating multi-media and multi-temporal aspects. This work resulted in the definition and the development of a set of software modules that can be used by specialists of conservation of architectural heritage as by the general public.Dans le domaine de l’architecture et de la conservation du patrimoine historique, les technologies de l’information et de la communication permettent l’acquisition de grandes quantités de données introduisant des supports d’analyses pour différentes finalités et à différents niveaux de détails (photographies, nuages de points, imagerie scientifique, …). L’organisation et la structuration de ces ressources est aujourd’hui un problème majeur pour la description, l’analyse et la compréhension d’objets patrimoniaux. Cependant les solutions existantes d’annotations sémantiques d’images ou de modèle 3D se révèlent insuffisantes notamment sur l’aspect de mise en relation des différents supports d’analyse.Cette thèse propose une approche permettant de conduire des annotations sur les différents supports bidimensionnels tout en permettant la propagation de ces annotations entre les différentes représentations (2D ou 3D) de l’objet. L’objectif est d’identifier des solutions pour corréler (d’un point de vue spatial, temporel et sémantique) des jeux d’annotations au sein d’un jeu d’images. Ainsi le système repose sur le principe de spatialisation des données permettant d’établir une relation entre les représentations 3D, intégrant toute la complexité géométrique de l’objet et par conséquent permettant l’extraction d’informations métriques, et les représentations 2D de l’objet. L’approche cherche donc à la mise en place d’une continuité informationnelle depuis l’acquisition d’images jusqu’à la construction de représentations 3D sémantiquement enrichies en intégrant des aspects multi-supports et multi-temporels. Ce travail a abouti à la définition et le développement d’un ensemble de modules informatiques pouvant être utilisés par des spécialistes de la conservation d’un patrimoine architectural comme par le grand public

    Fusion pour la séparation de sources audio

    Get PDF
    Underdetermined blind source separation is a complex mathematical problem that can be satisfyingly resolved for some practical applications, providing that the right separation method has been selected and carefully tuned. In order to automate this selection process, we propose in this thesis to resort to the principle of fusion which has been widely used in the related field of classification yet is still marginally exploited in source separation. Fusion consists in combining several methods to solve a given problem instead of selecting a unique one. To do so, we introduce a general fusion framework in which a source estimate is expressed as a linear combination of estimates of this same source given by different separation algorithms, each source estimate being weighted by a fusion coefficient. For a given task, fusion coefficients can then be learned on a representative training dataset by minimizing a cost function related to the separation objective. To go further, we also propose two ways to adapt the fusion coefficients to the mixture to be separated. The first one expresses the fusion of several non-negative matrix factorization (NMF) models in a Bayesian fashion similar to Bayesian model averaging. The second one aims at learning time-varying fusion coefficients thanks to deep neural networks. All proposed methods have been evaluated on two distinct corpora. The first one is dedicated to speech enhancement while the other deals with singing voice extraction. Experimental results show that fusion always outperform simple selection in all considered cases, best results being obtained by adaptive time-varying fusion with neural networks.La séparation aveugle de sources audio dans le cas sous-déterminé est un problème mathématique complexe dont il est aujourd'hui possible d'obtenir une solution satisfaisante, à condition de sélectionner la méthode la plus adaptée au problème posé et de savoir paramétrer celle-ci soigneusement. Afin d'automatiser cette étape de sélection déterminante, nous proposons dans cette thèse de recourir au principe de fusion. L'idée est simple : il s'agit, pour un problème donné, de sélectionner plusieurs méthodes de résolution plutôt qu'une seule et de les combiner afin d'en améliorer la solution. Pour cela, nous introduisons un cadre général de fusion qui consiste à formuler l'estimée d'une source comme la combinaison de plusieurs estimées de cette même source données par différents algorithmes de séparation, chaque estimée étant pondérée par un coefficient de fusion. Ces coefficients peuvent notamment être appris sur un ensemble d'apprentissage représentatif du problème posé par minimisation d'une fonction de coût liée à l'objectif de séparation. Pour aller plus loin, nous proposons également deux approches permettant d'adapter les coefficients de fusion au signal à séparer. La première formule la fusion dans un cadre bayésien, à la manière du moyennage bayésien de modèles. La deuxième exploite les réseaux de neurones profonds afin de déterminer des coefficients de fusion variant en temps. Toutes ces approches ont été évaluées sur deux corpus distincts : l'un dédié au rehaussement de la parole, l'autre dédié à l'extraction de voix chantée. Quelle que soit l'approche considérée, nos résultats montrent l'intérêt systématique de la fusion par rapport à la simple sélection, la fusion adaptative par réseau de neurones se révélant être la plus performante
    corecore