    Geodesics on the manifold of multivariate generalized Gaussian distributions with an application to multicomponent texture discrimination

    We consider the Rao geodesic distance (GD) based on the Fisher information as a similarity measure on the manifold of zero-mean multivariate generalized Gaussian distributions (MGGD). The MGGD is shown to be an adequate model for the heavy-tailed wavelet statistics in multicomponent images, such as color or multispectral images. We discuss the estimation of MGGD parameters using various methods. We apply the GD between MGGDs to color texture discrimination in several classification experiments, taking into account the correlation structure between the spectral bands in the wavelet domain. We compare the performance, both in terms of texture discrimination capability and computational load, of the GD and the Kullback-Leibler divergence (KLD). Likewise, both uni- and multivariate generalized Gaussian models are evaluated, characterized by a fixed or a variable shape parameter. The modeling of the interband correlation significantly improves classification efficiency, while the GD is shown to consistently outperform the KLD as a similarity measure

    Les mixtures de Dirichlet et leurs apports pour la classification et la recherche d'images par le contenu

    Le développement de la médecine moderne dans le domaine des techniques de diagnostic comme la radiologie, l'histopathologie et la tomographie avait comme résultat l'explosion du nombre et de l'importance des images médicales sauvegardées par la majorité des hôpitaux. Afin d'aider les médecins à confirmer leurs diagnostics, plusieurs systèmes de recherche d'images médicales ont vu le jour. La conception de ces systèmes présente plusieurs étapes. Nous pensons que le résumé des bases de données d'images est une étape importante dans chaque système de recherche. En effet, la catégorisation d'une base de données d'images facilite énormément la recherche et permet de localiser les images voulues en un minimum de temps. Dans ce mémoire, nous étudions en un premier temps, les différents problèmes communs à tous les systèmes de recherche d'images à savoir l'indexation, l'extraction des caractéristiques, la définition des mesures de similarités et le retour de pertinence. Nous étudions aussi d'autres catégories de problèmes spécifiques à la recherche d'images. Cette étude est complétée par une analyse des systèmes existants les plus connus. Dans la deuxième partie du mémoire, nous nous intéressons aux mixtures de Dirichlet et comment on peut les exploiter pour la classification, en particulier le résumé des bases de données d'images. Contrairement aux approches classiques qui considèrent la loi normale comme densité, nous utilisons une généralisation de la Dirichlet pour l'adapter plus aux problèmes réels. Notre approche est traduite par un modèle mathématique basé sur le maximum de vraisemblance et la méthode de Fisher. Une interprétation très intéressante de notre méthode, basée sur la statistique géométrique, est donnée. Finalement, nous présentons des évaluations contextuelles et non-contextuelles, qui prouvent la validité de notre méthode

    Méthodes d'analyse de texture pour la cartographie d'occupations du sol par télédetection très haute résolution : application à la fôret, la vigne et les parcs ostréicoles

    The prime objective of this thesis is to evaluate the potential of multivariate probabilistic models applied on wavelet subbands for the classification of very high resolution remote sensing optical data. Three main applications are investigated in this study: the differentiation of age classes of maritime pine forest stands, the detection of vineyards and the detection of oyster fields. One main contribution includes the proposal of an original supervised and object-oriented classification scheme based on similarity measurements adapted to the context of probabilistic modeling. This scheme involves the creation of a database of texture patches for the learning step and a pre-segmentation of the image to classify. The tested multivariate models were first evaluated in an image retrieval framework. The best models identified in this procedure were then applied in the proposed image processing scheme. In the three proposed thematic applications, multivariate models revealed remarkable abilities to represent the texture and reached higher classification accuracies than the method based on co-occurrence matrices. These results confirm the interest of the multi-scale and multi-orientation representation of textures through the wavelet transform, as well as the relevance of the multivariate modeling of wavelet coefficientsLe travail présenté dans cette thèse a pour objectif d’évaluer le potentiel de modèles probabilistes multivariés appliqués sur les sous-bandes d’une décomposition en ondelettes pour la classification d’images de télédétection optiques à très haute résolution spatiale. Trois thématiques principales ont été investiguées dans ce travail : la différenciation de classes d’âge de peuplements de pins maritimes, la détection de parcelles viticoles et la détection de parcs ostréicoles. Une contribution originale concerne la proposition d’une chaîne traitement pour une classification supervisée orientée objet se basant sur des mesures de similarité adaptées au contexte de modélisation probabiliste. Celle-ci implique la création d’une base de données de patchs de texture pour l’apprentissage et l’utilisation d’une pré-segmentation de l’image à classifier. Les modèles probabilistes multivariés testés ont tout d’abord été évalués dans une procédure d’indexation d’images. Les modèles les plus performants identifiés par cette procédure ont été ensuite appliqués dans la chaîne de traitement proposée. Dans les trois thématiques explorées, les modèles multivariés ont révélé des capacités remarquables de représentation de la texture et ont permis d’obtenir une qualité de classification supérieure à celle obtenue par la méthode des matrices de co-occurrence. Ces résultats démontrent l’intérêt de la représentation multi-échelles et multi-orientations de la texture dans l’espace transformé en ondelettes et la pertinence de la modélisation multivariée des coefficients d’ondelettes issus de cette décomposition

    Irish Machine Vision and Image Processing Conference Proceedings 2017

    Learning effective binary representation with deep hashing technique for large-scale multimedia similarity search

    The explosive growth of multimedia data in modern times inspires the research of performing an efficient large-scale multimedia similarity search in the existing information retrieval systems. In the past decades, the hashing-based nearest neighbor search methods draw extensive attention in this research field. By representing the original data with compact hash code, it enables the efficient similarity retrieval by only conducting bitwise operation when computing the Hamming distance. Moreover, less memory space is required to process and store the massive amounts of features for the search engines owing to the nature of compact binary code. These advantages make hashing a competitive option in large-scale visual-related retrieval tasks. Motivated by the previous dedicated works, this thesis focuses on learning compact binary representation via hashing techniques for the large-scale multimedia similarity search tasks. Particularly, several novel frameworks are proposed for popular hashing-based applications like a local binary descriptor for patch-level matching (Chapter 3), video-to-video retrieval (Chapter 4) and cross-modality retrieval (Chapter 5). This thesis starts by addressing the problem of learning local binary descriptor for better patch/image matching performance. To this end, we propose a novel local descriptor termed Unsupervised Deep Binary Descriptor (UDBD) for the patch-level matching tasks, which learns the transformation invariant binary descriptor via embedding the original visual data and their transformed sets into a common Hamming space. By imposing a l2,1-norm regularizer on the objective function, the learned binary descriptor gains robustness against noises. Moreover, a weak bit scheme is applied to address the ambiguous matching in the local binary descriptor, where the best match is determined for each query by comparing a series of weak bits between the query instance and the candidates, thus improving the matching performance. Furthermore, Unsupervised Deep Video Hashing (UDVH) is proposed to facilitate large-scale video-to-video retrieval. To tackle the imbalanced distribution issue in the video feature, balanced rotation is developed to identify a proper projection matrix such that the information of each dimension can be balanced in the fixed-bit quantization, thus improving the retrieval performance dramatically with better code quality. To provide comprehensive insights on the proposed rotation, two different video feature learning structures: stacked LSTM units (UDVH-LSTM) and Temporal Segment Network (UDVH-TSN) are presented in Chapter 4. Lastly, we extend the research topic from single-modality to cross-modality retrieval, where Self-Supervised Deep Multimodal Hashing (SSDMH) based on matrix factorization is proposed to learn unified binary code for different modalities directly without the need for relaxation. By minimizing graph regularization loss, it is prone to produce discriminative hash code via preserving the original data structure. Moreover, Binary Gradient Descent (BGD) accelerates the discrete optimization against the bit-by-bit fashion. Besides, an unsupervised version termed Unsupervised Deep Cross-Modal Hashing (UDCMH) is proposed to tackle the large-scale cross-modality retrieval when prior knowledge is unavailable