7 research outputs found
Catégorisation semi-supervisée dans les grandes bases d'images
Les algorithmes de classification automatique ne sont pas conçus pour tenir compte des connaissances spécifiques que l'on peut avoir concernant les données. Dans le contexte de l'indexation et de la recherche d'images par le contenu, nous nous sommes intéressés dans cette thèse à la génération de résumés visuels de bases d'images au moyen d'un algorithme de regroupement (clustering). Cependant, nous avons constaté que dans bon nombre d'applications réelles, une catégorisation automatique des descripteurs de bas niveau des images ne satisfait pas entièrement les attentes de l'utilisateur (qui est un expert du domaine dans notre problématique). En revanche, une catégorisation semi-supervisée devrait permettre à l'utilisateur de guider le processus de regroupement moyennant de simples associations entre les images, de façon à réduire le décalage sémantique entre la catégorisation cible et celle issue d'une classification automatique. De plus, l'algorithme semi-supervisé doit se satisfaire d'un nombre limité de contraintes d'association entre images afin d'assurer' une intervention minimale de l'utilisateur expert (accroître l'ergonomie de l'approche globale). Nous avons dès lors introduit une nouvelle méthode d'apprentissage actif qui, à chaque itération de l'algorithme, identifie les contraintes potentielles les plus utiles à la classification et s'en sert ensuite pour interroger l'utilisateur. La sélection des images pour la définition des contraintes est basée sur les degrés d'appartenance fournis par notre méthode floue. Nous avons aussi étudié les problèmes de passage à l'échelle de certains algorithmes d'apprentissage basés sur le partitionnement des données et nous avons proposé une méthode permettant de s'affranchir de certains problèmes engendrés par la manipulation de grands espaces multidimensionnels. Les évaluations ont montré que les algorithmes proposés obtiennent de très bons résumés visuels sur des bases réelles.It is generally accepted that conventional approaches to clustering have the drawback of not bringing domain knowledge to bear on the clustering process. In the context of image indexing and retrieval, we were interested in this thesis in generating image database summaries (overviews) by clustering. In many real life applications, fully automatic categorization of visual collections based on low-level image features does not fit well user (domain expert) expectations. A semi-supervised algorithm allows the user to express these expectations using some pairwise constraints, so as to reduce the gap between the feature space and the similarity space. The algorithm has to learn from few constraints. We introduced an original active learning method for minimizing the interaction with the user. It consists in asking the user to provide constraints between those images that best help the algorithm in defining the clusters. This image selection procedure is based on membership degree information given by our fuzzy clustering method. We also investigated and developed a method improving the scalability of our clustering algorithms. As a consequence, they now behave well in large dimensional image feature spaces and generate good overviews of real world image databases, with a time complexity that is nearly-linear in the number of images.ORSAY-PARIS 11-BU Sciences (914712101) / SudocSudocFranceF
Vers une description efficace du contenu visuel pour l'annotation automatique d'images
Les progrès technologiques récents en matière d acquisition de données multimédia ont conduit à une croissance exponentielle du nombre de contenus numériques disponibles. Pour l utilisateur de bases d images généralistes (agences photo, collections personnelles), l annotation manuelle présente aujourd hui un coût prohibitif. Nous présentons une approche générique de l annotation automatique permettant de générer de nouvelles métadonnées. Elle est basée sur une stratégie d apprentissage statistique utilisant des SVM à noyau triangulaire. La description visuelle du contenu et sa représentation sont sans doute les étapes les plus importantes puisqu elles conditionnent l ensemble du processus. Pour la représentation globale des images, nous proposons le nouveau descripteur de formes LEOH . D autre part, nous utilisons une représentation par sacs de mots visuels pour décrire localement des images. Nous montrons de façon originale qu un échantillonnage dense est préférable à l utilisation des détecteurs de points d intérêt pour la sélection de patches visuels. De plus, nous proposons d inclure des contraintes géométriques souples, qui sont, par nature ignorées dans les sacs de mots, en utilisant des paires de mots visuels. Dans le contexte du bouclage de pertinence, nous proposons une nouvelle stratégie permettant de mixer les descriptions visuelles globales et par sac de mots. Tous ces travaux ont été évalués sur des bases d images réalistes. Ces expérimentations ont mis en avant la pertinence des améliorations proposées. Certaines d entre elles ont permis à notre approche d obtenir les meilleures performances lors de la campagne d évaluation ImagEVAL.ORSAY-PARIS 11-BU Sciences (914712101) / SudocSudocFranceF
Structuration et découverte de contenus visuels par des méthodes basées sur les voisins partagés
Cette thèse étudie les méthodes de regroupement basées sur le principe des plus proches voisins partagés (SNN). Comme la plupart des autres approches de clustering à base de graphe, les méthodes SNN sont effectivement bien adaptées à surmonter la complexité des données, l'hétérogénéité et la haute dimensionnalité. La première contribution de la thèse est de revisiter une méthode existante basée sur les voisins partagés en deux points. Nous présentons d'abord un formalisme basé sur la la théorie de décision à contrario. Cela nous permet de tirer des scores de connectivité plus fiable des groupes et une interprétation plus intuitive des voisinage selectionnés optimalement. Nous proposons également un nouveau algorithme de factorisation pour accélérer le calcul intensif nécessaire des matrices des voisins partagés. La deuxième contribution de cette thèse est une généralisation de la classification SNNau cas multi-source. La principale originalité de notre approche est que nous introduisons une étape de sélection des sources d'information optimales dans le calcul de scores de groupes candidats. Chaque groupe est alors associé à son propre sous-ensemble optimal des modalités. Comme le montre le expériences, cette étape de sélection de source rend notre approche largement robuste à la présence de sources locales aberrantes. Cette nouvelle méthode est appliquée à un large éventail de problèmes, y compris la structuration multimodale des collections d'images et dans le regroupement dans des sous-espaces basés sur les projections aléatoires.La troisième contribution de la thèse est une tentative pour étendre les méthodes SNNdans le contexte des graphes biparites. Nous introduisons de nouvelles mesures de pertinence SNNrevisitées pour ce contexte asymétrique et nous montrons qu'elles peuvent être utiliséespour sélectionner localement des voisinages optimales. En conséquence, nous proposons un nouveau algorithme de clustering bipartite SNN qui est appliqué à la découverte d'objets visuels.Les expériences montrent que cette nouvelle méthode est meilleure par rapport aux méthodes de l'état de l'art. Basé sur les objets découverts, nous introduisons également un paradigme de recherche visuelle, c.-à -d les objet basés sur la suggestion de requêtes visuel les.This thesis investigates new clustering paradigms and algorithms based on the principle of the shared nearest-neighbors (SNN. As most other graph-based clustering approaches, SNN methods are actually well suited to overcome data complexity, heterogeneity and high-dimensionality.The first contribution of the thesis is to revisit existing shared neighbors methods in two points. We first introduce a new SNN formalism based on the theory of a contrario decision. This allows us to derive more reliable connectivity scores of candidate clusters and a more intuitive interpretation of locally optimum neighborhoods. We also propose a new factorization algorithm for speeding-up the intensive computation of the required sharedneighbors matrices.The second contribution of the thesis is a generalization of the SNN clustering approach to the multi-source case. Whereas SNN methods appear to be ideally suited to sets of heterogeneous information sources, this multi-source problem was surprisingly not addressed in the literature beforehand. The main originality of our approach is that we introduce an information source selection step in the computation of candidate cluster scores. As shown in the experiments, this source selection step makes our approach widely robust to the presence of locally outlier sources. This new method is applied to a wide range of problems including multimodal structuring of image collections and subspace-based clustering based on random projections. The third contribution of the thesis is an attempt to extend SNN methods to the context of bipartite k-nn graphs. We introduce new SNN relevance measures revisited for this asymmetric context and show that they can be used to select locally optimal bi-partite clusters. Accordingly, we propose a new bipartite SNN clustering algorithm that is applied to visual object s discovery based on a randomly precomputed matching graph. Experiments show that this new method outperformed state-of-the-art object mining results on OxfordBuilding dataset. Based on the discovered objects, we also introduce a new visual search paradigm, i.e. object-based visual query suggestion.PARIS11-SCD-Bib. électronique (914719901) / SudocSudocFranceF
Image retrieval with active relevance feedback using both visual and keyword-based descriptors
In this thesis we explore a number of issues related to interactive querying of image databases, using both the description of the visual appearance and keyword annotations. We start by introducing the weighted color histograms, that intimately integrate color, texture and shape, and we validate their quality on multiple ground truth databases. Then, we propose several improvements for the SVM-based relevance feedback approach: first, we put forward an improved active learning selection strategy, based on a reduction of the redundancy between the images selected at every feedback round and second, we propose the use of specific kernel functions, such as the triangular kernel, that allow to obtain insensitivity to changes in the scale of the data, while keeping performance at a very good level. Finally, for image databases having keyword annotations associated with images, we propose a new keyword-based feature vector that makes use of an external ontology (WordNet) to induce a semantic generalization of the concepts corresponding to keywords. When used in combination with the visual signatures, our new feature vector can improve significantly the quality of the returned results both in query by visual example situation and with relevance feedbackCette thèse explore un nombre de problèmes liés à la recherche interactive d'images dans de grandes bases multimédia, en utilisant à la fois la description de l'apparence visuelle et les éventuelles informations textuelles. Nous introduisons d'abord les signatures couleur pondérées par une mesure locale de non-uniformité des pixels, qui intègrent en même temps plusieurs caractéristiques visuelles des images (couleur, texture et forme), et nous validons leur qualité sur différentes bases vérité terrain. Ensuite, nous présentons plusieurs améliorations pour le contrôle de pertinence basé sur les machines à vecteurs de support (SVM) : premièrement, nous introduisons une nouvelle méthode d'apprentissage actif avec réduction de la redondance entre les exemples ; deuxièmement, nous proposons l'utilisations de fonctions noyau spécifiques (comme le noyau triangulaire) pour obtenir l'insensibilité de la SVM au changement d'échelle des données, tout en gardant une très bonne qualité des résultats obtenus. Pour les bases d'images qui possèdent des annotations textuelles, nous présentons une méthode qui, à partir des mots-clefs, fait appel à une ontologie externe (WordNet) afin de produire un descripteur conceptuel pour chaque image. La combinaison de notre nouveau descripteur conceptuel avec les descripteurs visuels permet d'obtenir des résultats sensiblement meilleurs dans tous les tests que nous avons faitsVERSAILLES-BU Sciences et IUT (786462101) / SudocSudocFranceF
De la généricité à la sélectivité des descripteurs vidéo (application à la détection de copies par le contenu)
My PhD thesis presents a new approach for indexing large sets of videos by their content. The proposed concept is based on the extraction and the local description of different natures of points of interest and further on the estimation of their trajectories along the video sequence. Analyzing the low-level description obtained allows highlighting semantic labels of behaviors. Searching for copies in large video databases is a new critical issue. ViCopT is a system dedicated to video copy detection based on our video description. A complete evaluation on a large video database (1,000 hours) demonstrates the robustness and the discriminability of ViCopT and the relevance of our strategy. Comparative evaluations in European and international contexts present the high performances of our system facing other academic and industrial systems.Mes travaux de thèse portent sur l indexation et la recherche dans de grandes bases de vidéos. Partant d une description visuelle de l image basée sur plusieurs natures de points d intérêt, notre approche aboutit à une représentation de plus haut niveau, associant descripteurs visuels locaux, leurs trajectoires ainsi qu une interprétation en termes de comportement de ces descripteurs locaux au sein de la vidéo. Cette méthode permet une description fine de la vidéo tout en réduisant la redondance temporelle qui lui est intrinsèquement liée. Une application cruciale dans la gestion de patrimoines numériques est la traçabilité du catalogue vidéo. Dans ce contexte, nous proposons ViCopT, un système de détection de copie par le contenu. Une validationde sa robustesse et de sa discriminance a été réalisée sur une base de 1000h et a montrée la pertinence de nos choix. Les hautes performances de ViCopT ont été mesurées dans des évaluations comparatives tant au niveau européen qu'international.VERSAILLES-BU Sciences et IUT (786462101) / SudocSudocFranceF
Classification non exclusive et personnalisation par apprentissage (application Ă la navigation dans les bases d'images)
VERSAILLES-BU Sciences et IUT (786462101) / SudocSudocFranceF
Approches globales pour l'analyse de montants numériques de chèques
TOURS-Polytech'Informat.Product. (372612209) / SudocSudocFranceF