4 research outputs found

    Vers plus de robustesse en reconnaissance d'objets et de visages pour l'analyse d'images issues de vidéos de concert

    Get PDF
    RÉSUMÉ Les vidéos de concert constituent un exemple typique de documents très populaires qui sont mal indexés par une description textuelle. Une meilleure indexation passe par l'étude du contenu visuel de ces vidéos. Or, les algorithmes à la pointe en analyse d'images sont encore trop peu robustes au contenu hostile des vidéos de concert. C'est pourquoi, nous nous efforçons ici d'identifier les aspects critiques qui limitent l'efficacité des algorithmes classiques de reconnaissance d'objets et d'individus sur les images complexes. Nous proposons alors, le cas échéant, des pistes de solutions pour rendre ces techniques plus robustes au contenu des vidéos de concert. Détection d'instruments. Au chapitre un, nous mettons en lumière les facteurs limitant en pratique les performances des méthodes classiques de reconnaissance d'objets appliquées aux vidéos de concert. Pour ce faire, nous révisons l'ensemble du pipeline de détection d'objets à la lumière des contraintes imposées par le contexte de l'analyse vidéo. Nous identifions et décrivons notamment les écueils suivants: la complexité algorithmique des méthodes, la mauvaise gestion de la multinomialité des contenus, et la fragilité des algorithmes face aux images à contenu riche (scènes complexes). Complexité algorithmique des méthodes. Le goulot d'étranglement du pipeline d'apprentissage en reconnaissance d'objets réside sans conteste dans le calcul du vocabulaire visuel utilisé pour représenter les images sous la forme d'un histogramme de mots visuels. En effet, l'heuristique des k-moyennes est appliqué à l'ensemble des descripteurs locaux extraits des images d'entrainement, soit un ensemble de très grand cardinal et de grande dimension. Le processus est lourd, et de plus, susceptible de converger vers des minimums locaux. Nous proposons ici une méthode de descente avec relance dynamique, qui permet d'éviter un certain nombre de configurations problématiques sans avoir à réinitialiser complètement l'algorithme. Notre méthode constitue une bonne alternative aux algorithmes de recherche locale ou de relance qui ont étés proposés pour pallier aux manquements de l'algorithme des k-moyennes. Aussi, proposons-nous une analyse théorique de la complexité de cet algorithme. Nous montrons alors que le nombre de centres, k, utilisés pour le clustering, impacte fortement l'efficacité du processus. Nous posons donc la question de la taille adéquate, k, du vocabulaire visuel utilisé pour l'encodage des images. Sous un angle plus pratique, nous introduisons une heuristique efficace pour le clustering rapide d'un espace de grande dimension peuplé de vecteurs denses, c'est-à-dire adapté à l'estimation du vocabulaire visuel sur des banques de données d'images de grande taille. L'algorithme introduit présente des performances compétitives avec l'état de l'art en termes de clustering rapide. Scènes complexes. L'apprentissage sur des bases de données représentatives de la variabilité des images contenues dans les vidéos de concert est un incontournable pour l'obtention d'un classificateur robuste sur un tel contenu. Ainsi, de manière pratique, est-il nécessaire de disposer, dans la base de données d'apprentissage, d'exemples d'instruments présentés dans les mêmes conditions que dans une vidéo de concert (occlusion par le musicien, variation de couleur et de forme). Une telle variabilité peut être obtenue par collecte automatisée d'images sur le web. Malheureusement, ces images ne sont pas optimisées pour l'apprentissage. Elles consistent en des scènes complexes, incluant l'objet d'intérêt. Or, l'apprentissage sur des images présentant plusieurs objets dans un environnement complexe n'est pas une tâche triviale. Comme nous le montrons au chapitre 3.2, la présence d'arrière-plan nuit aux performances des algorithmes. Le recours à une boîte englobante pour isoler l'objet sur les images d'entraînement permet de résoudre ce problème, mais suppose une intervention humaine coûteuse. Nous proposons donc une méthode permettant d'estimer automatiquement la position d'un objet donné sur des images d'entraînement. Multiplicité des classes et multinomialité. Enfin, la conception d'un algorithme adapté à la détection de plusieurs classes d'objets, éventuellement multinomiales, souffre d'un manque d'automatisation. Usuellement, une machine à vecteurs de support linéaire est apprise pour chaque classe d'objets. Nous montrons au chapitre 3.3 que cette pratique courante présente plusieurs limitations. Nous proposons donc une méthode à l'intersection entre le SVM multiclasse et les arbres de décision permettant de gérer un nombre important de classes éventuellement multinomiales. Nous montrons que, à encodage égal, cette méthode permet d'améliorer le F1-score de 10% par rapport à une méthode d'apprentissage standard par SVMs. Reconnaissance de visages. Dans le second chapitre de ce mémoire, nous évaluons l'état de l'art des techniques de reconnaissance d'individus et leur applicabilité aux vidéos de concert. Nous présentons en particulier la méthode d'apprentissage de métrique pour la comparaison dans l'espace des similarités en cosinus et proposons une amélioration. Nous soulignons ensuite l'impact négatif des grandes variations de la pose des individus et du faible nombre d'images disponibles par personne pour l'apprentissage. Enfin, nous explorons les techniques de classification à grande échelle et les structures de données adaptées. La représentation des visages est différente de la représentation des objets, du fait de leur forme constante. Nous présentons alors les méthodes classiques d'apprentissage et introduisons une méthode de classification basée sur les techniques à la pointe en vérification, en l'occurrence l'apprentissage de métrique pour la similarité en cosinus - CSML. Nous montrons alors que cette technique peut être améliorée par une projection linéaire supplémentaire (LDE) de type Fisher-non paramétrique. L'accroissement de précision observé est de l'ordre de 8%. La prise en compte de la pose en vérification (comparaison deux à deux de visages) permet d'améliorer considérablement les performances des algorithmes. L'idée consiste à apprendre une métrique adaptée pour la comparaison respective des paires de visages de face, de profil, et les paires face-profil. Nous montrons que ce résultat se vérifie aussi en classification. Par ailleurs, le nombre d'images disponibles pour l'apprentissage par individu impacte aussi fortement les performances des algorithmes de reconnaissance. Sur la base de données Labelled Faces in the Wild, nous mesurons l'impact du nombre d'instances disponibles pour l'apprentissage sur les performances d'un algorithme de classification. Enfin, nous examinons le scénario de la classification rapide de visages à grande échelle. Nous prouvons la légitimité de la métrique Euclidienne après projection dans un espace optimisé pour la similarité en cosinus. Nous étudions alors les performances des structures de données hiérarchiques pour la classification rapide sur ces bases de données et montrons que la réduction de dimensionnalité est un incontournable pour l'utilisation efficace de ces structures. Indexation de vidéos de concert. Enfin, nous proposons une stratégie pratique pour l'indexation des vidéos de concert. La méthode proposée est basée sur une description détaillée du contenu visuel et sur une méthode innovatrice d'indexation des évènements musicaux. L'analyse de vidéos en général est un thème complexe. Ici, la restriction aux vidéos de concert simplifie l'étude puisque l'on sait à quel type de contenu s'attendre. Nous proposons donc de procéder à la mesure de plusieurs indicateurs pour évaluer la qualité d'une vidéo : présence d'instruments et d'individus d'intérêt, qualité de la prise de vue, et popularité du groupe et de l'évènement. Le recueil de valeurs de ces paramètres consiste à mettre en œuvre les méthodes développées pour la détection d'instruments et de visages. Il s'agit aussi de proposer un moyen fiable permettant d'estimer la qualité de la prise de vue. Nous introduisons donc une méthode basée sur la mesure du flot optique moyen pour estimer les mouvements de caméra. Enfin, nous décrivons une méthodologie simple pour mesurer la popularité d'un groupe ou d'un évènement musical. Pour finir, fort de ces mesures, nous étudions le problème de l'indexation de vidéos de concert, et proposons une méthode pour la détection de vidéos inappropriées, à savoir, les vidéos ne représentant pas un concert, les vidéos mal filmées, ou encore les vidéos ne présentant pas le groupe de musiciens d'intérêt.----------ABSTRACT While concerts are a popular subject for the videos found online, they are often poorly indexed relative to other types of media. This thesis aims at introducing a strategy to improve concert video indexing using computer vision techniques from the image recognition field. More specifically, we aim at exploring several key aspects of several state of the art techniques that limit their ability to be properly applied to online concert videos. Instrument detection. In the first chapter, we discuss several factors that bound the performances of traditional object recognition techniques when applied to concert videos. To do so, we go through a commonly used the state of the art object detection pipeline and we identify aspects that are critical for concert video content analysis. More specifically, we identify the following pitfalls: algorithms complexity, poor modeling of content variability, and sensitivity to background on complex scenes. Algorithm complexity. One bottleneck of the learning pipeline in object recognition is the visual vocabulary computation step. Typically, the k-means algorithm is applied to the space of local descriptors extracted from training images, which is a large space populated with dense high dimensional vectors. Hence, we study the complexity of this algorithm and show that a key parameter is the number of centers, k, used for clustering, which also defines the size of the visual vocabulary. We therefore also explore the appropriate size of a visual vocabulary for image recognition algorithms. More specifically, we introduce a reasonable criterion to choose the value of k, given a set of local descriptors. From a more practical point of view, we implemented a heuristic to improve k-means and prevent local minima to be reached too quickly. This algorithm appears to be competitive with state of the art methods for fast k-means computation. Background clutter. To obtain a robust classifier for images from concert videos, one cannot rely on a small dataset showing objects under an ideal point of view, on centered images without background. To cope with the large variation of shape and point of view of instruments in concert videos, there is no choice but to learn using a representative dataset. Such a dataset can be obtained by mining the web, as it has been done for the well-known image-net database. Still, if representative of the variety of instruments within classes, images from image-net are not provided with bounding boxes. To label images with the location of the object of interest is a costly operation that we cannot consider at large scale. Thus, we introduce an algorithm to estimate an object location within an image by cross-comparing images from the training-set. Creating efficient, high performance multiclass classifiers. To conceive a detection algorithm dealing with several object classes, a standard practice consists of training one SVM per object. We show that this strategy can be improved in several ways, in particular by taking into account class multinomiality and by dealing with several classes at the same time. Specifically, we show that the F-1 score can be improved by more than 10% in comparison to standard one-vs-all SVMs. Face recognition. In the second chapter, we review face recognition techniques. We focus on Cosine Similarity Learning (CSML) and measure its efficiency when applied to the face recognition problem on faces in the wild from the Labelled Faces in the Wild dataset. We show that CSML can be further improved by Linear Discriminant Embedding. Then, we underline the negative impact of pose variations and of the low number of training images per people. At last, we review large scale classification techniques and appropriate data structures. Face representations differ from object because recognition involves exploring details of the face, not an average shape. We introduce standard methods for face comparison and measure the precision one can get by applying these to the classification problem. Specifically, we experiment with the nearest neighbor classification algorithm on faces projected in the CSML space, which is optimized to separate the different faces under cosine similarity. We show that a further projection can improve the classification accuracy by more than 8%. To explicitly take into account pose on pictures has proven to be a fruitful practise for pairs of faces comparison. The idea consists in learning a specific metric for each pair of pose (frontal-frontal, frontal-side, side-side). Here we show that this observation is also true for the face classification problem. The number of training images per people is another factor that has a major impact on the precision of classification algorithms. On the LFW dataset, we measure the relation between the number of training images and the achieved accuracy. We then discuss the image gathering process and its impact on learning strategies. At last, we discuss the large scale face recognition scenario and we prove that the Euclidian metric can be used for nearest neighbor search after CSML on normalized vectors. Concert video indexing. Finally, we introduce a methodology for concert videos indexing, based on a detailed description of a video visual content and an innovative event indexing strategy. Video analysis is a wide field of study. Here we focus on concert videos which simplifies the process and allows us to provide a more detailed study. Indeed we know what kind of content one might expect from a good concert video. We thus proceed to measure the following parameters: objects and people of interest, camerawork quality, band popularity and event size. Features extraction. To gather these features for several videos can be done by using previously developed methods for instruments and person recognition. We then develop an algorithm to measure the quality of camerawork. We thus introduce a technique based on optical-flow and show that a relationship can be drawn between averaged optical flow per frame and camera movement quality. We also introduce basic methods to evaluate the popularity of a band and the popularity of a musical event. We conclude by a model that can detect low-quality videos using the previously mentioned parameters

    Face Mining in Wikipedia Biographies

    Get PDF
    RÉSUMÉ Cette thèse présente quelques contributions à la recherche liées au thème de la création d’un système automatisé pour l’extraction de visages dans les pages de biographie sur Wikipédia. La première contribution majeure de ce travail est l’élaboration d’une solution au problème basé sur une nouvelle technique de modélisation graphique probabiliste. Nous utilisons l’inférence probabiliste pour faire des prédictions structurées dans les modèles construits dynamiquement afin d’identifier les véritables exemples de visages correspondant à l’objet d’une biographie parmi tous les visages détectés. Notre modèle probabiliste prend en considération l’information provenant de différentes sources, dont : des résultats de comparaisons entre visages détectés, des métadonnées provenant des images de visage et de leurs détections, des images parentes, des données géospatiales, des noms de fichiers et des sous-titres. Nous croyons que cette recherche est également unique parce que nous sommes les premiers à présenter un système complet et une évaluation expérimentale de la tâche de l’extraction des visages humains dans la nature à une échelle de plus de 50 000 identités. Une autre contribution majeure de nos travaux est le développement d’une nouvelle catégorie de modèles probabilistes discriminatifs basée sur une fonction logistique Beta-Bernoulli généralisée. À travers notre formulation novatrice, nous fournissons une nouvelle méthode d’approximation lisse de la perte 0-1, ainsi qu’une nouvelle catégorie de classificateurs probabilistes. Nous présentons certaines expériences réalisées à l’aide de cette technique pour : 1) une nouvelle forme de régression logistique que nous nommons la régression logistique Beta-Bernoulli généralisée ; 2) une version de cette même technique ; et enfin pour 3) notre modèle pour l’extraction des visages que l’on pourrait considérer comme une technique de prédiction structurée en combinant plusieurs sources multimédias. À travers ces expériences, nous démontrons que les différentes formes de cette nouvelle formulation Beta-Bernoulli améliorent la performance des méthodes de la régression logistique couramment utilisées ainsi que la performance des machines à vecteurs de support (SVM) linéaires et non linéaires dans le but d’une classification binaire. Pour évaluer notre technique, nous avons procédé à des tests de performance reconnus en utilisant différentes propriétés allant de celles qui sont de relativement petite taille à celles qui sont de relativement grande taille, en plus de se baser sur des problèmes ayant des caractéristiques clairsemées ou denses. Notre analyse montre que le modèle Beta-Bernoulli généralisé améliore les formes analogues de modèles classiques de la régression logistique et les machines à vecteurs de support et que lorsque nos évaluations sont effectuées sur les ensembles de données à plus grande échelle, les résultats sont statistiquement significatifs. Une autre constatation est que l’approche est aussi robuste lorsqu’il s’agit de valeurs aberrantes. De plus, notre modèle d’extraction de visages atteint sa meilleure performance lorsque le sous-composant consistant d’un modèle discriminant d’entropie maximale est remplacé par notre modèle de Beta-Bernoulli généralisée de la régression logistique. Cela montre l’applicabilité générale de notre approche proposée pour une tâche de prédiction structurée. Autant que nous sachions, c’est la première fois qu’une approximation lisse de la perte 0-1 a été utilisée pour la classification structurée. Enfin, nous avons exploré plus en profondeur un problème important lié à notre tâche d’extraction des visages – la localisation des points-clés denses sur les visages humains. Nous avons développé un pipeline complet qui résout le problème de localisation des points-clés en utilisant une approche par sous-espace localement linéaire. Notre modèle de localisation des points-clés est d’une efficacité comparable à l’état de l’art.----------ABSTRACT This thesis presents a number of research contributions related to the theme of creating an automated system for extracting faces from Wikipedia biography pages. The first major contribution of this work is the formulation of a solution to the problem based on a novel probabilistic graphical modeling technique. We use probabilistic inference to make structured predictions in dynamically constructed models so as to identify true examples of faces corresponding to the subject of a biography among all detected faces. Our probabilistic model takes into account information from multiple sources, including: visual comparisons between detected faces, meta-data about facial images and their detections, parent images, image locations, image file names, and caption texts. We believe this research is also unique in that we are the first to present a complete system and an experimental evaluation for the task of mining wild human faces on the scale of over 50,000 identities. The second major contribution of this work is the development of a new class of discriminative probabilistic models based on a novel generalized Beta-Bernoulli logistic function. Through our generalized Beta-Bernoulli formulation, we provide both a new smooth 0-1 loss approximation method and new class of probabilistic classifiers. We present experiments using this technique for: 1) a new form of Logistic Regression which we call generalized Beta-Bernoulli Logistic Regression, 2) a kernelized version of the aforementioned technique, and 3) our probabilistic face mining model, which can be regarded as a structured prediction technique that combines information from multimedia sources. Through experiments, we show that the different forms of this novel Beta-Bernoulli formulation improve upon the performance of both widely-used Logistic Regression methods and state-of-the-art linear and non-linear Support Vector Machine techniques for binary classification. To evaluate our technique, we have performed tests using a number of widely used benchmarks with different properties ranging from those that are comparatively small to those that are comparatively large in size, as well as problems with both sparse and dense features. Our analysis shows that the generalized Beta-Bernoulli model improves upon the analogous forms of classical Logistic Regression and Support Vector Machine models and that when our evaluations are performed on larger scale datasets, the results are statistically significant. Another finding is that the approach is also robust when dealing with outliers. Furthermore, our face mining model achieves it’s best performance when its sub-component consisting of a discriminative Maximum Entropy Model is replaced with our generalized Beta-Bernoulli Logistic Regression model. This shows the general applicability of our proposed approach for a structured prediction task. To the best of our knowledge, this represents the first time that a smooth approximation to the 0-1 loss has been used for structured predictions. Finally, we have explored an important problem related to our face extraction task in more depth - the localization of dense keypoints on human faces. Therein, we have developed a complete pipeline that solves the keypoint localization problem using an adaptively estimated, locally linear subspace technique. Our keypoint localization model performs on par with state-of-the-art methods

    Improving alignment of faces for recognition

    No full text
    corecore