257 research outputs found

    Coherent Selection of Independent Trackers for Real-time Object Tracking

    Get PDF
    International audienceThis paper presents a new method for combining several independent and heterogeneous tracking algorithms for the task of online single-object tracking. The proposed algorithm runs several trackers in parallel, where each of them relies on a different set of complementary low-level features. Only one tracker is selected at a given frame, and the choice is based on a spatio-temporal coherence criterion and normalised confidence estimates. The key idea is that the individual trackers are kept completely independent, which reduces the risk of drift in situations where for example a tracker with an inaccurate or inappropriate appearance model negatively impacts the performance of the others. Moreover, the proposed approach is able to switch between different tracking methods when the scene conditions or the object appearance rapidly change. We experimentally show with a set of Online Adaboost-based trackers that this formulation of multiple trackers improves the tracking results in comparison to more classical combinations of trackers. And we further improve the overall performance and computational efficiency by introducing a selective update step in the tracking framework

    Apprentissage neuronal de caractéristiques spatio-temporelles pour la classification automatique de séquences vidéo

    Get PDF
    Cette thèse s'intéresse à la problématique de la classification automatique des séquences vidéo. L'idée est de se démarquer de la méthodologie dominante qui se base sur l'utilisation de caractéristiques conçues manuellement, et de proposer des modèles qui soient les plus génériques possibles et indépendants du domaine. Ceci est fait en automatisant la phase d'extraction des caractéristiques, qui sont dans notre cas générées par apprentissage à partir d'exemples, sans aucune connaissance a priori. Nous nous appuyons pour ce faire sur des travaux existants sur les modèles neuronaux pour la reconnaissance d'objets dans les images fixes, et nous étudions leur extension au cas de la vidéo. Plus concrètement, nous proposons deux modèles d'apprentissage des caractéristiques spatio-temporelles pour la classification vidéo : (i) Un modèle d'apprentissage supervisé profond, qui peut être vu comme une extension des modèles ConvNets au cas de la vidéo, et (ii) Un modèle d'apprentissage non supervisé, qui se base sur un schéma d'auto-encodage, et sur une représentation parcimonieuse sur-complète des données. Outre les originalités liées à chacune de ces deux approches, une contribution supplémentaire de cette thèse est une étude comparative entre plusieurs modèles de classification de séquences parmi les plus populaires de l'état de l'art. Cette étude a été réalisée en se basant sur des caractéristiques manuelles adaptées à la problématique de la reconnaissance d'actions dans les vidéos de football. Ceci a permis d'identifier le modèle de classification le plus performant (un réseau de neurone récurrent bidirectionnel à longue mémoire à court-terme -BLSTM-), et de justifier son utilisation pour le reste des expérimentations. Enfin, afin de valider la généricité des deux modèles proposés, ceux-ci ont été évalués sur deux problématiques différentes, à savoir la reconnaissance d'actions humaines (sur la base KTH), et la reconnaissance d'expressions faciales (sur la base GEMEP-FERA). L'étude des résultats a permis de valider les approches, et de montrer qu'elles obtiennent des performances parmi les meilleures de l'état de l'art (avec 95,83% de bonne reconnaissance pour la base KTH, et 87,57% pour la base GEMEP-FERA).This thesis focuses on the issue of automatic classification of video sequences. We aim, through this work, at standing out from the dominant methodology, which relies on so-called hand-crafted features, by proposing generic and problem-independent models. This can be done by automating the feature extraction process, which is performed in our case through a learning scheme from training examples, without any prior knowledge. To do so, we rely on existing neural-based methods, which are dedicated to object recognition in still images, and investigate their extension to the video case. More concretely, we introduce two learning-based models to extract spatio-temporal features for video classification: (i) A deep learning model, which is trained in a supervised way, and which can be considered as an extension of the popular ConvNets model to the video case, and (ii) An unsupervised learning model that relies on an auto-encoder scheme, and a sparse over-complete representation. Moreover, an additional contribution of this work lies in a comparative study between several sequence classification models. This study was performed using hand-crafted features especially designed to be optimal for the soccer action recognition problem. Obtained results have permitted to select the best classifier (a bidirectional long short-term memory recurrent neural network -BLSTM-) to be used for all experiments. In order to validate the genericity of the two proposed models, experiments were carried out on two different problems, namely human action recognition (using the KTH dataset) and facial expression recognition (using the GEMEP-FERA dataset). Obtained results show that our approaches achieve outstanding performances, among the best of the related works (with a recognition rate of 95,83% for the KTH dataset, and 87,57% for the GEMEP-FERA dataset).VILLEURBANNE-DOC'INSA-Bib. elec. (692669901) / SudocSudocFranceF

    Segmentation et classification dans les images de documents numérisés

    Get PDF
    Les travaux de cette thèse ont été effectués dans le cadre de l'analyse et du traitement d'images de documents imprimés afin d'automatiser la création de revues de presse. Les images en sortie du scanner sont traitées sans aucune information a priori ou intervention humaine. Ainsi, pour les caractériser, nous présentons un système d'analyse de documents composites couleur qui réalise une segmentation en zones colorimétriquement homogènes et qui adapte les algorithmes d'extraction de textes aux caractéristiques locales de chaque zone. Les informations colorimétriques et textuelles fournies par ce système alimentent une méthode de segmentation physique des pages de presse numérisée. Les blocs issus de cette décomposition font l'objet d'une classification permettant, entre autres, de détecter les zones publicitaires. Dans la continuité et l'expansion des travaux de classification effectués dans la première partie, nous présentons un nouveau moteur de classification et de classement générique, rapide et facile à utiliser. Cette approche se distingue de la grande majorité des méthodes existantes qui reposent sur des connaissances a priori sur les données et dépendent de paramètres abstraits et difficiles à déterminer par l'utilisateur. De la caractérisation colorimétrique au suivi des articles en passant par la détection des publicités, l'ensemble des approches présentées ont été combinées afin de mettre au point une application permettant la classification des documents de presse numérisée par le contenu.In this thesis, we deal with printed document images processing and analysis to automate the press reviews. The scanner output images are processed without any prior knowledge nor human intervention. Thus, to characterize them, we present a scalable analysis system for complex documents. This characterization is based on a hybrid color segmentation suited to noisy document images. The color analysis customizes text extraction algorithms to fit the local image properties. The provided color and text information is used to perform layout segmentation in press images and to compute features on the resulting blocks. These elements are classified to detect advertisements. In the second part of this thesis, we deal with a more general purpose: clusternig and classification. We present a new clustering approach, named ACPP, which is completely automated, fast and easy to use. This approach's main features are its independence of prior knowledge about the data and theoretical parameters that should be determined by the user. Color analysis, layout segmentation and the ACPP classification method are combined to create a complete processing chain for press images.VILLEURBANNE-DOC'INSA LYON (692662301) / SudocVILLEURBANNE-DOC'INSA-Bib. elec. (692669901) / SudocSudocFranceF

    Classifying Global Scene Context for On-line Multiple Tracker Selection

    Full text link
    International audienceIn this paper, we present a novel framework for combining several independent on-line trackers using visual scene context. The aim of our method is to decide automatically at each point in time which specific tracking algorithm works best under the given scene or acquisition conditions. To this end, we define a set of generic global context features computed on each frame of a set of training videos. At the same time, we record the performance of each individual tracker on these videos in terms of object bounding box overlap with the ground truth. Then a classifier is trained to estimate which tracker gives the best result given the global scene context in a particular frame. We experimentally show that such a classifier can predict the best tracker with a precision of over 80% in unknown videos with unknown environments. The proposed tracking method further filters the classifier responses temporarily using a Hidden Markov Model in order to avoid rapid oscillations between different trackers. Finally, we evaluated the overall tracking system and showed that this scene context-based tracker selection considerably improves the overall robustness and compares favourably with the state-of-the-art

    Steerable pyramid for contrast enhancement and directional structures detection

    No full text
    International audienc

    Action Recognition in Videos

    No full text
    Abstract — Applications such as video surveillance, robotics, source selection, and video indexing often require the recognition of actions based on the motion of different actors in a video. Certain applications may require assigning activities to several predefined classes, while others may rely on the detection of abnormal or infrequent activities. In this summary we provide a survey of dominant models and methods and discuss recent developments in this domain. We briefly describe two recent contributions: joint level feature and sequence learning, as well as space-time graph matching

    Reconnaissance d'objets dans d'images et des vidéos (Application aux expressions du visage)

    No full text
    Dans cette thèse, nous avons abordé la problématique de la classification d'objets puis nous l'avons appliqué à la classification et la reconnaissance des expressions faciales. D'abord, nous nous sommes inspirés des processus de Dirichlet, comme des distributions dans l'espace des distributions, qui génèrent des composantes intermédiaires permettant d'améliorer la catégorisation d'objets. Ce modèle, utilisé notamment dans la classification sémantique de documents, se caractérise par le fait d'être non paramétrique, et d'être hiérarchique. Dans une première phase, l'ensemble des composantes intermédiaires de base sont extraites en utilisant l'apprentissage bayésien par MCMC puis une sélection itérative des classifiers faibles les plus distinctifs parmi toutes les composantes est opéré par Adaboost. Notre objectif est de cerner les distributions des composantes latentes aussi bien celles partagées par les différentes classes que celles associées à une catégorie particulière. Nous avons cherché dans cette seconde partie à appliquer notre approche de classification aux expressions faciales. Ce travail a consisté à trouver les méthodes adéquates pour décrire les aspects statiques et dynamiques au cours de l'expression faciale, et donc à concevoir de nouveaux descripteurs capables de représenter les caractéristiques des mouvements des muscles faciaux, et par là même, identifier la catégorie de l'expression.In this dissertation, we address the problem of generative object categorization in computer vision. Then, we apply to the classification of facial expressions. For the first part, we are inspired by the method Hierarchical Dirichlet Processes to generate intermediate mixture components to improve recognition and categorization, as it shares with documents modelling topic two similar aspects: its nonparametric and its hierarchical nature. After we obtain the set of components, instead of boosting the features as Viola and Jones, we try to boost the components in the intermediate layer to find the most distinctive ones. We consider that these components are more important for object class recognition than others and use them to improve the classification. Our target is to understand the correct classification of objects, and also to discover the essential latent themes sharing across multiple categories of object and the particular distribution of the latent themes for a special category. In the second part, regarding the relation between basic expressions and corresponding facial deformation models, we propose two new textons, VTB and moments on spatiotemporal plane, to describe the transformation of human face during facial expressions. These descriptors aim to catch both general shape changes and motion texture details. The dynamic deformation of facial components is so captured by modelling the temporal behaviour of facial expression. Finally, SVM based system is used to efficiently recognize the expression for a single image in sequence, then, the weighted probabilities of all the frames are used to predict the class of the current sequence. My thesis includes finding the proper methods to describe the static and dynamic aspects during facial expression. I also aim to design new descriptors to denote characteristics of facial muscle movements, and furthermore, identify the category of emotion.VILLEURBANNE-DOC'INSA LYON (692662301) / SudocSudocFranceF
    • …
    corecore