32 research outputs found

    Stratégies d'apprentissage automatique pour la prédiction d'effets tardifs associés au traitement de la leucémie aiguë lymphoblastique infantile

    Get PDF
    La leucémie aiguë lymphoblastique (LAL) est le cancer le plus fréquemment diagnostiqué chez l'enfant. Approximativement deux tiers des survivants de la LAL infantile présentent une ou plusieurs complications de santé à l'âge adulte. Connues sous le nom d'effets tardifs, ces complications sont plutôt le fruit du traitement que de la maladie elle-même. Les mesures actuellement mises en place pour les visites de suivi post-traitement sont généralement uniformes à l'ensemble des survivants de cancers infantiles et ne sont pas nécessairement adaptées précisément aux survivants de la LAL infantile. Conséquemment, les effets tardifs peuvent être sous-diagnostiqués et, dans la plupart des cas, seulement pris en charge après leurs apparitions. D'autre part, les directives de soins actuelles peuvent également mener à un suivi plus intensif que nécessaire, entraînant parfois des inquiétudes chez les survivants en plus d'augmenter les coûts de soins. Ainsi, il est nécessaire de prédire l'apparition des effets tardifs plus tôt pour contribuer à la santé et au bien-être des survivants. Plusieurs travaux se sont concentrés sur la recherche de biomarqueurs pouvant aider à la prédiction des effets tardifs et, notamment, un article a mis de l'avant l'utilisation d'un modèle d'apprentissage automatique pour prévenir les effets liés à la détérioration de la forme cardio-respiratoire. Toutefois, aucune solution n'a fait usage de réseaux neuronaux jusqu'à présent. Dans ce projet de recherche, nous avons développé des réseaux de neurones graphiques efficients et mis en valeur leur interprétabilité à l'aide de multiples analyses conduites suite à leurs entraînements. En premier lieu, nous avons proposé un nouveau modèle d'estimation de la consommation d'oxygène maximale (c.-à-d., VO2 max) qui ne nécessite aucune participation à un test physique (e.g., test de marche de six minutes). Le VO2 max est reconnu comme la meilleure mesure de la forme cardio-respiratoire, qui à son tour, est un bon indicateur du risque de développement de certaines morbidités (e.g., obésité, dépression) chez les survivants. En second lieu, nous avons développé un modèle de prédiction de l'obésité utilisant des variables cliniques disponibles dès la fin du traitement de la LAL infantile, ainsi que plusieurs marqueurs génétiques (c.-à-d., polymorphismes à un seul nucléotide). Les réseaux de neurones graphiques mis en place durant ce projet ont permis d'obtenir de meilleures performances que d'autres modèles à structures arborescentes ou neuronales

    Estimation de l'âge dentaire chez le sujet vivant : application des méthodes d'apprentissage machine chez les enfants et les jeunes adultes

    Get PDF
    Exposé du problème : Chez l'individu vivant, l'estimation de l'âge dentaire est un paramètre utilisé en orthopédie ou en orthodontie dentofaciale, ou en pédiatrie pour situer l'individu sur sa courbe de croissance. En médecine légale l'estimation de l'âge dentaire permet d'inférer l'âge chronologique sous forme d'une régression ou d'une classification par rapport à un âge clé. Il existe des méthodes physiques et radiologiques. Si ces dernières sont plus précises, il n'existe pas de méthode universelle. Demirjian a créé il y a presque 50 ans la méthode radiologique la plus utilisée, mais elle est critiquée pour sa précision et pour l'utilisation de tables de références basées sur un échantillon de population franco-canadien. Objectif : L'intelligence artificielle et plus particulièrement l'apprentissage machine a permis le développement de différents outils ayant une capacité d'apprentissage sur une base de données annotées. L'objectif de cette thèse a été de comparer la performance de différents algorithmes d'apprentissage machine ; dans un premier temps par rapport à deux méthodes classiques d'estimation de l'âge dentaire, puis entre elles en ajoutant des prédicteurs supplémentaires. Matériel et méthode : Dans une première partie, les différentes méthodes d'estimation de l'âge dentaire sur des individus vivants enfants et jeunes adultes sont présentées. Les limites de ces méthodes sont exposées et les possibilités d'y répondre avec l'utilisation de l'apprentissage machine sont proposées. A partir d'une base de données de 3605 radiographies panoramiques d'individus âgés de 2 à 24 ans (1734 filles et 1871 garçons), différentes méthodes d'apprentissage machine ont été testées pour estimer l'âge dentaire. Les précisions de ces méthodes ont été comparées entre elles et par rapport à deux méthodes classiques de Demirjian et Willems. Ce travail a abouti à la parution d'un article dans l'International Journal of Legal Medicine. Dans une deuxième partie, les différentes méthodes d'apprentissage machine sont décrites et discutées. Puis les résultats obtenus dans l'article sont remis en perspective avec les publications sur le sujet en 2021. Enfin une mise en perspective des résultats des méthodes d'apprentissage machine par rapport à leur utilisation dans l'estimation de l'âge dentaire est réalisée. Résultats : Les résultats montrent que toutes les méthodes d'apprentissage machine présentent une meilleure précision que les méthodes classiques testées pour l'estimation de l'âge dentaire dans les conditions d'utilisation de ces dernières. Elles montrent également que l'utilisation du stade de maturation des troisièmes molaires sur une plage d'utilisation étendue à 24 ans ne permet pas l'estimation de l'âge dentaire pour une question légale. Conclusion : Les méthodes d'apprentissage machine s'intègrent dans le processus global d'automatisation de la détermination de l'âge dentaire. La partie spécifique d'apprentissage profond semble intéressante à investiguer pour des tâches de classification de l'âge dentaire.Statement of the problem: In the living individual, the estimation of dental age is a parameter used in orthopedics or dentofacial orthodontics or in pediatrics to locate the individual on its growth curve. In forensic medicine, the estimation of dental age allows to infer the chronological age for a regression or a classification task. There are physical and radiological methods. While the latter are more accurate, there is no universal method. Demirjian created the most widely used radiological method almost 50 years ago, but it is criticized for its accuracy and for using reference tables based on a French-Canadian population sample. Objective: Artificial intelligence, and more particularly machine learning, has allowed the development of various tools with a learning capacity on an annotated database. The objective of this thesis was to compare the performance of different machine learning algorithms first against two classical methods of dental age estimation, and then between them by adding additional predictors. Material and method: In a first part, the different methods of dental age estimation on living children and young adults are presented. The limitations of these methods are exposed and the possibilities to address them with the use of machine learning are proposed. Using a database of 3605 panoramic radiographs of individuals aged 2 to 24 years (1734 girls and 1871 boys), different machine learning methods were tested to estimate dental age. The accuracies of these methods were compared with each other and with two classical methods by Demirjian and Willems. This work resulted in an article published in the International Journal of Legal Medicine. In a second part, the different machine learning methods are described and discussed. Then, the results obtained in the article are put in perspective with the publications on the subject in 2021. Finally, a perspective of the results of the machine learning methods in relation to their use in dental age estimation is made. Results: The results show that all machine learning methods have better accuracy than the conventional methods tested for dental age estimation under the conditions of their use. They also show that the use of the maturation stage of third molars over an extended range of use to 24 years does not allow the estimation of dental age for a legal issue. Conclusion: Machine learning methods fit into the overall process of automating dental age determination. The specific part of deep learning seems interesting to investigate for dental age classification tasks

    Méthodes d'analyse supervisée pour l'interface syntaxe-sémantique: De la réécriture de graphes à l'analyse par transitions

    Get PDF
    Nowadays, the amount of textual data has become so gigantic, that it is not possible to deal with it manually. In fact, it is now necessary to use Natural Language Processing techniques to extract useful information from these data and understand their underlying meaning. In this thesis, we offer resources, models and methods to allow: (i) the automatic annotation of deep syntactic corpora to extract argument structure that links (verbal) predicates to their arguments (ii) the use of these resources with the help of efficient methods.First, we develop a graph rewriting system and a set of manually-designed rewriting rules to automatically annotate deep syntax in French. Thanks to this approach, two corpora were created: the DeepSequoia, a deep syntactic version of the Séquoia corpus and the DeepFTB, a deep syntactic version of the dependency version of the French Treebank. Next, we extend two transition-based parsers and adapt them to be able to deal with graph structures. We also develop a set of rich linguistic features extracted from various syntactic trees. We think they are useful to bring different kind of topological information to accurately predict predicat-argument structures. Used in an arc-factored second-order parsing model, this set of features gives the first state-of-the-art results on French and outperforms the one established on the DM and PAS corpora for English.Finally, we briefly explore a method to automatically induce the transformation between a tree and a graph. This completes our set of coherent resources and models to automatically analyze the syntax-semantics interface on French and English.Aujourd'hui, le volume de données textuelles disponibles est colossal. Ces données représentent des informations inestimables impossibles à traiter manuellement. De fait, il est essentiel d'utiliser des techniques de Traitement Automatique des Langues pour extraire les informations saillantes et comprendre le sens sous-jacent. Cette thèse s'inscrit dans cette perspective et proposent des ressources, des modèles et des méthodes pour permettre : (i) l'annotation automatique de corpus à l'interface entre la syntaxe et la sémantique afin d'en extraire la structure argumentale (ii) l'exploitation des ressources par des méthodes efficaces. Nous proposons d’abord un système de réécriture de graphes et un ensemble de règles de réécriture manuellement écrites permettant l'annotation automatique de la syntaxe profonde du français. Grâce à cette approche, deux corpus ont vu le jour : le DeepSequoia, version profonde du corpus Séquoia et le DeepFTB, version profonde du French Treebank en dépendances. Ensuite, nous proposons deux extensions d'analyseurs par transitions et les adaptons à l'analyse de graphes. Nous développons aussi un ensemble de traits riches issus d'analyses syntaxiques. L'idée est d'apporter des informations topologiquement variées donnant à nos analyseurs les indices nécessaires pour une prédiction performante de la structure argumentale. Couplé à un analyseur par factorisation d'arcs, cet ensemble de traits permet d'établir l'état de l'art sur le français et de dépasser celui établi pour les corpus DM et PAS sur l'anglais. Enfin, nous explorons succinctement une méthode d'induction pour le passage d'un arbre vers un graphe

    Génération modulaire de grammaires formelles

    Get PDF
    The work presented in this thesis aim at facilitating the development of resources for natural language processing. Resources of this type take different forms, because of the existence of several levels of linguistic description (syntax, morphology, semantics, . . . ) and of several formalisms proposed for the description of natural languages at each one of these levels. The formalisms featuring different types of structures, a unique description language is not enough: it is necessary to create a domain specific language (or DSL) for every formalism, and to implement a new tool which uses this language, which is a long a complex task. For this reason, we propose in this thesis a method to assemble in a modular way development frameworks specific to tasks of linguistic resource generation. The frameworks assembled thanks to our method are based on the fundamental concepts of the XMG (eXtensible MetaGrammar) approach, allowing the generation of tree based grammars. The method is based on the assembling of a description language from reusable bricks, and according to a unique specification file. The totality of the processing chain for the DSL is automatically assembled thanks to the same specification. In a first time, we validated this approach by recreating the XMG tool from elementary bricks. Some collaborations with linguists also brought us to assemble compilers allowing the description of morphology and semantics.Les travaux présentés dans cette thèse visent à faciliter le développement de ressources pour le traitement automatique des langues. Les ressources de ce type prennent des formes très diverses, en raison de l’existence de différents niveaux d’étude de la langue (syntaxe, morphologie, sémantique,. . . ) et de différents formalismes proposés pour la description des langues à chacun de ces niveaux. Les formalismes faisant intervenir différents types de structures, un unique langage de description n’est pas suffisant : il est nécessaire pour chaque formalisme de créer un langage dédié (ou DSL), et d’implémenter un nouvel outil utilisant ce langage, ce qui est une tâche longue et complexe. Pour cette raison, nous proposons dans cette thèse une méthode pour assembler modulairement, et adapter, des cadres de développement spécifiques à des tâches de génération de ressources langagières. Les cadres de développement créés sont construits autour des concepts fondamentaux de l’approche XMG (eXtensible MetaGrammar), à savoir disposer d’un langage de description permettant la définition modulaire d’abstractions sur des structures linguistiques, ainsi que leur combinaison non-déterministe (c’est à dire au moyen des opérateurs logiques de conjonction et disjonction). La méthode se base sur l’assemblage d’un langage de description à partir de briques réutilisables, et d’après un fichier unique de spécification. L’intégralité de la chaîne de traitement pour le DSL ainsi défini est assemblée automatiquement d’après cette même spécification. Nous avons dans un premier temps validé cette approche en recréant l’outil XMG à partir de briques élémentaires. Des collaborations avec des linguistes nous ont également amené à assembler des compilateurs permettant la description de la morphologie de l’Ikota (langue bantoue) et de la sémantique (au moyen de la théorie des frames)

    Interface pour le pilotage et l'analyse des robots basée sur un générateur de cinématiques

    Get PDF
    In robotics we depend on software tools during design, modeling, programming and testing. These tools are essentials, often indispensable aids for developing and operating sophisticated robotic systems. At the same time, these tools are complex and usually too difficult to be used by non specialists. For example tools used for simulation or off-line programming require significant knowledge and skill. The goal of this thesis is to provide novice users with an intuitive tool (CINEGEN) for designing, studying and controlling robot manipulators without programming. In particular the tool addresses two main problems: 1) modeling a new robot requires an significant amount of time; 2) robot tasks (motion, actions, etc.) are generally difficult for novice users to specify. CINEGEN is a novel tool for kinematic simulation of robot manipulators in a virtual environment. It is easy to use and is capable of handling generic kinematic structures. With CINEGEN the description of robots is easy to perform and enables rapid prototyping. Additionally, CINEGEN's capability for real-time interactive simulation allows novice users to quickly specify and evaluate robot tasks. A new simulation can be created very rapidly by describing the robot in a simple text based configuration file. In this file, robots are defined by the properties of each link and their relationships. Robots are defined as a tree structure from the base to the end-effector. For robots with kinematic loops, each loop is represented with two open sub-chains which are closed using a simple constraint. This same type of constraint is used to define which part of the robot must follow movements generated by input devices to the simulation. Once defined, this file is parsed by CINEGEN which automatically constructs the robot structure and its numerical kinematic model to satisfy all the constraints. Then the kinematic solver computes the robot movements regarding the user inputs and the internal constraints. This allows the user to interactively control the robot in two modes: direct kinematics (independent control of each joint) or inverse kinematics (control of the end effector). This constraint solver scheme provides the user with a unified interface to control robots without requiring thought about direct or inverse kinematics. The user interacts with the model of the robot using a virtual reality based interface. This interface gives the user a direct and intuitive means to study a robot's behavior. The virtual reality based interface implies three fundamentals needs: a visualization of 3-dimensional world, appropriate input devices and real-time simulation. The visualization of the robot in a three dimensional space allows the user to understand the robot and the world in which it moves without any symbolic representation. The design of a new haptic input device extends the use of commercial devices employed, making it easier to generate control inputs as well as to "feel" the robot response. Real-time performance (refresh at more than 25Hz) of the complete simulation (graphics as well as kinematics) is obtained via efficient numerical tools and a constraint solver dedicated to robot kinematics. In short, the project developed in this thesis answer to two principal needs: rapid prototyping and analysis of robot manipulators with general kinematic structure, an intuitive interface for teleoperation (task definition) of new robots without programming

    Dynamique d'apprentissage pour Monte Carlo Tree Search : applications aux jeux de Go et du Clobber solitaire impartial

    Get PDF
    Monte Carlo Tree Search (MCTS) has been initially introduced for the game of Go but has now been applied successfully to other games and opens the way to a range of new methods such as Multiple-MCTS or Nested Monte Carlo. MCTS evaluates game states through thousands of random simulations. As the simulations are carried out, the program guides the search towards the most promising moves. MCTS achieves impressive results by this dynamic, without an extensive need for prior knowledge. In this thesis, we choose to tackle MCTS as a full learning system. As a consequence, each random simulation turns into a simulated experience and its outcome corresponds to the resulting reinforcement observed. Following this perspective, the learning of the system results from the complex interaction of two processes : the incremental acquisition of new representations and their exploitation in the consecutive simulations. From this point of view, we propose two different approaches to enhance both processes. The first approach gathers complementary representations in order to enhance the relevance of the simulations. The second approach focuses the search on local sub-goals in order to improve the quality of the representations acquired. The methods presented in this work have been applied to the games of Go and Impartial Solitaire Clobber. The results obtained in our experiments highlight the significance of these processes in the learning dynamic and draw up new perspectives to enhance further learning systems such as MCTSDepuis son introduction pour le jeu de Go, Monte Carlo Tree Search (MCTS) a été appliqué avec succès à d'autres jeux et a ouvert la voie à une famille de nouvelles méthodes comme Mutilple-MCTS ou Nested Monte Carlo. MCTS évalue un ensemble de situations de jeu à partir de milliers de fins de parties générées aléatoirement. À mesure que les simulations sont produites, le programme oriente dynamiquement sa recherche vers les coups les plus prometteurs. En particulier, MCTS a suscité l'intérêt de la communauté car elle obtient de remarquables performances sans avoir pour autant recours à de nombreuses connaissances expertes a priori. Dans cette thèse, nous avons choisi d'aborder MCTS comme un système apprenant à part entière. Les simulations sont alors autant d'expériences vécues par le système et les résultats sont autant de renforcements. L'apprentissage du système résulte alors de la complexe interaction entre deux composantes : l'acquisition progressive de représentations et la mobilisation de celles-ci lors des futures simulations. Dans cette optique, nous proposons deux approches indépendantes agissant sur chacune de ces composantes. La première approche accumule des représentations complémentaires pour améliorer la vraisemblance des simulations. La deuxième approche concentre la recherche autour d'objectifs intermédiaires afin de renforcer la qualité des représentations acquises. Les méthodes proposées ont été appliquées aux jeu de Go et du Clobber solitaire impartial. La dynamique acquise par le système lors des expérimentations illustre la relation entre ces deux composantes-clés de l'apprentissag

    JFPC 2019 - Actes des 15es Journées Francophones de Programmation par Contraintes

    Get PDF
    National audienceLes JFPC (Journées Francophones de Programmation par Contraintes) sont le principal congrès de la communauté francophone travaillant sur les problèmes de satisfaction de contraintes (CSP), le problème de la satisfiabilité d'une formule logique propositionnelle (SAT) et/ou la programmation logique avec contraintes (CLP). La communauté de programmation par contraintes entretient également des liens avec la recherche opérationnelle (RO), l'analyse par intervalles et différents domaines de l'intelligence artificielle.L'efficacité des méthodes de résolution et l'extension des modèles permettent à la programmation par contraintes de s'attaquer à des applications nombreuses et variées comme la logistique, l'ordonnancement de tâches, la conception d'emplois du temps, la conception en robotique, l'étude du génôme en bio-informatique, l'optimisation de pratiques agricoles, etc.Les JFPC se veulent un lieu convivial de rencontres, de discussions et d'échanges pour la communauté francophone, en particulier entre doctorants, chercheurs confirmés et industriels. L'importance des JFPC est reflétée par la part considérable (environ un tiers) de la communauté francophone dans la recherche mondiale dans ce domaine.Patronnées par l'AFPC (Association Française pour la Programmation par Contraintes), les JFPC 2019 ont lieu du 12 au 14 Juin 2019 à l'IMT Mines Albi et sont organisées par Xavier Lorca (président du comité scientifique) et par Élise Vareilles (présidente du comité d'organisation)

    Vers plus de robustesse en reconnaissance d'objets et de visages pour l'analyse d'images issues de vidéos de concert

    Get PDF
    RÉSUMÉ Les vidéos de concert constituent un exemple typique de documents très populaires qui sont mal indexés par une description textuelle. Une meilleure indexation passe par l'étude du contenu visuel de ces vidéos. Or, les algorithmes à la pointe en analyse d'images sont encore trop peu robustes au contenu hostile des vidéos de concert. C'est pourquoi, nous nous efforçons ici d'identifier les aspects critiques qui limitent l'efficacité des algorithmes classiques de reconnaissance d'objets et d'individus sur les images complexes. Nous proposons alors, le cas échéant, des pistes de solutions pour rendre ces techniques plus robustes au contenu des vidéos de concert. Détection d'instruments. Au chapitre un, nous mettons en lumière les facteurs limitant en pratique les performances des méthodes classiques de reconnaissance d'objets appliquées aux vidéos de concert. Pour ce faire, nous révisons l'ensemble du pipeline de détection d'objets à la lumière des contraintes imposées par le contexte de l'analyse vidéo. Nous identifions et décrivons notamment les écueils suivants: la complexité algorithmique des méthodes, la mauvaise gestion de la multinomialité des contenus, et la fragilité des algorithmes face aux images à contenu riche (scènes complexes). Complexité algorithmique des méthodes. Le goulot d'étranglement du pipeline d'apprentissage en reconnaissance d'objets réside sans conteste dans le calcul du vocabulaire visuel utilisé pour représenter les images sous la forme d'un histogramme de mots visuels. En effet, l'heuristique des k-moyennes est appliqué à l'ensemble des descripteurs locaux extraits des images d'entrainement, soit un ensemble de très grand cardinal et de grande dimension. Le processus est lourd, et de plus, susceptible de converger vers des minimums locaux. Nous proposons ici une méthode de descente avec relance dynamique, qui permet d'éviter un certain nombre de configurations problématiques sans avoir à réinitialiser complètement l'algorithme. Notre méthode constitue une bonne alternative aux algorithmes de recherche locale ou de relance qui ont étés proposés pour pallier aux manquements de l'algorithme des k-moyennes. Aussi, proposons-nous une analyse théorique de la complexité de cet algorithme. Nous montrons alors que le nombre de centres, k, utilisés pour le clustering, impacte fortement l'efficacité du processus. Nous posons donc la question de la taille adéquate, k, du vocabulaire visuel utilisé pour l'encodage des images. Sous un angle plus pratique, nous introduisons une heuristique efficace pour le clustering rapide d'un espace de grande dimension peuplé de vecteurs denses, c'est-à-dire adapté à l'estimation du vocabulaire visuel sur des banques de données d'images de grande taille. L'algorithme introduit présente des performances compétitives avec l'état de l'art en termes de clustering rapide. Scènes complexes. L'apprentissage sur des bases de données représentatives de la variabilité des images contenues dans les vidéos de concert est un incontournable pour l'obtention d'un classificateur robuste sur un tel contenu. Ainsi, de manière pratique, est-il nécessaire de disposer, dans la base de données d'apprentissage, d'exemples d'instruments présentés dans les mêmes conditions que dans une vidéo de concert (occlusion par le musicien, variation de couleur et de forme). Une telle variabilité peut être obtenue par collecte automatisée d'images sur le web. Malheureusement, ces images ne sont pas optimisées pour l'apprentissage. Elles consistent en des scènes complexes, incluant l'objet d'intérêt. Or, l'apprentissage sur des images présentant plusieurs objets dans un environnement complexe n'est pas une tâche triviale. Comme nous le montrons au chapitre 3.2, la présence d'arrière-plan nuit aux performances des algorithmes. Le recours à une boîte englobante pour isoler l'objet sur les images d'entraînement permet de résoudre ce problème, mais suppose une intervention humaine coûteuse. Nous proposons donc une méthode permettant d'estimer automatiquement la position d'un objet donné sur des images d'entraînement. Multiplicité des classes et multinomialité. Enfin, la conception d'un algorithme adapté à la détection de plusieurs classes d'objets, éventuellement multinomiales, souffre d'un manque d'automatisation. Usuellement, une machine à vecteurs de support linéaire est apprise pour chaque classe d'objets. Nous montrons au chapitre 3.3 que cette pratique courante présente plusieurs limitations. Nous proposons donc une méthode à l'intersection entre le SVM multiclasse et les arbres de décision permettant de gérer un nombre important de classes éventuellement multinomiales. Nous montrons que, à encodage égal, cette méthode permet d'améliorer le F1-score de 10% par rapport à une méthode d'apprentissage standard par SVMs. Reconnaissance de visages. Dans le second chapitre de ce mémoire, nous évaluons l'état de l'art des techniques de reconnaissance d'individus et leur applicabilité aux vidéos de concert. Nous présentons en particulier la méthode d'apprentissage de métrique pour la comparaison dans l'espace des similarités en cosinus et proposons une amélioration. Nous soulignons ensuite l'impact négatif des grandes variations de la pose des individus et du faible nombre d'images disponibles par personne pour l'apprentissage. Enfin, nous explorons les techniques de classification à grande échelle et les structures de données adaptées. La représentation des visages est différente de la représentation des objets, du fait de leur forme constante. Nous présentons alors les méthodes classiques d'apprentissage et introduisons une méthode de classification basée sur les techniques à la pointe en vérification, en l'occurrence l'apprentissage de métrique pour la similarité en cosinus - CSML. Nous montrons alors que cette technique peut être améliorée par une projection linéaire supplémentaire (LDE) de type Fisher-non paramétrique. L'accroissement de précision observé est de l'ordre de 8%. La prise en compte de la pose en vérification (comparaison deux à deux de visages) permet d'améliorer considérablement les performances des algorithmes. L'idée consiste à apprendre une métrique adaptée pour la comparaison respective des paires de visages de face, de profil, et les paires face-profil. Nous montrons que ce résultat se vérifie aussi en classification. Par ailleurs, le nombre d'images disponibles pour l'apprentissage par individu impacte aussi fortement les performances des algorithmes de reconnaissance. Sur la base de données Labelled Faces in the Wild, nous mesurons l'impact du nombre d'instances disponibles pour l'apprentissage sur les performances d'un algorithme de classification. Enfin, nous examinons le scénario de la classification rapide de visages à grande échelle. Nous prouvons la légitimité de la métrique Euclidienne après projection dans un espace optimisé pour la similarité en cosinus. Nous étudions alors les performances des structures de données hiérarchiques pour la classification rapide sur ces bases de données et montrons que la réduction de dimensionnalité est un incontournable pour l'utilisation efficace de ces structures. Indexation de vidéos de concert. Enfin, nous proposons une stratégie pratique pour l'indexation des vidéos de concert. La méthode proposée est basée sur une description détaillée du contenu visuel et sur une méthode innovatrice d'indexation des évènements musicaux. L'analyse de vidéos en général est un thème complexe. Ici, la restriction aux vidéos de concert simplifie l'étude puisque l'on sait à quel type de contenu s'attendre. Nous proposons donc de procéder à la mesure de plusieurs indicateurs pour évaluer la qualité d'une vidéo : présence d'instruments et d'individus d'intérêt, qualité de la prise de vue, et popularité du groupe et de l'évènement. Le recueil de valeurs de ces paramètres consiste à mettre en œuvre les méthodes développées pour la détection d'instruments et de visages. Il s'agit aussi de proposer un moyen fiable permettant d'estimer la qualité de la prise de vue. Nous introduisons donc une méthode basée sur la mesure du flot optique moyen pour estimer les mouvements de caméra. Enfin, nous décrivons une méthodologie simple pour mesurer la popularité d'un groupe ou d'un évènement musical. Pour finir, fort de ces mesures, nous étudions le problème de l'indexation de vidéos de concert, et proposons une méthode pour la détection de vidéos inappropriées, à savoir, les vidéos ne représentant pas un concert, les vidéos mal filmées, ou encore les vidéos ne présentant pas le groupe de musiciens d'intérêt.----------ABSTRACT While concerts are a popular subject for the videos found online, they are often poorly indexed relative to other types of media. This thesis aims at introducing a strategy to improve concert video indexing using computer vision techniques from the image recognition field. More specifically, we aim at exploring several key aspects of several state of the art techniques that limit their ability to be properly applied to online concert videos. Instrument detection. In the first chapter, we discuss several factors that bound the performances of traditional object recognition techniques when applied to concert videos. To do so, we go through a commonly used the state of the art object detection pipeline and we identify aspects that are critical for concert video content analysis. More specifically, we identify the following pitfalls: algorithms complexity, poor modeling of content variability, and sensitivity to background on complex scenes. Algorithm complexity. One bottleneck of the learning pipeline in object recognition is the visual vocabulary computation step. Typically, the k-means algorithm is applied to the space of local descriptors extracted from training images, which is a large space populated with dense high dimensional vectors. Hence, we study the complexity of this algorithm and show that a key parameter is the number of centers, k, used for clustering, which also defines the size of the visual vocabulary. We therefore also explore the appropriate size of a visual vocabulary for image recognition algorithms. More specifically, we introduce a reasonable criterion to choose the value of k, given a set of local descriptors. From a more practical point of view, we implemented a heuristic to improve k-means and prevent local minima to be reached too quickly. This algorithm appears to be competitive with state of the art methods for fast k-means computation. Background clutter. To obtain a robust classifier for images from concert videos, one cannot rely on a small dataset showing objects under an ideal point of view, on centered images without background. To cope with the large variation of shape and point of view of instruments in concert videos, there is no choice but to learn using a representative dataset. Such a dataset can be obtained by mining the web, as it has been done for the well-known image-net database. Still, if representative of the variety of instruments within classes, images from image-net are not provided with bounding boxes. To label images with the location of the object of interest is a costly operation that we cannot consider at large scale. Thus, we introduce an algorithm to estimate an object location within an image by cross-comparing images from the training-set. Creating efficient, high performance multiclass classifiers. To conceive a detection algorithm dealing with several object classes, a standard practice consists of training one SVM per object. We show that this strategy can be improved in several ways, in particular by taking into account class multinomiality and by dealing with several classes at the same time. Specifically, we show that the F-1 score can be improved by more than 10% in comparison to standard one-vs-all SVMs. Face recognition. In the second chapter, we review face recognition techniques. We focus on Cosine Similarity Learning (CSML) and measure its efficiency when applied to the face recognition problem on faces in the wild from the Labelled Faces in the Wild dataset. We show that CSML can be further improved by Linear Discriminant Embedding. Then, we underline the negative impact of pose variations and of the low number of training images per people. At last, we review large scale classification techniques and appropriate data structures. Face representations differ from object because recognition involves exploring details of the face, not an average shape. We introduce standard methods for face comparison and measure the precision one can get by applying these to the classification problem. Specifically, we experiment with the nearest neighbor classification algorithm on faces projected in the CSML space, which is optimized to separate the different faces under cosine similarity. We show that a further projection can improve the classification accuracy by more than 8%. To explicitly take into account pose on pictures has proven to be a fruitful practise for pairs of faces comparison. The idea consists in learning a specific metric for each pair of pose (frontal-frontal, frontal-side, side-side). Here we show that this observation is also true for the face classification problem. The number of training images per people is another factor that has a major impact on the precision of classification algorithms. On the LFW dataset, we measure the relation between the number of training images and the achieved accuracy. We then discuss the image gathering process and its impact on learning strategies. At last, we discuss the large scale face recognition scenario and we prove that the Euclidian metric can be used for nearest neighbor search after CSML on normalized vectors. Concert video indexing. Finally, we introduce a methodology for concert videos indexing, based on a detailed description of a video visual content and an innovative event indexing strategy. Video analysis is a wide field of study. Here we focus on concert videos which simplifies the process and allows us to provide a more detailed study. Indeed we know what kind of content one might expect from a good concert video. We thus proceed to measure the following parameters: objects and people of interest, camerawork quality, band popularity and event size. Features extraction. To gather these features for several videos can be done by using previously developed methods for instruments and person recognition. We then develop an algorithm to measure the quality of camerawork. We thus introduce a technique based on optical-flow and show that a relationship can be drawn between averaged optical flow per frame and camera movement quality. We also introduce basic methods to evaluate the popularity of a band and the popularity of a musical event. We conclude by a model that can detect low-quality videos using the previously mentioned parameters

    Modèles structurés pour la reconnaissance d'actions dans des vidéos réalistes

    Get PDF
    Cette thèse décrit de nouveaux modèles pour la reconnaissance de catégories d'actions comme "ouvrir une porte" ou "courir" dans des vidéos réalistes telles que les films. Nous nous intéressons tout particulièrement aux propriétés structurelles des actions : comment les décomposer, quelle en est la structure caractéristique et comment utiliser cette information afin de représenter le contenu d'une vidéo. La difficulté principale à laquelle nos modèles s'attellent réside dans la satisfaction simultanée de deux contraintes antagonistes. D'une part, nous devons précisément modéliser les aspects discriminants d'une action afin de pouvoir clairement identifier les différences entre catégories. D'autre part, nos représentations doivent être robustes en conditions réelles, c'est-à-dire dans des vidéos réalistes avec de nombreuses variations visuelles en termes d'acteurs, d'environnements et de points de vue. Dans cette optique, nous proposons donc trois modèles précis et robustes à la fois, qui capturent les relations entre parties d'actions ainsi que leur contenu. Notre approche se base sur des caractéristiques locales - notamment les points d'intérêts spatio-temporels et le flot optique - et a pour objectif d'organiser l'ensemble des descripteurs locaux décrivant une vidéo. Nous proposons aussi des noyaux permettant de comparer efficacement les représentations structurées que nous introduisons. Bien que nos modèles se basent tous sur les principes mentionnés ci-dessus, ils différent de par le type de problème traité et la structure sur laquelle ils reposent. Premièrement, nous proposons de modéliser une action par une séquence de parties temporelles atomiques correspondant à une décomposition sémantique. De plus, nous décrivons comment apprendre un modèle flexible de la structure temporelle dans le but de localiser des actions dans des vidéos de longue durée. Deuxièmement, nous étendons nos idées à l'estimation et à la représentation de la structure spatio-temporelle d'activités plus complexes. Nous décrivons un algorithme d'apprentissage non supervisé permettant de dégager automatiquement une décomposition hiérarchique du contenu dynamique d'une vidéo. Nous utilisons la structure arborescente qui en résulte pour modéliser une action de manière hiérarchique. Troisièmement, au lieu de comparer des modèles structurés, nous explorons une autre alternative : directement comparer des modèles de structure. Pour cela, nous représentons des actions de courte durée comme des séries temporelles en haute dimension et étudions comment la dynamique temporelle d'une action peut être utilisée pour améliorer les performances des modèles non structurés formant l'état de l'art en reconnaissance d'actions. Dans ce but, nous proposons un noyau calculant de manière efficace la similarité entre les dépendances temporelles respectives de deux actions. Nos trois approches et leurs assertions sont à chaque fois validées par des expériences poussées sur des bases de données publiques parmi les plus difficiles en reconnaissance d'actions. Nos résultats sont significativement meilleurs que ceux de l'état de l'art, illustrant ainsi à quel point la structure des actions est importante afin de bâtir des modèles précis et robustes pour la reconnaissance d'actions dans des vidéos réalistes.This dissertation introduces novel models to recognize broad action categories - like "opening a door" and "running" - in real-world video data such as movies and internet videos. In particular, we investigate how an action can be decomposed, what is its discriminative structure, and how to use this information to accurately represent video content. The main challenge we address lies in how to build models of actions that are simultaneously information-rich - in order to correctly differentiate between different action categories - and robust to the large variations in actors, actions, and videos present in real-world data. We design three robust models capturing both the content of and the relations between action parts. Our approach consists in structuring collections of robust local features - such as spatio-temporal interest points and short-term point trajectories. We also propose efficient kernels to compare our structured action representations. Even if they share the same principles, our methods differ in terms of the type of problem they address and the structure information they rely on. We, first, propose to model a simple action as a sequence of meaningful atomic temporal parts. We show how to learn a flexible model of the temporal structure and how to use it for the problem of action localization in long unsegmented videos. Extending our ideas to the spatio-temporal structure of more complex activities, we, then, describe a large-scale unsupervised learning algorithm used to hierarchically decompose the motion content of videos. We leverage the resulting tree-structured decompositions to build hierarchical action models and provide an action kernel between unordered binary trees of arbitrary sizes. Instead of structuring action models, we, finally, explore another route: directly comparing models of the structure. We view short-duration actions as high-dimensional time-series and investigate how an action's temporal dynamics can complement the state-of-the-art unstructured models for action classification. We propose an efficient kernel to compare the temporal dependencies between two actions and show that it provides useful complementary information to the traditional bag-of-features approach. In all three cases, we conducted thorough experiments on some of the most challenging benchmarks used by the action recognition community. We show that each of our methods significantly outperforms the related state of the art, thus highlighting the importance of structure information for accurate and robust action recognition in real-world videos.SAVOIE-SCD - Bib.électronique (730659901) / SudocGRENOBLE1/INP-Bib.électronique (384210012) / SudocGRENOBLE2/3-Bib.électronique (384219901) / SudocSudocFranceF
    corecore