Search CORE

19 research outputs found

Pulvinar modulates contrast response function of neurons in the primary visual cortex

Author: Lai Jimmy
Publication venue
Publication date: 01/05/2017
Field of study

The pulvinar, which is located in the posterior thalamus, establishes reciprocal connections with nearly all of the visual cortical areas and is consequently in a strategic position to influence their stimulus decoding processes. Projections from the pulvinar to the primary visual cortex (V1) are thought to be modulatory, altering the response of neurons without changing their basic receptive field properties. Here, we investigate this issue by studying V1 single unit responses to sine wave gratings during the reversible inactivation of the lateral posterior nucleus (LP) - pulvinar complex in the cat. We also studied the contrast response function of V1 neurons, before and during the inactivation of the LP-pulvinar complex. No change in the preferred orientation or direction selectivity of V1 neurons was observed during pulvinar inactivation. However, for the majority of the cells tested the response amplitude to the optimal stimulus was reduced. The contrast response function of neurons was fitted with the Naka-Rushton function and analysis of the effects of pulvinar deactivation revealed a diverse set of modulations: 35% of cells had a decrease in their peak response, 11% had an increase in their C50, 6% showed modulations of the slope factor and 22% exhibited changes in more than one parameter. Our results suggest that the pulvinar modulates activity of V1 neurons in a contrast dependent manner and provides gain control at lower levels of the visual cortical hierarchy.Le pulvinar, localisé dans le thalamus postérieur, établit des connections réciproques avec la vaste majorité des aires visuelles corticales et il est ainsi dans une position stratégique afin d’influencer les processus de décodage de celles-ci. Les projections du pulvinar au cortex visuel primaire (V1) sont considérées comme étant des projections modulatrices, qui modifieraient les réponses neuronales sans toutefois changer les propriétés de base des champs récepteurs. Dans la présente étude, nous avons étudié les réponses des neurones de V1 suite à l’inactivation réversible du complexe noyau latéral postérieur (LP)-pulvinar chez le chat. Des courbes de réponse au contraste ont été générées par la présentation de réseaux ayant plusieurs niveaux de contraste pendant l’inactivation du LP-pulvinar. Aucun changement n’a été observé concernant l’orientation préférée ou la sélectivité à la direction des neurones de V1 lors de l’inactivation du pulvinar. Néanmoins, pour la majorité des cellules testées, l’amplitude de la réponse aux stimuli optimaux a été réduite. La fonction de Naka-Rushton a été appliquée aux courbes de réponse au contraste et l’analyse des effets de l’inactivation du pulvinar a montré une panoplie d’effets modulateurs : 35% des cellules ont présenté une réduction de leur réponse maximale, 11% ont eu une augmentation de leur C50, 6% ont montré une modulation de la pente et 22% des neurones ont présenté des changements dans plus d’un paramètre. Nos résultats suggèrent que le pulvinar module l’activité des neurones de V1 d’une façon dépendante du contraste et qu’il contrôle le gain des réponses des neurones des aires primaires du cortex visuel

Dépôt Institutionnel Numérique

La reconnaissance visuelle à travers le temps : attentes, échantillonnage et traitement

Author: Caplette Laurent
Publication venue
Publication date: 01/08/2019
Field of study

La reconnaissance visuelle est un processus temporel : d’abord, l’information visuelle est reçue sur notre rétine de manière continue à travers le temps; ensuite, le traitement de l’information visuelle par notre cerveau prend un certain temps à s’effectuer; finalement, notre perception est toujours fonction autant des expériences acquises dans le passé que de l’input sensoriel présent. Les interactions entre ces aspects temporels de la reconnaissance sont rarement abordées dans la littérature. Dans cette thèse, nous évaluons l’échantillonnage de l’information visuelle à travers le temps pendant une tâche de reconnaissance, comment il se traduit dans le cerveau et comment il est modulé par des attentes spécifiques. Plusieurs études indiquent que nos attentes modulent notre perception. Comment l’attente d’un objet spécifique influence nos représentations internes demeure cependant largement inconnu. Dans le premier article de cette thèse, nous utilisons une variante de la technique Bubbles pour retrouver avec précision le décours temporel de l’utilisation d’information visuelle pendant la reconnaissance d’objets, lorsque les observateurs s’attendent à voir un objet spécifique ou non. Nous observons que les attentes affectent la représentation de différents attributs différemment et qu’elles ont un effet distinct à différents moments pendant la réception d’information visuelle. Dans le deuxième article, nous utilisons une technique similaire en conjonction avec l’électroencéphalographie (EEG) afin de révéler pour la première fois le traitement, à travers le temps, de l’information reçue à un moment spécifique pendant une fixation oculaire. Nous démontrons que l’information visuelle n’est pas traitée de la même manière selon le moment auquel elle est reçue sur la rétine, que ces différences ne sont pas explicables par l’adaptation ou l’amorçage, qu’elles sont d’origine au moins partiellement descendante et qu’elles corrèlent avec le comportement. Finalement, dans le troisième article, nous approfondissons cette investigation en utilisant la magnétoencéphalographie (MEG) et en examinant l’activité dans différentes régions cérébrales. Nous démontrons que l’échantillonnage de l’information visuelle est hautement variable selon le moment d’arrivée de l’information sur la rétine dans de larges parties des lobes occipitaux et pariétaux. De plus, nous démontrons que cet échantillonnage est rythmique, oscillant à diverses fréquences entre 7 et 30 Hz, et que ces oscillations varient en fréquences selon l’attribut échantillonné.Visual recognition is a temporal process: first, visual information is continuously received through time on our retina; second, the processing of visual information by our brain takes time; third, our perception is function of both the present sensory input and our past experiences. Interactions between these temporal aspects have rarely been discussed in the literature. In this thesis, we assess the sampling of visual information through time during recognition tasks, how it is translated in the brain, and how it is modulated by expectations of specific objects. Several studies report that expectations modulate perception. However, how the expectation of a specific object modulates our internal representations remains largely unknown. In the first article of this thesis, we use a variant of the Bubbles technique to uncover the precise time course of visual information use during object recognition when specific objects are expected or not. We show that expectations modulate the representations of different features differently, and that they have distinct effects at distinct moments throughout the reception of visual information. In the second article, we use a similar method in conjunction with electroencephalography (EEG) to reveal for the first time the processing, through time, of information received at a specific moment during an eye fixation. We show that visual information is not processed in the same way depending on the moment at which it is received on the retina, that these differences cannot be explained by simple adaptation or repetition priming, that they are of at least partly top- down origin, and that they correlate with behavior. Finally, in a third article, we push this investigation further by using magnetoencephalography (MEG) and examining brain activity in different brain regions. We show that the sampling of visual information is highly variable depending on the moment at which information arrives on the retina in large parts of the occipital and parietal lobes. Furthermore, we show that this sampling is rhythmic, oscillating at multiple frequencies between 7 and 30 Hz, and that these oscillations vary according to the sampled feature

Dépôt Institutionnel Numérique

Artistic Path Space Editing of Physically Based Light Transport

Author: Schmidt Thorsten-Walther
Publication venue: KIT-Bibliothek, Karlsruhe
Publication date: 01/01/2018
Field of study

Die Erzeugung realistischer Bilder ist ein wichtiges Ziel der Computergrafik, mit Anwendungen u.a. in der Spielfilmindustrie, Architektur und Medizin. Die physikalisch basierte Bildsynthese, welche in letzter Zeit anwendungsübergreifend weiten Anklang findet, bedient sich der numerischen Simulation des Lichttransports entlang durch die geometrische Optik vorgegebener Ausbreitungspfade; ein Modell, welches für übliche Szenen ausreicht, Photorealismus zu erzielen. Insgesamt gesehen ist heute das computergestützte Verfassen von Bildern und Animationen mit wohlgestalteter und theoretisch fundierter Schattierung stark vereinfacht. Allerdings ist bei der praktischen Umsetzung auch die Rücksichtnahme auf Details wie die Struktur des Ausgabegeräts wichtig und z.B. das Teilproblem der effizienten physikalisch basierten Bildsynthese in partizipierenden Medien ist noch weit davon entfernt, als gelöst zu gelten. Weiterhin ist die Bildsynthese als Teil eines weiteren Kontextes zu sehen: der effektiven Kommunikation von Ideen und Informationen. Seien es nun Form und Funktion eines Gebäudes, die medizinische Visualisierung einer Computertomografie oder aber die Stimmung einer Filmsequenz -- Botschaften in Form digitaler Bilder sind heutzutage omnipräsent. Leider hat die Verbreitung der -- auf Simulation ausgelegten -- Methodik der physikalisch basierten Bildsynthese generell zu einem Verlust intuitiver, feingestalteter und lokaler künstlerischer Kontrolle des finalen Bildinhalts geführt, welche in vorherigen, weniger strikten Paradigmen vorhanden war. Die Beiträge dieser Dissertation decken unterschiedliche Aspekte der Bildsynthese ab. Dies sind zunächst einmal die grundlegende Subpixel-Bildsynthese sowie effiziente Bildsyntheseverfahren für partizipierende Medien. Im Mittelpunkt der Arbeit stehen jedoch Ansätze zum effektiven visuellen Verständnis der Lichtausbreitung, die eine lokale künstlerische Einflussnahme ermöglichen und gleichzeitig auf globaler Ebene konsistente und glaubwürdige Ergebnisse erzielen. Hierbei ist die Kernidee, Visualisierung und Bearbeitung des Lichts direkt im alle möglichen Lichtpfade einschließenden "Pfadraum" durchzuführen. Dies steht im Gegensatz zu Verfahren nach Stand der Forschung, die entweder im Bildraum arbeiten oder auf bestimmte, isolierte Beleuchtungseffekte wie perfekte Spiegelungen, Schatten oder Kaustiken zugeschnitten sind. Die Erprobung der vorgestellten Verfahren hat gezeigt, dass mit ihnen real existierende Probleme der Bilderzeugung für Filmproduktionen gelöst werden können

KITopen

Les cartes fonctionnelles dans le cortex visuel du chat : nouvelles stratégies d’évaluation en imagerie optique et mise en évidence de l’organisation anatomo-fonctionnelle

Author: Vanni Matthieu P.
Publication venue
Publication date: 01/06/2010
Field of study

Le regroupement des neurones de propriétés similaires est à l’origine de modules permettant d’optimiser l’analyse de l’information. La conséquence est la présence de cartes fonctionnelles dans le cortex visuel primaire de certains mammifères pour de nombreux paramètres tels que l’orientation, la direction du mouvement ou la position des stimuli (visuotopie). Le premier volet de cette thèse est consacré à caractériser l’organisation modulaire dans le cortex visuel primaire pour un paramètre fondamental, la suppression centre / pourtour et au delà du cortex visuel primaire (dans l’aire 21a), pour l’orientation et la direction. Toutes les études ont été effectuées à l’aide de l’imagerie optique des signaux intrinsèques sur le cortex visuel du chat anesthésié. La quantification de la modulation par la taille des stimuli à permis de révéler la présence de modules de forte et de faible suppression par le pourtour dans le cortex visuel primaire (aires 17 et 18). Ce type d’organisation n’avait été observé jusqu’ici que dans une aire de plus haut niveau hiérarchique chez le primate. Une organisation modulaire pour l’orientation, similaire à celle observée dans le cortex visuel primaire a été révélée dans l’aire 21a. Par contre, contrairement à l’aire 18, l’aire 21a ne semblait pas être organisée en domaine de direction. L’ensemble de ces résultats pourront permettre d’alimenter les connaissances sur l’organisation anatomo-fonctionnelle du cortex visuel du chat mais également de mieux comprendre les facteurs qui déterminent la présence d’une organisation modulaire. Le deuxième volet abordé dans cette thèse s’est intéressé à l’amélioration de l’aspect quantitatif apporté par l’analyse temporelle en imagerie optique des signaux intrinsèques. Cette nouvelle approche, basée sur l’analyse de Fourier a permis d’augmenter considérablement le rapport signal / bruit des enregistrements. Toutefois, cette analyse ne s’est basée jusqu’ici que sur la quantification d’une seule harmonique ce qui a limité son emploi à la cartographie de l’orientation et de rétinotopie uniquement. En exploitant les plus hautes harmoniques, un modèle a été proposé afin d’estimer la taille des champs récepteurs et la sélectivité à la direction. Ce modèle a par la suite été validé par des approches conventionnelles dans le cortex visuel primaire.The clustering of neurons of similar properties is at the basis of the brain modular architecture and is considered as a strategy to optimized processing. One consequence of this clustering is the presence of functional maps in the primary visual cortex of several mammals based on features such as orientation, direction of motion and stimulus position (retinotopy). The first section of this thesis was aimed at characterizing the modular organization of functions in primary and higher-order areas. First, we investigated the possibility that a fundamental cell property, the receptive field center / surround suppression, could be orderly represented in the primary visual cortex. Second, we determined the level of modular organization in area 21a for two key properties, orientation and direction of motion. All studies were based on the optical imaging of intrinsic signals in anesthetized cats. Results indicate the presence of high and low surround suppression modules in the primary visual cortex (areas 17 and 18). To date, such organization has been discovered only in a higher-order area in primate. A modular organization for orientation, similar to the one observed in areas 17 and 18 was observed in area 21a. On the other hand, in contrast to area 18, no direction modules were discovered in area 21a. Overall, the first part of this thesis increased our knowledge about the anatomo-fonctional organization of cat visual cortex. They will also be instrumental to better understand the factors leading to the presence of a modular organization in the cortex. The second section of this thesis was directed to the development of a novel quantitative tool for the temporal analysis of optical imaging intrinsic signals. This new approach, based on Fourier decomposition, allowed to greatly increase the signal to noise ratio of the recordings. Until now, this analysis was only been based on single harmonic quantification, limiting its application for orientation and rétinotopy mapping only. A model exploiting higher harmonics was then developed to estimate additional parameters such as the receptive field size and direction selectivity. Thereafter, this model was validated with success by conventional approaches on the primary visual cortex

Dépôt Institutionnel Numérique

Robust Face Tracking in Video Sequences

Author: Chakravorty Tanushri
Publication venue
Publication date: 01/09/2017
Field of study

Ce travail présente une analyse et une discussion détaillées d’un nouveau système de suivi des visages qui utilise plusieurs modèles d’apparence ainsi qu’un e approche suivi par détection. Ce système peut aider un système de reconnaissance de visages basé sur la vidéo en donnant des emplacements de visages d’individus spécifiques (région d’intérêt, ROI) pour chaque cadre. Un système de reconnaissance faciale peut utiliser les ROI fournis par le suivi du visage pour obtenir des preuves accumulées de la présence d’une personne d’une personne présente dans une vidéo, afin d’identifier une personne d’intérêt déjà inscrite dans le système de reconnaissance faciale. La tâche principale d’une méthode de suivi est de trouver l’emplacement d’un visage présent dans une image en utilisant des informations de localisation à partir de la trame précédente. Le processus de recherche se fait en trouvant la meilleure région qui maximise la possibilité d’un visage présent dans la trame en comparant la région avec un modèle d’apparence du visage. Cependant, au cours de ce processus, plusieurs facteurs externes nuisent aux performances d’une méthode de suivi. Ces facteurs externes sont qualifiés de nuisances et apparaissent habituellement sous la forme d’une variation d’éclairage, d’un encombrement de la scène, d’un flou de mouvement, d’une occlusion partielle, etc. Ainsi, le principal défi pour une méthode de suivi est de trouver la meilleure région malgré les changements d’apparence fréquents du visage pendant le processus de suivi. Étant donné qu’il n’est pas possible de contrôler ces nuisances, des modèles d’apparence faciale robustes sont conçus et développés de telle sorte qu’ils soient moins affectés par ces nuisances et peuvent encore suivre un visage avec succès lors de ces scénarios. Bien qu’un modèle d’apparence unique puisse être utilisé pour le suivi d’un visage, il ne peut pas s’attaquer à toutes les nuisances de suivi. Par conséquent, la méthode proposée utilise plusieurs modèles d’apparence faciale pour s’attaquer à ces nuisances. En outre, la méthode proposée combine la méthodologie du suivi par détection en employant un détecteur de visage qui fournit des rectangles englobants pour chaque image. Par conséquent, le détecteur de visage aide la méthode de suivi à aborder les nuisances de suivi. De plus, un détecteur de visage contribue à la réinitialisation du suivi pendant un cas de dérive. Cependant, la précision suivi peut encore être améliorée en générant des candidats additionnels autour de l’estimation de la position de l’objet par la méthode de suivi et en choisissant le meilleur parmi eux. Ainsi, dans la méthode proposée, le suivi du visage est formulé comme le visage candidat qui maximise la similitude de tous les modèles d’apparence.----------ABSTRACT: This work presents a detailed analysis and discussion of a novel face tracking system that utilizes multiple appearance models along with a tracking-by-detection framework that can aid a video-based face recognition system by giving face locations of specific individuals (Region Of Interest, ROI) for every frame. A face recognition system can utilize the ROIs provided by the face tracker to get accumulated evidence of a person being present in a video, in order to identify a person of interest that is already enrolled in the face recognition system. The primary task of a face tracker is to find the location of a face present in an image by utilizing its location information from the previous frame. The searching process is done by finding the best region that maximizes the possibility of a face being present in the frame by comparing the region with a face appearance model. However, during this face search, several external factors inhibit the performance of a face tracker. These external factors are termed as tracking nuisances, and usually appear in the form of illumination variation, background clutter, motion blur, partial occlusion, etc. Thus, the main challenge for a face tracker is to find the best region in spite of frequent appearance changes of the face during the tracking process. Since, it is not possible to control these nuisances. Robust face appearance models are designed and developed such that they do not too much affected by these nuisances and still can track a face successfully during such scenarios. Although a single face appearance model can be used for tracking a face, it cannot tackle all the tracking nuisances. Hence, the proposed method utilizes multiple face appearance models. By doing this, different appearance models can facilitate tracking in the presence of tracking nuisances. In addition, the proposed method, combines the tracking-by-detection methodology by employing a face detector that outputs a bounding box for every frame. Therefore, the face detector aids the face tracker in tackling the tracking nuisances. In addition, a face detector aids in the re-initialization of the tracker during tracking drift. However, the precision of the tracker can further be improved by generating face candidates around the face tracking output and choosing the best among them. Thus, in the proposed method, face tracking is formulated as the face candidate that maximizes the similarity of all the appearance models

PolyPublie

Construction d'un modèle per-opératoire 3D du rachis pour la navigation en thoracoscopie.

Author: Chevrefils Claudia
Publication venue
Publication date: 01/05/2010
Field of study

RÉSUMÉ: Lors de discectomie par thoracoscopie, les outils de visualisation procurent peu d’information de profondeur et le champ de visualisation de la caméra miniature insérée dans le patient est relativement restreint. Aussi, le mouvement simultané de la caméra et des instruments chirurgicaux peut provoquer une désorientation. Ainsi, la courbe d’apprentissage pour l’utilisation de cette technologie est très abrupte et un nombre restreint de chirurgiens choisissent l’intervention minimalement invasive malgré les avantages qu’elle peut procurer aux patients. En effet la discectomie par thoracoscopie réduit les pertes sanguines, le traumatisme des tissus entourant le disque afin d’accéder à la zone d’intérêt et le temps d’hospitalisation. Les discectomies sont prescrites à certains patients scoliotiques afin de redonner de la flexibilité à la colonne avant l’instrumentation (pose de vis et tige pour corriger la déformation). La résection du disque intervertébral est faite partiellement et la quantité du disque réséqué dépend du degré de flexibilité que le chirurgien désire redonner au patient. En effectuant la discectomie par thoracoscopie, il est impossible pour le chirurgien de visualiser rapidement la quantité de disque restant en plus d’avoir les désavantages de désorientation et de petit champ de vision de la caméra miniature insérée dans le patient. Il est donc pertinent de tenter de réduire les problèmes de visualisation rencontrés lors des thoracoscopies en procurant au chirurgien la possibilité d’examiner en 3D les structures anatomiques du patient pendant la chirurgie sans ajouter de radiations supplémentaires au patient. Ce système d’assistance permettrait également d’accroître la sécurité du patient et la qualité de la chirurgie en donnant aux chirurgiens la possibilité de localiser en 3D la moelle épinière et en leur donnant également la possibilité de visualiser la quantité de disque restant. Ainsi, l’intérêt de fusionner les images vidéo avec un modèle pré-opératoire 3D est alors tout indiqué.---------- ABSTRACT: Visualization tools available while doing thoracoscopic diskectomy do not show depth information and the field of view of the miniaturized camera inserted into the patient is small. Also, simultaneous movement of the camera and surgical tools may result in disorientation. The learning curve for the use of this technology is very steep and numbers of surgeons choose not to use minimally invasive surgery despite important advantages for the patients. Indeed, thoracoscopic diskectomy reduce blood loss, trauma of surrounding soft tissues to access intervertebral disks and hospitalization time. Diskectomy are prescribed to specific scoliotic patients to gain flexibility of the spine before instrumentation surgery (fixation of screws and rod to correct the deformation). The intervertebral disk is partly resected depending on the level of flexibility the patient has to gain according to the surgeon. During thoracoscopic diskectomy, it is impossible for the surgeon to rapidly visualize the remaining disk tissue and this further increase the disadvantages for the surgeons. Hence, it is relevant to try to reduce visualization problems encountered during thoracoscopic diskectomy by providing to the surgeons a 3D view of the whole spine during the surgery, without adding supplementary radiation to the patient. The computer assisted surgery system would also increase the security of the patient by allowing the surgeons to localize rapidly in 3D the spinal canal as well as the remaining disk. The fusion of the video images with 3D spine of the patient is of great interest for the surgeons

PolyPublie

Coopération de réseaux de caméras ambiantes et de vision embarquée sur robot mobile pour la surveillance de lieux publics

Author: Mekonnen Alhayat Ali
Publication venue
Publication date: 11/03/2014
Field of study

Actuellement, il y a une demande croissante pour le déploiement de robots mobile dans des lieux publics. Pour alimenter cette demande, plusieurs chercheurs ont déployé des systèmes robotiques de prototypes dans des lieux publics comme les hôpitaux, les supermarchés, les musées, et les environnements de bureau. Une principale préoccupation qui ne doit pas être négligé, comme des robots sortent de leur milieu industriel isolé et commencent à interagir avec les humains dans un espace de travail partagé, est une interaction sécuritaire. Pour un robot mobile à avoir un comportement interactif sécuritaire et acceptable - il a besoin de connaître la présence, la localisation et les mouvements de population à mieux comprendre et anticiper leurs intentions et leurs actions. Cette thèse vise à apporter une contribution dans ce sens en mettant l'accent sur les modalités de perception pour détecter et suivre les personnes à proximité d'un robot mobile. Comme une première contribution, cette thèse présente un système automatisé de détection des personnes visuel optimisé qui prend explicitement la demande de calcul prévue sur le robot en considération. Différentes expériences comparatives sont menées pour mettre clairement en évidence les améliorations de ce détecteur apporte à la table, y compris ses effets sur la réactivité du robot lors de missions en ligne. Dans un deuxiè contribution, la thèse propose et valide un cadre de coopération pour fusionner des informations depuis des caméras ambiant affixé au mur et de capteurs montés sur le robot mobile afin de mieux suivre les personnes dans le voisinage. La même structure est également validée par des données de fusion à partir des différents capteurs sur le robot mobile au cours de l'absence de perception externe. Enfin, nous démontrons les améliorations apportées par les modalités perceptives développés en les déployant sur notre plate-forme robotique et illustrant la capacité du robot à percevoir les gens dans les lieux publics supposés et respecter leur espace personnel pendant la navigation.This thesis deals with detection and tracking of people in a surveilled public place. It proposes to include a mobile robot in classical surveillance systems that are based on environment fixed sensors. The mobile robot brings about two important benefits: (1) it acts as a mobile sensor with perception capabilities, and (2) it can be used as means of action for service provision. In this context, as a first contribution, it presents an optimized visual people detector based on Binary Integer Programming that explicitly takes the computational demand stipulated into consideration. A set of homogeneous and heterogeneous pool of features are investigated under this framework, thoroughly tested and compared with the state-of-the-art detectors. The experimental results clearly highlight the improvements the different detectors learned with this framework bring to the table including its effect on the robot's reactivity during on-line missions. As a second contribution, the thesis proposes and validates a cooperative framework to fuse information from wall mounted cameras and sensors on the mobile robot to better track people in the vicinity. Finally, we demonstrate the improvements brought by the developed perceptual modalities by deploying them on our robotic platform and illustrating the robot's ability to perceive people in supposed public areas and respect their personal space during navigation

Thèses en ligne de l'Université Toulouse III - Paul Sabatier

Compréhension de contenus visuels par analyse conjointe du contenu et des usages

Author: Carlier Axel
Publication venue: École Doctorale Mathématiques, Informatique et Télécommunications (Toulouse);142547247
Publication date: 30/09/2014
Field of study

Dans cette thèse, nous traitons de la compréhension de contenus visuels, qu’il s’agisse d’images, de vidéos ou encore de contenus 3D. On entend par compréhension la capacité à inférer des informations sémantiques sur le contenu visuel. L’objectif de ce travail est d’étudier des méthodes combinant deux approches : 1) l’analyse automatique des contenus et 2) l’analyse des interactions liées à l’utilisation de ces contenus (analyse des usages, en plus bref). Dans un premier temps, nous étudions l’état de l’art issu des communautés de la vision par ordinateur et du multimédia. Il y a 20 ans, l’approche dominante visait une compréhension complètement automatique des images. Cette approche laisse aujourd’hui plus de place à différentes formes d’interventions humaines. Ces dernières peuvent se traduire par la constitution d’une base d’apprentissage annotée, par la résolution interactive de problèmes (par exemple de détection ou de segmentation) ou encore par la collecte d’informations implicites issues des usages du contenu. Il existe des liens riches et complexes entre supervision humaine d’algorithmes automatiques et adaptation des contributions humaines via la mise en œuvre d’algorithmes automatiques. Ces liens sont à l’origine de questions de recherche modernes : comment motiver des intervenants humains ? Comment concevoir des scénarii interactifs pour lesquels les interactions contribuent à comprendre le contenu manipulé ? Comment vérifier la qualité des traces collectées ? Comment agréger les données d’usage ? Comment fusionner les données d’usage avec celles, plus classiques, issues d’une analyse automatique ? Notre revue de la littérature aborde ces questions et permet de positionner les contributions de cette thèse. Celles-ci s’articulent en deux grandes parties. La première partie de nos travaux revisite la détection de régions importantes ou saillantes au travers de retours implicites d’utilisateurs qui visualisent ou acquièrent des con- tenus visuels. En 2D d’abord, plusieurs interfaces de vidéos interactives (en particulier la vidéo zoomable) sont conçues pour coordonner des analyses basées sur le contenu avec celles basées sur l’usage. On généralise ces résultats en 3D avec l’introduction d’un nouveau détecteur de régions saillantes déduit de la capture simultanée de vidéos de la même performance artistique publique (spectacles de danse, de chant etc.) par de nombreux utilisateurs. La seconde contribution de notre travail vise une compréhension sémantique d’images fixes. Nous exploitons les données récoltées à travers un jeu, Ask’nSeek, que nous avons créé. Les interactions élémentaires (comme les clics) et les données textuelles saisies par les joueurs sont, comme précédemment, rapprochées d’analyses automatiques des images. Nous montrons en particulier l’intérêt d’interactions révélatrices des relations spatiales entre différents objets détectables dans une même scène. Après la détection des objets d’intérêt dans une scène, nous abordons aussi le problème, plus ambitieux, de la segmentation. ABSTRACT : This thesis focuses on the problem of understanding visual contents, which can be images, videos or 3D contents. Understanding means that we aim at inferring semantic information about the visual content. The goal of our work is to study methods that combine two types of approaches: 1) automatic content analysis and 2) an analysis of how humans interact with the content (in other words, usage analysis). We start by reviewing the state of the art from both Computer Vision and Multimedia communities. Twenty years ago, the main approach was aiming at a fully automatic understanding of images. This approach today gives way to different forms of human intervention, whether it is through the constitution of annotated datasets, or by solving problems interactively (e.g. detection or segmentation), or by the implicit collection of information gathered from content usages. These different types of human intervention are at the heart of modern research questions: how to motivate human contributors? How to design interactive scenarii that will generate interactions that contribute to content understanding? How to check or ensure the quality of human contributions? How to aggregate human contributions? How to fuse inputs obtained from usage analysis with traditional outputs from content analysis? Our literature review addresses these questions and allows us to position the contributions of this thesis. In our first set of contributions we revisit the detection of important (or salient) regions through implicit feedback from users that either consume or produce visual contents. In 2D, we develop several interfaces of interactive video (e.g. zoomable video) in order to coordinate content analysis and usage analysis. We also generalize these results to 3D by introducing a new detector of salient regions that builds upon simultaneous video recordings of the same public artistic performance (dance show, chant, etc.) by multiple users. The second contribution of our work aims at a semantic understanding of fixed images. With this goal in mind, we use data gathered through a game, Ask’nSeek, that we created. Elementary interactions (such as clicks) together with textual input data from players are, as before, mixed with automatic analysis of images. In particular, we show the usefulness of interactions that help revealing spatial relations between different objects in a scene. After studying the problem of detecting objects on a scene, we also adress the more ambitious problem of segmentation

Thèses en Ligne

Scientific Publications of the University of Toulouse II Le Mirail

Institut National Polytechnique de Toulouse (Theses)

Forum Bildverarbeitung 2020

Author
Publication venue: KIT Scientific Publishing
Publication date: 17/08/2022
Field of study

Image processing plays a key role for fast and contact-free data acquisition in many technical areas, e.g., in quality control or robotics. These conference proceedings of the “Forum Bildverarbeitung”, which took place on 26.-27.11.202 in Karlsruhe as a common event of the Karlsruhe Institute of Technology and the Fraunhofer Institute of Optronics, System Technologies and Image Exploitation, contain the articles of the contributions

Directory of Open Access Books (DOAB)