410 research outputs found

    Modèle de langue visuel pour la reconnaissance de scènes

    No full text
    National audienceWe describe here a method to use a graph language modeling approach for imageretrieval and image categorization. Since photographic images are 2D data, we first use im- age regions (mapped to automatically induced concepts) and then spatial relationships between these regions to build a complete image graph representation. Our method deals with different scenarios, where isolated images or groups of images are used for training or testing. The results obtained on an image categorization problem show (a) that the procedure to automatically induce concepts from an image is effective, and (b) that the use of spatial relationships, in addition to concepts, for representing an image content helps improve the classifier accuracy. This approach extends the language modeling approach to information retrieval to the problem of graph-based image retrieval and categorization, without considering image annotations.Dans cet article, nous décrivons une méthode pour utiliser un modèle de langue sur des graphes pour la recherche et la catégorisation d'images. Nous utilisons des régions d'images (associées automatiquement à des concepts visuels), ainsi que des relations spatiales entre ces régions, lors de la construction de la représentation sous forme de graphe des images. Notre méthode gère différents scénarios, selon que des images isolées ou groupées soient utilisés comme base d'apprentissage ou de tests. Les résultats obtenus sur un problème de catégorisation d'images montre (a) que la procédure automatique qui associe les concepts à une image est efficace, et (b) que l'utilisation des relations spatiales, en plus des concepts, permet d'améliorer la qualité de la classification. Cette approche présente donc une extension du modèle de langue classique en recherche d'information pour traiter le problème de recherche et de catégorisation d'images représentées par des graphes sans se préoccuper des annotations d'images

    Relations explicites entre différentes représentations d'image dans un modèle de graphe visuel

    Get PDF
    National audienceThis paper presents a novel approach, the first to our knowledge, that exploits a complete extension of the language modeling approach from information retrieva l to the problem of graph-based image retrieval and categorization. Since photographic images are 2D data, we first use image regions and local interest points (mapped to automatically induced concepts) and then relationships between these regions to build a complete graph representation of images. The results obtained on categorizing of RobotVision collection from Im ageCLEF 2009 (containing of 5 rooms in an indoor environment) show that (a) the procedure to automatically induce concepts from an image is effective, and (b) the use of spatial relationships, in addition to concepts, for representing an image content helps improve the classifier accuracy.Nous présentons dans ce papier une nouvelle méthode pour exploiter la relation entre différents niveaux de représentation d'image afin de compléter le modèle de graphe visuel. Le modèle de graphe visuel est une extension du modèle de langue classique en recherche d'information. Nous utilisons des régions d'images et des points d'intérêts (associées automatiquement à des concepts visuels), ainsi que des relations entre ces concepts, lors de la construction de la représentation sous forme de graphe. Les résultats obtenus sur catégorisation de la collection RobotVision de la compétition d'ImageCLEF 2009 (contenant 5 pièces dans un environnement à l'intérieur du bâtiment) montrent que (a) la procédure de l'induction automatique des concepts d'une image est efficace, et (b) l'utilisation des inter-relations entre 2 niveaux de représentation, en plus de concepts, permet d'améliorer le taux de reconnaissance

    Méthodes probabilistes basées sur les mots visuels pour la reconnaissance de lieux sémantiques par un robot mobile.

    Get PDF
    Les êtres humains définissent naturellement leur espace quotidien en unités discrètes. Par exemple, nous sommes capables d'identifier le lieu où nous sommes (e.g. le bureau 205) et sa catégorie (i.e. un bureau), sur la base de leur seule apparence visuelle. Les travaux récents en reconnaissance de lieux sémantiques, visent à doter les robots de capacités similaires. Ces unités, appelées "lieux sémantiques", sont caractérisées par une extension spatiale et une unité fonctionnelle, ce qui distingue ce domaine des travaux habituels en cartographie. Nous présentons nos travaux dans le domaine de la reconnaissance de lieux sémantiques. Ces derniers ont plusieurs originalités par rapport à l'état de l'art. Premièrement, ils combinent la caractérisation globale d'une image, intéressante car elle permet de s'affranchir des variations locales de l'apparence des lieux, et les méthodes basées sur les mots visuels, qui reposent sur la classification non-supervisée de descripteurs locaux. Deuxièmement, et de manière intimement reliée, ils tirent parti du flux d'images fourni par le robot en utilisant des méthodes bayésiennes d'intégration temporelle. Dans un premier modèle, nous ne tenons pas compte de l'ordre des images. Le mécanisme d'intégration est donc particulièrement simple mais montre des difficultés à repérer les changements de lieux. Nous élaborons donc plusieurs mécanismes de détection des transitions entre lieux qui ne nécessitent pas d'apprentissage supplémentaire. Une deuxième version enrichit le formalisme classique du filtrage bayésien en utilisant l'ordre local d'apparition des images. Nous comparons nos méthodes à l'état de l'art sur des tâches de reconnaissance d'instances et de catégorisation, en utilisant plusieurs bases de données. Nous étudions l'influence des paramètres sur les performances et comparons les différents types de codage employés sur une même base.Ces expériences montrent que nos méthodes sont supérieures à l'état de l'art, en particulier sur les tâches de catégorisation.Human beings naturally organize their space as composed of discrete units. Those units, called "semantic places", are characterized by their spatial extend and their functional unity. Moreover, we are able to quickly recognize a given place (e.g. office 205) and its category (i.e. an office), solely on their visual appearance. Recent works in semantic place recognition seek to endow the robot with similar capabilities. Contrary to classical localization and mapping work, this problem is usually tackled as a supervised learning problem. Our contributions are two fold. First, we combine global image characterization, which captures the global organization of the image, and visual words methods which are usually based unsupervised classification of local signatures. Our second but closely related, contribution is to use several images for recognition by using Bayesian methods for temporal integration. Our first model don't use the natural temporal ordering of images. Temporal integration is very simple but has difficulties when the robot moves from one place to another.We thus develop several mechanisms to detect place transitions. Those mechanisms are simple and don't require additional learning. A second model augment the classical Bayesian filtering approach by using the local order among images. We compare our methods to state-of-the-art algorithms on place recognition and place categorization tasks.We study the influence of system parameters and compare the different global characterization methods on the same dataset. These experiments show that our approach while being simple leads to better results especially on the place categorization task.PARIS11-SCD-Bib. électronique (914719901) / SudocSudocFranceF

    Analyse des émotions dans un jeu vidéo

    Full text link
    Tout le long d’une partie de jeu vidéo, nous voyons des personnes devenir agressives, pousser des cris de joie et parfois pleurer. Ces réactions observées nous poussent à nous demander quelles sont les émotions majeures crées chez un joueur et les éléments responsables. Dans ce but, notre étude propose une méthode et un outil d’analyse émotionnelle du jeu ainsi qu’un accès facile aux informations pour les utilisateurs. Cette analyse fournit une illustration graphique des transitions émotionnelles suivant le parcours du joueur au cours de la partie. Pour élaborer cette méthode nous avons réalisé une expérience sur un groupe de 21 personnes et utilisé 5 outils de mesure physiologique. Nous l’avons axée principalement sur la combinaison de 2 d’entre eux, la reconnaissance d’expressions faciales et le suivi du regard. Nos résultats montrent l’efficacité de la méthode à travers une amélioration de la précision tant dans l’identification des émotions que de leurs déclencheurs. De cette étape nous est venue l’envie de prédire les émotions des joueurs. C’est dans cette optique que nous présentons dans ce mémoire 2 approches basées sur le modèle théorique d’évaluation de l’émotion Ortony, Clore et Collins et utilisant des algorithmes d’apprentissage machine, en particulier une version des k plus proches voisins et les forêts d’arbres de décision. Les résultats obtenus étant prometteurs, une telle réalisation permettrait d’élargir les possibilités dans la conception de jeux vidéo.Throughout a video game, we see people becoming aggressive, shouting for joy and sometimes crying. These observed reactions prompt us to ask what are the major emotions created in a player during a game session, as well as to identify the responsible elements. To this end, our study proposes a method of emotional analysis of a game as well as a tool whose implementation uses this method in order to give easy access to information for users. This analysis submits a graphic illustration of emotional transition along the course of the player during the game. To develop this method we performed an experiment on a group of 21 people and used 5 physiological measurement tools. We focused mainly on the combination of 2 of them, the recognition of facial expressions and the follow-up of the gaze. Our results show the effectiveness of this method through an improvement of the precision both in the identification of the emotions and their triggers. From this step came the desire to predict the emotions of the players. It is with this in mind that we present in this paper 2 approaches based on the theoretical model of emotion evaluation Ortony, Clore and Collins and Machine learning algorithms, in particular a version of the k nearest neighbors and the Random forest classifiers. The results obtained being promising, such an achievement would widen the possibilities in the design of video games

    Vision artificielle pour les non-voyants : une approche bio-inspirée pour la reconnaissance de formes

    Get PDF
    More than 315 million people worldwide suffer from visual impairments, with several studies suggesting that this number will double by 2030 due to the ageing of the population. To compensate for the loss of sight the current approaches consist of either specific aids designed to answer particular needs or generic systems such as neuroprostheses and sensory substitution devices. These holistic approaches, which try to restore vision as a whole, have been shown to be very inefficient in real life situations given the low resolution of output interfaces. To overcome these obstacles we propose the use of artificial vision in order to pre-process visual scenes and provide the user with relevant information. We have validated this approach through the development of a novel assistive device for the blind called Navig. Through shape recognition and spatialized sounds synthesis, this system allows users to locate and grab objects of interest. It also features navigational aids based on a new positioning method combining GPS, inertial sensors and the visual detection of geolocalized landmarks. To enhance the performance of the visual module we further developed, as part of this thesis, a bio-inspired pattern recognition algorithm which uses latency-based coding of visual information, oriented edge representations and a cascaded architecture combining detection at different resolutions.La déficience visuelle touche aujourd’hui plus de 315 millions de personnes à travers le monde, un chiffre qui pourrait doubler d’ici à 2030 du fait du vieillissement de la population. Les deux grandes approches existantes pour compenser la perte de vision sont les aides spécifiques, répondant à un besoin identifié, et les systèmes génériques tels que les neuroprothèses ou les systèmes de substitution sensorielle. Ces approches holistiques, tentant de restituer l’ensemble de l’information visuelle, s’avèrent inadaptées de par la trop faible résolution des interfaces de sortie, rendant ces systèmes inutilisables dans la vie quotidienne. Face à ce constat, nous proposons dans cette thèse une démarche alternative, consistant à intégrer des méthodes de vision artificielle, afin de prétraiter la scène visuelle, et de ne restituer au non-voyant que les informations extraites pertinentes. Pour valider cette approche, nous présenterons le développement d’un système de suppléance baptisé Navig. Grâce à la reconnaissance de formes et à la synthèse de sons spatialisés, il permet à l’utilisateur de localiser des objets d’intérêt. Il offre également des fonctions de navigation, basées sur une nouvelle méthode de positionnement combinant GPS, données inertielles, et détections de cibles visuelles géolocalisées. Afin d’améliorer les performances du module de vision artificielle, nous proposerons également dans cette thèse un nouvel algorithme de reconnaissance de formes bio-inspiré, reposant sur un codage de l’information visuelle par latence, sur des représentations sous forme d’arêtes orientées, et sur une architecture en cascade combinant des détections à différentes résolutions

    SIXIÈME ATELIER : Représentation et raisonnement sur le temps et l'espace (RTE 2011)

    Get PDF
    Actes de l'atelier RTE 2011, Plate-forme AFIA, ChambéryNational audienceLa représentation du temps et de l'espace ainsi que les modèles de raisonnements associés sont des thèmes largement étudiés en informatique, d'une manière générale, et en intelligence artificielle, en particulier. Ces thèmes sont de plus en plus importants dans de nombreux domaines de notre société, en particulier là où est disponible une très grande quantité d'informations et de services évoluant au cours du temps ou dans l'espace. Les techniques temporelles et/ou spatiales sont, par exemple, importantes dans : la gestion des grandes quantités de données, l'analyse et la fouille de ces données, la simulation et l'analyse de l'évolution temporelle de processus, l'évaluation de la sécurité et la sûreté, la gestion dynamique des connaissances, la gestion de l'espace, la prévention des risques naturels, la modélisation des systèmes dynamiques et complexes, etc. Elles offrent une alternative ou un complément aux méthodes statistiques et mathématiques de modélisation de l'espace et du temps

    Accessibilité aux informations visuelles des pages web pour les non-voyants

    Get PDF
    Le principal objectif de cette thèse est d'améliorer l'accessibilité à l'information visuelle des pages web pour les non voyants. En se basant d'une part sur le concept des Images de Pages (IdP) et sur le Modèle d'Architecture Textuelle (MAT) qui permettent de représenter la dimension visuelle d'un objet textuel, et d'autre part, sur le modèle RDF (Resource Description Framework) qui permet de décrire les pages web, nous avons conçu un nouveau modèle appelé MAP-RDF (Modèle d’Architecture des Pages web). Ce modèle permet de représenter les informations qui restent « cachées » aux non-voyants tels que la structure de la page, les groupements visuels et leurs propriétés ainsi que les relations associant ces groupements. Toutes ces informations sont traduites par la suite dans les termes d'un langage tactile que nous avons élaboré. Nous avons également réalisé une évaluation des Images de Pages Web tactiles auprès de sujets non-voyants. Les résultats étant très prometteurs, nous avons pu développer un prototype qui permet d'une part, d'annoter une page web suivant notre modèle, et d'autre part de générer automatiquement l'affichage en tactile de la page web répartie selon trois niveaux de granularité d'Images de Pages que nous avons identifiés expérimentalement.The main objective of my thesis is to enhance the accessibility to the visual information in web pages for the blind users. Based on the concepts of IdP and MAT that offer a representation of the visual aspect of a textual object and on the RDF model that facilitates the description of the web pages, we conceived a new model that we called MAP-RDF. This model offers a representation of the visual information that remains hidden to the blind, like the visual structure of the page, the visual groupings, their properties and the relations that associate these groupings. The totality of this information is translated into the terms of a tactile language that we developed. We also fulfilled an evaluation of the tactile Images of Pages (IdP) with blind persons. The results being very promising, we could develop a prototype that permits the annotation of web pages according to our model. It can also generate automatically a tactile view of the web page in which the visual information is distributed into three levels of granularity that we defined experimentally

    Emergsem : une approche d'annotation collaborative et de recherche d'images basée sur les sémantiques émergentes

    Get PDF
    The extraction of images semantic is a process that requires deep analysis of the image content. It refers to their interpretation from a human point of view. In this lastest case, the image semantic may be generic (e.g., a vehicle) or specific (e.g., a bicycle). It consists in extracting single or multiple images semantic in order to facilitate its retrieval. These objectives clearly show that the extraction of semantic is not a new research field. This thesis deals with the semantic collaborative annotation of images and their retrieval. Firstly, it discusses how annotators could describe and represent images content based on visual information, and secondly how images retrieval could be greatly improved thank to latest techniques, such as clustering and recommendation. To achieve these purposes, the use of implicit image content description tools, interactions of annotators that describe the semantics of images and those of users that use generated semantics to retrieve the images, would be essential. In this thesis, we focus our research on the use of Semantic Web tools, in particular ontologies to produce structured descriptions of images. Ontology is used to represent image objects and the relationships between these objects. In other words, it allows to formally represent the different types of objects and their relationships. Ontology encodes the relational structure of concepts that can be used to describe and reason. This makes them eminently adapted to many problems such as semantic description of images that requires prior knowledge as well as descriptive and normative capacity. The contribution of this thesis is focused on three main points : semantic representation, collaborative semantic annotation and semantic retrieval of images.Semantic representation allows to offer a tool for the capturing semantics of images. To capture the semantics of images, we propose an application ontology derived from a generic ontology. Collaborative semantic annotation that we define, provides emergent semantics through the fusion of semantics proposed by the annotators.Semantic retrieval allows to look for images with semantics provided by collaborative semantic annotation. It is based on clustering and recommendation. Clustering is used to group similar images corresponding to the user’s query and recommendation aims to propose semantics to users based on their profiles. It consists of three steps : creation of users community, acquiring of user profiles and classification of user profiles with Galois algebra. Experiments were conducted to validate the approaches proposed in this work.L’extraction de la sémantique d’une image est un processus qui nécessite une analyse profonde du contenu de l’image. Elle se réfère à leur interprétation à partir d’un point de vuehumain. Dans ce dernier cas, la sémantique d’une image pourrait être générique (par exemple un véhicule) ou spécifique (par exemple une bicyclette). Elle consiste à extraire une sémantique simple ou multiple de l’image afin de faciliter sa récupération. Ces objectifs indiquent clairement que l’extraction de la sémantique n’est pas un nouveau domaine de recherche. Cette thèse traite d’une approche d’annotation collaborative et de recherche d’images baséesur les sémantiques émergentes. Il aborde d’une part, la façon dont les annotateurs pourraient décrire et représenter le contenu des images en se basant sur les informations visuelles, et d’autre part comment la recherche des images pourrait être considérablement améliorée grâce aux récentes techniques, notamment le clustering et la recommandation. Pour atteindre ces objectifs, l’exploitation des outils de description implicite du contenu des images, des interactions des annotateurs qui décrivent la sémantique des images et celles des utilisateurs qui utilisent la sémantique produite pour rechercher les images seraient indispensables.Dans cette thèse, nous nous sommes penchés vers les outils duWeb Sémantique, notamment les ontologies pour décrire les images de façon structurée. L’ontologie permet de représenter les objets présents dans une image ainsi que les relations entre ces objets (les scènes d’image). Autrement dit, elle permet de représenter de façon formelle les différents types d’objets et leurs relations. L’ontologie code la structure relationnelle des concepts que l’on peut utiliser pour décrire et raisonner. Cela la rend éminemment adaptée à de nombreux problèmes comme la description sémantique des images qui nécessite une connaissance préalable et une capacité descriptive et normative.La contribution de cette thèse est focalisée sur trois points essentiels : La représentationsémantique, l’annotation sémantique collaborative et la recherche sémantique des images.La représentation sémantique permet de proposer un outil capable de représenter la sémantique des images. Pour capturer la sémantique des images, nous avons proposé une ontologie d’application dérivée d’une ontologie générique.L’annotation sémantique collaborative que nous proposons consiste à faire émerger la sémantique des images à partir des sémantiques proposées par une communauté d’annotateurs.La recherche sémantique permet de rechercher les images avec les sémantiques fournies par l’annotation sémantique collaborative. Elle est basée sur deux techniques : le clustering et la recommandation. Le clustering permet de regrouper les images similaires à la requête d’utilisateur et la recommandation a pour objectif de proposer des sémantiques aux utilisateurs en se basant sur leurs profils statiques et dynamiques. Elle est composée de trois étapes à savoir : la formation de la communauté des utilisateurs, l’acquisition des profils d’utilisateurs et la classification des profils d’utilisateurs avec l’algèbre de Galois. Des expérimentations ont été menées pour valider les différentes approches proposées dans ce travail

    Localisation d'objets pour les non-voyants : augmentation sensorielle et neuroprothèse

    Get PDF
    Les difficultés éprouvées par les non-voyants au quotidien peuvent être classées dans quatre domaines principaux : l'accès à l'information écrite, le déplacement, l'orientation et la reconnaissance/localisation d'objets. C'est sur la conception d'un système de suppléance permettant aux non-voyants de reconnaître et de localiser des objets que porte cette thèse. L'état de l'art des systèmes de suppléance visuelle fait apparaître deux catégories de systèmes: les systèmes de substitution et d'augmentation sensorielle. Les premiers capturent une image basse résolution de la scène visuelle en la transformant pour être restituée dans autre modalité sensorielle (tactile ou auditive). Ces systèmes expérimentaux ne sont aujourd'hui pas utilisables du fait de la difficulté d'interprétation du signal restitué. Les seconds augmentent un canal sensoriel (tactile ou auditif) en restituant une faible quantité d'information identifiée comme pertinente pour améliorer l'autonomie des personnes non-voyantes. C'est cette dernière approche qui a été développée dans cette thèse en restituant une fonction du système visuel : la localisation d'objets. La restitution de cette information de position sur un objet a été envisagée selon deux modes de restitution : " auditive " dans un système d'augmentation sensorielle et " visuelle " pour la simulation d'une neuroprothèse corticale. Les perspectives de ces travaux permettent d'envisager un outil de suppléance pour l'aide à la navigation des non-voyants, en fusionnant un système de géolocalisation pour le positionnement, de vision artificielle pour reconnaître des objets dans la scène visuelle et de sonification pour restituer ces informations.The difficulties experienced by blind people in their daily lives can be classified in four main areas: read, write, orientation and recognition and localization of objects. This manuscript addresses this last topic of object recognition and localization. The state of the art of assistive devices for the Blind shows two types of aid: Sensory substitution and sensory augmentation systems. The first category captures a low resolution image of the visual scene which is converted to a signal that can be interpreted by another sensory modality (tactile or auditory). Those experimental systems are currently not usable because of the difficulty to interpret the restituted signal. Sensory augmentation systems are more usable. They increase a sensory channel (auditory or tactile) restituting a small amount of information identified as relevant to improve independence of blind people. This latter approach was developed in this thesis by restoring one lost visual function: localizing objects. A system was developed to restore this function of the human visual system. The restitution of the location of an object has been studied in two ways: in an auditory sensory augmentation system and a "visual" system for the simulation of a visual neuroprosthesis. The prospects for this work (some of which were included in the NAVIG project) are the first steps of the design of an assistive device which could help the Blind to navigate in unknown environments. This system relies on a GPS system for navigation, vision to recognize objects in the visual scene and a sonification system to restitute this information

    Logique de l'icône

    Get PDF
    Une telle conception de la cognition comporte pour notre dossier une implication capitale: la perception s’appliquant à tous les aspects du monde auquel nous participons, indépendamment de la catégorie à laquelle ils appartiennent, une sémiotique viable se doit d’être en mesure de rendre compte de la totalité des éléments perçus, qu’il s’agisse de qualités, d’existants, ou d’objets généraux comme les signes
    • …
    corecore