thesis

Annotation d'images via leur contexte spatio-temporel et les métadonnées du Web

Abstract

En Recherche d'Information (RI), les documents sont classiquement indexés en fonction de leur contenu, qu'il soit textuel ou multimédia. Les moteurs de recherche s'appuyant sur ces index sont aujourd'hui des outils performants, répandus et indispensables. Ils visent à fournir des réponses pertinentes selon le besoin de l'utilisateur, sous forme de textes, images, sons, vidéos, etc. Nos travaux de thèse s'inscrivent dans le contexte des documents de type image. Plus précisément, nous nous sommes intéressés aux systèmes d'annotation automatique d'images qui permettent d'associer automatiquement des mots-clés à des images afin de pouvoir ensuite les rechercher par requête textuelle. Ce type d'annotation cherche à combler les lacunes des approches d'annotation manuelle et semi-automatique. Celles-ci ne sont plus envisageables dans le contexte actuel qui permet à chacun de prendre de nombreuses photos à faible coût (en lien avec la démocratisation des appareils photo numériques et l'intégration de capteurs numériques dans les téléphones mobiles). Parmi les différents types de collections d'images existantes (par exemple, médicales, satellitaires) dans le cadre de cette thèse nous nous sommes intéressés aux collections d'images de type paysage (c.-à-d. des images qui illustrent des points d'intérêt touristiques) pour lesquelles nous avons identifié des défis, tels que l'identification des nouveaux descripteurs pour les décrire et de nouveaux modèles pour fusionner ces derniers, l'identification des sources d'information pertinentes et le passage à l'échelle. Nos contributions portent sur trois principaux volets. En premier lieu, nous nous sommes attachés à exploiter différents descripteurs qui peuvent influencer la description des images de type paysage : le descripteur de spatialisation (caractérisé par la latitude et la longitude des images), le descripteur de temporalité (caractérisé par la date et l'heure de la prise de vue) et le descripteur de thématique (caractérisé par les tags issus des plate formes de partage d'images). Ensuite, nous avons proposé des approches pour modéliser ces descripteurs au regard de statistiques de tags liées à leur fréquence et rareté et sur des similarités spatiale et temporelle. Deuxièmement, nous avons proposé un nouveau processus d'annotation d'images qui vise à identifier les mots-clés qui décrivent le mieux les images-requêtes données en entrée d'un système d'annotation par un utilisateur. Pour ce faire, pour chaque image-requête nous avons mis en œuvre des filtres spatial, temporel et spatio-temporel afin d'identifier les images similaires ainsi que leurs tags associés. Ensuite, nous avons fédéré les différents descripteurs dans un modèle probabiliste afin de déterminer les termes qui décrivent le mieux chaque image-requête. Enfin, le fait que les contributions présentées ci-dessus s'appuient uniquement sur des informations issues des plateformes de partage d'images (c.-à-d. des informations subjectives) a suscité la question suivante : les informations issues du Web peuvent-elles fournir des termes objectifs pour enrichir les descriptions initiales des images. À cet effet, nous avons proposé une approche basée sur les techniques d'expansion de requêtes du domaine de la RI. Elle porte essentiellement sur l'étude de l'impact des différents algorithmes d'expansion, ainsi que sur l'agrégation des résultats fournis par le meilleur algorithme et les résultats fournis par le processus d'annotation d'images. Vu qu'il n'existe pas de cadre d'évaluation standard d'annotation automatique d'images, plus particulièrement adapté aux collections d'images de type paysage, nous avons proposé des cadres d'évaluation appropriés afin de valider nos contributions. En particulier, les différentes approches proposées sont évaluées au regard de la modélisation des descripteur de spatialisation, de temporalité et de thématique. De plus, nous avons validé le processus d'annotation d'images, et nous avons montré qu'il surpasse en qualité deux approches d'annotation d'images de la littérature. Nous avons comparé également l'approche d'enrichissement avec le processus d'annotation d'image pour souligner son efficacité et l'apport des informations issues du Web. Ces expérimentations ont nécessité le prototypage du logiciel AnnoTaGT, qui offre aux utilisateurs un cadre technique pour l'annotation automatique d'images.The documents processed by Information Retrieval (IR) systems are typically indexed according to their contents: Text or multimedia. Search engines based on these indexes aim to provide relevant answers to users' needs in the form of texts, images, sounds, videos, and so on. Our work is related to "image" documents. We are specifically interested in automatic image annotation systems that automatically associate keywords to images. Keywords are subsequently used for search purposes via textual queries. The automatic image annotation task intends to overcome the issues of manual and semi-automatic annotation tasks, as they are no longer feasible in nowadays' context (i.e., the development of digital technologies and the advent of devices, such as smartphones, allowing anyone to take images with a minimal cost). Among the different types of existing image collections (e.g., medical, satellite) in our work we are interested in landscape image collections for which we identified the following challenges: What are the most discriminant features for this type of images ? How to model and how to merge these features ? What are the sources of information that should be considered ? How to manage scalability issues ? The proposed contribution is threefold. First, we use different factors that influence the description of landscape images: The spatial factor (i.e., latitude and longitude of images), the temporal factor (i.e., the time when the images were taken), and the thematic factor (i.e., tags crowdsourced and contributed to image sharing platforms). We propose various techniques to model these factors based on tag frequency, as well as spatial and temporal similarities. The choice of these factors is based on the following assumptions: A tag is all the more relevant for a query-image as it is associated with images located in its close geographical area ; A tag is all the more relevant for a query-image as it is associated with images captured close in time to it ; sourcing concept). Second, we introduce a new image annotation process that recommends the terms that best describe a given query-image provided by a user. For each query-image we rely on spatial, temporal, and spatio-temporal filters to identify similar images along with their tags. Then, the different factors are merged through a probabilistic model to boost the terms best describing each query-image. Third, the contributions presented above are only based on information extracted from image photo sharing platforms (i.e., subjective information). This raised the following research question: Can the information extracted from the Web provide objective terms useful to enrich the initial description of images? We tackle this question by introducing an approach relying on query expansion techniques developed in IR. As there is no standard evaluation protocol for the automatic image annotation task tailored to landscape images, we designed various evaluation protocols to validate our contributions. We first evaluated the approaches defined to model the spatial, temporal, and thematic factors. Then, we validated the annotation image process and we showed that it yields significant improvement over two state-of-the-art baselines. Finally, we assessed the effectiveness of tag expansion through Web sources and showed its contribution to the image annotation process. These experiments are complemented by the image annotation prototype AnnoTaGT, which provides users with an operational framework for automatic image annotation

    Similar works