2 research outputs found

    Annotation de vidéos par paires rares de concepts

    No full text
    National audienceLa détection d'un concept visuel dans les vidéos est une tâche difficile, spécialement pour les concepts rares ou pour ceux dont il est compliqué de décrire visuellement. Cette question devient encore plus difficile quand on veut détecter une paire de concepts au lieu d'un seul. En effet, plus le nombre de concepts présents dans une scène vidéo est grand, plus cette dernière est complexe visuellement, et donc la difficulté de lui trouver une description spécifique s'accroit encore plus. Deux directions principales peuvent eˆtre suivies pour tacler ce problème: 1) détecter chaque concept séparément et combiner ensuite les prédictions de leurs détecteurs correspondants d'une manière similaire à celle utilisée souvent en recherche d'information, ou 2) considérer le couple comme un nouveau concept et générer un classifieur supervisé pour ce nouveau concept en inférant de nouvelles annotations à partir de celles des deux concepts formant la paire. Chacune de ces approches a ses avantages et ses inconvénients. Le problème majeur de la deuxième méthode est la nécessité d'un ensemble de données annotées, surtout pour la classe positive. S'il y a des concepts rares, cette rareté s'accroit encore plus pour les paires formées de leurs combinaisons. D'une autre part, il peut y avoir deux concepts assez fréquents mais il est très rare qu'ils occurrent conjointement dans un meˆme document. Certains travaux de l'état de l'art ont proposé de palier ce problème en récoltant des exemples représentatifs des classes étudiées du web, mais cette tâche reste couˆteuse en temps et argent. Nous avons comparé les deux types d'approches sans recourir à des ressources externes. Notre évaluation a été réalisée dans le cadre de la sous-tâche "détection de paire de concepts" de la tâche d'indexation sémantique (SIN) de TRECVID 2013, et les résultats ont révélé que pour le cas des vidéos, si on n'utilise pas de ressources d'information externes, les approches qui fusionnent les résultats des deux détecteurs sont plus performantes, contrairement à ce qui a été montré dans des travaux antérieurs pour le cas des images fixes. La performance des méthodes décrites dépasse celle du meilleur résultat officiel de la campagne d'évaluation précédemment citée, de 9% en termes de gain relatif sur la précision moyenne (MAP)

    Quaero at TRECVID 2012: Semantic Indexing

    Get PDF
    International audienceThe Quaero group is a consortium of French and German organizations working on Multimedia Indexing and Retrieval. LIG, INRIA and KIT participated to the semantic indexing task and LIG participated to the organization of this task. This paper describes these participations. For the semantic indexing task, our approach uses a six-stages processing pipelines for computing scores for the likelihood of a video shot to contain a target concept. These scores are then used for producing a ranked list of images or shots that are the most likely to contain the target concept. The pipeline is composed of the following steps: descriptor extraction, descriptor optimization, classi cation, fusion of descriptor variants, higher-level fusion, and re-ranking. We used a number of di erent descriptors and a hierarchical fusion strategy. We also used conceptual feedback by adding a vector of classi cation score to the pool of descriptors. The best Quaero run has a Mean Inferred Average Precision of 0.2692, which ranked us 3rd out of 16 participants. We also organized the TRECVid SIN 2012 collaborative annotation
    corecore