6 research outputs found

    Open Set Logo Detection and Retrieval

    Full text link
    Current logo retrieval research focuses on closed set scenarios. We argue that the logo domain is too large for this strategy and requires an open set approach. To foster research in this direction, a large-scale logo dataset, called Logos in the Wild, is collected and released to the public. A typical open set logo retrieval application is, for example, assessing the effectiveness of advertisement in sports event broadcasts. Given a query sample in shape of a logo image, the task is to find all further occurrences of this logo in a set of images or videos. Currently, common logo retrieval approaches are unsuitable for this task because of their closed world assumption. Thus, an open set logo retrieval method is proposed in this work which allows searching for previously unseen logos by a single query sample. A two stage concept with separate logo detection and comparison is proposed where both modules are based on task specific CNNs. If trained with the Logos in the Wild data, significant performance improvements are observed, especially compared with state-of-the-art closed set approaches.Comment: accepted at VISAPP 201

    Exemplar codes for facial attributes and tattoo recognition

    Get PDF
    Abstract When implementing real-world computer vision systems, researchers can use mid-level representations as a tool to adjust the trade-off between accuracy and efficiency. Unfortunately, existing mid-level representations that improve accuracy tend to decrease efficiency, or are specifically tailored to work well within one pipeline or vision problem at the exclusion of others. We introduce a novel, efficient mid-level representation that improves classification efficiency without sacrificing accuracy. Our Exemplar Codes are based on linear classifiers and probability normalization from extreme value theory. We apply Exemplar Codes to two problems: facial attribute extraction and tattoo classification. In these settings, our Exemplar Codes are competitive with the state of the art and offer efficiency benefits, making it possible to achieve high accuracy even on commodity hardware with a low computational budget

    De-identification for privacy protection in multimedia content : A survey

    Get PDF
    This document is the Accepted Manuscript version of the following article: Slobodan Ribaric, Aladdin Ariyaeeinia, and Nikola Pavesic, ‘De-identification for privacy protection in multimedia content: A survey’, Signal Processing: Image Communication, Vol. 47, pp. 131-151, September 2016, doi: https://doi.org/10.1016/j.image.2016.05.020. This manuscript version is distributed under the terms of the Creative Commons Attribution-NonCommercial-NoDerivatives License CC BY NC-ND 4.0 (http://creativecommons.org/licenses/by-nc-nd/4.0/), which permits non-commercial re-use, distribution, and reproduction in any medium, provided the original work is properly cited, and is not altered, transformed, or built upon in any way.Privacy is one of the most important social and political issues in our information society, characterized by a growing range of enabling and supporting technologies and services. Amongst these are communications, multimedia, biometrics, big data, cloud computing, data mining, internet, social networks, and audio-video surveillance. Each of these can potentially provide the means for privacy intrusion. De-identification is one of the main approaches to privacy protection in multimedia contents (text, still images, audio and video sequences and their combinations). It is a process for concealing or removing personal identifiers, or replacing them by surrogate personal identifiers in personal information in order to prevent the disclosure and use of data for purposes unrelated to the purpose for which the information was originally obtained. Based on the proposed taxonomy inspired by the Safe Harbour approach, the personal identifiers, i.e., the personal identifiable information, are classified as non-biometric, physiological and behavioural biometric, and soft biometric identifiers. In order to protect the privacy of an individual, all of the above identifiers will have to be de-identified in multimedia content. This paper presents a review of the concepts of privacy and the linkage among privacy, privacy protection, and the methods and technologies designed specifically for privacy protection in multimedia contents. The study provides an overview of de-identification approaches for non-biometric identifiers (text, hairstyle, dressing style, license plates), as well as for the physiological (face, fingerprint, iris, ear), behavioural (voice, gait, gesture) and soft-biometric (body silhouette, gender, age, race, tattoo) identifiers in multimedia documents.Peer reviewe

    Kontextmodelle für lokale Merkmale zur inhaltsbasierten Bildsuche in großen Bilddatenbanken

    Get PDF
    Vor allem seit Smartphones für viele zum ständigen Begleiter geworden sind, wächst die Menge der aufgenommenen Bilder rasant an. Oft werden die Bilder schon unmittelbar nach der Aufnahme über soziale Netzwerke mit anderen geteilt. Zur späteren Verwendung der Aufnahmen hingegen wird es zunehmend wichtiger, die für den jeweiligen Zweck relevanten Bilder in der Masse wiederzufinden. Für viele bekannte Objektklassen ist die automatische Verschlagwortung mit entsprechenden Detektionsverfahren bereits eine große Hilfe. Anhand der Metadaten können außerdem häufig Ort oder Zeit der gesuchten Aufnahmen eingegrenzt werden. Dennoch führt in bestimmten Fällen nur eine inhaltsbasierte Bildsuche zum Ziel, da dort explizit mit einem Anfragebild nach individuellen Objekten oder Szenen gesucht werden kann. Obwohl die Forschung im Bereich der inhaltsbasierten Bildsuche im letzten Jahrzehnt bereits zu vielen Anwendungen geführt hat, ist die Skalierbarkeit der sehr genauen Varianten noch eingeschränkt. Das bedeutet, dass die existierenden Verfahren, mit denen ein Bildpaar robust auf lokal ähnliche Teilinhalte untersucht werden kann, nicht ohne weiteres auf die Suche in vielen Millionen von Bildern ausgeweitet werden können. Diese Dissertation widmet sich dieser Art der inhaltsbasierten Bildsuche, die Bilder anhand ihrer lokalen Bildmerkmale indexiert, und adressiert zwei wesentliche Einschränkungen des populären Bag-of-Words-Modells. Zum einen sind die Quantisierung und Komprimierung der lokalen Merkmale, die für die Suchgeschwindigkeit in großen Bildmengen essentiell sind, mit einem gewissen Verlust von Detailinformation verbunden. Zum anderen müssen die indexierten Merkmale aller Bilder immer im Arbeitsspeicher vorliegen, da jede Suchanfrage den schnellen Zugriff auf einen beträchtlichen Teil des Index erfordert. Konkret beschäftigt sich die Arbeit mit Repräsentationen, die im Index nicht nur die quantisierten Merkmale, sondern auch ihren Kontext einbeziehen. Abweichend zu den bisher üblichen Ansätzen, wird der Kontext, also die größere Umgebung eines lokalen Merkmals, als eigenständiges Merkmal erfasst und ebenfalls quantisiert, was den Index um eine Dimension erweitert. Zunächst wird dafür ein Framework für die Evaluation solcher Umgebungsrepräsentationen entworfen. Anschließend werden zwei Repräsentationen vorgeschlagen: einerseits basierend auf den benachbarten lokalen Merkmalen, die mittels des Fisher Vektors aggregiert werden, andererseits auf Basis der Ergebnisse von Faltungsschichten von künstlichen neuronalen Netzen. Nach einem Vergleich der beiden Repräsentationen sowie Kombinationen davon im Rahmen des Evaluationsframeworks, werden die Vorteile für ein Gesamtsystem der inhaltsbasierten Bildsuche anhand von vier öffentlichen Datensätzen bewertet. Für die Suche in einer Million Bildern verbessern die vorgeschlagenen Repräsentationen auf Basis der neuronalen Netze die Suchergebnisse des Bag-of-Words-Modells deutlich. Da die zusätzliche Indexdimension einen effektiveren Zugriff auf die indexierten Merkmale ermöglicht, wird darüber hinaus eine neue Realisierung des Gesamtsystems vorgeschlagen. Das System ist bezüglich des Index nicht mehr auf den Arbeitsspeicher angewiesen, sondern kann von aktuellen nichtflüchtigen Speichermedien profitieren, etwa von SSD-Laufwerken. Von der Kombination der vorgeschlagenen Umgebungsrepräsentation der lokalen Merkmale und der Realisierung mit großen und günstigen SSD-Laufwerken können bereits heutige Systeme profitieren, denn sie können dadurch noch größere Bilddatenbanken für die inhaltsbasierte Bildsuche zugänglich machen
    corecore