4,865 research outputs found
Object Detection in 20 Years: A Survey
Object detection, as of one the most fundamental and challenging problems in
computer vision, has received great attention in recent years. Its development
in the past two decades can be regarded as an epitome of computer vision
history. If we think of today's object detection as a technical aesthetics
under the power of deep learning, then turning back the clock 20 years we would
witness the wisdom of cold weapon era. This paper extensively reviews 400+
papers of object detection in the light of its technical evolution, spanning
over a quarter-century's time (from the 1990s to 2019). A number of topics have
been covered in this paper, including the milestone detectors in history,
detection datasets, metrics, fundamental building blocks of the detection
system, speed up techniques, and the recent state of the art detection methods.
This paper also reviews some important detection applications, such as
pedestrian detection, face detection, text detection, etc, and makes an in-deep
analysis of their challenges as well as technical improvements in recent years.Comment: This work has been submitted to the IEEE TPAMI for possible
publicatio
Zero-Annotation Object Detection with Web Knowledge Transfer
Object detection is one of the major problems in computer vision, and has
been extensively studied. Most of the existing detection works rely on
labor-intensive supervision, such as ground truth bounding boxes of objects or
at least image-level annotations. On the contrary, we propose an object
detection method that does not require any form of human annotation on target
tasks, by exploiting freely available web images. In order to facilitate
effective knowledge transfer from web images, we introduce a multi-instance
multi-label domain adaption learning framework with two key innovations. First
of all, we propose an instance-level adversarial domain adaptation network with
attention on foreground objects to transfer the object appearances from web
domain to target domain. Second, to preserve the class-specific semantic
structure of transferred object features, we propose a simultaneous transfer
mechanism to transfer the supervision across domains through pseudo strong
label generation. With our end-to-end framework that simultaneously learns a
weakly supervised detector and transfers knowledge across domains, we achieved
significant improvements over baseline methods on the benchmark datasets.Comment: Accepted in ECCV 201
SNE-RoadSeg: Incorporating Surface Normal Information into Semantic Segmentation for Accurate Freespace Detection
Freespace detection is an essential component of visual perception for
self-driving cars. The recent efforts made in data-fusion convolutional neural
networks (CNNs) have significantly improved semantic driving scene
segmentation. Freespace can be hypothesized as a ground plane, on which the
points have similar surface normals. Hence, in this paper, we first introduce a
novel module, named surface normal estimator (SNE), which can infer surface
normal information from dense depth/disparity images with high accuracy and
efficiency. Furthermore, we propose a data-fusion CNN architecture, referred to
as RoadSeg, which can extract and fuse features from both RGB images and the
inferred surface normal information for accurate freespace detection. For
research purposes, we publish a large-scale synthetic freespace detection
dataset, named Ready-to-Drive (R2D) road dataset, collected under different
illumination and weather conditions. The experimental results demonstrate that
our proposed SNE module can benefit all the state-of-the-art CNNs for freespace
detection, and our SNE-RoadSeg achieves the best overall performance among
different datasets.Comment: ECCV 202
Video-Based Environment Perception for Automated Driving using Deep Neural Networks
Automatisierte Fahrzeuge benötigen eine hochgenaue Umfeldwahrnehmung, um sicher und komfortabel zu fahren.
Gleichzeitig mĂĽssen die Perzeptionsalgorithmen mit der verfĂĽgbaren Rechenleistung die Echtzeitanforderungen der Anwendung erfĂĽllen.
Kamerabilder stellen eine sehr wichtige Informationsquelle fĂĽr automatisierte Fahrzeuge dar.
Sie beinhalten mehr Details als Daten von anderen Sensoren wie Lidar oder Radar und sind oft vergleichsweise gĂĽnstig.
Damit ist es möglich, ein automatisiertes Fahrzeug mit einem Surround-View Sensor-Setup auszustatten, ohne die Gesamtkosten zu stark zu erhöhen.
In dieser Arbeit präsentieren wir einen effizienten und genauen Ansatz zur videobasierten Umfeldwahrnehmung für automatisierte Fahrzeuge.
Er basiert auf Deep Learning und löst die Probleme der Objekterkennung, Objektverfolgung und der semantischen Segmentierung von Kamerabildern.
Wir schlagen zunächst eine schnelle CNN-Architektur zur gleichzeitigen Objekterkennung und semantischen Segmentierung vor.
Diese Architektur ist skalierbar, so dass Genauigkeit leicht gegen Rechenzeit eingetauscht werden kann, indem ein einziger Skalierungsfaktor geändert wird.
Wir modifizieren diese Architektur daraufhin, um Embedding-Vektoren fĂĽr jedes erkannte Objekt vorherzusagen.
Diese Embedding-Vektoren werden als Assoziationsmetrik bei der Objektverfolgung eingesetzt.
Sie werden auch fĂĽr einen neuartigen Algorithmus zur Non-Maximum Suppression eingesetzt, den wir FeatureNMS nennen.
FeatureNMS kann in belebten Szenen, in denen die Annahmen des klassischen NMS-Algorithmus nicht zutreffen, einen höheren Recall erzielen.
Wir erweitern anschlie{\ss}end unsere CNN-Architektur fĂĽr Einzelbilder zu einer Mehrbild-Architektur, welche zwei aufeinanderfolgende Videobilder als Eingabe entgegen nimmt.
Die Mehrbild-Architektur schätzt den optischen Fluss zwischen beiden Videobildern innerhalb des künstlichen neuronalen Netzwerks.
Dies ermöglicht es, einen Verschiebungsvektor zwischen den Videobildern für jedes detektierte Objekt zu schätzen.
Diese Verschiebungsvektoren werden ebenfalls als Assoziationsmetrik bei der Objektverfolgung eingesetzt.
Zuletzt präsentieren wir einen einfachen Tracking-by-Detection-Ansatz, der wenig Rechenleistung erfordert.
Er benötigt einen starken Objektdetektor und stützt sich auf die Embedding- und Verschiebungsvektoren, die von unserer CNN-Architektur geschätzt werden.
Der hohe Recall des Objektdetektors führt zu einer häufigen Detektion der verfolgten Objekte.
Unsere diskriminativen Assoziationsmetriken, die auf den Embedding- und Verschiebungsvektoren basieren, ermöglichen eine zuverlässige Zuordnung von neuen Detektionen zu bestehenden Tracks.
Diese beiden Bestandteile erlauben es, ein einfaches Bewegungsmodell mit Annahme einer konstanten Geschwindigkeit und einem Kalman-Filter zu verwenden.
Die von uns vorgestellten Methoden zur videobasierten Umfeldwahrnehmung erreichen gute Resultate auf den herausfordernden Cityscapes- und BDD100K-Datensätzen.
Gleichzeitig sind sie recheneffizient und können die Echtzeitanforderungen der Anwendung erfüllen.
Wir verwenden die vorgeschlagene Architektur erfolgreich innerhalb des Wahrnehmungs-Moduls eines automatisierten Versuchsfahrzeugs.
Hier hat sie sich in der Praxis bewähren können
Strategies for Searching Video Content with Text Queries or Video Examples
The large number of user-generated videos uploaded on to the Internet
everyday has led to many commercial video search engines, which mainly rely on
text metadata for search. However, metadata is often lacking for user-generated
videos, thus these videos are unsearchable by current search engines.
Therefore, content-based video retrieval (CBVR) tackles this metadata-scarcity
problem by directly analyzing the visual and audio streams of each video. CBVR
encompasses multiple research topics, including low-level feature design,
feature fusion, semantic detector training and video search/reranking. We
present novel strategies in these topics to enhance CBVR in both accuracy and
speed under different query inputs, including pure textual queries and query by
video examples. Our proposed strategies have been incorporated into our
submission for the TRECVID 2014 Multimedia Event Detection evaluation, where
our system outperformed other submissions in both text queries and video
example queries, thus demonstrating the effectiveness of our proposed
approaches
Looking Ahead: Anticipating Pedestrians Crossing with Future Frames Prediction
In this paper, we present an end-to-end future-prediction model that focuses
on pedestrian safety. Specifically, our model uses previous video frames,
recorded from the perspective of the vehicle, to predict if a pedestrian will
cross in front of the vehicle. The long term goal of this work is to design a
fully autonomous system that acts and reacts as a defensive human driver would
--- predicting future events and reacting to mitigate risk. We focus on
pedestrian-vehicle interactions because of the high risk of harm to the
pedestrian if their actions are miss-predicted. Our end-to-end model consists
of two stages: the first stage is an encoder/decoder network that learns to
predict future video frames. The second stage is a deep spatio-temporal network
that utilizes the predicted frames of the first stage to predict the
pedestrian's future action. Our system achieves state-of-the-art accuracy on
pedestrian behavior prediction and future frames prediction on the Joint
Attention for Autonomous Driving (JAAD) dataset
- …