5 research outputs found

    Real-time video scene analysis with heterogeneous processors

    Get PDF
    Field-Programmable Gate Arrays (FPGAs) and General Purpose Graphics Processing Units (GPUs) allow acceleration and real-time processing of computationally intensive computer vision algorithms. The decision to use either architecture in any application is determined by task-specific priorities such as processing latency, power consumption and algorithm accuracy. This choice is normally made at design time on a heuristic or fixed algorithmic basis; here we propose an alternative method for automatic runtime selection. In this thesis, we describe our PC-based system architecture containing both platforms; this provides greater flexibility and allows dynamic selection of processing platforms to suit changing scene priorities. Using the Histograms of Oriented Gradients (HOG) algorithm for pedestrian detection, we comprehensively explore algorithm implementation on FPGA, GPU and a combination of both, and show that the effect of data transfer time on overall processing performance is significant. We also characterise performance of each implementation and quantify tradeoffs between power, time and accuracy when moving processing between architectures, then specify the optimal architecture to use when prioritising each of these. We apply this new knowledge to a real-time surveillance application representative of anomaly detection problems: detecting parked vehicles in videos. Using motion detection and car and pedestrian HOG detectors implemented across multiple architectures to generate detections, we use trajectory clustering and a Bayesian contextual motion algorithm to generate an overall scene anomaly level. This is in turn used to select the architectures to run the compute-intensive detectors for the next frame on, with higher anomalies selecting faster, higher-power implementations. Comparing dynamic context-driven prioritisation of system performance against a fixed mapping of algorithms to architectures shows that our dynamic mapping method is 10% more accurate at detecting events than the power-optimised version, at the cost of 12W higher power consumption

    Compound Models for Vision-Based Pedestrian Recognition

    Get PDF
    This thesis addresses the problem of recognizing pedestrians in video images acquired from a moving camera in real-world cluttered environments. Instead of focusing on the development of novel feature primitives or pattern classifiers, we follow an orthogonal direction and develop feature- and classifier-independent compound techniques which integrate complementary information from multiple image-based sources with the objective of improved pedestrian classification performance. After establishing a performance baseline in terms of a thorough experimental study on monocular pedestrian recognition, we investigate the use of multiple cues on module-level. A motion-based focus of attention stage is proposed based on a learned probabilistic pedestrian-specific model of motion features. The model is used to generate pedestrian localization hypotheses for subsequent shape- and texture-based classification modules. In the remainder of this work, we focus on the integration of complementary information directly into the pattern classification step. We present a combination of shape and texture information by means of pose-specific generative shape and texture models. The generative models are integrated with discriminative classification models by utilizing synthesized virtual pedestrian training samples from the former to enhance the classification performance of the latter. Both models are linked using Active Learning to guide the training process towards informative samples. A multi-level mixture-of-experts classification framework is proposed which involves local pose-specific expert classifiers operating on multiple image modalities and features. In terms of image modalities, we consider gray-level intensity, depth cues derived from dense stereo vision and motion cues arising from dense optical flow. We furthermore employ shape-based, gradient-based and texture-based features. The mixture-of-experts formulation compares favorably to joint space approaches, in view of performance and practical feasibility. Finally, we extend this mixture-of-experts framework in terms of multi-cue partial occlusion handling and the estimation of pedestrian body orientation. Our occlusion model involves examining occlusion boundaries which manifest in discontinuities in depth and motion space. Occlusion-dependent weights which relate to the visibility of certain body parts focus the decision on unoccluded body components. We further apply the pose-specific nature of our mixture-of-experts framework towards estimating the density of pedestrian body orientation from single images, again integrating shape and texture information. Throughout this work, particular emphasis is laid on thorough performance evaluation both regarding methodology and competitive real-world datasets. Several datasets used in this thesis are made publicly available for benchmarking purposes. Our results indicate significant performance boosts over state-of-the-art for all aspects considered in this thesis, i.e. pedestrian recognition, partial occlusion handling and body orientation estimation. The pedestrian recognition performance in particular is considerably advanced; false detections at constant detection rates are reduced by significantly more than an order of magnitude

    Stereo-based Pedestrian Detection and Path Prediction

    Get PDF
    In den letzten Jahren gab es eine rasante Entwicklung von Fahrerassistenzsystemen (Englisch: Advanced Driver Assistance Systems oder kurz ADAS). Diese Systeme unterstĂŒtzen nicht nur den Fahrer, sondern erhöhen durch das automatische Einleiten von Sicherheitreaktionen des Fahrzeuges selber auch die Sicherheit aller anderen Verkehrsteilnehmer. ZukĂŒnftige aktive FußgĂ€ngerschutzsystem in Intelligentem Fahrzeugen mĂŒssen nun noch einen Schritt weiter gehen und lernen, ein genaues Bild ihrer Umgebung und der darin wĂ€hrend der Fahrt zu erwartenden Änderungen zu entwickeln. Diese Arbeit widmet sich der Verbesserung bildgestĂŒtzter FußgĂ€ngerschutzsysteme. Es werden darin neue Methoden der Bildhypothesengenerierung (englisch: region of interest (ROI) generation), FußgĂ€ngerklassifikation, Pfadvorhersage und Absichstserkennung entwickelt. Die Leistung der FußgĂ€ngererkennung in realen, dynamischen Umgebungen mittels einer bewegten Kamera wird durch die Verwendung von dichtem Stereo in den unterschiedlichen Modulen verbessert. In einer Experimentalstudie wurde die Effizienz eines Systems zur monokularen FußgĂ€ngererkennung mit einem System verglichen, dass erweitert wurde um dichtes Stereo fĂŒr die Hypothesengenerierung und der FußgĂ€ngerverfolgung (englisch: tracking) zu nutzen. Das neue System erwies sich hierin als deutlich effizienter als das monokulare System. Diese Leistungssteigerung gab Anlass fĂŒr eine erweiterte Nutzung von dichtem Stereo bei der FußgĂ€ngererkennung. Die Hypothesengenerierung wurde durch die dynamische SchĂ€tzung der Kameraorientierung und des Straßenprofils weiter verbessert. Insbesondere bei hĂŒgeligen Straßen steigerte sich die Erkennungsleistung durch die Optimierung des Suchbereichs. ZusĂ€tzlich konnte die Klassifikationsleistung durch die Fusion von unterschiedlichen Merkmalen aus Bild und Tiefeninformation verbessert werden. Aufbauend auf den Erfolgen bei der FußgĂ€ngererkennung wird in der Arbeit ein System fĂŒr den Aktiven FußgĂ€ngerschutz vorgestellt, welches die Funktionen FußgĂ€ngererkennung, Situationsanalyse und Fahrzeugsteuerung kombiniert. FĂŒr die FußgĂ€ngerkennung wurden Ergebnisse eines Verfahrens zur bewegungsbasierten Objekterkennung mit Ergebnissen eines FußgĂ€ngerklassifikators fusioniert. Das System wurde in einen VersuchstrĂ€ger eingebaut und half dabei, UnfĂ€lle durch einen aktiven Lenkeingriff oder ein Notbremsemanöver zu vermeiden. Der letzte Teil der Arbeit befasst sich mit dem Problem der Pfadvorhersage und dem Erkennen der FußgĂ€ngerabsicht in Situationen, in denen sich der FußgĂ€nger nicht mit einer konstanten Geschwindigkeit bewegt. Zwei neue, lernbasierte AnsĂ€tze werden vorgestellt und mit aktuellen Verfahren verglichen. Durch die Verwendung von Merkmalen, die aus dichtem optischem Fluss generiert werden, ist es möglich den Pfad und die Absicht einer FußgĂ€ngers vorherzusagen. Das erste Verfahren lernt eine niedrigdimensionale Mannigfaltigkeit der Merkmale, die eine Vorhersage von Merkmale, Pfad und Absicht erlaubt. Das zweite Verfahren verwendet einen Suchbaum in dem Trajektorien abgelegt sind die mit Bewegungsmerkmalen erweitert wurden. Ein probabilistischer Suchalgorithmus ermöglicht die Vorhersage des FußgĂ€ngerpfads und Absicht. Die LeistungsfĂ€higkeit der Systeme wurde zusĂ€tzlich mit der Leistung von menschlichen Probanden verglichen. In dieser Arbeit wurde großer Wert auf die ausfĂŒhrliche Analyse der vorgestellten Verfahren und die Verwendung von realistischen TestdatensĂ€tzen gelegt. Die Experimente zeigen das die LeistungsfĂ€higkeit eines Systems zur FußgĂ€ngererkennung durch die Verwendung von dichtem Stereo verbessert werden kann. Die Vorgestellten Verfahren zur Pfadvorhersage und Absichtserkennung ermöglichen ein frĂŒhzeitiges erkenne der FußgĂ€ngerabsicht. Die ZuverlĂ€ssigkeit zukĂŒnftiger System fĂŒr den Aktiven FußgĂ€ngerschutz, die durch Aktiven Lenkeingriff oder Notbremsemanöver UnfĂ€lle vermeiden, kann mit den vorgestellten Verfahren verbessert werden. Dadurch können UnfĂ€lle vollstĂ€ndig verhindert oder die Schwere einer Kollision reduziert werden

    Parallel Implementation Strategy for CoHOG-Based Pedestrian Detection Using a Multi-Core Processor

    No full text
    corecore