314 research outputs found

    Multi-scale 3D Convolution Network for Video Based Person Re-Identification

    Full text link
    This paper proposes a two-stream convolution network to extract spatial and temporal cues for video based person Re-Identification (ReID). A temporal stream in this network is constructed by inserting several Multi-scale 3D (M3D) convolution layers into a 2D CNN network. The resulting M3D convolution network introduces a fraction of parameters into the 2D CNN, but gains the ability of multi-scale temporal feature learning. With this compact architecture, M3D convolution network is also more efficient and easier to optimize than existing 3D convolution networks. The temporal stream further involves Residual Attention Layers (RAL) to refine the temporal features. By jointly learning spatial-temporal attention masks in a residual manner, RAL identifies the discriminative spatial regions and temporal cues. The other stream in our network is implemented with a 2D CNN for spatial feature extraction. The spatial and temporal features from two streams are finally fused for the video based person ReID. Evaluations on three widely used benchmarks datasets, i.e., MARS, PRID2011, and iLIDS-VID demonstrate the substantial advantages of our method over existing 3D convolution networks and state-of-art methods.Comment: AAAI, 201

    Person recognition based on deep gait: a survey.

    Get PDF
    Gait recognition, also known as walking pattern recognition, has expressed deep interest in the computer vision and biometrics community due to its potential to identify individuals from a distance. It has attracted increasing attention due to its potential applications and non-invasive nature. Since 2014, deep learning approaches have shown promising results in gait recognition by automatically extracting features. However, recognizing gait accurately is challenging due to the covariate factors, complexity and variability of environments, and human body representations. This paper provides a comprehensive overview of the advancements made in this field along with the challenges and limitations associated with deep learning methods. For that, it initially examines the various gait datasets used in the literature review and analyzes the performance of state-of-the-art techniques. After that, a taxonomy of deep learning methods is presented to characterize and organize the research landscape in this field. Furthermore, the taxonomy highlights the basic limitations of deep learning methods in the context of gait recognition. The paper is concluded by focusing on the present challenges and suggesting several research directions to improve the performance of gait recognition in the future

    A spatiotemporal deep learning approach for automatic pathological Gait classification

    Get PDF
    Human motion analysis provides useful information for the diagnosis and recovery assessment of people suffering from pathologies, such as those affecting the way of walking, i.e., gait. With recent developments in deep learning, state-of-the-art performance can now be achieved using a single 2D-RGB-camera-based gait analysis system, offering an objective assessment of gait-related pathologies. Such systems provide a valuable complement/alternative to the current standard practice of subjective assessment. Most 2D-RGB-camera-based gait analysis approaches rely on compact gait representations, such as the gait energy image, which summarize the characteristics of a walking sequence into one single image. However, such compact representations do not fully capture the temporal information and dependencies between successive gait movements. This limitation is addressed by proposing a spatiotemporal deep learning approach that uses a selection of key frames to represent a gait cycle. Convolutional and recurrent deep neural networks were combined, processing each gait cycle as a collection of silhouette key frames, allowing the system to learn temporal patterns among the spatial features extracted at individual time instants. Trained with gait sequences from the GAIT-IT dataset, the proposed system is able to improve gait pathology classification accuracy, outperforming state-of-the-art solutions and achieving improved generalization on cross-dataset tests.info:eu-repo/semantics/publishedVersio

    GAIT Technology for Human Recognition using CNN

    Get PDF
    Gait is a distinctive biometric characteristic that can be detected from a distance; as a result, it has several uses in social security, forensic identification, and crime prevention. Existing gait identification techniques use a gait template, which makes it difficult to keep temporal information, or a gait sequence, which maintains pointless sequential limitations and loses the ability to portray a gait. Our technique, which is based on this deep set viewpoint, is immune to frame permutations and can seamlessly combine frames from many videos that were taken in various contexts, such as diversified watching, angles, various outfits, or various situations for transporting something. According to experiments, our single-model strategy obtains an average rank-1 accuracy of 96.1% on the CASIA-B gait dataset and an accuracy of 87.9% on the OU-MVLP gait dataset when used under typical walking conditions. Our model also demonstrates a great degree of robustness under numerous challenging circumstances. When carrying bags and wearing a coat while walking, it obtains accuracy on the CASIA-B of 90.8% and 70.3%, respectively, greatly surpassing the best approach currently in use. Additionally, the suggested method achieves a satisfactory level of accuracy even when there are few frames available in the test samples; for instance, it achieves 85.0% on the CASIA-B even with only 7 frames

    A Deep Four-Stream Siamese Convolutional Neural Network with Joint Verification and Identification Loss for Person Re-detection

    Full text link
    State-of-the-art person re-identification systems that employ a triplet based deep network suffer from a poor generalization capability. In this paper, we propose a four stream Siamese deep convolutional neural network for person redetection that jointly optimises verification and identification losses over a four image input group. Specifically, the proposed method overcomes the weakness of the typical triplet formulation by using groups of four images featuring two matched (i.e. the same identity) and two mismatched images. This allows us to jointly increase the interclass variations and reduce the intra-class variations in the learned feature space. The proposed approach also optimises over both the identification and verification losses, further minimising intra-class variation and maximising inter-class variation, improving overall performance. Extensive experiments on four challenging datasets, VIPeR, CUHK01, CUHK03 and PRID2011, demonstrates that the proposed approach achieves state-of-the-art performance.Comment: Published in WACV 201

    Human Gait Analysis using Spatiotemporal Data Obtained from Gait Videos

    Get PDF
    Mit der Entwicklung von Deep-Learning-Techniken sind Deep-acNN-basierte Methoden zum Standard für Bildverarbeitungsaufgaben geworden, wie z. B. die Verfolgung menschlicher Bewegungen und Posenschätzung, die Erkennung menschlicher Aktivitäten und die Erkennung von Gesichtern. Deep-Learning-Techniken haben den Entwurf, die Implementierung und den Einsatz komplexer und vielfältiger Anwendungen verbessert, die nun in einer Vielzahl von Bereichen, einschließlich der Biomedizintechnik, eingesetzt werden. Die Anwendung von Computer-Vision-Techniken auf die medizinische Bild- und Videoanalyse hat zu bemerkenswerten Ergebnissen bei der Erkennung von Ereignissen geführt. Die eingebaute Fähigkeit von convolutional neural network (CNN), Merkmale aus komplexen medizinischen Bildern zu extrahieren, hat in Verbindung mit der Fähigkeit von long short term memory network (LSTM), die zeitlichen Informationen zwischen Ereignissen zu erhalten, viele neue Horizonte für die medizinische Forschung geschaffen. Der Gang ist einer der kritischen physiologischen Bereiche, der viele Störungen im Zusammenhang mit Alterung und Neurodegeneration widerspiegeln kann. Eine umfassende und genaue Ganganalyse kann Einblicke in die physiologischen Bedingungen des Menschen geben. Bestehende Ganganalyseverfahren erfordern eine spezielle Umgebung, komplexe medizinische Geräte und geschultes Personal für die Erfassung der Gangdaten. Im Falle von tragbaren Systemen kann ein solches System die kognitiven Fähigkeiten beeinträchtigen und für die Patienten unangenehm sein. Außerdem wurde berichtet, dass die Patienten in der Regel versuchen, während des Labortests bessere Leistungen zu erbringen, was möglicherweise nicht ihrem tatsächlichen Gang entspricht. Trotz technologischer Fortschritte stoßen wir bei der Messung des menschlichen Gehens in klinischen und Laborumgebungen nach wie vor an Grenzen. Der Einsatz aktueller Ganganalyseverfahren ist nach wie vor teuer und zeitaufwändig und erschwert den Zugang zu Spezialgeräten und Fachwissen. Daher ist es zwingend erforderlich, über Methoden zu verfügen, die langfristige Daten über den Gesundheitszustand des Patienten liefern, ohne doppelte kognitive Aufgaben oder Unannehmlichkeiten bei der Verwendung tragbarer Sensoren. In dieser Arbeit wird daher eine einfache, leicht zu implementierende und kostengünstige Methode zur Erfassung von Gangdaten vorgeschlagen. Diese Methode basiert auf der Aufnahme von Gehvideos mit einer Smartphone-Kamera in einer häuslichen Umgebung unter freien Bedingungen. Deep neural network (NN) verarbeitet dann diese Videos, um die Gangereignisse zu extrahieren. Die erkannten Ereignisse werden dann weiter verwendet, um verschiedene räumlich-zeitliche Parameter des Gangs zu quantifizieren, die für jedes Ganganalysesystem wichtig sind. In dieser Arbeit wurden Gangvideos verwendet, die mit einer Smartphone-Kamera mit geringer Auflösung außerhalb der Laborumgebung aufgenommen wurden. Viele Deep- Learning-basierte NNs wurden implementiert, um die grundlegenden Gangereignisse wie die Fußposition in Bezug auf den Boden aus diesen Videos zu erkennen. In der ersten Studie wurde die Architektur von AlexNet verwendet, um das Modell anhand von Gehvideos und öffentlich verfügbaren Datensätzen von Grund auf zu trainieren. Mit diesem Modell wurde eine Gesamtgenauigkeit von 74% erreicht. Im nächsten Schritt wurde jedoch die LSTM-Schicht in dieselbe Architektur integriert. Die eingebaute Fähigkeit von LSTM in Bezug auf die zeitliche Information führte zu einer verbesserten Vorhersage der Etiketten für die Fußposition, und es wurde eine Genauigkeit von 91% erreicht. Allerdings gibt es Schwierigkeiten bei der Vorhersage der richtigen Bezeichnungen in der letzten Phase des Schwungs und der Standphase jedes Fußes. Im nächsten Schritt wird das Transfer-Lernen eingesetzt, um die Vorteile von bereits trainierten tiefen NNs zu nutzen, indem vortrainierte Gewichte verwendet werden. Zwei bekannte Modelle, inceptionresnetv2 (IRNV-2) und densenet201 (DN-201), wurden mit ihren gelernten Gewichten für das erneute Training des NN auf neuen Daten verwendet. Das auf Transfer-Lernen basierende vortrainierte NN verbesserte die Vorhersage von Kennzeichnungen für verschiedene Fußpositionen. Es reduzierte insbesondere die Schwankungen in den Vorhersagen in der letzten Phase des Gangschwungs und der Standphase. Bei der Vorhersage der Klassenbezeichnungen der Testdaten wurde eine Genauigkeit von 94% erreicht. Da die Abweichung bei der Vorhersage des wahren Labels hauptsächlich ein Bild betrug, konnte sie bei einer Bildrate von 30 Bildern pro Sekunde ignoriert werden. Die vorhergesagten Markierungen wurden verwendet, um verschiedene räumlich-zeitliche Parameter des Gangs zu extrahieren, die für jedes Ganganalysesystem entscheidend sind. Insgesamt wurden 12 Gangparameter quantifiziert und mit der durch Beobachtungsmethoden gewonnenen Grundwahrheit verglichen. Die NN-basierten räumlich-zeitlichen Parameter zeigten eine hohe Korrelation mit der Grundwahrheit, und in einigen Fällen wurde eine sehr hohe Korrelation erzielt. Die Ergebnisse belegen die Nützlichkeit der vorgeschlagenen Methode. DerWert des Parameters über die Zeit ergab eine Zeitreihe, eine langfristige Darstellung des Ganges. Diese Zeitreihe konnte mit verschiedenen mathematischen Methoden weiter analysiert werden. Als dritter Beitrag in dieser Dissertation wurden Verbesserungen an den bestehenden mathematischen Methoden der Zeitreihenanalyse von zeitlichen Gangdaten vorgeschlagen. Zu diesem Zweck werden zwei Verfeinerungen bestehender entropiebasierter Methoden zur Analyse von Schrittintervall-Zeitreihen vorgeschlagen. Diese Verfeinerungen wurden an Schrittintervall-Zeitseriendaten von normalen und neurodegenerativen Erkrankungen validiert, die aus der öffentlich zugänglichen Datenbank PhysioNet heruntergeladen wurden. Die Ergebnisse zeigten, dass die von uns vorgeschlagene Methode eine klare Trennung zwischen gesunden und kranken Gruppen ermöglicht. In Zukunft könnten fortschrittliche medizinische Unterstützungssysteme, die künstliche Intelligenz nutzen und von den hier vorgestellten Methoden abgeleitet sind, Ärzte bei der Diagnose und langfristigen Überwachung des Gangs von Patienten unterstützen und so die klinische Arbeitsbelastung verringern und die Patientensicherheit verbessern
    • …
    corecore