314 research outputs found
Multi-scale 3D Convolution Network for Video Based Person Re-Identification
This paper proposes a two-stream convolution network to extract spatial and
temporal cues for video based person Re-Identification (ReID). A temporal
stream in this network is constructed by inserting several Multi-scale 3D (M3D)
convolution layers into a 2D CNN network. The resulting M3D convolution network
introduces a fraction of parameters into the 2D CNN, but gains the ability of
multi-scale temporal feature learning. With this compact architecture, M3D
convolution network is also more efficient and easier to optimize than existing
3D convolution networks. The temporal stream further involves Residual
Attention Layers (RAL) to refine the temporal features. By jointly learning
spatial-temporal attention masks in a residual manner, RAL identifies the
discriminative spatial regions and temporal cues. The other stream in our
network is implemented with a 2D CNN for spatial feature extraction. The
spatial and temporal features from two streams are finally fused for the video
based person ReID. Evaluations on three widely used benchmarks datasets, i.e.,
MARS, PRID2011, and iLIDS-VID demonstrate the substantial advantages of our
method over existing 3D convolution networks and state-of-art methods.Comment: AAAI, 201
Person recognition based on deep gait: a survey.
Gait recognition, also known as walking pattern recognition, has expressed deep interest in the computer vision and biometrics community due to its potential to identify individuals from a distance. It has attracted increasing attention due to its potential applications and non-invasive nature. Since 2014, deep learning approaches have shown promising results in gait recognition by automatically extracting features. However, recognizing gait accurately is challenging due to the covariate factors, complexity and variability of environments, and human body representations. This paper provides a comprehensive overview of the advancements made in this field along with the challenges and limitations associated with deep learning methods. For that, it initially examines the various gait datasets used in the literature review and analyzes the performance of state-of-the-art techniques. After that, a taxonomy of deep learning methods is presented to characterize and organize the research landscape in this field. Furthermore, the taxonomy highlights the basic limitations of deep learning methods in the context of gait recognition. The paper is concluded by focusing on the present challenges and suggesting several research directions to improve the performance of gait recognition in the future
A spatiotemporal deep learning approach for automatic pathological Gait classification
Human motion analysis provides useful information for the diagnosis and recovery assessment of people suffering from pathologies, such as those affecting the way of walking, i.e., gait. With recent developments in deep learning, state-of-the-art performance can now be achieved using a single 2D-RGB-camera-based gait analysis system, offering an objective assessment of gait-related pathologies. Such systems provide a valuable complement/alternative to the current standard practice of subjective assessment. Most 2D-RGB-camera-based gait analysis approaches rely on compact gait representations, such as the gait energy image, which summarize the characteristics of a walking sequence into one single image. However, such compact representations do not
fully capture the temporal information and dependencies between successive gait movements. This limitation is addressed by proposing a spatiotemporal deep learning approach that uses a selection of key frames to represent a gait cycle. Convolutional and recurrent deep neural networks were combined, processing each gait cycle as a collection of silhouette key frames, allowing the system to learn temporal patterns among the spatial features extracted at individual time instants. Trained with gait sequences from the GAIT-IT dataset, the proposed system is able to improve gait pathology classification accuracy, outperforming state-of-the-art solutions and achieving improved generalization on cross-dataset tests.info:eu-repo/semantics/publishedVersio
GAIT Technology for Human Recognition using CNN
Gait is a distinctive biometric characteristic that can be detected from a distance; as a result, it has several uses in social security, forensic identification, and crime prevention. Existing gait identification techniques use a gait template, which makes it difficult to keep temporal information, or a gait sequence, which maintains pointless sequential limitations and loses the ability to portray a gait. Our technique, which is based on this deep set viewpoint, is immune to frame permutations and can seamlessly combine frames from many videos that were taken in various contexts, such as diversified watching, angles, various outfits, or various situations for transporting something. According to experiments, our single-model strategy obtains an average rank-1 accuracy of 96.1% on the CASIA-B gait dataset and an accuracy of 87.9% on the OU-MVLP gait dataset when used under typical walking conditions. Our model also demonstrates a great degree of robustness under numerous challenging circumstances. When carrying bags and wearing a coat while walking, it obtains accuracy on the CASIA-B of 90.8% and 70.3%, respectively, greatly surpassing the best approach currently in use. Additionally, the suggested method achieves a satisfactory level of accuracy even when there are few frames available in the test samples; for instance, it achieves 85.0% on the CASIA-B even with only 7 frames
A Deep Four-Stream Siamese Convolutional Neural Network with Joint Verification and Identification Loss for Person Re-detection
State-of-the-art person re-identification systems that employ a triplet based
deep network suffer from a poor generalization capability. In this paper, we
propose a four stream Siamese deep convolutional neural network for person
redetection that jointly optimises verification and identification losses over
a four image input group. Specifically, the proposed method overcomes the
weakness of the typical triplet formulation by using groups of four images
featuring two matched (i.e. the same identity) and two mismatched images. This
allows us to jointly increase the interclass variations and reduce the
intra-class variations in the learned feature space. The proposed approach also
optimises over both the identification and verification losses, further
minimising intra-class variation and maximising inter-class variation,
improving overall performance. Extensive experiments on four challenging
datasets, VIPeR, CUHK01, CUHK03 and PRID2011, demonstrates that the proposed
approach achieves state-of-the-art performance.Comment: Published in WACV 201
Human Gait Analysis using Spatiotemporal Data Obtained from Gait Videos
Mit der Entwicklung von Deep-Learning-Techniken sind Deep-acNN-basierte Methoden
zum Standard fĂĽr Bildverarbeitungsaufgaben geworden, wie z. B. die Verfolgung menschlicher
Bewegungen und Posenschätzung, die Erkennung menschlicher Aktivitäten und
die Erkennung von Gesichtern. Deep-Learning-Techniken haben den Entwurf, die Implementierung
und den Einsatz komplexer und vielfältiger Anwendungen verbessert, die nun
in einer Vielzahl von Bereichen, einschlieĂźlich der Biomedizintechnik, eingesetzt werden.
Die Anwendung von Computer-Vision-Techniken auf die medizinische Bild- und Videoanalyse
hat zu bemerkenswerten Ergebnissen bei der Erkennung von Ereignissen gefĂĽhrt. Die
eingebaute Fähigkeit von convolutional neural network (CNN), Merkmale aus komplexen
medizinischen Bildern zu extrahieren, hat in Verbindung mit der Fähigkeit von long short
term memory network (LSTM), die zeitlichen Informationen zwischen Ereignissen zu erhalten,
viele neue Horizonte fĂĽr die medizinische Forschung geschaffen. Der Gang ist einer der
kritischen physiologischen Bereiche, der viele Störungen im Zusammenhang mit Alterung
und Neurodegeneration widerspiegeln kann. Eine umfassende und genaue Ganganalyse
kann Einblicke in die physiologischen Bedingungen des Menschen geben. Bestehende
Ganganalyseverfahren erfordern eine spezielle Umgebung, komplexe medizinische Geräte
und geschultes Personal fĂĽr die Erfassung der Gangdaten. Im Falle von tragbaren Systemen
kann ein solches System die kognitiven Fähigkeiten beeinträchtigen und für die Patienten
unangenehm sein.
Außerdem wurde berichtet, dass die Patienten in der Regel versuchen, während des
Labortests bessere Leistungen zu erbringen, was möglicherweise nicht ihrem tatsächlichen
Gang entspricht. Trotz technologischer Fortschritte stoĂźen wir bei der Messung des menschlichen
Gehens in klinischen und Laborumgebungen nach wie vor an Grenzen. Der Einsatz
aktueller Ganganalyseverfahren ist nach wie vor teuer und zeitaufwändig und erschwert den
Zugang zu Spezialgeräten und Fachwissen.
Daher ist es zwingend erforderlich, ĂĽber Methoden zu verfĂĽgen, die langfristige Daten
ĂĽber den Gesundheitszustand des Patienten liefern, ohne doppelte kognitive Aufgaben oder
Unannehmlichkeiten bei der Verwendung tragbarer Sensoren. In dieser Arbeit wird daher eine einfache, leicht zu implementierende und kostengĂĽnstige Methode zur Erfassung von
Gangdaten vorgeschlagen. Diese Methode basiert auf der Aufnahme von Gehvideos mit
einer Smartphone-Kamera in einer häuslichen Umgebung unter freien Bedingungen. Deep
neural network (NN) verarbeitet dann diese Videos, um die Gangereignisse zu extrahieren.
Die erkannten Ereignisse werden dann weiter verwendet, um verschiedene räumlich-zeitliche
Parameter des Gangs zu quantifizieren, die fĂĽr jedes Ganganalysesystem wichtig sind.
In dieser Arbeit wurden Gangvideos verwendet, die mit einer Smartphone-Kamera mit
geringer Auflösung außerhalb der Laborumgebung aufgenommen wurden. Viele Deep-
Learning-basierte NNs wurden implementiert, um die grundlegenden Gangereignisse wie
die FuĂźposition in Bezug auf den Boden aus diesen Videos zu erkennen. In der ersten
Studie wurde die Architektur von AlexNet verwendet, um das Modell anhand von Gehvideos
und öffentlich verfügbaren Datensätzen von Grund auf zu trainieren. Mit diesem Modell
wurde eine Gesamtgenauigkeit von 74% erreicht. Im nächsten Schritt wurde jedoch die
LSTM-Schicht in dieselbe Architektur integriert. Die eingebaute Fähigkeit von LSTM in
Bezug auf die zeitliche Information fĂĽhrte zu einer verbesserten Vorhersage der Etiketten
fĂĽr die FuĂźposition, und es wurde eine Genauigkeit von 91% erreicht. Allerdings gibt es
Schwierigkeiten bei der Vorhersage der richtigen Bezeichnungen in der letzten Phase des
Schwungs und der Standphase jedes FuĂźes.
Im nächsten Schritt wird das Transfer-Lernen eingesetzt, um die Vorteile von bereits
trainierten tiefen NNs zu nutzen, indem vortrainierte Gewichte verwendet werden. Zwei
bekannte Modelle, inceptionresnetv2 (IRNV-2) und densenet201 (DN-201), wurden mit
ihren gelernten Gewichten fĂĽr das erneute Training des NN auf neuen Daten verwendet. Das
auf Transfer-Lernen basierende vortrainierte NN verbesserte die Vorhersage von Kennzeichnungen
fĂĽr verschiedene FuĂźpositionen. Es reduzierte insbesondere die Schwankungen
in den Vorhersagen in der letzten Phase des Gangschwungs und der Standphase. Bei der
Vorhersage der Klassenbezeichnungen der Testdaten wurde eine Genauigkeit von 94% erreicht.
Da die Abweichung bei der Vorhersage des wahren Labels hauptsächlich ein Bild
betrug, konnte sie bei einer Bildrate von 30 Bildern pro Sekunde ignoriert werden.
Die vorhergesagten Markierungen wurden verwendet, um verschiedene räumlich-zeitliche
Parameter des Gangs zu extrahieren, die fĂĽr jedes Ganganalysesystem entscheidend sind.
Insgesamt wurden 12 Gangparameter quantifiziert und mit der durch Beobachtungsmethoden
gewonnenen Grundwahrheit verglichen. Die NN-basierten räumlich-zeitlichen Parameter
zeigten eine hohe Korrelation mit der Grundwahrheit, und in einigen Fällen wurde eine sehr
hohe Korrelation erzielt. Die Ergebnisse belegen die NĂĽtzlichkeit der vorgeschlagenen Methode.
DerWert des Parameters ĂĽber die Zeit ergab eine Zeitreihe, eine langfristige Darstellung des Ganges. Diese Zeitreihe konnte mit verschiedenen mathematischen Methoden weiter
analysiert werden.
Als dritter Beitrag in dieser Dissertation wurden Verbesserungen an den bestehenden
mathematischen Methoden der Zeitreihenanalyse von zeitlichen Gangdaten vorgeschlagen.
Zu diesem Zweck werden zwei Verfeinerungen bestehender entropiebasierter Methoden
zur Analyse von Schrittintervall-Zeitreihen vorgeschlagen. Diese Verfeinerungen wurden
an Schrittintervall-Zeitseriendaten von normalen und neurodegenerativen Erkrankungen
validiert, die aus der öffentlich zugänglichen Datenbank PhysioNet heruntergeladen wurden.
Die Ergebnisse zeigten, dass die von uns vorgeschlagene Methode eine klare Trennung
zwischen gesunden und kranken Gruppen ermöglicht.
In Zukunft könnten fortschrittliche medizinische Unterstützungssysteme, die künstliche
Intelligenz nutzen und von den hier vorgestellten Methoden abgeleitet sind, Ă„rzte bei der
Diagnose und langfristigen Ăśberwachung des Gangs von Patienten unterstĂĽtzen und so die
klinische Arbeitsbelastung verringern und die Patientensicherheit verbessern
Recommended from our members
Identifying Unsafe Behavior of Construction Workers: A Dynamic Approach Combining Skeleton Information and Spatiotemporal Features
Data Availability Statement:
Some or all data, models, or code that support the findings of this study are available from the corresponding author upon reasonable request.Vision-based methods for action recognition are valuable for supervising construction workers’ unsafe behaviors. However, current monitoring methods have limitations in extracting dynamic information about workers. Identifying hazardous actions based on the spatiotemporal relationships between workers’ skeletal points remains a significant challenge in construction sites. This paper proposed an automated method for recognizing dynamic hazardous actions. The method used the OpenPose network to extract workers’ skeleton information from the video and applied a spatiotemporal graph convolutional network (ST-GCN) to analyze the dynamic spatiotemporal relationships between workers’ body skeletons, enabling automatic recognition of hazardous actions. A novel human partitioning strategy and nonlocal attention mechanism were designed to assign appropriate weight parameters to different joints involved in actions, thereby improving the recognition accuracy of complex construction actions. The enhanced model is called the attention module spatiotemporal graph convolutional network (AM-STGCN). The method achieved a test accuracy of 90.50% and 87.08% in typical work scenarios, namely high-altitude scaffolding scenes with close-up and far views, surpassing the performance of the original ST-GCN model. The high-accuracy test results demonstrate that the model can accurately identify workers’ hazardous actions. The newly proposed model is inferred to have promising application prospects and the potential to be applied in broader construction scenarios for on-site monitoring of hazardous actions.National Natural Science Foundation of China (Grant No. 72071097); MOE (Ministry of Education in China) Project of Humanities and Social Sciences (Grant No.20YJAZH034); Foundation of Jiangsu University (Grant No. SZCY-014)
- …