54 research outputs found

    Human Activity Recognition using Max-Min Skeleton-based Features and Key Poses

    Get PDF
    Human activity recognition is still a very challenging research area, due to the inherently complex temporal and spatial patterns that characterize most human activities. This paper proposes a human activity recognition framework based on random forests, where each activity is classified requiring few training examples (i.e. no frame-by-frame activity classification). In a first approach, a simple mechanism that divides each action sequence into a fixed-size window is employed, where max-min skeleton-based features are extracted. In the second approach, each window is delimited by a pair of automatically detected key poses, where static and max-min dynamic features are extracted, based on the determined activity example. Both approaches are evaluated using the Cornell Activity Dataset [1], obtaining relevant overall average results, considering that these approaches are fast to train and require just a few training examples. These characteristics suggest that the proposed framework can beuseful for real-time applications, where the activities are typicallywell distinctive and little training time is required, or to be integrated in larger and sophisticated systems, for a first quick impression/learning of certain activitie

    A human activity recognition framework using max-min features and key poses with differential evolution random forests classifier

    Get PDF
    This paper presents a novel framework for human daily activity recognition that is intended to rely on few training examples evidencing fast training times, making it suitable for real-time applications. The proposed framework starts with a feature extraction stage, where the division of each activity into actions of variable-size, based on key poses, is performed. Each action window is delimited by two consecutive and automatically identified key poses, where static (i.e. geometrical) and max-min dynamic (i.e. temporal) features are extracted. These features are first used to train a random forest (RF) classifier which was tested using the CAD-60 dataset, obtaining relevant overall average results. Then in a second stage, an extension of the RF is proposed, where the differential evolution meta-heuristic algorithm is used, as splitting node methodology. The main advantage of its inclusion is the fact that the differential evolution random forest has no thresholds to tune, but rather a few adjustable parameters with well-defined behavior

    Human gesture classification by brute-force machine learning for exergaming in physiotherapy

    Get PDF
    In this paper, a novel approach for human gesture classification on skeletal data is proposed for the application of exergaming in physiotherapy. Unlike existing methods, we propose to use a general classifier like Random Forests to recognize dynamic gestures. The temporal dimension is handled afterwards by majority voting in a sliding window over the consecutive predictions of the classifier. The gestures can have partially similar postures, such that the classifier will decide on the dissimilar postures. This brute-force classification strategy is permitted, because dynamic human gestures show sufficient dissimilar postures. Online continuous human gesture recognition can classify dynamic gestures in an early stage, which is a crucial advantage when controlling a game by automatic gesture recognition. Also, ground truth can be easily obtained, since all postures in a gesture get the same label, without any discretization into consecutive postures. This way, new gestures can be easily added, which is advantageous in adaptive game development. We evaluate our strategy by a leave-one-subject-out cross-validation on a self-captured stealth game gesture dataset and the publicly available Microsoft Research Cambridge-12 Kinect (MSRC-12) dataset. On the first dataset we achieve an excellent accuracy rate of 96.72%. Furthermore, we show that Random Forests perform better than Support Vector Machines. On the second dataset we achieve an accuracy rate of 98.37%, which is on average 3.57% better then existing methods

    Unsupervised object candidate discovery for activity recognition

    Get PDF
    Die automatische Interpretation menschlicher BewegungsablĂ€ufe auf Basis von Videos ist ein wichtiger Bestandteil vieler Anwendungen im Bereich des Maschinellen Sehens, wie zum Beispiel Mensch-Roboter Interaktion, VideoĂŒberwachung, und inhaltsbasierte Analyse von Multimedia Daten. Anders als die meisten AnsĂ€tze auf diesem Gebiet, die hauptsĂ€chlich auf die Klassifikation von einfachen Aktionen, wie Aufstehen, oder Gehen ausgerichtet sind, liegt der Schwerpunkt dieser Arbeit auf der Erkennung menschlicher AktivitĂ€ten, d.h. komplexer Aktionssequenzen, die meist Interaktionen des Menschen mit Objekten beinhalten. GemĂ€ĂŸ der Aktionsidentifikationstheorie leiten menschliche AktivitĂ€ten ihre Bedeutung nicht nur von den involvierten Bewegungsmustern ab, sondern vor allem vom generellen Kontext, in dem sie stattfinden. Zu diesen kontextuellen Informationen gehören unter anderem die Gesamtheit aller vorher furchgefĂŒhrter Aktionen, der Ort an dem sich die aktive Person befindet, sowie die Menge der Objekte, die von ihr manipuliert werden. Es ist zum Beispiel nicht möglich auf alleiniger Basis von Bewegungsmustern und ohne jeglicher Miteinbeziehung von Objektwissen zu entschieden ob eine Person, die ihre Hand zum Mund fĂŒhrt gerade etwas isst oder trinkt, raucht, oder bloß die Lippen abwischt. Die meisten Arbeiten auf dem Gebiet der computergestĂŒtzten Aktons- und AktivitĂ€tserkennung ignorieren allerdings jegliche durch den Kontext bedingte Informationen und beschrĂ€nken sich auf die Identifikation menschlicher AktivitĂ€ten auf Basis der beobachteten Bewegung. Wird jedoch Objektwissen fĂŒr die Klassifikation miteinbezogen, so geschieht dies meist unter Zuhilfenahme von ĂŒberwachten Detektoren, fĂŒr deren Einrichtung widerum eine erhebliche Menge an Trainingsdaten erforderlich ist. Bedingt durch die hohen zeitlichen Kosten, die die Annotation dieser Trainingsdaten mit sich bringt, wird das Erweitern solcher Systeme, zum Beispiel durch das HinzufĂŒgen neuer Typen von Aktionen, zum eigentlichen Flaschenhals. Ein weiterer Nachteil des Hinzuziehens von ĂŒberwacht trainierten Objektdetektoren, ist deren FehleranfĂ€lligkeit, selbst wenn die verwendeten Algorithmen dem neuesten Stand der Technik entsprechen. Basierend auf dieser Beobachtung ist das Ziel dieser Arbeit die LeistungsfĂ€higkeit computergestĂŒtzter AktivitĂ€tserkennung zu verbessern mit Hilfe der Hinzunahme von Objektwissen, welches im Gegensatz zu den bisherigen AnsĂ€tzen ohne ĂŒberwachten Trainings gewonnen werden kann. Wir Menschen haben die bemerkenswerte FĂ€higkeit selektiv die Aufmerksamkeit auf bestimmte Regionen im Blickfeld zu fokussieren und gleichzeitig nicht relevante Regionen auszublenden. Dieser kognitive Prozess erlaubt es uns unsere beschrĂ€nkten Bewusstseinsressourcen unbewusst auf Inhalte zu richten, die anschließend durch das Gehirn ausgewertet werden. Zum Beispiel zur Interpretation visueller Muster als Objekte eines bestimmten Typs. Die Regionen im Blickfeld, die unsere Aufmerksamkeit unbewusst anziehen werden als Proto-Objekte bezeichnet. Sie sind definiert als unbestimmte Teile des visuellen Informationsspektrums, die zu einem spĂ€teren Zeitpunkt durch den Menschen als tatsĂ€chliche Objekte wahrgenommen werden können, wenn er seine Aufmerksamkeit auf diese richtet. Einfacher ausgedrĂŒckt: Proto-Objekte sind Kandidaten fĂŒr Objekte, oder deren Bestandteile, die zwar lokalisiert aber noch nicht identifiziert wurden. Angeregt durch die menschliche FĂ€higkeit solche visuell hervorstechenden (salienten) Regionen zuverlĂ€ssig vom Hintergrund zu unterscheiden, haben viele Wissenschaftler Methoden entwickelt, die es erlauben Proto-Objekte zu lokalisieren. Allen diesen Algorithmen ist gemein, dass möglichst wenig statistisches Wissens ĂŒber tatsĂ€chliche Objekte vorausgesetzt wird. Visuelle Aufmerksamkeit und Objekterkennung sind sehr eng miteinander vernkĂŒpfte Prozesse im visuellen System des Menschen. Aus diesem Grund herrscht auf dem Gebiet des Maschinellen Sehens ein reges Interesse an der Integration beider Konzepte zur Erhöhung der Leistung aktueller Bilderkennungssysteme. Die im Rahmen dieser Arbeit entwickelten Methoden gehen in eine Ă€hnliche Richtung: wir demonstrieren, dass die Lokalisation von Proto-Objekten es erlaubt Objektkandidaten zu finden, die geeignet sind als zusĂ€tzliche ModalitĂ€t zu dienen fĂŒr die bewegungsbasierte Erkennung menschlicher AktivitĂ€ten. Die Grundlage dieser Arbeit bildet dabei ein sehr effizienter Algorithmus, der die visuelle Salienz mit Hilfe von quaternionenbasierten DCT Bildsignaturen approximiert. Zur Extraktion einer Menge geeigneter Objektkandidaten (d.h. Proto-Objekten) aus den resultierenden Salienzkarten, haben wir eine Methode entwickelt, die den kognitiven Mechanismus des Inhibition of Return implementiert. Die auf diese Weise gewonnenen Objektkandidaten nutzen wir anschliessend in Kombination mit state-of-the-art Bag-of-Words Methoden zur Merkmalsbeschreibung von Bewegungsmustern um komplexe AktivitĂ€ten des tĂ€glichen Lebens zu klassifizieren. Wir evaluieren das im Rahmen dieser Arbeit entwickelte System auf diversen hĂ€ufig genutzten Benchmark-DatensĂ€tzen und zeigen experimentell, dass das Miteinbeziehen von Proto-Objekten fĂŒr die AktivitĂ€tserkennung zu einer erheblichen Leistungssteigerung fĂŒhrt im Vergleich zu rein bewegungsbasierten AnsĂ€tzen. Zudem demonstrieren wir, dass das vorgestellte System bei der Erkennung menschlicher AktivitĂ€ten deutlich weniger Fehler macht als eine Vielzahl von Methoden, die dem aktuellen Stand der Technik entsprechen. Überraschenderweise ĂŒbertrifft unser System leistungsmĂ€ĂŸig sogar Verfahren, die auf Objektwissen aufbauen, welches von ĂŒberwacht trainierten Detektoren, oder manuell erstellten Annotationen stammt. Benchmark-DatensĂ€tze sind ein sehr wichtiges Mittel zum quantitativen Vergleich von computergestĂŒtzten Mustererkennungsverfahren. Nach einer ÜberprĂŒfung aller öffentlich verfĂŒgbaren, relevanten Benchmarks, haben wir jedoch festgestellt, dass keiner davon geeignet war fĂŒr eine detaillierte Evaluation von Methoden zur Erkennung komplexer, menschlicher AktivitĂ€ten. Aus diesem Grund bestand ein Teil dieser Arbeit aus der Konzeption und Aufnahme eines solchen Datensatzes, des KIT Robo-kitchen Benchmarks. Wie der Name vermuten lĂ€sst haben wir uns dabei fĂŒr ein KĂŒchenszenario entschieden, da es ermöglicht einen großen Umfang an AktivitĂ€ten des tĂ€glichen Lebens einzufangen, von denen viele Objektmanipulationen enthalten. Um eine möglichst umfangreiche Menge natĂŒrlicher Bewegungen zu erhalten, wurden die Teilnehmer wĂ€hrend der Aufnahmen kaum eingeschrĂ€nkt in der Art und Weise wie die diversen AktivitĂ€ten auszufĂŒhren sind. Zu diesem Zweck haben wir den Probanden nur die Art der auszufĂŒhrenden AktivitĂ€t mitgeteilt, sowie wo die benötigten GegenstĂ€nde zu finden sind, und ob die jeweilige TĂ€tigkeit am KĂŒchentisch oder auf der Arbeitsplatte auszufĂŒhren ist. Dies hebt KIT Robo-kitchen deutlich hervor gegenĂŒber den meisten existierenden DatensĂ€tzen, die sehr unrealistisch gespielte AktivitĂ€ten enthalten, welche unter Laborbedingungen aufgenommen wurden. Seit seiner Veröffentlichung wurde der resultierende Benchmark mehrfach verwendet zur Evaluation von Algorithmen, die darauf abzielen lang andauerne, realistische, komplexe, und quasi-periodische menschliche AktivitĂ€ten zu erkennen

    Understanding egocentric human actions with temporal decision forests

    Get PDF
    Understanding human actions is a fundamental task in computer vision with a wide range of applications including pervasive health-care, robotics and game control. This thesis focuses on the problem of egocentric action recognition from RGB-D data, wherein the world is viewed through the eyes of the actor whose hands describe the actions. The main contributions of this work are its findings regarding egocentric actions as described by hands in two application scenarios and a proposal of a new technique that is based on temporal decision forests. The thesis first introduces a novel framework to recognise fingertip writing in mid-air in the context of human-computer interaction. This framework detects whether the user is writing and tracks the fingertip over time to generate spatio-temporal trajectories that are recognised by using a Hough forest variant that encourages temporal consistency in prediction. A problem with using such forest approach for action recognition is that the learning of temporal dynamics is limited to hand-crafted temporal features and temporal regression, which may break the temporal continuity and lead to inconsistent predictions. To overcome this limitation, the thesis proposes transition forests. Besides any temporal information that is encoded in the feature space, the forest automatically learns the temporal dynamics during training, and it is exploited in inference in an online and efficient manner achieving state-of-the-art results. The last contribution of this thesis is its introduction of the first RGB-D benchmark to allow for the study of egocentric hand-object actions with both hand and object pose annotations. This study conducts an extensive evaluation of different baselines, state-of-the art approaches and temporal decision forest models using colour, depth and hand pose features. Furthermore, it extends the transition forest model to incorporate data from different modalities and demonstrates the benefit of using hand pose features to recognise egocentric human actions. The thesis concludes by discussing and analysing the contributions and proposing a few ideas for future work.Open Acces

    From Dense 2D to Sparse 3D Trajectories for Human Action Detection and Recognition

    Get PDF
    • 

    corecore