43 research outputs found

    Learning from Synthetic Humans

    Get PDF
    Estimating human pose, shape, and motion from images and videos are fundamental challenges with many applications. Recent advances in 2D human pose estimation use large amounts of manually-labeled training data for learning convolutional neural networks (CNNs). Such data is time consuming to acquire and difficult to extend. Moreover, manual labeling of 3D pose, depth and motion is impractical. In this work we present SURREAL (Synthetic hUmans foR REAL tasks): a new large-scale dataset with synthetically-generated but realistic images of people rendered from 3D sequences of human motion capture data. We generate more than 6 million frames together with ground truth pose, depth maps, and segmentation masks. We show that CNNs trained on our synthetic dataset allow for accurate human depth estimation and human part segmentation in real RGB images. Our results and the new dataset open up new possibilities for advancing person analysis using cheap and large-scale synthetic data.Comment: Appears in: 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2017). 9 page

    Unsupervised Learning of Long-Term Motion Dynamics for Videos

    Get PDF
    We present an unsupervised representation learning approach that compactly encodes the motion dependencies in videos. Given a pair of images from a video clip, our framework learns to predict the long-term 3D motions. To reduce the complexity of the learning framework, we propose to describe the motion as a sequence of atomic 3D flows computed with RGB-D modality. We use a Recurrent Neural Network based Encoder-Decoder framework to predict these sequences of flows. We argue that in order for the decoder to reconstruct these sequences, the encoder must learn a robust video representation that captures long-term motion dependencies and spatial-temporal relations. We demonstrate the effectiveness of our learned temporal representations on activity classification across multiple modalities and datasets such as NTU RGB+D and MSR Daily Activity 3D. Our framework is generic to any input modality, i.e., RGB, Depth, and RGB-D videos.Comment: CVPR 201

    Deep Learning in cucina: sviluppo e validazione di un sistema di riconoscimento di azioni basato su sensori RGBD

    Get PDF
    La presente memoria descrive i primi risultati raggiunti nell’ambito di un progetto di ricerca con la scuola bresciana di cucina Cast Alimenti. L’obiettivo del lavoro di ricerca è lo sviluppo di un sistema intelligente per il riconoscimento delle azioni svolte da un cuoco durante la preparazione di una ricetta. Cast Alimenti mira ad ottenere un prodotto da utilizzare durante la didattica che abbia un duplice scopo: da una parte si vuole riconoscere che operazione il cuoco docente sta effettuando, con che ingredienti e con quali utensili; dall’altra parte il sistema sarà in grado di effettuare la stessa operazione di riconoscimento con gli alunni della lezione, controllando se l’operazione pratica di cucina viene svolta nel modo migliore. In questa memoria vengono descritti i primi risultati raggiunti relativi al riconoscimento delle azioni del cuoco. Il riconoscimento delle azioni è stato effettuato e valutato confrontando due tra i migliori algoritmi di riconoscimento azioni basati su reti neurali ricorsive: il primo, denominato Human Pose Model and Temporal Modelling (HPM+TM), basato sull’analisi di immagini di profondità e il secondo, denominato Indipendetly Recurrent Neural Network (IndRNN), basato sulla misura di diversi keypoint individuati a partire da una skeletonization del soggetto ripreso
    corecore