11 research outputs found

    Enforcing Constraints for Human Body Tracking

    Full text link

    Linearized Motion Estimation for Articulated Planes

    Full text link

    GRAB: A Dataset of Whole-Body Human Grasping of Objects

    Full text link
    Training computers to understand, model, and synthesize human grasping requires a rich dataset containing complex 3D object shapes, detailed contact information, hand pose and shape, and the 3D body motion over time. While "grasping" is commonly thought of as a single hand stably lifting an object, we capture the motion of the entire body and adopt the generalized notion of "whole-body grasps". Thus, we collect a new dataset, called GRAB (GRasping Actions with Bodies), of whole-body grasps, containing full 3D shape and pose sequences of 10 subjects interacting with 51 everyday objects of varying shape and size. Given MoCap markers, we fit the full 3D body shape and pose, including the articulated face and hands, as well as the 3D object pose. This gives detailed 3D meshes over time, from which we compute contact between the body and object. This is a unique dataset, that goes well beyond existing ones for modeling and understanding how humans grasp and manipulate objects, how their full body is involved, and how interaction varies with the task. We illustrate the practical value of GRAB with an example application; we train GrabNet, a conditional generative network, to predict 3D hand grasps for unseen 3D object shapes. The dataset and code are available for research purposes at https://grab.is.tue.mpg.de.Comment: ECCV 202

    Human Pose Estimation from Monocular Images : a Comprehensive Survey

    Get PDF
    Human pose estimation refers to the estimation of the location of body parts and how they are connected in an image. Human pose estimation from monocular images has wide applications (e.g., image indexing). Several surveys on human pose estimation can be found in the literature, but they focus on a certain category; for example, model-based approaches or human motion analysis, etc. As far as we know, an overall review of this problem domain has yet to be provided. Furthermore, recent advancements based on deep learning have brought novel algorithms for this problem. In this paper, a comprehensive survey of human pose estimation from monocular images is carried out including milestone works and recent advancements. Based on one standard pipeline for the solution of computer vision problems, this survey splits the problema into several modules: feature extraction and description, human body models, and modelin methods. Problem modeling methods are approached based on two means of categorization in this survey. One way to categorize includes top-down and bottom-up methods, and another way includes generative and discriminative methods. Considering the fact that one direct application of human pose estimation is to provide initialization for automatic video surveillance, there are additional sections for motion-related methods in all modules: motion features, motion models, and motion-based methods. Finally, the paper also collects 26 publicly available data sets for validation and provides error measurement methods that are frequently used

    Contributions to Robust Multi-view 3D Action Recognition

    Get PDF
    This thesis focus on human action recognition using volumetric reconstructions obtained from multiple monocular cameras. The problem of action recognition has been addressed using di erent approaches, both in the 2D and 3D domains, and using one or multiple views. However, the development of robust recognition methods, independent from the view employed, remains an open problem. Multi-view approaches allow to exploit 3D information to improve the recognition performance. Nevertheless, manipulating the large amount of information of 3D representations poses a major problem. As a consequence, standard dimensionality reduction techniques must be applied prior to the use of machine learning approaches. The rst contribution of this work is a new descriptor of volumetric information that can be further reduced using standard Dimensionality Reduction techniques in both holistic and sequential recognition approaches. However, the descriptor itself reduces the amount of data up to an order of magnitude (compared to previous descriptors) without a ecting to the classi cation performance. The descriptor represents the volumetric information obtained by SfS techniques. However, this family of techniques are highly in uenced by errors in the segmentation process (e.g., undersegmentation causes false negatives in the reconstructed volumes) so that the recognition performance is highly a ected by this rst step. The second contribution of this work is a new SfS technique (named SfSDS) that employs the Dempster-Shafer theory to fuse evidences provided by multiple cameras. The central idea is to consider the relative position between cameras so as to deal with inconsistent silhouettes and obtain robust volumetric reconstructions. The basic SfS technique still have a main drawback, it requires the whole volume to be analized in order to obtain the reconstruction. On the other hand, octree-based representations allows to save memory and time employing a dynamic tree structure where only occupied nodes are stored. Nevertheless, applying the SfS method to octreebased representations is not straightforward. The nal contribution of this work is a method for generating octrees using our proposed SfSDS technique so as to obtain robust and compact volumetric representations.Esta tesis se centra en el reconocimiento de acciones humanas usando reconstrucciones volum etricas obtenidas a partir de m ultiples c amaras monoculares. El problema del reconocimiento de acciones ha sido tratado usando diferentes enfoques, en los dominios 2D y 3D, y usando una o varias vistas. No obstante, el desarrollo de m etodos de reconocimiento robustos, independientes de la vista empleada, sigue siendo un problema abierto. Los enfoques multi-vista permiten explotar la informaci on 3D para mejorar el rendimiento del reconocimiento. Sin embargo, manipular las grandes cantidades de informaci on de las representaciones 3D plantea un importante problema. Como consecuencia, deben ser aplicadas t ecnicas est andar de reducci on de dimensionalidad con anterioridad al uso de propuestas de aprendizaje. La primera contribuci on de este trabajo es un nuevo descriptor de informaci on volum etrica que puede ser posteriormente reducido mediante t ecnicas est andar de reducci on de dimensionalidad en los enfoques de reconocimiento hol sticos y secuenciales. El descriptor, por si mismo, reduce la cantidad de datos hasta en un orden de magnitud (en comparaci on con descriptores previos) sin afectar al rendimiento de clasi caci on. El descriptor representa la informaci on volum etrica obtenida en t ecnicas SfS. Sin embargo, esta familia de t ecnicas est a altamente in uenciada por los errores en el proceso de segmentaci on (p.e., una sub-segmentaci on causa falsos negativos en los vol umenes reconstruidos) de forma que el rendimiento del reconocimiento est a signi cativamente afectado por este primer paso. La segunda contribuci on de este trabajo es una nueva t ecnica SfS (denominada SfSDS) que emplea la teor a de Dempster-Shafer para fusionar evidencias proporcionadas por m ultiples c amaras. La idea central consiste en considerar la posici on relativa entre c amaras de forma que se traten las inconsistencias en las siluetas y se obtenga reconstrucciones volum etricas robustas. La t ecnica SfS b asica sigue teniendo un inconveniente principal; requiere que el volumen completo sea analizado para obtener la reconstrucci on. Por otro lado, las representaciones basadas en octrees permiten salvar memoria y tiempo empleando una estructura de arbol din amica donde s olo se almacenan los nodos ocupados. No obstante, la aplicaci on del m etodo SfS a representaciones basadas en octrees no es directa. La contribuci on nal de este trabajo es un m etodo para la generaci on de octrees usando nuestra t ecnica SfSDS propuesta de forma que se obtengan representaciones volum etricas robustas y compactas

    Model-based human upper body tracking using interest points in real-time video

    Get PDF
    Vision-based human motion analysis has received huge attention from researchers because of the number of applications, such as automated surveillance, video indexing, human machine interaction, traffic monitoring, and vehicle navigation. However, it contains several open problems. To date, despite very promising proposed approaches, no explicit solution has been found to solve these open problems efficiently. In this regard, this thesis presents a model-based human upper body pose estimation and tracking system using interest points (IPs) in real-time video. In the first stage, we propose a novel IP-based background-subtraction algorithm to segment the foreground IPs of each frame from the background ones. Afterwards, the foreground IPs of any two consecutive frames are matched to each other using a dynamic hybrid localspatial IP matching algorithm, proposed in this research. The IP matching algorithm starts by using the local feature descriptors of the IPs to find an initial set of possible matches. Then two filtering steps are applied to the results to increase the precision by deleting the mismatched pairs. To improve the recall, a spatial matching process is applied to the remaining unmatched points. Finally, a two-stage hierarchical-global model-based pose estimation and tracking algorithm based on Particle Swarm Optimiation (PSO) is proposed to track the human upper body through consecutive frames. Given the pose and the foreground IPs in the previous frame and the matched points in the current frame, the proposed PSO-based pose estimation and tracking algorithm estimates the current pose hierarchically by minimizing the discrepancy between the hypothesized pose and the real matched observed points in the first stage. Then a global PSO is applied to the pose estimated by the first stage to do a consistency check and pose refinement

    SEGUIMIENTO DE PERSONAS APLICANDO RESTRICCIONES CINEMÁTICAS BASADAS EN MODELOS DE CUERPOS RÍGIDOS ARTICULADOS

    Full text link
    The present thesis deals with the study of vision techniques for the detection of human pose based on the analysis of a single image, as well as the tracking of these poses along a sequence of images. It is proposed to model the human pose by four kinematic chains that model the four articulated extremities. These kinematic chains and head remain attached to the body. The four kinematic chains are composed by three keypoints. Therefore, the model initially has a total of 1414 parts. In this thesis it is proposed to modify the technique called Deformable Parts Model (DPM), adding the depth channel. Initially, the DPM model was defined over three RGB channel images. While in this thesis it is proposed to work on images of four RGBD channels, so the proposed extension is called 4D-DPM. The experiments performed with 4D-DPM demonstrate an improvement in the accuracy of pose detection with respect to the initial DPM model, at the cost of increasing its computational cost when treating an additional channel. On the other hand, it is defined to reduce the previous computational cost by simplifying the model that defines the human pose. The idea is to reduce the number of variables to be detected with the 4D-DPM model, so that the suppressed variables can be calculated from the detected variables using inverse kinematics models based on dual quaternions. In addition, it is proposed to use a particle filter models to continue improving the accuracy of detection of human poses along a sequence of images. Considering the problem of detection and monitoring of human body pose along a video sequence, this thesis proposes the use of the following method. 1. Camara calibration. RGBD image processing. Subtraction of the image background with the MSER method. 2. 4D-DPM: method used to detect the keypoints (variables of the pose model) within an image. 3. Particle filters: this type of filter is designed to track the keypoints over time and correct the data obtained by the sensor. 4. Inverse kinematic modeling: the control of kinematic chains is performed with the help of dual cuaternions in order to obtain the complete pose model of the human body. The overall contribution of this thesis is the proposal of the previous method that, combining the previous methods, is able to improve the accuracy in the detection and the follow up of the human body pose in a video sequence, also reducing its computational cost . This is possible due to the combination of the 4D-DPM method with the use of inverse kinematics techniques. The original DPM method should detect 1414 point of interest on an RGB image to estimate the human pose. However, the proposed method, where a point of interest for each limb is removed, must detect 1010 point of interest on an RGBD image. Subsequently, the eliminated 44 point of interest are calculated by using inverse kinematics methods from the calculated 1010 point of interest. To solve the problem of inverse kinematics a dual quaternions methods is proposed for each of the 44 kinematic chains that model the extremities of the skeleton of the human body. The particle filter is applied over the time sequence of the 10 points of interest of the posture model detected through the 4D-DPM method. To design these particle filters it is proposed to add the following restrictions to weight the particles generated: 1. Restrictions on joint limits. 2. Softness restrictions. 3. Collision detection. 4. Projection of poly-spheresLa presente tesis trata sobre el estudio de técnicas de visión para la detección de la postura del esqueleto del cuerpo humano basada en el análisis de una sola imagen, además del seguimiento de estas posturas a lo largo de una secuencia de imágenes. Se propone modelar la postura del esqueleto cuerpo humano mediante cuatro cadenas cinemáticas que modelan las cuatro extremidades articuladas. Estas cadenas cinemáticas y la cabeza permanecen unidas al cuerpo. Las cuatro cadenas cinemáticas se componen de tres puntos de interés. Por lo tanto, el modelo inicialmente dispone de un total de 14 puntos de interés. En esta tesis se propone modificar la técnica denominada Deformable Parts Model (DPM), añadiendo el canal de profundidad denominado ``Depth''. Inicialmente el modelo DPM se definió sobre imágenes de tres canales RGB. Mientras que en esta tesis se propone trabajar sobre imágenes de cuatro canales RGBD, por ello a la ampliación propuesta se le denomina 4D-DPM. Por otra parte, se propone reducir el coste computacional anterior simplificando el modelo que define la postura del cuerpo humano. La idea es reducir el número de variables a detectar con el modelo 4D-DPM, de tal manera que las variables suprimidas se puedan calcular a partir de las variables detectadas, utilizando modelos de cinemática inversa basados en cuaterniones duales. Los experimentos realizados demuestran que la combinación de estas dos técnicas permite, reduciendo el coste computacional del método original DPM, mejorar la precisión de la detección de postura debido a la información extra del canal de profundidad. Adicionalmente, se propone utilizar modelos de filtros de partículas para continuar mejorando la precisión de la detección de las posturas humanas a lo largo de una secuencia de imágenes. Atendiendo al problema de detección y seguimiento de las postura del esqueleto del cuerpo humano a lo largo de una secuencia de vídeo, esta tesis propone el uso del siguiente método. 1. Calibración de cámaras. Procesamiento de imágenes RGBD. Sustracción del fondo de la imagen con el método MSER. 2. 4D-DPM: método utilizado para detectar los puntos de interés (variables del modelo de postura) dentro de una imagen. 3. Filtros de partículas: se diseña este tipo de filtros para realizar el seguimiento de los puntos de interés a lo largo del tiempo y corregir los datos obtenidos por el sensor. 4. Modelado cinemático inverso: se realiza el control de cadenas cinemáticas con la ayuda de cuaterniones duales con el fin de obtener el modelo completo de la postura del esqueleto del cuerpo humano. La contribución global de esta tesis es la propuesta del método anterior que, combinando los métodos anteriores, es capaz de mejorar la precisión en la detección y el seguimiento de la postura del esqueleto del cuerpo humano en una secuencia de vídeo, reduciendo además su coste computacional. El método original DPM debe detectar 14 puntos de interés sobre una imagen RGB para estimar la postura de un cuerpo humano. Sin embargo, el método propuesto debe detectar 10 puntos de interés sobre una imagen RGBD. Posteriormente, los 4 puntos de interés eliminados se calculan mediante la utilización de métodos de cinemática inversa a partir de los 10 puntos de interés calculados. Para resolver el problema de la cinemática inversa se propone utilizar cuaterniones duales para cada una de las 4 cadenas cinemáticas que modelan las extremidades del esqueleto del cuerpo humano. El filtro de partículas se aplica sobre la secuencia temporal de los 10 puntos de interés del modelo de postura detectados a través del método 4D-DPM. Para diseñar estos filtros de partículas se propone añadir las siguientes restricciones, explicadas en la memoria, para ponderar las partículas generadas: 1. Restricciones en los límites de articulaciones. 2. Restricciones de suavidad. 3. Detección de colisiones. 4. Proyección de las poli-esferas.La present tesi tracta sobre l'estudi de tècniques de visió per a la detecció de la postura de l'esquelet del cos humà basada en l'anàlisi d'una sola imatge, a més del seguiment d'estes postures al llarg d'una seqüència d'imatges. Es proposa modelar la postura de l'esquelet del cos humà per mitjà de quatre cadenes cinemàtiques que modelen les quatre extremitats articulades. Estes cadenes cinemàtiques i el cap romanen unides al cos. Les quatre cadenes cinemàtiques es componen de tres punts d'interés. Per tant, el model inicialment disposa d'un total de 1414 punts d'interés. En esta tesi es proposa modificar la tècnica denominada Deformable Parts Model (DPM) , afegint el canal de profunditat denominat ``Depth''. Inicialment el model DPM es va definir sobre imatges de tres canals RGB. Mentres que en esta tesi es proposa treballar sobre imatges de quatre canals RGBD, per això a l'ampliació proposada se la denomina 4D-DPM. D'altra banda, es proposa reduir el cost computacional anterior simplificant el model que definix la postura del cos humà. La idea és reduir el nombre de variables a detectar amb el model 4D-DPM, de tal manera que les variables suprimides es puguen calcular a partir de les variables detectades, utilitzant models de cinemàtica inversa basats en quaternions duals. Els experiments realitzats demostren que la combinació d'estes dos tècniques permet, reduint el cost computacional del mètode original DPM, millorar la precisió de la detecció de la postura degut a la informació extra del canal de profunditat. Addicionalment, es proposa utilitzar models de filtres de partícules per a continuar millorant la precisió de la detecció de les postures humanes al llarg d'una seqüència d'imatges. Atenent al problema de detecció i seguiment de les postura de l'esquelet del cos humà al llarg d'una seqüència de vídeo, esta tesi proposa l'ús del següent mètode. 1. Calibratge de càmeres. Processament d'imatges RGBD. Sostracció del fons de la imatge amb el mètode MSER. 2. 4D-DPM: mètode utilitzat per a detectar els punts d'interés (variables del model de postura) dins d'una imatge. 3. Filtres de partícules: es dissenya este tipus de filtres per a realitzar el seguiment dels punts d'interés al llarg del temps i corregir les dades obtingudes pel sensor. 4. Modelatge cinemàtic invers: es realitza el control de cadenes cinemàtiques amb l'ajuda de quaternions duals a fi d'obtindre el model complet de l'esquelet del cos humà. La contribució global d'esta tesi és la proposta del mètode anterior que, combinant els mètodes anteriors, és capaç de millorar la precisió en la detecció i el seguiment de la postura de l'esquelet del cos humà en una seqüència de vídeo, reduint a més el seu cost computacional. Açò és possible a causa de la combinació del mètode 4D-DPM amb la utilització de tècniques de cinemàtica inversa. El mètode original DPM ha de detectar 14 punts d'interés sobre una imatge RGB per a estimar la postura d'un cos humà. No obstant això, el mètode proposat ha de detectar 10 punts d'interés sobre una imatge RGBD. Posteriorment, els 4 punts d'interés eliminats es calculen per mitjà de la utilització de mètodes de cinemàtica inversa a partir dels 10 punts d'interés calculats. Per a resoldre el problema de la cinemàtica inversa es proposa utilitzar quaternions duals per a cada una de les 4 cadenes cinemàtiques que modelen les extremitats de l'esquelet del cos humà. El filtre de partícules s'aplica sobre la seqüència temporal dels 10 punts d'interés del model de postura detectats a través del mètode 4D-DPM. Per a dissenyar estos filtres de partícules es proposa afegir les següents restriccions per a ponderar les partícules generades: 1. Restriccions en els límits d'articulacions. 2. Restriccions de suavitat. 3. Detecció de col·lisions. 4. Projecció de les poli-esferes.Martínez Bertí, E. (2017). SEGUIMIENTO DE PERSONAS APLICANDO RESTRICCIONES CINEMÁTICAS BASADAS EN MODELOS DE CUERPOS RÍGIDOS ARTICULADOS [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/86159TESI
    corecore