5 research outputs found

    A template based approach for human action recognition

    Get PDF
    Visual analysis of human movements concerns the understanding of human activities from image sequences. The goal of the action/gesture recognition is to recognize the label that corresponds to an action or gesture made by a human in a sequence of images. To solve this problem, the researchers have proposed solutions that range from object recognition techniques, to speech recognition techniques, face recognition or brain function . The techniques presented in this thesis, are related to a set of techniques that condense a video sequence into a template that retain important information to action/gestures classification applying standard object recognition techniques. In a first stage of this thesis, we have proposed a view-based temporal template approach for action/gesture representation from tensors. The templates are computed from three different projections considering a video sequence as a third-order tensor. We compute each projection from the fibers of the tensor using a combination of simple functions . We have studied which function and feature extractor/descriptor is the most suitable to project the template from the tensor. We have tested five different simple functions used to project the fibers, namely, supremum, mean, standard deviation, skewness and kurtosis using public datasets. We have also studied the performance obtained applying four feature extractors/descriptors like PHOW, LIOP, HOG and SMFs. Using more complex datasets, we have assessed the most suitable feature representation for our templates (Bag Of Words or Fisher Vectors) and the complementarity among the features computed from each simple function (Max, Mean, Standard Deviation, Kurtosis y Skewness). Finally, we have studied the comptementarity with a successful technique like Improved Dense Trajectories. The experiments have shown that Standard Deviation function and PHOW extractor/descriptor are the most suitable for our templates. The results have shown also that our 3 projection templates overcome most state-of-the-art techniques in more complex datasets when we combine the templates with Fisher Vector representation . The features extracted by each simple function are complementary among them and that added to HOG, HOF and MBH improves the performance of IDTs. Derived from this thesis, we have also presented another view-based temporal temptate approach for action recognition obtained from a Radon transform projection and that allows the temporal segmentation of human actions in real time. First, we propose a generalization of the R transform that it is useful to adapt the transform to the problem to be solve. We have studied the performance in three functions, namely, Max, Mean and Standard Deviation for pre-segmentad human action recognition using a public dataset, and we have compared the results against traditional R transform . The results have shown that Maxfunction obtains the best performance when it is applied on Radon transform and that our technique overcomes many state-of-the-art techniques in action recognition. In a second stage, we have modified the classifier to adapt it to temporal segmentation of human actions. To assess the performance, we have merged Weizman and Hollywood actions datasets and we have measured the performance of the method to identify isolated actions. The experiments have shown that our technique overcomes the state-of-the-art techniques in Weizman dataset in no pre-segmented human actions.El análisis visual de movimientos humanos hace referencia al entendimiento de la actividad humana en secuencias de video. El objetivo del reconocimiento de acciones/gestos en ámbito de la Visión por Computador, es identificar el nombre que corresponde a una acción o gesto realizado en una secuencia de imágenes. Para dar solución a este problema, los investigadores han propuesto soluciones que van desde la aplicación de técnicas que derivan del reconocimiento de objetos, del reconocimiento del habla, del reconocimiento facial o del funcionamiento del cerebro. Las técnicas presentadas en esta tesis, están relacionadas con un conjunto de técnicas que intentan condensar una secuencia de video en unas templates que retienen información importante de cara a la discriminación entre acciones/gestos aplicando técnicas estándar de reconocimiento de objetos. En la primera parte de esta tesis, hemos propuesto una aproximación basada en template para la representación de acciones/gestos a partir de tensores. Nuestras templates se calculan desde tres proyecciones diferentes considerando una secuencia de vídeo como un tensor de tercer orden. Calculamos cada proyección desde las fibras del tensor de tercer orden utilizando funciones simples. Hemos hecho un estudio exhaustivo para encontrar qué función debe ser utilizada para proyectar el template desde el tensor, y qué extractor/descriptor es el más adecuado. Utilizando datasets públicos simples, hemos testeado cinco funciones diferentes simples para proyectar las fibras, llamadas, Max, Mean, Standard Deviation, Kurtosis y Skewness. Hemos estudiado también el rendimiento obtenido aplicando a nuestras templates, cuatro técnicas de extracción/descripción de características del estado del arte como PHOW, LIOP, HOG y SMFs. Utilizando datasets más complejos, hemos estudiado cuál es la mejor representación de las características extraídas de las templates (Bag Of Words o Fisher Vectores), y la complementariedad entre las características extraídas con cada una de las cinco funciones (Max, Mean, Standard Deviation, Kurtosis y Skewness) y la complementariedad de estas con una exitosa técnica como Improved Dense Trajectories. Los experimentos han demostrado que la desviación estándar es la mejor función para proyectar las fibras en las templates, y que PHOW obtiene el mejor rendimiento como detector/descriptor en las templates obtenidas. Los datasets más complejos han mostrado que la mejor representación para las características extraídas de las templates es Fisher Vectores, que existe complementariedad entre las características extraídas con cada una de las funciones y que la fusión de estas características con Improved Dense Trajectories, hace que este último mejore su rendimiento. Derivado de los trabajos de esta tesis, también presentamos otra aproximación basada en template por el reconocimiento de acciones/gestos que se obtiene de una proyección derivada de la transformada de Radon y que permite la segmentación temporal de acciones en tiempo real. Primero hemos planteado una generalización de la transformada R que permite adaptar la transformada al problema a resolver mediante la función de proyección. Hemos estudiado su rendimiento para las funciones Max, Mean y Standard Deviation en reconocimiento de acciones pre-segmentadas sobre un dataset público y comparado los resultados con la transformada R. Los resultados han mostrado que la función Max obtiene el mejor resultado cuando se aplica sobre la transformada de Radon y que nuestra técnica supera a muchos métodos del estado del arte en reconocimiento de acciones. En una segunda fase, hemos introducido una modificación en la etapa de clasificación de nuestra técnica para permitir segmentar acciones temporalmente. Para evaluar su rendimiento, hemos concatenado acciones de los datasets Weizmann y Hollywood y medido la capacidad de la técnica para identificar cada una de las acciones individuales. Los experimentos han demostrado que nuestra técnica rinde mejor en la segmentación de acciones del Weizmann dataset que las técnicas del estado del arteL’anàlisi visual de moviments humans fa referència al enteniment d’activitat humana en seqüències de vídeo. L’objectiu del reconeixement d’accions/gestos en l’àmbit de la Visió per Computador, és identificar el nom que correspon a una acció o gest realitzat en una seqüència d’imatges. Per donar solució a aquest problema, els investigadors han proposat solucions que van des de l’aplicació de tècniques que deriven del reconeixement d’objectes, del reconeixement de la parla, del reconeixement facial o del funcionament del cervell. Les tècniques presentades en aquesta tesi, estan relacionades amb un conjunt de tècniques que intenten condensar una seqüència de vídeo en uns templates que retinguin informació important de cara a la discriminació entre accions/gestos aplicant tècniques estàndards de reconeixement d’objectes. A la primera part d’aquesta tesi, hem proposat una aproximació basada en template per la representació d’accions/gestos a partir de tensors. Les nostres templates es calculen des de tres projeccions diferents considerant una seqüència de vídeo com un tensor de tercer ordre. Calculem cada projecció des de les fibres del tensor de tercer ordre utilitzant funcions simples. Hem fet un estudi exhaustiu per trobar quina funció ha de ser utilitzada per projectar el template des del tensor, i quin extractor/descriptor és el més adequat. Utilitzant datasets públics simples, hem testejat cinc funcions diferents simples per projectar les fibres, anomenades, Max, Mean, Standard Deviation, Kurtosi i Skewness. Hem estudiat també el rendiment obtingut aplicant a les nostres templates, quatre tècniques d’extracció/descripció de característiques de l’estat de l’art com PHOW, LIOP, HOG i SMFs. Utilitzant datasets més complexes, hem estudiat quina és la millor representació de les característiques extretes de les templates (Bag Of Words o Fisher Vectors) i la complementarietat entre les característiques extretes amb cada una de les cinc funcions (Max, Mean, Standard Deviation, Kurtosi i Skewness) i la complementarietat d’aquestes amb una exitosa tècnica com Improved Dense Trajectories. Els experiments han demostrat que la desviació estàndard és la millor funció per projectar les fibres en les templates, i que PHOW obté el millor rendiment com a detector/descriptor en les templates obtingudes. Els datasets més complexes han mostrat que la millor representació per a les característiques extretes de les templates és amb Fisher Vectors, que existeix complementarietat entre les característiques extretes amb cada una de les funcions i que la fusió d’aquestes característiques amb Improved Dense Trajectories, fa que aquest últim millori el seu rendiment. Derivat dels treballs d’aquesta tesi, també presentem una altre aproximació basada en template pel reconeixement d’accions/gestos que s’obté d’una projecció derivada de la transformada de Radon i que permet la segmentació temporal d’accions en temps real. Primer hem plantejat una generalització de la transformada R que permet adaptar la transformada al problema a resoldre mitjançant la funció de projecció. Hem estudiat el seu rendiment per a les funcions Max, Mean i Standard Deviation en reconeixement d’accions pre-segmentades sobre un dataset públic i comparat els resultats amb la transformada R. Els resultats han mostrat que la funció Max obté el millor resultat quan s’aplica sobre la transformada de Radon i que la nostra tècnica supera a molts mètodes de l’estat de l’art en reconeixement d’accions. A una segona fase, hem introduït una modificació a la etapa de classificació de la nostra tècnica per permetre segmentar accions temporalment. Per avaluar el seu rendiment, hem concatenat accions dels datasets Weizmann i Hollywood i mesurat la capacitat de la tècnica per identificar cadascuna de les accions individuals. Els experiments han demostrat que la nostra tècnica rendeix millor en la segmentació de les accions del dataset Weizmann que les tècniques de l’estat de l’art.Postprint (published version

    Tensor-based regression models and applications

    Get PDF
    Tableau d’honneur de la Faculté des études supérieures et postdoctorales, 2017-2018Avec l’avancement des technologies modernes, les tenseurs d’ordre élevé sont assez répandus et abondent dans un large éventail d’applications telles que la neuroscience informatique, la vision par ordinateur, le traitement du signal et ainsi de suite. La principale raison pour laquelle les méthodes de régression classiques ne parviennent pas à traiter de façon appropriée des tenseurs d’ordre élevé est due au fait que ces données contiennent des informations structurelles multi-voies qui ne peuvent pas être capturées directement par les modèles conventionnels de régression vectorielle ou matricielle. En outre, la très grande dimensionnalité de l’entrée tensorielle produit une énorme quantité de paramètres, ce qui rompt les garanties théoriques des approches de régression classique. De plus, les modèles classiques de régression se sont avérés limités en termes de difficulté d’interprétation, de sensibilité au bruit et d’absence d’unicité. Pour faire face à ces défis, nous étudions une nouvelle classe de modèles de régression, appelés modèles de régression tensor-variable, où les prédicteurs indépendants et (ou) les réponses dépendantes prennent la forme de représentations tensorielles d’ordre élevé. Nous les appliquons également dans de nombreuses applications du monde réel pour vérifier leur efficacité et leur efficacité.With the advancement of modern technologies, high-order tensors are quite widespread and abound in a broad range of applications such as computational neuroscience, computer vision, signal processing and so on. The primary reason that classical regression methods fail to appropriately handle high-order tensors is due to the fact that those data contain multiway structural information which cannot be directly captured by the conventional vector-based or matrix-based regression models, causing substantial information loss during the regression. Furthermore, the ultrahigh dimensionality of tensorial input produces huge amount of parameters, which breaks the theoretical guarantees of classical regression approaches. Additionally, the classical regression models have also been shown to be limited in terms of difficulty of interpretation, sensitivity to noise and absence of uniqueness. To deal with these challenges, we investigate a novel class of regression models, called tensorvariate regression models, where the independent predictors and (or) dependent responses take the form of high-order tensorial representations. We also apply them in numerous real-world applications to verify their efficiency and effectiveness. Concretely, we first introduce hierarchical Tucker tensor regression, a generalized linear tensor regression model that is able to handle potentially much higher order tensor input. Then, we work on online local Gaussian process for tensor-variate regression, an efficient nonlinear GPbased approach that can process large data sets at constant time in a sequential way. Next, we present a computationally efficient online tensor regression algorithm with general tensorial input and output, called incremental higher-order partial least squares, for the setting of infinite time-dependent tensor streams. Thereafter, we propose a super-fast sequential tensor regression framework for general tensor sequences, namely recursive higher-order partial least squares, which addresses issues of limited storage space and fast processing time allowed by dynamic environments. Finally, we introduce kernel-based multiblock tensor partial least squares, a new generalized nonlinear framework that is capable of predicting a set of tensor blocks by merging a set of tensor blocks from different sources with a boosted predictive power

    Tensor Regression

    Full text link
    Regression analysis is a key area of interest in the field of data analysis and machine learning which is devoted to exploring the dependencies between variables, often using vectors. The emergence of high dimensional data in technologies such as neuroimaging, computer vision, climatology and social networks, has brought challenges to traditional data representation methods. Tensors, as high dimensional extensions of vectors, are considered as natural representations of high dimensional data. In this book, the authors provide a systematic study and analysis of tensor-based regression models and their applications in recent years. It groups and illustrates the existing tensor-based regression methods and covers the basics, core ideas, and theoretical characteristics of most tensor-based regression methods. In addition, readers can learn how to use existing tensor-based regression methods to solve specific regression tasks with multiway data, what datasets can be selected, and what software packages are available to start related work as soon as possible. Tensor Regression is the first thorough overview of the fundamentals, motivations, popular algorithms, strategies for efficient implementation, related applications, available datasets, and software resources for tensor-based regression analysis. It is essential reading for all students, researchers and practitioners of working on high dimensional data.Comment: 187 pages, 32 figures, 10 table

    Human action recognition by means of subtensor projections and dense trajectories

    Get PDF
    In last years, most human action recognition works have used dense trajectories features, to achieve state-of-the-art results. Histograms of Oriented Gradients (HOG), Histogram of Optical Flow (HOF) and Motion Boundary Histograms (MBH) features are extracted from regions and being tracked across the frames. The goal of this paper is to improve the performance obtained by means of Improved Dense Trajectories (IDTs), adding new features based on temporal templates. We construct these templates considering a video sequence as a third-order tensor and computing three different projections. We use several functions for projecting the fibers from the video sequences, and combined them by means of sum pooling. As a first contribution of our work, we present in detail the method based on tensor projections. First, we have assessed the results obtained using only template based action recognition. Next, in order to achieve state-of-art recognition rates, we have fused our features with those of IDTs.This is the second contribution of the article. Experiments on four different public datasets have shown that this technique improves IDTs performance and that the results outperform the ones obtained by most of the state-of-the-art techniques for action recognition.Peer Reviewe

    Human action recognition by means of subtensor projections and dense trajectories

    No full text
    In last years, most human action recognition works have used dense trajectories features, to achieve state-of-the-art results. Histograms of Oriented Gradients (HOG), Histogram of Optical Flow (HOF) and Motion Boundary Histograms (MBH) features are extracted from regions and being tracked across the frames. The goal of this paper is to improve the performance obtained by means of Improved Dense Trajectories (IDTs), adding new features based on temporal templates. We construct these templates considering a video sequence as a third-order tensor and computing three different projections. We use several functions for projecting the fibers from the video sequences, and combined them by means of sum pooling. As a first contribution of our work, we present in detail the method based on tensor projections. First, we have assessed the results obtained using only template based action recognition. Next, in order to achieve state-of-art recognition rates, we have fused our features with those of IDTs.This is the second contribution of the article. Experiments on four different public datasets have shown that this technique improves IDTs performance and that the results outperform the ones obtained by most of the state-of-the-art techniques for action recognition.Peer Reviewe
    corecore