61 research outputs found

    Gauge Invariant Framework for Shape Analysis of Surfaces

    Full text link
    This paper describes a novel framework for computing geodesic paths in shape spaces of spherical surfaces under an elastic Riemannian metric. The novelty lies in defining this Riemannian metric directly on the quotient (shape) space, rather than inheriting it from pre-shape space, and using it to formulate a path energy that measures only the normal components of velocities along the path. In other words, this paper defines and solves for geodesics directly on the shape space and avoids complications resulting from the quotient operation. This comprehensive framework is invariant to arbitrary parameterizations of surfaces along paths, a phenomenon termed as gauge invariance. Additionally, this paper makes a link between different elastic metrics used in the computer science literature on one hand, and the mathematical literature on the other hand, and provides a geometrical interpretation of the terms involved. Examples using real and simulated 3D objects are provided to help illustrate the main ideas.Comment: 15 pages, 11 Figures, to appear in IEEE Transactions on Pattern Analysis and Machine Intelligence in a better resolutio

    ConViViT -- A Deep Neural Network Combining Convolutions and Factorized Self-Attention for Human Activity Recognition

    Full text link
    The Transformer architecture has gained significant popularity in computer vision tasks due to its capacity to generalize and capture long-range dependencies. This characteristic makes it well-suited for generating spatiotemporal tokens from videos. On the other hand, convolutions serve as the fundamental backbone for processing images and videos, as they efficiently aggregate information within small local neighborhoods to create spatial tokens that describe the spatial dimension of a video. While both CNN-based architectures and pure transformer architectures are extensively studied and utilized by researchers, the effective combination of these two backbones has not received comparable attention in the field of activity recognition. In this research, we propose a novel approach that leverages the strengths of both CNNs and Transformers in an hybrid architecture for performing activity recognition using RGB videos. Specifically, we suggest employing a CNN network to enhance the video representation by generating a 128-channel video that effectively separates the human performing the activity from the background. Subsequently, the output of the CNN module is fed into a transformer to extract spatiotemporal tokens, which are then used for classification purposes. Our architecture has achieved new SOTA results with 90.05 \%, 99.6\%, and 95.09\% on HMDB51, UCF101, and ETRI-Activity3D respectively

    3D Face Recognition under Expressions, Occlusions, and Pose Variations

    Full text link

    A DYNAMIC GEOMETRY-BASED APPROACH FOR 4D FACIAL EXPRESSIONS RECOGNITION

    Get PDF
    International audienceIn this paper we present a fully automatic approach for identity-independent facial expression recognition from 3D video sequences. Towards that goal, we propose a novel approach to extract a scalar field that represents the defor- mations between faces conveying different expressions. We extract relevant features from this deformation field using LDA and then train a dynamic model on these features using HMM. Experiments conducted on BU-4DFE dataset fol- lowing state-of-the-art settings show the effectiveness of the proposed approach

    Enhancing Gender Classification by Combining 3D and 2D Face Modalities

    Get PDF
    International audienceShape and texture provide different modalities in face-based gender classification. Although extensive works have been reported in the literature, the majority of them are in the scope of shape or texture modality individually. Among them, only a few concern their combination, and to the best of our knowledge, no work considers the combination with the 3D face surface. In our work, we investigate the combination of shape and texture modalities for gender classification, with both the combination of range images and gray images, and the combination of 3D meshes and gray images. In 10-fold subject-independent cross-validation with Random Forest on the FRGC-2.0 dataset, we achieved a correct gender classification rate of 93.27%± 5.16, which outperforms each individual modality and is comparable to the state-of-the-art. Results confirm that shape and texture modalities are complementary, and their combination enhances the performance of face-based gender classification

    Fusion d'Experts pour une Biométrie Faciale 3D Robuste aux Déformations

    Get PDF
    Session "Posters"National audienceNous étudions dans cet article l'apport de la géométrie tridimensionnelle du visage dans la reconnaissance des individus. La principale contribution est d'associer plusieurs experts (matcheurs) de biométrie faciale 3D afin d'achever de meilleures performances comparées aux performances individuelles de chacun, notamment en présence d'expressions. Les experts utilisés sont : (E1) Courbes radiales élastiques, (E2) MS-eLBP, une version étendue multi-échelle de l'opérateur LBP, (E3) l'algorithme de recalage non-rigide TPS, en plus d'un expert de référence (Eref) l'algorithme de recalage rigide connu ICP. Profitant de la complémentarité de chacun des experts, la présente approche affiche un taux d'identification qui dépasse les 99% en présence d'expressions faciales sur la base FRGCv2. Une étude comparative avec l'état de l'art confirme le choix et l'intérêt de combiner plusieurs experts afin d'achever de meilleurs performance

    Calcul statistique sur les variétés de forme pour la l'analyse et la reconnaissance de visage 3D

    No full text
    We propose, in this thesis, a unified Riemannian framework for comparing, deforming, averaging and hierarchically organizing facial surfaces. This framework is applied within the 3D face recognition problem where facial expressions, pose variations, and occlusions are the main challenges of this topic. The facial surfaces are represented by collections of level curves and radial ones. The set of closed curves (level curves) constitute an infinite dimensional sub-manifold and is used to represent the nasal region, the most stable part of the face. The facial surface is represented by an indexed collection of radial curves. In this case, the calculus is simpler and the space of open curves shape is simply the hypersphere of Hilbert space. The comparison in this shape space is done via an "elastic" metric in order to handle non-isometric deformations of facial surfaces. We propose algorithms for computing means and eigenvectors in these nonlinear manifolds and hence algorithms for estimation of missing parts of 3D facial surfaces. Comparison with competitor approaches using a common experimental setting on the FRGCv2, GAVAB, BOSPHORUS databases, shows that our solution is able to obtain, and outperform in some scenarios, the state-of-the-art results.Dans cette thèse, nous proposons un cadre Riemannien pour comparer, déformer, calculer des statistiques et organiser de manière hiérarchique des surfaces faciales. Nous appliquons ce cadre à la biométrie faciale 3D où les défis sont les expressions faciales, les variations de la pose et les occultations du visage par des objets externes. Les surfaces faciales sont repr'esentées par un ensemble de courbes de niveaux et de courbes radiales. L'ensemble des courbes fermées (de niveau) constitue une sous-variété non-linéaire de dimension infinie et est utilisé pour représenter le nez, la partie la plus stable du visage. La surface faciale est présentée, par ailleurs, par une collection indexée de courbes radiales. Dans ce cas, le calcul se simplifie et l'espace des formes des courbes ouvertes se ramène à une hyper sphère de l'espace de Hilbert. La comparaison dans l'espace des formes se fait via une métrique élastique afin de faire face aux d'eformations non-isométriques (ne conservant pas les longueurs) des surfaces faciales. Nous proposons des algorithmes pour calculer les moyennes, les vecteurs propres dans ces variétés non-linéaires et l'estimation des parties manquantes des surfaces faciales 3D. L'approche présentée dans cette thèse a été validée sur des Benchmarks connus (FRGCv2, GAVAB, BOSPHORUS) et obtenu des résultats compétitifs par rapport aux méthodes de l'état de l'art

    Calcul statistique sur des variétés de formes 3D pour la reconnaissance de visages 3D

    No full text
    La reconnaissance de visage automatique offre de nombreux avantages par rapport aux autres technologies biométriques en raison de la nature non-intrusive. Ainsi, les techniques de reconnaissance faciale ont reçu une attention croissante au sein de la communauté de vision par ordinateur au cours des trois dernières décennies. Un atout majeur de scans 3D sur l'imagerie couleur 2D est que les variations de éclairage et mise à l'échelle ont moins d'influence sur les scans 3D. Toutefois, la numérisation des données souffrent souvent du problème de données manquantes à cause de l'auto-occultation ou des imperfections des technologies de numérisation. En outre, les variations dues aux expressions faciales rendent difficile la reconnaissance automatique des visages 3D. Pour être utiles dans des applications du monde réel, les approches de reconnaissance faciale 3D devraient être en mesure de reconnaitre les surfaces faciales 3D, même dans la présence de grandes déformations dues aux expressions et des données manquantes. La plupart des recherches récentes ont été dirigés vers des techniques invariantes aux expressions faciales. Ils ont toutefois dépensé moins d'efforts pour faire face aux problème des données manquantes. Dans cet thèse, nous présentons un framework commun pour faire face aux expressions et aux données manquantes. En outre, dans le même cadre, notre framework permet de calculer des moyennes surfaces qui permettent une organization hiérarchique des bases de données de visages 3D pour permettre des recherches efficaces. Dans cette thèse, nous nous concentrons sur la tâche fondamentale de la reconnaissance faciale en 3D, fournir une analyse comparative de plusieurs approches, et offrir des solutions originales pour chacun des problèmes analysés.Automatic face recognition has many benefits over other biometric technologies due to the natural, non-intrusive, and high throughput nature of face data acquisition. Thus, the techniques for face recognition have received a growing attention within the computer vision community over the past three decades. In terms of a modality for face imaging, a major advantage of 3D scans over 2D color imaging is that variations in illumination and scaling have less influence on the 3D scans.However, scan data often suffer from the problem of missing parts dueto self-occlusions or imperfections in scanning technologies. Additionally, variations in face data due to facial expressions are challenging to 3D face recognition. In order to be useful in real-world applications, 3D face recognition approaches should be able to successfully recognize face scans even in the presence of large expression-based deformations and missing data due to occlusions and pose variation. Most recent research has been directed towards expression-invariant techniques and spent less effort to handle the missing parts problem. Few approaches handles the missing part problem but none has performed on a full database containing real missing data, they simulate some missing parts. We present a common framework handling both large expressions and missing parts due to large pose variation. In addition, with the same framework, we are able to average surfaces and hierarchically organize databases to allow efficient searches. In presence of occlusion, we propose to delete and restore occluded parts. The surface is first represented by radial curves (emanating from the nose tip fo the 3D face). Then a base is built using PCA for each curve. Hence, the missing part of the curve can be restored by projecting the existing part of it on the base. PCA is applied on the tangent space of the mean curve as it is linear space. Once the occlusion was detected and removed, the occlusion challenge can be handled as a missing data problem. Hence, we apply the restoration framework and then apply our radial-curve-based 3D face recognition algorithm

    Calcul statistique sur les variétés de forme pour la l'analyse et la reconnaissance de visage 3D

    No full text
    We propose, in this thesis, a unified Riemannian framework for comparing, deforming, averaging and hierarchically organizing facial surfaces. This framework is applied within the 3D face recognition problem where facial expressions, pose variations, and occlusions are the main challenges of this topic. The facial surfaces are represented by collections of level curves and radial ones. The set of closed curves (level curves) constitute an infinite dimensional sub-manifold and is used to represent the nasal region, the most stable part of the face. The facial surface is represented by an indexed collection of radial curves. In this case, the calculus is simpler and the space of open curves shape is simply the hypersphere of Hilbert space. The comparison in this shape space is done via an "elastic" metric in order to handle non-isometric deformations of facial surfaces. We propose algorithms for computing means and eigenvectors in these nonlinear manifolds and hence algorithms for estimation of missing parts of 3D facial surfaces. Comparison with competitor approaches using a common experimental setting on the FRGCv2, GAVAB, BOSPHORUS databases, shows that our solution is able to obtain, and outperform in some scenarios, the state-of-the-art results.Dans cette thèse, nous proposons un cadre Riemannien pour comparer, déformer, calculer des statistiques et organiser de manière hiérarchique des surfaces faciales. Nous appliquons ce cadre à la biométrie faciale 3D où les défis sont les expressions faciales, les variations de la pose et les occultations du visage par des objets externes. Les surfaces faciales sont repr'esentées par un ensemble de courbes de niveaux et de courbes radiales. L'ensemble des courbes fermées (de niveau) constitue une sous-variété non-linéaire de dimension infinie et est utilisé pour représenter le nez, la partie la plus stable du visage. La surface faciale est présentée, par ailleurs, par une collection indexée de courbes radiales. Dans ce cas, le calcul se simplifie et l'espace des formes des courbes ouvertes se ramène à une hyper sphère de l'espace de Hilbert. La comparaison dans l'espace des formes se fait via une métrique élastique afin de faire face aux d'eformations non-isométriques (ne conservant pas les longueurs) des surfaces faciales. Nous proposons des algorithmes pour calculer les moyennes, les vecteurs propres dans ces variétés non-linéaires et l'estimation des parties manquantes des surfaces faciales 3D. L'approche présentée dans cette thèse a été validée sur des Benchmarks connus (FRGCv2, GAVAB, BOSPHORUS) et obtenu des résultats compétitifs par rapport aux méthodes de l'état de l'art
    • …
    corecore