11 research outputs found

    High Resolution 3D Shape Texture from Multiple Videos

    Get PDF
    International audienceWe examine the problem of retrieving high resolution textures of objects observed in multiple videos under small object deformations. In the monocular case, the data redundancy necessary to reconstruct a high-resolution image stems from temporal accumulation. This has been vastly explored and is known as super-resolution. On the other hand, a handful of methods have considered the texture of a static 3D object observed from several cameras, where the data redundancy is obtained through the different viewpoints. We introduce a unified framework to leverage both possibilities for the estimation of a high resolution texture of an object. This framework uniformly deals with any related geometric variability introduced by the acquisition chain or by the evolution over time. To this goal we use 2D warps for all viewpoints and all temporal frames and a linear projection model from texture to image space. Despite its simplicity, the method is able to successfully handle different views over space and time. As shown experimentally, it demonstrates the interest of temporal information that improves the texture quality. Additionally, we also show that our method outperforms state of the art multi-view super-resolution methods that exist for the static case

    Leveraging 2D data to learn textured 3D mesh generation

    Get PDF
    Numerous methods have been proposed for probabilistic generative modelling of 3D objects. However, none of these is able to produce textured objects, which renders them of limited use for practical tasks. In this work, we present the first generative model of textured 3D meshes. Training such a model would traditionally require a large dataset of textured meshes, but unfortunately, existing datasets of meshes lack detailed textures. We instead propose a new training methodology that allows learning from collections of 2D images without any 3D information. To do so, we train our model to explain a distribution of images by modelling each image as a 3D foreground object placed in front of a 2D background. Thus, it learns to generate meshes that when rendered, produce images similar to those in its training set. A well-known problem when generating meshes with deep networks is the emergence of self-intersections, which are problematic for many use-cases. As a second contribution we therefore introduce a new generation process for 3D meshes that guarantees no self-intersections arise, based on the physical intuition that faces should push one another out of the way as they move. We conduct extensive experiments on our approach, reporting quantitative and qualitative results on both synthetic data and natural images. These show our method successfully learns to generate plausible and diverse textured 3D samples for five challenging object classes

    Learned Multi-View Texture Super-Resolution

    Full text link
    We present a super-resolution method capable of creating a high-resolution texture map for a virtual 3D object from a set of lower-resolution images of that object. Our architecture unifies the concepts of (i) multi-view super-resolution based on the redundancy of overlapping views and (ii) single-view super-resolution based on a learned prior of high-resolution (HR) image structure. The principle of multi-view super-resolution is to invert the image formation process and recover the latent HR texture from multiple lower-resolution projections. We map that inverse problem into a block of suitably designed neural network layers, and combine it with a standard encoder-decoder network for learned single-image super-resolution. Wiring the image formation model into the network avoids having to learn perspective mapping from textures to images, and elegantly handles a varying number of input views. Experiments demonstrate that the combination of multi-view observations and learned prior yields improved texture maps.Comment: 11 pages, 5 figures, 2019 International Conference on 3D Vision (3DV

    Localization of Point Sources for Systems Governed by the Wave Equation

    Get PDF
    Analytic sensing has recently been proposed for source localization from boundary measurements using a generalization of the finite-rate-of-innovation framework. The method is tailored to the quasi-static electromagnetic approximation, which is commonly used in electroencephalography. In this work, we extend analytic sensing for physical systems that are governed by the wave equation; i.e., the sources emit signals that travel as waves through the volume and that are measured at the boundary over time. This source localization problem is highly ill-posed (i.e., the unicity of the source distribution is not guaranteed) and additional assumptions about the sources are needed. We assume that the sources can be described with finite number of parameters, particularly, we consider point sources that are characterized by their position and strength. This assumption makes the solution unique and turns the problem into parametric estimation. Following the framework of analytic sensing, we propose a two-step method. In the first step, we extend the reciprocity gap functional concept to wave-equation based test functions; i.e., well-chosen test functions can relate the boundary measurements to generalized measure that contain volumetric information about the sources within the domain. In the second step-again due to the choice of the test functions-we can apply the finite-rate-of-innovation principle; i.e., the generalized samples can be annihilated by a known filter, thus turning the non-linear source localization problem into an equivalent root-finding one. We demonstrate the feasibility of our technique for a 3-D spherical geometry. The performance of the reconstruction algorithm is evaluated in the presence of noise and compared with the theoretical limit given by Cramer-Rao lower bounds

    Modélisation de l'apparence des représentations 4D

    Get PDF
    Ces dernières années ont vu l'émergence de la capture des modèles spatio-temporels (modélisation 4D) à partir d'images réelles, avec de nombreuses applications dans les domaines de post-production pour le cinéma, la science des sports, les études sociales, le divertissement, l'industrie de la publicité. A partir de plusieurs séquences vidéos, enregistrées à partir de points de vue variés, la modélisation 4D à partir de vidéos utilise des modèles spatio-temporels pour extraire des informations sur la géométrie et l'apparence de scènes réelles, permettant de les enregistrer et de les reproduire. Cette thèse traite du problème de la modélisation d'apparence.La disponibilité des donnée d'images offre de grands potentiels pour les reconstructions haute fidélité, mais nécessite des méthodes plus élaborées. En outre, les applications du monde réel nécessitent des rendus rapides et des flux réduits de données. Mais l'obtention de représentations d'apparence compactes, indépendantes du point de vue, et à grande résolution est toujours un problème ouvert.Pour obtenir ces caractéristiques, nous exprimons l'information visuelle de l'objet capturé dans un espace de texture commun. Les observations multi-caméra sont considérées comme des réalisations de l'apparence commune et un modèle linéaire est introduit pour matérialiser cette relation. Le modèle linéaire d'apparence proposé permet une première étude du problème de l'estimation d'apparence dans le cas multi-vue et expose les sources variées de bruit et les limitations intrinsèques du modèle.Basé sur ces observations, et afin d'exploiter l'information visuelle de la manière la plus efficace, nous améliorons la méthode en y intégrant un modèle de super-résolution 2D. Le modèle simule le procédé de capture d'image avec une concaténation d'opérations linéaires, générant les observation d'image des différents points de vue et permettant d'exploiter la redondance. Le problème de super-résolution multi-vue résultant est résolu par inférence bayésienne et une représentation haute-résolution d'apparence est fournie permettant de reproduire la texture de l'objet capturé avec grand détail.La composante temporelle est intégrée par la suite au modèle pour permettre d'y recouper l'information visuelle commune sous-jacente. En considérant des petits intervalles de temps ou l'apparence de l'objet ne change pas drastiquement, une représentation super-résolue cohérente temporellement est introduite. Elle explique l'ensemble des images de l'objet capturé dans cet intervalle. Grâce à l'inférence statistique Bayésienne, l'apparence construite permet des rendus avec une grande précision à partir de point de vue nouveau et à des instants différent dans l'intervalle de temps prédéfini.Pour améliorer l'estimation d'apparence d'avantage, l'inter-dépendance de la géométrie et de la photométrie est étudiée et exploitée. Les modélisations de la géométrie et de l'apparence sont unifiées dans le framework de super-résolution permettant une amélioration géométrique globale, ce qui donne à son tour une amélioration importante de l'apparence.Finalement pour encoder la variabilité de l'apparence dynamique des objets subissant plusieurs mouvements, une représentation indépendante du point de vue s'appuyant sur l'analyse en composantes principales est introduite. Cette représentation décompose la variabilité sous-jacente d'apparence en texture propres et déformations propres. La méthode proposée permet de reproduire les apparences de manière précise avec des représentation compactes. Il permet également l'interpolation et la complétion des apparences.Cette étude montre que la représentation compacte, indépendante du point de vue, et super-résolue proposée permet de confronter les nouvelles réalités du problème de modélisation d'apparence. Elle représente un contribution vers des représentations d'apparence 4D haute-qualité et ouvre de nouvelles directions de recherche dans ce domaine.Capturing spatio-temporal models (4D modelling) from real world imagery has received a growing interest during the last years urged by the increasing demands of real-world applications and the tremendous amount of easily accessible image data. The general objective is to produce realistic representations of the world from captured video sequences. Although geometric modelling has already reached a high level of maturity, the appearance aspect has not been fully explored. The current thesis addresses the problem of appearance modelling for realistic spatio-temporal representations. We propose a view-independent, high resolution appearance representation that successfully encodes the high visual variability of objects under various movements.First, we introduce a common appearance space to express all the available visual information from the captured images. In this space we define the representation of the global appearance of the subject. We then introduce a linear image formation model to simulate the capturing process and to express the multi-camera observations as different realizations of the common appearance. Identifying that the principle of Super-Resolution technique governs also our multi-view scenario, we extend the image generative model to accommodate it. In our work, we use Bayesian inference to solve for the super-resolved common appearance.Second, we propose a temporally coherent appearance representation. We extend the image formation model to generateimages of the subject captured in a small time interval. Our starting point is the observation thatthe appearance of the subject does not change dramatically in a predefined small time interval and the visual information from each view and each frame corresponds to the same appearance representation.We use Bayesian inference to exploit the visual redundant as well as the hidden non-redundant information across time, in order to obtain an appearance representation with fine details.Third, we leverage the interdependency of geometry and photometry and use it toestimate appearance and geometry in a joint manner. We show that by jointly estimating both, we are able to enhance the geometry globally that in turn leads to a significant appearance improvement.Finally, to further encode the dynamic appearance variability of objects that undergo several movements, we cast the appearance modelling as a dimensionality reduction problem. We propose a view-independent representation which builds on PCA and decomposesthe underlying appearance variability into Eigen textures and Eigen warps. The proposed framework is shown to accurately reproduce appearances with compact representations and to resolve appearance interpolation and completion tasks

    Modélisation de l'apparence des représentations 4D

    No full text
    Capturing spatio-temporal models (4D modelling) from real world imagery has received a growing interest during the last years urged by the increasing demands of real-world applications and the tremendous amount of easily accessible image data. The general objective is to produce realistic representations of the world from captured video sequences. Although geometric modelling has already reached a high level of maturity, the appearance aspect has not been fully explored. The current thesis addresses the problem of appearance modelling for realistic spatio-temporal representations. We propose a view-independent, high resolution appearance representation that successfully encodes the high visual variability of objects under various movements.First, we introduce a common appearance space to express all the available visual information from the captured images. In this space we define the representation of the global appearance of the subject. We then introduce a linear image formation model to simulate the capturing process and to express the multi-camera observations as different realizations of the common appearance. Identifying that the principle of Super-Resolution technique governs also our multi-view scenario, we extend the image generative model to accommodate it. In our work, we use Bayesian inference to solve for the super-resolved common appearance.Second, we propose a temporally coherent appearance representation. We extend the image formation model to generateimages of the subject captured in a small time interval. Our starting point is the observation thatthe appearance of the subject does not change dramatically in a predefined small time interval and the visual information from each view and each frame corresponds to the same appearance representation.We use Bayesian inference to exploit the visual redundant as well as the hidden non-redundant information across time, in order to obtain an appearance representation with fine details.Third, we leverage the interdependency of geometry and photometry and use it toestimate appearance and geometry in a joint manner. We show that by jointly estimating both, we are able to enhance the geometry globally that in turn leads to a significant appearance improvement.Finally, to further encode the dynamic appearance variability of objects that undergo several movements, we cast the appearance modelling as a dimensionality reduction problem. We propose a view-independent representation which builds on PCA and decomposesthe underlying appearance variability into Eigen textures and Eigen warps. The proposed framework is shown to accurately reproduce appearances with compact representations and to resolve appearance interpolation and completion tasks.Ces dernières années ont vu l'émergence de la capture des modèles spatio-temporels (modélisation 4D) à partir d'images réelles, avec de nombreuses applications dans les domaines de post-production pour le cinéma, la science des sports, les études sociales, le divertissement, l'industrie de la publicité. A partir de plusieurs séquences vidéos, enregistrées à partir de points de vue variés, la modélisation 4D à partir de vidéos utilise des modèles spatio-temporels pour extraire des informations sur la géométrie et l'apparence de scènes réelles, permettant de les enregistrer et de les reproduire. Cette thèse traite du problème de la modélisation d'apparence.La disponibilité des donnée d'images offre de grands potentiels pour les reconstructions haute fidélité, mais nécessite des méthodes plus élaborées. En outre, les applications du monde réel nécessitent des rendus rapides et des flux réduits de données. Mais l'obtention de représentations d'apparence compactes, indépendantes du point de vue, et à grande résolution est toujours un problème ouvert.Pour obtenir ces caractéristiques, nous exprimons l'information visuelle de l'objet capturé dans un espace de texture commun. Les observations multi-caméra sont considérées comme des réalisations de l'apparence commune et un modèle linéaire est introduit pour matérialiser cette relation. Le modèle linéaire d'apparence proposé permet une première étude du problème de l'estimation d'apparence dans le cas multi-vue et expose les sources variées de bruit et les limitations intrinsèques du modèle.Basé sur ces observations, et afin d'exploiter l'information visuelle de la manière la plus efficace, nous améliorons la méthode en y intégrant un modèle de super-résolution 2D. Le modèle simule le procédé de capture d'image avec une concaténation d'opérations linéaires, générant les observation d'image des différents points de vue et permettant d'exploiter la redondance. Le problème de super-résolution multi-vue résultant est résolu par inférence bayésienne et une représentation haute-résolution d'apparence est fournie permettant de reproduire la texture de l'objet capturé avec grand détail.La composante temporelle est intégrée par la suite au modèle pour permettre d'y recouper l'information visuelle commune sous-jacente. En considérant des petits intervalles de temps ou l'apparence de l'objet ne change pas drastiquement, une représentation super-résolue cohérente temporellement est introduite. Elle explique l'ensemble des images de l'objet capturé dans cet intervalle. Grâce à l'inférence statistique Bayésienne, l'apparence construite permet des rendus avec une grande précision à partir de point de vue nouveau et à des instants différent dans l'intervalle de temps prédéfini.Pour améliorer l'estimation d'apparence d'avantage, l'inter-dépendance de la géométrie et de la photométrie est étudiée et exploitée. Les modélisations de la géométrie et de l'apparence sont unifiées dans le framework de super-résolution permettant une amélioration géométrique globale, ce qui donne à son tour une amélioration importante de l'apparence.Finalement pour encoder la variabilité de l'apparence dynamique des objets subissant plusieurs mouvements, une représentation indépendante du point de vue s'appuyant sur l'analyse en composantes principales est introduite. Cette représentation décompose la variabilité sous-jacente d'apparence en texture propres et déformations propres. La méthode proposée permet de reproduire les apparences de manière précise avec des représentation compactes. Il permet également l'interpolation et la complétion des apparences.Cette étude montre que la représentation compacte, indépendante du point de vue, et super-résolue proposée permet de confronter les nouvelles réalités du problème de modélisation d'apparence. Elle représente un contribution vers des représentations d'apparence 4D haute-qualité et ouvre de nouvelles directions de recherche dans ce domaine

    Human Motion Analysis via Statistical Motion Processing and Sequential Change Detection

    No full text
    The widespread use of digital multimedia in applications such as security, surveillance and the semantic web, has made the automated characterization of human activity necessary. In this work, a method for the characterization of multiple human activities based on statistical processing of the video data is presented. First the active pixels of the video are detected, resulting in a binary mask called the Activity Area. Sequential change detection is then applied to the data examined in order to detect at which time instants there are changes in the activity taking place. This leads to the separation of the video sequence into segments with different activities. The change times are examined for periodicity or repetitiveness in the human actions. The Activity Areas and their temporal weighted versions, the Activity History Areas, for the extracted subsequences are used for activity recognition. Experiments with a wide range of indoors and outdoors videos of various human motions, including challenging videos with dynamic backgrounds, demonstrate the proposed system’s good performance. I
    corecore