5 research outputs found

    Practical video denoising and demosaicing with neural networks

    No full text
    Image denoising is a fundamental task in image processing. The goal of denoising is to recover the underlying signal. Several methods have been proposed. They can be classified in 2: the model-based approaches and the data-driven methods. Model-based methods need a model of the signal and noise. These approaches could be adapted to handle other noise types but this has revealed to be a tedious task since we potentially need to redesign the initial algorithms. On the other hand, the learning-based approaches have many advantages. First, even if they are trained for a specific noise, a same neural network architecture could be trained to handle any noise type. Second, they have advanced significantly the state of the art. For this reasons we are interested in the case of data-driven denoising methods. The standard approach is to use CNN, trained under supervision. A dataset of clean/noisy pairs is needed. However, acquiring a dataset of real images or videos with clean data is a difficult. For the case of images, it is possible to circumvent this by generating a pseudo noiseless image by aggregating numerous noisy frames or equivalently increasing the exposure time for instance. However, those tricks are no longer conceivable for the case of videos.Self-supervised techniques (which do not rely on the supervision of a clean data) have been proposed for image denoising.Although these methods achieve worst results that their supervised counterparts, they proved to be competitive.This means that self-supervised approaches are suitable candidates for video denoising.In this thesis, we propose the first self-supervised method for training multi-frame video denoising networks.This framework, called MF2F, can be used to adapt any denoising neural network to a large family of noise types. This effectively results in a blind denoising method. MF2F relies on a self-supervised fine-tuning of a pre-trained denoising network. For several synthetic noise types, a network fine-tuned with this proposed approach competes with the noise-specific network trained under supervision. On real noisy videos, it has given very promising results, setting the state of the art at the moment of the publication.For now, two observations can be done: (1) CNNs can be trained with two training techniques which are supervised and self-supervised learning, the latter being dominated by the former (at least on synthetic data) and (2) the self-supervised technique MF2F achieves auspicious results on real data. From those two statements, the natural question is to determine which one should be used to trained a denoising network when dealing with real data. In the second part of the thesis, we focus on answering this question and we describe the study we did to compare both approaches as well as the obtained results.After denoising, demosaicing is also a very important step in the acquisition of an RGB image. Traditionally, denoising is done before demosaicing, but there are some papers claiming that it is beneficial to operate demosaicing before. The best is even to operate both operations together in the same time. Joint denoising and demosaicing (JDD) methods have been proposed for image denoising. Still, the case of videos has been far much less studied. While the two first parts of the thesis focus on training network for practical use cases, this third part is devoted to the architecture. Starting from the promising results on real raw videos obtained with the framework MF2F, we examine different architectures for video JDD, evaluating the impact of aspects such as motion compensation and recurrent/non-recurrent approaches. The best results were obtained by a simple recurrent CNN with a multi-scale architecture, hopefully setting a baseline for future research in the subject.Both the multi-scale and recurrent CNN are not novel, yet this is the only method at this time that operates joint denoising and demosaicing for videos.Depuis l’ère de la photographie numérique,le débruitage est devenu une tâche fondamentale du traitement d’images. Il y a deux catégories de méthodes de débruitage : les méthodes traditionnelles basées sur des modélisations et celles basées sur l’apprentissage d’un réseau de neurones. Les méthodes traditionnelles requièrent un modèle explicite du bruit.Inversement les méthodes basées sur l’apprentissage peuvent être entraînées pour n’importe quel type de bruit et sont très performantes.Nous nous intéressons au cas des méthodes de débruitage basées sur l’apprentissage. L’approche traditionnelle consiste à utiliser des réseaux de neurones convolutionnels entraînés sous supervision. Les récentes techniques auto-supervisées atteignent des résultats légèrement inférieurs mais tout de même compétitifs avec ceux obtenus par les approches supervisées et ne s’appuient pas sur la supervision d’une vérité-terrain. Elles sont de bonnes candidates pour le débruitage de vidéos réelles. Nous proposons la première méthode auto-supervisée pour entraîner des réseaux de neurones de débruitage vidéo. Cette méthode,appelée MF2F peut être utilisée pour adapter n’importe quel réseau de neurones de débruitage pour débruiter une grande collection de types de bruit.MF2F repose sur un ajustage fin des paramètres d’un réseau de neurones de débruitage initialement pré-entraîné. Sur des vidéos bruitées à bruit réel,elle a donné des résultats extrêmement prometteurs puisqu’elle était devenue le nouvel état de l’art au moment de la publication.À ce stade, nous pouvons faire deux observations : (1) Les CNNs peuvent être entraînés avec les entraînements supervisés et auto-supervisés. Le dernier est dominé par le premier et (2) les expériences menées avec notre méthode auto-supervisée MF2F montrent que cette dernière est très propice au débruitage de données réelles. Partant de ces deux constatations,quelle technique devons-nous utiliser pour entraîner unréseau de débruitage afin de débruiter des vidéos à bruit réel? Nous répondons à cette question dans la deuxièmepartie de la thèse.Avec le débruitage, le dématriçage est une autre étape très importante de l’acquisition d’une image RGB. Ellessont traditionnellement effectuées séparément mais lemieux serait d’effectuer ces deux opérations en mêmetemps. Dans la troisième partie de la thèse, nous considérons différentes architectures conduisant à la première méthode traitant le problème de débruitage et dématriçage conjoint pour vidéo

    Auto-supervision versus base de données synthétiques : quel est le moindre mal dans le cadre du débruitage vidéo ?

    No full text
    International audienceSupervised training has led to state-of-the-art results in image and video denoising. However, its application to real data is limited since it requires large datasets of noisy-clean pairs that are difficult to obtain. For this reason, networks are often trained on realistic synthetic data. More recently, some self-supervised frameworks have been proposed for training such denoising networks directly on the noisy data without requiring ground truth. On synthetic denoising problems supervised training outperforms self-supervised approaches, however in recent years the gap has become narrower, especially for video. In this paper, we propose a study aiming to determine which is the best approach to train denoising networks for real raw videos: supervision on synthetic realistic data or self-supervision on real data. A complete study with quantitative results in case of natural videos with real motion is impossible since no dataset with clean-noisy pairs exists. We address this issue by considering three independent experiments in which we compare the two frameworks. We found that self-supervision on the real data outperforms supervision on synthetic data, and that in normal illumination conditions the drop in performance is due to the synthetic ground truth generation, not the noise model.L'entraînement supervisé a conduit à l'état de l'art en débruitage d'images et de vidéos. Cependant, son application aux données réelles est limitée car il nécessite de grandes bases de données formées de paires donnée bruitée / donnée vérité-terrain et celles-ci sont difficiles à obtenir. Pour cette raison, les réseaux de neurones sont souvent entraînés sur des données certes réalistes mais synthétiques. Plus récemment, des entraînements auto-supervisés ont été proposés pour entraîner de tels réseaux de débruitage directement sur les données bruitées et sans nécessiter de vérités-terrain. Pour le problème de débruitage sur des données synthétiques, les entraînements supervisés conduisent à de meilleurs résultats que les entraînements auto-supervisés, toutefois depuis quelques temps l'écart entre les deux approches s'est réduit, et plus particulièrement dans le cas des vidéos. Dans cet article, nous proposons une étude visant à déterminer quelle approches est la plus adaptée pour l'entraînement de réseaux de débruitage de données brutes réelles : la supervision sur des bases de données synthétiques ou l'auto-supervision sur les données réelles. Une étude complète avec des résultats quantitatif dans le cas de vidéos naturelles avec mouvement réel est impossible car aucune base de données avec des paires de données bruitée / vérité-terrain n'existe. Nous contournons ce problème en considérant trois expériences indépendantes dans lesquelles nous comparons les deux approches. Nous avons trouvé que l'auto-supervision sur des données réelles conduit à de meilleurs résultats que la supervision sur des données synthétiques et que dans des conditions normales d'illumination, la baisse de performance est due à la synthèse des vérités-terrain synthétiques et non au modèle de bruit

    Entraînement auto-supervisé pour débruitage aveuble de video

    No full text
    International audienceWe propose a self-supervised approach for training multi-frame video denoising networks. These networks predict each frame from a stack of frames around it. Our selfsupervised approach benefits from the temporal consistency in the video by minimizing a loss that penalizes the difference between the predicted frame and a neighboring one, after aligning them using an optical flow. We use the proposed strategy to denoise a video contaminated with an unknown noise type, by fine-tuning a pre-trained denoising network on the noisy video. The proposed fine-tuning reaches and sometimes surpasses the performance of stateof-the-art networks trained with supervision. We demonstrate this by showing extensive results on video blind denoising of different synthetic and real noises. In addition, the proposed fine-tuning can be applied to any parameter that controls the denoising performance of the network. We show how this can be expoited to perform joint denoising and noise level estimation for heteroscedastic noise.Nous proposons une approche auto-supervisée pour l'entraînement fin de réseaux de neurones de débruitages de vidéo. Ces réseaux de neurones prédisent chaque image à partir d'un ensemble d'images proches temporellement. Notre approche auto-supervisée bénéficie de la consistance temporelle au sein d'une vidéo en minimisant une fonction de perte qui pénalise la différence entre l'estimation débruitée de l'image au temps t et une image voisine (temporellement), après les avoir alignés en utilisant un flot optique. Nous utilisons cette stratégie pour débruiter une vidéo bruitée avec un bruit inconnu, en appliquant un entraînement fin aux poids d'un réseau préalablement entraîné de manière supervisée. Nous le montrons par plusieurs résultats de débruitages vidéo à l'aveugle avec différentes réalisations de bruit synthétique et de bruit réel. En outre, l'entraînement fin ici proposé peut être appliqué à n'importe quel paramètre contrôlant les perfomances de débruitage du réseau. Nous montrons comment ceci peut-être exploité pour réaliser conjointement le débruitage et l'estimation du niveau de bruit dans le cas de bruit hétéroscédastique

    Débruitage et dématriçage conjoint de vidéo avec des réseaux de neurones convolutifs et récurrents

    No full text
    International audienceDenoising and demosaicing are two critical components of the image/video processing pipeline. While historically these two tasks have mainly been considered separately, current neural network approaches allow to obtain state of-the-art results by treating them jointly. However, most existing research focuses in single image or burst joint denoising and demosaicing (JDD). Although related to burst JDD, video JDD deserves its own treatment. In this work we present an empirical exploration of different design aspects of video joint denoising and demosaicing using neural networks. We compare recurrent and non-recurrent approaches and explore aspects such as type of propagated information in recurrent networks, motion compensation, video stabilization, and network architecture. We found that recurrent networks with motion compensation achieve best results. Our work should serve as a strong baseline for future research in video JDD.Le débruitage et le dématriçage sont deux composantes importantes de la chaîne de traitement des images et des vidéos. Tandis que traditionnellement, ces deux tâches ont largement été appliquées séparément, les approches actuelles basées sur les réseaux de neurones permettent d'atteindre des résultats état de l'art en les traitant conjointement. Cependant, la plupart des recherches en débruitage et dématriçage conjoint (DDC) ne considèrent uniquement que le cas des images ou alors des séries d'images. Bien que lié au DDC de série d'image, le DDC de vidéos mérite son propre traitement. Dans cet article, nous présentons une exploration empirique de différentes conceptions de débruitage et dématriçage conjoint de vidéos en utilisant des réseaux de neurones. Nous y comparons les approches récurrentes et non récurrentes et nous explorons différents aspects tels que le type d'information à propager dans un réseau récurrent, la compensation de mouvement, la stabilization du mouvement des vidéos et l'architecture des réseaux. Nous avons trouvé que les meilleurs résultats sont atteints avec des réseaux récurrents avec compensation du mouvement. Notre travail servira de référence solide pour les futurs travaux en débruitage et dématriçage conjoint de vidéos

    Débruitage et dématriçage conjoint de vidéo avec des réseaux de neurones convolutifs et récurrents

    No full text
    International audienceDenoising and demosaicing are two critical components of the image/video processing pipeline. While historically these two tasks have mainly been considered separately, current neural network approaches allow to obtain state of-the-art results by treating them jointly. However, most existing research focuses in single image or burst joint denoising and demosaicing (JDD). Although related to burst JDD, video JDD deserves its own treatment. In this work we present an empirical exploration of different design aspects of video joint denoising and demosaicing using neural networks. We compare recurrent and non-recurrent approaches and explore aspects such as type of propagated information in recurrent networks, motion compensation, video stabilization, and network architecture. We found that recurrent networks with motion compensation achieve best results. Our work should serve as a strong baseline for future research in video JDD.Le débruitage et le dématriçage sont deux composantes importantes de la chaîne de traitement des images et des vidéos. Tandis que traditionnellement, ces deux tâches ont largement été appliquées séparément, les approches actuelles basées sur les réseaux de neurones permettent d'atteindre des résultats état de l'art en les traitant conjointement. Cependant, la plupart des recherches en débruitage et dématriçage conjoint (DDC) ne considèrent uniquement que le cas des images ou alors des séries d'images. Bien que lié au DDC de série d'image, le DDC de vidéos mérite son propre traitement. Dans cet article, nous présentons une exploration empirique de différentes conceptions de débruitage et dématriçage conjoint de vidéos en utilisant des réseaux de neurones. Nous y comparons les approches récurrentes et non récurrentes et nous explorons différents aspects tels que le type d'information à propager dans un réseau récurrent, la compensation de mouvement, la stabilization du mouvement des vidéos et l'architecture des réseaux. Nous avons trouvé que les meilleurs résultats sont atteints avec des réseaux récurrents avec compensation du mouvement. Notre travail servira de référence solide pour les futurs travaux en débruitage et dématriçage conjoint de vidéos
    corecore