12 research outputs found

    Multi-player games in the era of machine learning

    Full text link
    Parmi tous les jeux de sociĂ©tĂ© jouĂ©s par les humains au cours de l’histoire, le jeu de go Ă©tait considĂ©rĂ© comme l’un des plus difficiles Ă  maĂźtriser par un programme informatique [Van Den Herik et al., 2002]; Jusqu’à ce que ce ne soit plus le cas [Silveret al., 2016]. Cette percĂ©e rĂ©volutionnaire [MĂŒller, 2002, Van Den Herik et al., 2002] fĂ»t le fruit d’une combinaison sophistiquĂ©e de Recherche arborescente Monte-Carlo et de techniques d’apprentissage automatique pour Ă©valuer les positions du jeu, mettant en lumiĂšre le grand potentiel de l’apprentissage automatique pour rĂ©soudre des jeux. L’apprentissage antagoniste, un cas particulier de l’optimisation multiobjective, est un outil de plus en plus utile dans l’apprentissage automatique. Par exemple, les jeux Ă  deux joueurs et Ă  somme nulle sont importants dans le domain des rĂ©seaux gĂ©nĂ©ratifs antagonistes [Goodfellow et al., 2014] ainsi que pour maĂźtriser des jeux comme le Go ou le Poker en s’entraĂźnant contre lui-mĂȘme [Silver et al., 2017, Brown andSandholm, 2017]. Un rĂ©sultat classique de la thĂ©orie des jeux indique que les jeux convexes-concaves ont toujours un Ă©quilibre [Neumann, 1928]. Étonnamment, les praticiens en apprentissage automatique entrainent avec succĂšs une seule paire de rĂ©seaux de neurones dont l’objectif est un problĂšme de minimax non-convexe et non-concave alors que pour une telle fonction de gain, l’existence d’un Ă©quilibre de Nash n’est pas garantie en gĂ©nĂ©ral. Ce travail est une tentative d'Ă©tablir une solide base thĂ©orique pour l’apprentissage dans les jeux. La premiĂšre contribution explore le thĂ©orĂšme minimax pour une classe particuliĂšre de jeux non-convexes et non-concaves qui englobe les rĂ©seaux gĂ©nĂ©ratifs antagonistes. Cette classe correspond Ă  un ensemble de jeux Ă  deux joueurs et a somme nulle jouĂ©s avec des rĂ©seaux de neurones. Les deuxiĂšme et troisiĂšme contributions Ă©tudient l’optimisation des problĂšmes minimax, et plus gĂ©nĂ©ralement, les inĂ©galitĂ©s variationnelles dans le cadre de l’apprentissage automatique. Bien que la mĂ©thode standard de descente de gradient ne parvienne pas Ă  converger vers l’équilibre de Nash de jeux convexes-concaves simples, il existe des moyens d’utiliser des gradients pour obtenir des mĂ©thodes qui convergent. Nous Ă©tudierons plusieurs techniques telles que l’extrapolation, la moyenne et la quantitĂ© de mouvement Ă  paramĂštre nĂ©gatif. La quatriĂšme contribution fournit une Ă©tude empirique du comportement pratique des rĂ©seaux gĂ©nĂ©ratifs antagonistes. Dans les deuxiĂšme et troisiĂšme contributions, nous diagnostiquons que la mĂ©thode du gradient Ă©choue lorsque le champ de vecteur du jeu est fortement rotatif. Cependant, une telle situation peut dĂ©crire un pire des cas qui ne se produit pas dans la pratique. Nous fournissons de nouveaux outils de visualisation afin d’évaluer si nous pouvons dĂ©tecter des rotations dans comportement pratique des rĂ©seaux gĂ©nĂ©ratifs antagonistes.Among all the historical board games played by humans, the game of go was considered one of the most difficult to master by a computer program [Van Den Heriket al., 2002]; Until it was not [Silver et al., 2016]. This odds-breaking break-through [MĂŒller, 2002, Van Den Herik et al., 2002] came from a sophisticated combination of Monte Carlo tree search and machine learning techniques to evaluate positions, shedding light upon the high potential of machine learning to solve games. Adversarial training, a special case of multiobjective optimization, is an increasingly useful tool in machine learning. For example, two-player zero-sum games are important for generative modeling (GANs) [Goodfellow et al., 2014] and mastering games like Go or Poker via self-play [Silver et al., 2017, Brown and Sandholm,2017]. A classic result in Game Theory states that convex-concave games always have an equilibrium [Neumann, 1928]. Surprisingly, machine learning practitioners successfully train a single pair of neural networks whose objective is a nonconvex-nonconcave minimax problem while for such a payoff function, the existence of a Nash equilibrium is not guaranteed in general. This work is an attempt to put learning in games on a firm theoretical foundation. The first contribution explores minimax theorems for a particular class of nonconvex-nonconcave games that encompasses generative adversarial networks. The proposed result is an approximate minimax theorem for two-player zero-sum games played with neural networks, including WGAN, StarCrat II, and Blotto game. Our findings rely on the fact that despite being nonconcave-nonconvex with respect to the neural networks parameters, the payoff of these games are concave-convex with respect to the actual functions (or distributions) parametrized by these neural networks. The second and third contributions study the optimization of minimax problems, and more generally, variational inequalities in the context of machine learning. While the standard gradient descent-ascent method fails to converge to the Nash equilibrium of simple convex-concave games, there exist ways to use gradients to obtain methods that converge. We investigate several techniques such as extrapolation, averaging and negative momentum. We explore these techniques experimentally by proposing a state-of-the-art (at the time of publication) optimizer for GANs called ExtraAdam. We also prove new convergence results for Extrapolation from the past, originally proposed by Popov [1980], as well as for gradient method with negative momentum. The fourth contribution provides an empirical study of the practical landscape of GANs. In the second and third contributions, we diagnose that the gradient method breaks when the game’s vector field is highly rotational. However, such a situation may describe a worst-case that does not occur in practice. We provide new visualization tools in order to exhibit rotations in practical GAN landscapes. In this contribution, we show empirically that the training of GANs exhibits significant rotations around Local Stable Stationary Points (LSSP), and we provide empirical evidence that GAN training converges to a stable stationary point, which is a saddle point for the generator loss, not a minimum, while still achieving excellent performance

    Injection de style par blanchissage et coloration dans un réseau génératif profond

    Get PDF
    Dans la gĂ©nĂ©ration et la manipulation d'images basĂ©es sur les GANs, l'injection de style par Adaptive Instance Normalization (AdaIN) est devenue la norme pour paramĂ©trer la gĂ©nĂ©ration avec une reprĂ©sentation latente du domaine des images. AdaIN fonctionne en modulant les statistiques des caractĂ©ristiques de l'image : il normalise d'abord les caractĂ©ristiques en soustrayant leur moyenne et en divisant par leur Ă©cart type puis injecte un vecteur de style par l'inverse de cette opĂ©ration. Bien que cette mĂ©thode ait Ă©tĂ© utilisĂ©e avec succĂšs dans une variĂ©tĂ© de scĂ©narios de traduction d'image Ă  image, la reprĂ©sentation statistique d'AdaIN est limitĂ©e en ce qu'elle ne tient pas compte des corrĂ©lations entre les caractĂ©ristiques. Cependant, dans la littĂ©rature du transfert de style, la transformation par blanchiment et coloration (Whitening & Coloring Transformation WCT) est devenue l'approche privilĂ©giĂ©e, car elle prend compte de l'existence de ces corrĂ©lations. Toutefois, malgrĂ© ses bonnes performances en matiĂšre de transfert de style, l'utilisation du WCT n'a jusqu'Ă  prĂ©sent pas Ă©tĂ© explorĂ©e de maniĂšre approfondie dans le contexte de l'injection de style. Dans ce travail, nous comblons cette lacune en remplaçant AdaIN par une opĂ©ration de WCT explicite pour l'injection de style dans les GAN. Plus prĂ©cisĂ©ment, nous introduisons un module qui peut ĂȘtre utilisĂ© en remplacement des blocs AdaIN (sans changement additionnel) dans les architectures GAN populaires existantes et prĂ©sentons son impact sur les tĂąches de gĂ©nĂ©ration. Effectivement, dans la gĂ©nĂ©ration d'images conditionnelles, oĂč l'espace latent est destinĂ© Ă  reprĂ©senter le style des images, nous constatons que le blanchiment aide Ă  s'assurer que l'espace n'encode que des informations stylistiques, ce qui permet au contenu de l'image conditionnelle d'ĂȘtre plus visible. Nous dĂ©montrons les performances de notre mĂ©thode dans deux scĂ©narios : 1) dans un context d'entraĂźnement supervisĂ© Ă  l'aide du jeu de donnĂ©es Google Maps et 2) en ayant recours Ă  l'architecture StarGANv2 multi-domaine et multi-modale dans une situation d'entraĂźnement non-supervisĂ© et ce en utilisant le jeu de donnĂ©es Animal Faces-HQ (AFHQ).In the GAN-based images generation and manipulation domain, style injection by Adaptive Instance Normalization (AdaIN) has become the standard method to allow the generation with a latent representation of the image domain. AdaIN works by modulating the statistics of the characteristics of the image: it first normalizes the characteristics by subtracting their mean and dividing by their standard deviation then it injects a style vector by the reverse of this operation. Although this method has been used successfully in a variety of image-to-image translation scenarios, the statistical representation of AdaIN is limited in that it does not take into account the existing correlations between the features. However, in the style transfer literature, the transformation by whitening and coloring (Whitening & Coloring Transformation WCT) has become the preferred approach because it takes into account the existence of these correlations. Yet, despite its good performance in terms of style transfer, the use of WCT has so far not been explored in depth in the style injection literature. In this work, we fill this gap by replacing AdaIN by an explicit operation of WCT for style injection in GAN. More specifically, we introduce a module that can be used as a replacement for the AdaIN blocks (without any additional change) in the existing popular GAN architectures and we present its impact on generation tasks. Indeed, in the conditional image generation task, where the latent space is intended to represent the style of the images, we find that whitening helps ensure that the space encodes only stylistic information which allows the content of the input image to be more visible. We demonstrate the performance of our method in two scenarios: 1) in a supervised training context using the Google Maps dataset and 2) using multi-domain and multi-modal StarGANv2 architecture in an unsupervised training setup using the Animal Faces-HQ (AFHQ) dataset

    Contributions au traitement des images multivariées

    Get PDF
    Ce mĂ©moire rĂ©sume mon activitĂ© pĂ©dagogique et scientifique en vue de l’obtention de l’habilitation Ă  diriger des recherches

    Estimation de posture 3D à partir de données imprécises et incomplÚtes : application à l'analyse d'activité d'opérateurs humains dans un centre de tri

    Get PDF
    Dans un contexte d’étude de la pĂ©nibilitĂ© et de l’ergonomie au travail pour la prĂ©vention des troubles musculo-squelettiques, la sociĂ©tĂ© Ebhys cherche Ă  dĂ©velopper un outil d’analyse de l’activitĂ© des opĂ©rateurs humains dans un centre de tri, par l’évaluation d’indicateurs ergonomiques. Pour faire face Ă  l’environnement non contrĂŽlĂ© du centre de tri et pour faciliter l’acceptabilitĂ© du dispositif, ces indicateurs sont mesurĂ©s Ă  partir d’images de profondeur. Une Ă©tude ergonomique nous permet de dĂ©finir les indicateurs Ă  mesurer. Ces indicateurs sont les zones d’évolution des mains de l’opĂ©rateur et d’angulations de certaines articulations du haut du corps. Ce sont donc des indicateurs obtenables Ă  partir d’une analyse de la posture 3D de l’opĂ©rateur. Le dispositif de calcul des indicateurs sera donc composĂ© de trois parties : une premiĂšre partie sĂ©pare l’opĂ©rateur du reste de la scĂšne pour faciliter l’estimation de posture 3D, une seconde partie calcule la posture 3D de l’opĂ©rateur, et la troisiĂšme utilise la posture 3D de l’opĂ©rateur pour calculer les indicateurs ergonomiques. Tout d’abord, nous proposons un algorithme qui permet d’extraire l’opĂ©rateur du reste de l’image de profondeur. Pour ce faire, nous utilisons une premiĂšre segmentation automatique basĂ©e sur la suppression du fond statique et la sĂ©lection d’un objet dynamique Ă  l’aide de sa position et de sa taille. Cette premiĂšre segmentation sert Ă  entraĂźner un algorithme d’apprentissage qui amĂ©liore les rĂ©sultats obtenus. Cet algorithme d’apprentissage est entraĂźnĂ© Ă  l’aide des segmentations calculĂ©es prĂ©cĂ©demment, dont on sĂ©lectionne automatiquement les Ă©chantillons de meilleure qualitĂ© au cours de l’entraĂźnement. Ensuite, nous construisons un modĂšle de rĂ©seau de neurones pour l’estimation de la posture 3D de l’opĂ©rateur. Nous proposons une Ă©tude qui permet de trouver un modĂšle lĂ©ger et optimal pour l’estimation de posture 3D sur des images de profondeur de synthĂšse, que nous gĂ©nĂ©rons numĂ©riquement. Finalement, comme ce modĂšle n’est pas directement applicable sur les images de profondeur acquises dans les centres de tri, nous construisons un module qui permet de transformer les images de profondeur de synthĂšse en images de profondeur plus rĂ©alistes. Ces images de profondeur plus rĂ©alistes sont utilisĂ©es pour rĂ©entrainer l’algorithme d’estimation de posture 3D, pour finalement obtenir une estimation de posture 3D convaincante sur les images de profondeur acquises en conditions rĂ©elles, permettant ainsi de calculer les indicateurs ergonomique

    Les signatures neurobiologiques de la conscience

    Get PDF
    Dans le cadre de ses activitĂ©s scientifiques, l’AcadĂ©mie EuropĂ©enne Interdisciplinaire des Sciences a rĂ©uni durant la pĂ©riode 2016-2018, par l’intermĂ©diaire de sĂ©minaires, confĂ©rences et colloque, divers spĂ©cialistes travaillant dans les domaines des neurosciences, de la psychologie cognitive, de l’intelligence artificielle, ou encore rĂ©flĂ©chissant aux impacts sociĂ©taux des avancĂ©es obtenues. Cet ouvrage est le fruit de toutes ces contributions et a pour ambition de prĂ©senter un certain nombre de rĂ©sultats, de perspectives actuellement discernables, de points de vue concernant l’état des connaissances dans ces domaines avec un lien, parfois direct, parfois implicite, avec la question de la conscience. Une introduction gĂ©nĂ©rale, rĂ©digĂ©e par le comitĂ© de lecture de l’AEIS, rappelle le contexte de l’émergence de ces rĂ©sultats, perspectives et points de vue, dont le lecteur prendra connaissance dans le corps de l’ouvrage, qui comporte quatre parties : Travaux en neurosciences et psychologie expĂ©rimentale. Sciences cognitives et intelligence artificielle. RĂ©flexions sur l’intelligence, la conscience et l’impact de l’IA sur les activitĂ©s humaines. SynthĂšse des discussions de la table ronde tenue Ă  l’issue du colloque de mars 2018. Un court Ă©pilogue rĂ©digĂ© par le comitĂ© de lecture met en avant des rĂ©flexions et questions qu’ont soulevĂ© la lecture des diffĂ©rents chapitres de l’ouvrage et la prise de connaissance d’articles scientifiques foisonnants sur les travaux actuels pluridisciplinaires autour des interrogations liĂ©es Ă  la conscience au sens large

    Conditionnement par tùches auxiliaires des réseaux antagonistes génératifs

    No full text
    During the last decade, Generative Adversarial Networks (GANs) have caused a tremendous leap forward in image generation as a whole. Their ability to learn very complex, high-dimension distributions not only had a huge impact on the field of generative modeling, their influence extended to the general public at large. By being the first models able generate high-dimension photo-realistic images, GANs very quickly gained popularity as an image generation and photo manipulation technique. For example, their use as "filters" became common practice on social media, but they also allowed for the rise of Deepfakes, images that have been manipulated in order to fake the identity of a person. In this thesis, we explore the conditioning of Generative Adversarial Networks, that is influencing the generation process in order to control the content of a generated image. We focus on conditioning through auxiliary tasks, that is we explicitly implement additional objective to the generative model to complement the initial goal of learning the data distribution. First, we introduce generative modeling through several examples, and present the Generative Adversarial Networks framework. We discuss theoretical interpretations of GANs as well as its most prominent issues, notably the lack of stability during training of the model and the difficulty to generate diverse samples. We review classical techniques for conditioning GANs and propose an overview of recent approaches aiming to both solve the aforementioned issues and enhance the visual quality of the generated images. Afterwards, we focus on a specific generation task that requires conditioning : image reconstruction. In a nutshell, the problem consists in recovering an image from which we only have a handful of pixels available, usually around 0.5%. It stems from an application in geostatistics, namely the reconstruction of underground terrain from a reduced amount of expensive and difficult to obtain measurements. To do so, we propose to introduce an explicit auxiliary reconstruction task to the GAN framework which, in addition to a diversity-restoring technique, allows for the generation of high-quality images that respect the given measurements. Finally, we investigate a task of domain-transfer with generative models, specifically transferring images from the RGB color domain to the polarimetric domain. Polarimetric images bear hard constraints that directly stem from the physics of polarimetry. Leveraging on the cyclic-consistency paradigm, we extend the training of generative models with auxiliary tasks that push the generator towards enforcing the polarimetric constraints. We highlight that the approach manages to generate physically realistic polarimetric.Au cours de la derniĂšre dĂ©cennie, les rĂ©seaux gĂ©nĂ©ratifs antagonistes (Generative Adversatial Networks, ou GANs) ont rĂ©volutionnĂ© la gĂ©nĂ©ration d’images dans son ensemble. Leur capacitĂ© Ă  apprendre des distributions trĂšs complexes en grande dimension ils ont eu un impact important sur le domaine des modĂšles gĂ©nĂ©ratifs et leur influence s’est largement Ă©tendue au grand public. En effet, en Ă©tant les premiers modĂšles capables de gĂ©nĂ©rer des images photo-rĂ©alistes en haute dimension, ils ont trĂšs vite gagnĂ© en popularitĂ© en tant que technique de gĂ©nĂ©ration d’images et de manipulation de photos. Par exemple, leur utilisation en tant que "filtres" est devenue une pratique courante sur les mĂ©dias sociaux : ils ont Ă©galement permis l’essor des Deepfakes, des images manipulĂ©es afin de falsifier l’identitĂ© d’une personne. Dans cette thĂšse, nous Ă©tudions le conditionnement des rĂ©seaux gĂ©nĂ©ratifs antagonistes, c’est-Ă -dire influencer le processus de gĂ©nĂ©ration afin de contrĂŽler le contenu d’une image gĂ©nĂ©rĂ©e. Nous nous concentrons sur le conditionnement par le biais de tĂąches auxiliaires, c’est-Ă -dire l’utilisation d’un ou plusieurs objectifs supplĂ©mentaires au modĂšle gĂ©nĂ©ratif en plus de l’objectif initial d’apprentissage de la distribution des donnĂ©es. Nous introduisons les principes de la modĂ©lisation gĂ©nĂ©rative Ă  travers plusieurs exemples, et nous prĂ©sentons le cadre des rĂ©seaux gĂ©nĂ©ratifs antagonistes. Nous analysons les interprĂ©tations thĂ©oriques de ce modĂšle ainsi que ses problĂšmes les plus importants, notamment l’instabilitĂ© de l’apprentissage du modĂšle et la difficultĂ© de gĂ©nĂ©rer des Ă©chantillons diversifiĂ©s. Nous passons en revue les techniques classiques de conditionnement des GAN et proposons un aperçu des approches rĂ©centes visant Ă  rĂ©soudre ses problĂšmes et Ă  amĂ©liorer la qualitĂ© visuelle des images gĂ©nĂ©rĂ©es. Dans la suite de la thĂšse, nous nous concentrons sur une tĂąche de gĂ©nĂ©ration spĂ©cifique qui nĂ©cessite un conditionnement : la reconstruction d’images. Ce problĂšme consiste Ă  gĂ©nĂ©rer une image dont nous ne connaissons qu’un nombre trĂšs rĂ©duit de pixels Ă  priori, gĂ©nĂ©ralement autour de 0,5 %. Ceci est motivĂ© par une application directe en gĂ©ostatistique : la reconstruction de donnĂ©es gĂ©ologiques de sous-sols Ă  partir d’une trĂšs petite quantitĂ© de mesures coĂ»teuses et difficiles Ă  obtenir. Pour ce faire, nous proposons d’introduire une tĂąche de reconstruction auxiliaire explicite dans le cadre du GAN qui, combinĂ©e Ă  une technique de restauration de la diversitĂ©, a permis de gĂ©nĂ©rer des images de haute qualitĂ© qui respectent les mesures donnĂ©es. Dans la deuxiĂšme contribution nous Ă©tudions une tĂąche de transfert de domaine avec des modĂšles gĂ©nĂ©ratifs, en particulier le transfert d’images du domaine couleur au domaine polarimĂ©trique. Les images polarimĂ©triques sont soumises Ă  des contraintes strictes qui dĂ©coulent directement des propriĂ©tĂ©s physiques de la polarimĂ©trie. En s’appuyant sur l’approche de cohĂ©rence cyclique, nous Ă©tendons la formulation des modĂšles gĂ©nĂ©ratifs avec des tĂąches auxiliaires qui poussent le gĂ©nĂ©rateur Ă  faire respecter les contraintes polarimĂ©triques. Nous montrons que cette approche permet non seulement de gĂ©nĂ©rer des images polarimĂ©triques physiquement rĂ©alistes, mais que l’utilisation des images gĂ©nĂ©rĂ©es comme donnĂ©es augmentĂ©es augmente la performance des modĂšles de dĂ©tection d’objets sur des applications d’analyse de scĂšne routiĂšre

    Conditionnement par tùches auxiliaires des réseaux antagonistes génératifs

    No full text
    During the last decade, Generative Adversarial Networks (GANs) have caused a tremendous leap forward in image generation as a whole. Their ability to learn very complex, high-dimension distributions not only had a huge impact on the field of generative modeling, their influence extended to the general public at large. By being the first models able generate high-dimension photo-realistic images, GANs very quickly gained popularity as an image generation and photo manipulation technique. For example, their use as "filters" became common practice on social media, but they also allowed for the rise of Deepfakes, images that have been manipulated in order to fake the identity of a person. In this thesis, we explore the conditioning of Generative Adversarial Networks, that is influencing the generation process in order to control the content of a generated image. We focus on conditioning through auxiliary tasks, that is we explicitly implement additional objective to the generative model to complement the initial goal of learning the data distribution. First, we introduce generative modeling through several examples, and present the Generative Adversarial Networks framework. We discuss theoretical interpretations of GANs as well as its most prominent issues, notably the lack of stability during training of the model and the difficulty to generate diverse samples. We review classical techniques for conditioning GANs and propose an overview of recent approaches aiming to both solve the aforementioned issues and enhance the visual quality of the generated images. Afterwards, we focus on a specific generation task that requires conditioning : image reconstruction. In a nutshell, the problem consists in recovering an image from which we only have a handful of pixels available, usually around 0.5%. It stems from an application in geostatistics, namely the reconstruction of underground terrain from a reduced amount of expensive and difficult to obtain measurements. To do so, we propose to introduce an explicit auxiliary reconstruction task to the GAN framework which, in addition to a diversity-restoring technique, allows for the generation of high-quality images that respect the given measurements. Finally, we investigate a task of domain-transfer with generative models, specifically transferring images from the RGB color domain to the polarimetric domain. Polarimetric images bear hard constraints that directly stem from the physics of polarimetry. Leveraging on the cyclic-consistency paradigm, we extend the training of generative models with auxiliary tasks that push the generator towards enforcing the polarimetric constraints. We highlight that the approach manages to generate physically realistic polarimetric.Au cours de la derniĂšre dĂ©cennie, les rĂ©seaux gĂ©nĂ©ratifs antagonistes (Generative Adversatial Networks, ou GANs) ont rĂ©volutionnĂ© la gĂ©nĂ©ration d’images dans son ensemble. Leur capacitĂ© Ă  apprendre des distributions trĂšs complexes en grande dimension ils ont eu un impact important sur le domaine des modĂšles gĂ©nĂ©ratifs et leur influence s’est largement Ă©tendue au grand public. En effet, en Ă©tant les premiers modĂšles capables de gĂ©nĂ©rer des images photo-rĂ©alistes en haute dimension, ils ont trĂšs vite gagnĂ© en popularitĂ© en tant que technique de gĂ©nĂ©ration d’images et de manipulation de photos. Par exemple, leur utilisation en tant que "filtres" est devenue une pratique courante sur les mĂ©dias sociaux : ils ont Ă©galement permis l’essor des Deepfakes, des images manipulĂ©es afin de falsifier l’identitĂ© d’une personne. Dans cette thĂšse, nous Ă©tudions le conditionnement des rĂ©seaux gĂ©nĂ©ratifs antagonistes, c’est-Ă -dire influencer le processus de gĂ©nĂ©ration afin de contrĂŽler le contenu d’une image gĂ©nĂ©rĂ©e. Nous nous concentrons sur le conditionnement par le biais de tĂąches auxiliaires, c’est-Ă -dire l’utilisation d’un ou plusieurs objectifs supplĂ©mentaires au modĂšle gĂ©nĂ©ratif en plus de l’objectif initial d’apprentissage de la distribution des donnĂ©es. Nous introduisons les principes de la modĂ©lisation gĂ©nĂ©rative Ă  travers plusieurs exemples, et nous prĂ©sentons le cadre des rĂ©seaux gĂ©nĂ©ratifs antagonistes. Nous analysons les interprĂ©tations thĂ©oriques de ce modĂšle ainsi que ses problĂšmes les plus importants, notamment l’instabilitĂ© de l’apprentissage du modĂšle et la difficultĂ© de gĂ©nĂ©rer des Ă©chantillons diversifiĂ©s. Nous passons en revue les techniques classiques de conditionnement des GAN et proposons un aperçu des approches rĂ©centes visant Ă  rĂ©soudre ses problĂšmes et Ă  amĂ©liorer la qualitĂ© visuelle des images gĂ©nĂ©rĂ©es. Dans la suite de la thĂšse, nous nous concentrons sur une tĂąche de gĂ©nĂ©ration spĂ©cifique qui nĂ©cessite un conditionnement : la reconstruction d’images. Ce problĂšme consiste Ă  gĂ©nĂ©rer une image dont nous ne connaissons qu’un nombre trĂšs rĂ©duit de pixels Ă  priori, gĂ©nĂ©ralement autour de 0,5 %. Ceci est motivĂ© par une application directe en gĂ©ostatistique : la reconstruction de donnĂ©es gĂ©ologiques de sous-sols Ă  partir d’une trĂšs petite quantitĂ© de mesures coĂ»teuses et difficiles Ă  obtenir. Pour ce faire, nous proposons d’introduire une tĂąche de reconstruction auxiliaire explicite dans le cadre du GAN qui, combinĂ©e Ă  une technique de restauration de la diversitĂ©, a permis de gĂ©nĂ©rer des images de haute qualitĂ© qui respectent les mesures donnĂ©es. Dans la deuxiĂšme contribution nous Ă©tudions une tĂąche de transfert de domaine avec des modĂšles gĂ©nĂ©ratifs, en particulier le transfert d’images du domaine couleur au domaine polarimĂ©trique. Les images polarimĂ©triques sont soumises Ă  des contraintes strictes qui dĂ©coulent directement des propriĂ©tĂ©s physiques de la polarimĂ©trie. En s’appuyant sur l’approche de cohĂ©rence cyclique, nous Ă©tendons la formulation des modĂšles gĂ©nĂ©ratifs avec des tĂąches auxiliaires qui poussent le gĂ©nĂ©rateur Ă  faire respecter les contraintes polarimĂ©triques. Nous montrons que cette approche permet non seulement de gĂ©nĂ©rer des images polarimĂ©triques physiquement rĂ©alistes, mais que l’utilisation des images gĂ©nĂ©rĂ©es comme donnĂ©es augmentĂ©es augmente la performance des modĂšles de dĂ©tection d’objets sur des applications d’analyse de scĂšne routiĂšre

    Conditionnement par tùches auxiliaires des réseaux antagonistes génératifs

    No full text
    Au cours de la derniĂšre dĂ©cennie, les rĂ©seaux gĂ©nĂ©ratifs antagonistes (Generative Adversatial Networks, ou GANs) ont rĂ©volutionnĂ© la gĂ©nĂ©ration d’images dans son ensemble. Leur capacitĂ© Ă  apprendre des distributions trĂšs complexes en grande dimension ils ont eu un impact important sur le domaine des modĂšles gĂ©nĂ©ratifs et leur influence s’est largement Ă©tendue au grand public. En effet, en Ă©tant les premiers modĂšles capables de gĂ©nĂ©rer des images photo-rĂ©alistes en haute dimension, ils ont trĂšs vite gagnĂ© en popularitĂ© en tant que technique de gĂ©nĂ©ration d’images et de manipulation de photos. Par exemple, leur utilisation en tant que "filtres" est devenue une pratique courante sur les mĂ©dias sociaux : ils ont Ă©galement permis l’essor des Deepfakes, des images manipulĂ©es afin de falsifier l’identitĂ© d’une personne. Dans cette thĂšse, nous Ă©tudions le conditionnement des rĂ©seaux gĂ©nĂ©ratifs antagonistes, c’est-Ă -dire influencer le processus de gĂ©nĂ©ration afin de contrĂŽler le contenu d’une image gĂ©nĂ©rĂ©e. Nous nous concentrons sur le conditionnement par le biais de tĂąches auxiliaires, c’est-Ă -dire l’utilisation d’un ou plusieurs objectifs supplĂ©mentaires au modĂšle gĂ©nĂ©ratif en plus de l’objectif initial d’apprentissage de la distribution des donnĂ©es. Nous introduisons les principes de la modĂ©lisation gĂ©nĂ©rative Ă  travers plusieurs exemples, et nous prĂ©sentons le cadre des rĂ©seaux gĂ©nĂ©ratifs antagonistes. Nous analysons les interprĂ©tations thĂ©oriques de ce modĂšle ainsi que ses problĂšmes les plus importants, notamment l’instabilitĂ© de l’apprentissage du modĂšle et la difficultĂ© de gĂ©nĂ©rer des Ă©chantillons diversifiĂ©s. Nous passons en revue les techniques classiques de conditionnement des GAN et proposons un aperçu des approches rĂ©centes visant Ă  rĂ©soudre ses problĂšmes et Ă  amĂ©liorer la qualitĂ© visuelle des images gĂ©nĂ©rĂ©es. Dans la suite de la thĂšse, nous nous concentrons sur une tĂąche de gĂ©nĂ©ration spĂ©cifique qui nĂ©cessite un conditionnement : la reconstruction d’images. Ce problĂšme consiste Ă  gĂ©nĂ©rer une image dont nous ne connaissons qu’un nombre trĂšs rĂ©duit de pixels Ă  priori, gĂ©nĂ©ralement autour de 0,5 %. Ceci est motivĂ© par une application directe en gĂ©ostatistique : la reconstruction de donnĂ©es gĂ©ologiques de sous-sols Ă  partir d’une trĂšs petite quantitĂ© de mesures coĂ»teuses et difficiles Ă  obtenir. Pour ce faire, nous proposons d’introduire une tĂąche de reconstruction auxiliaire explicite dans le cadre du GAN qui, combinĂ©e Ă  une technique de restauration de la diversitĂ©, a permis de gĂ©nĂ©rer des images de haute qualitĂ© qui respectent les mesures donnĂ©es. Dans la deuxiĂšme contribution nous Ă©tudions une tĂąche de transfert de domaine avec des modĂšles gĂ©nĂ©ratifs, en particulier le transfert d’images du domaine couleur au domaine polarimĂ©trique. Les images polarimĂ©triques sont soumises Ă  des contraintes strictes qui dĂ©coulent directement des propriĂ©tĂ©s physiques de la polarimĂ©trie. En s’appuyant sur l’approche de cohĂ©rence cyclique, nous Ă©tendons la formulation des modĂšles gĂ©nĂ©ratifs avec des tĂąches auxiliaires qui poussent le gĂ©nĂ©rateur Ă  faire respecter les contraintes polarimĂ©triques. Nous montrons que cette approche permet non seulement de gĂ©nĂ©rer des images polarimĂ©triques physiquement rĂ©alistes, mais que l’utilisation des images gĂ©nĂ©rĂ©es comme donnĂ©es augmentĂ©es augmente la performance des modĂšles de dĂ©tection d’objets sur des applications d’analyse de scĂšne routiĂšre.During the last decade, Generative Adversarial Networks (GANs) have caused a tremendous leap forward in image generation as a whole. Their ability to learn very complex, high-dimension distributions not only had a huge impact on the field of generative modeling, their influence extended to the general public at large. By being the first models able generate high-dimension photo-realistic images, GANs very quickly gained popularity as an image generation and photo manipulation technique. For example, their use as "filters" became common practice on social media, but they also allowed for the rise of Deepfakes, images that have been manipulated in order to fake the identity of a person. In this thesis, we explore the conditioning of Generative Adversarial Networks, that is influencing the generation process in order to control the content of a generated image. We focus on conditioning through auxiliary tasks, that is we explicitly implement additional objective to the generative model to complement the initial goal of learning the data distribution. First, we introduce generative modeling through several examples, and present the Generative Adversarial Networks framework. We discuss theoretical interpretations of GANs as well as its most prominent issues, notably the lack of stability during training of the model and the difficulty to generate diverse samples. We review classical techniques for conditioning GANs and propose an overview of recent approaches aiming to both solve the aforementioned issues and enhance the visual quality of the generated images. Afterwards, we focus on a specific generation task that requires conditioning : image reconstruction. In a nutshell, the problem consists in recovering an image from which we only have a handful of pixels available, usually around 0.5%. It stems from an application in geostatistics, namely the reconstruction of underground terrain from a reduced amount of expensive and difficult to obtain measurements. To do so, we propose to introduce an explicit auxiliary reconstruction task to the GAN framework which, in addition to a diversity-restoring technique, allows for the generation of high-quality images that respect the given measurements. Finally, we investigate a task of domain-transfer with generative models, specifically transferring images from the RGB color domain to the polarimetric domain. Polarimetric images bear hard constraints that directly stem from the physics of polarimetry. Leveraging on the cyclic-consistency paradigm, we extend the training of generative models with auxiliary tasks that push the generator towards enforcing the polarimetric constraints. We highlight that the approach manages to generate physically realistic polarimetric

    Generative adversarial networks for medical imaging : unsupervised domain adaptation to reduce center effect in clinical trials

    No full text
    Le problĂšme d’acquisition Shift est un problĂšme largement rĂ©pandu en imagerie mĂ©dicale. Egalement nommĂ© effet de centre, il est causĂ© par l’absence de norme et d’homogĂ©nĂ©itĂ© au sein des systĂšmes d’imageries mĂ©dicales, mais Ă©galement au sein des pratiques des mĂ©decins. Cela peut comprendre des paramĂštres et mĂ©thodes d’acquisitions diffĂ©rents. Cet effet engendre potentiellement un biais significatif au sein des bases d’images agrĂ©gĂ©es provenant de plusieurs centres. L’effet de centre peut causer des Ă©carts entre les rĂ©sultats obtenus lors du dĂ©veloppement d’une mĂ©thode et sa mise en application dans le domaine clinique. De ce fait dĂ©coule un besoin de mĂ©thodes avancĂ©es permettant de rĂ©duire cet Ă©cart inter-images Ă  l’échelle d’une base d’images multicentriques. Deux mĂ©thodes d’adaptation de domaine non supervisĂ©e ont Ă©tĂ© proposĂ©es. Elles se basent sur l’utilisation de rĂ©seaux gĂ©nĂ©ratifs antagonistes ou GAN (generative adversarial networks), une famille rĂ©cente de rĂ©seaux de neurones permettant de travailler directement Ă  l’échelle de l’image. Une premiĂšre mĂ©thode prĂ©liminaire, basĂ©e sur la mise en sĂ©rie de deux apprentissages - cyclique puis pixel Ă  pixel, prĂ©sentait un risque potentiel d’altĂ©ration des structures au sein des images. La seconde mĂ©thode se base sur le contrastive learning. Cette approche permet un apprentissage rapide, sur peu de donnĂ©es, sans connaissances prĂ©alables requises sur les domaines auxquels appartiennent les images hĂ©tĂ©rogĂšnes. Ces mĂ©thodes ont Ă©tĂ© mises en application dans des cadres de recherche mais Ă©galement dans le cadre clinique, le but de ces travaux Ă©tant d’intĂ©grer de telles mĂ©thodes dans le dĂ©ploiement de l’étude Deep Lung IV menĂ©e par l’entreprise SOPHiA GENETICS sur le cancer du poumon. Nous avons montrĂ© que le contrastive learning utilisĂ© en accord avec des fonctions de coĂ»t de prĂ©servation de structures permet de rĂ©duire la variabilitĂ© intra classe interne Ă  une base d’images multicentrique, tout en prĂ©servant l’information structurelle des images.Acqusition shift is a wide spread medical imaging issue. Also known as Center Effect, acquisition shift is due to a lack of homogeneity and norms in medical imaging or medical process, including multiple acquisition parameters and methods. Acquisition shift may lead to high heterogeneity in multicentric databases.The center effet is responsible for potentially harmful differences between development and deployment conditions of a medical process. Thus there is a growing need for advanced methods that could mitigate this heterogeneity in a multicentric medical image database.Two approaches were proposed, based on unsupervised domain adaptation. These two methods focuse ondeep learning, more particularly generative adversartial networks, an image processing neural network architecture that shows significant performance for medical applications. The two-step preliminary method based on a cycleGAN and a Pix2Pix network was potentially altering geometric structures of the images. The second approach, based on contrastive learning, enables a quick learning, and need only a few data or knowledge about the several imaging centers gathered to create the image database. These two methods have been applied in a laboratory and clinical trial context. The aim of this work is to integrate such standardizing methods in the wide spread lung cancer clinical trial Deep Lung IV led by SOPHiA GENETICS. We have shown that contrastive learning, with the help of edge preserving loss functions, enables the decreasing of the heterogeneity in a multicentric database while preserving the structure of interest of the images

    Apprentissage profond pour la reconstruction tomographique : Etude et application à la tomodensitométrie et à l'imagerie par émission de positrons

    No full text
    La tomographie consiste Ă  reconstruire un volume Ă  partir de ses projections. En tomodensitomĂ©trie (TDM), des rayons X sont transmis au patient puis attĂ©nuĂ©s par leurs tissus : les projections sont obtenues Ă  partir de l’attĂ©nuation mesurĂ©e. En tomographie par Ă©mission de positons (TEP), un radionuclĂ©ide est injectĂ© au patient, puis il Ă©met un positon qui gĂ©nĂšre deux photons gamma dans des directions opposĂ©es. Les projections correspondent alors Ă  l’ensemble des lignes de rĂ©ponse entre chaque paire de photons dĂ©tectĂ©s de façon simultanĂ©e. La reconstruction tomographique en TEP ou TDM revient Ă  rĂ©soudre un problĂšme inverse. Les mĂ©thodes analytiques sont rapides mais leur efficacitĂ© est restreinte lorsque les donnĂ©es sont bruitĂ©es ou sous-Ă©chantillonnĂ©es. Les mĂ©thodes itĂ©ratives sont plus robustes au bruit et prĂ©sentent moins d’artefacts de reconstruction, mais le temps de calcul des algorithmes correspondants est un inconvĂ©nient majeur en pratique. Les mĂ©thodes d’apprentissage profond ont le potentiel de surmonter ces limites. Le premier objectif de cette thĂšse est d’étudier l’impact de la fonction coĂ»t d’entraĂźnement sur des mĂ©triques d’évaluation qui ont un intĂ©rĂȘt majeur dans le cadre du diagnostic mĂ©dical. Nous effectuons cette Ă©tude sur des donnĂ©es d’imagerie TDM de la microarchitecture osseuse, et nous montrons dans ce cas que la fonction coĂ»t L1 devrait ĂȘtre utilisĂ©e au regard de toutes les mĂ©triques considĂ©rĂ©es. Les rĂ©seaux entraĂźnĂ©s avec des fonctions coĂ»t dites perceptuelles sont plus Ă  mĂȘme de retrouver les paramĂštres liĂ©s Ă  la structure de l’os sur les images reconstruites, au dĂ©triment d’une diminution de la performance en terme de rĂ©solution. Utiliser une fonction coĂ»t inspirĂ©e des rĂ©seaux gĂ©nĂ©ratifs antagonistes amĂ©liore la prĂ©cision de la reconstruction en terme de distribution des valeurs de densitĂ©. Nous nous intĂ©ressons ensuite Ă  la TEP avec temps de vol pour des applications liĂ©es Ă  l’imagerie peropĂ©ratoire ; l’objectif est d’avoir une mĂ©thode de reconstruction qui puisse amĂ©liorer la dĂ©tectabilitĂ© de tumeurs dans le cadre du cancer du sein. Nous proposons un rĂ©seau de neurones baptisĂ© PAVENET qui rĂ©cupĂšre de façon simultanĂ©e l’image et la fonction d’étalement du point, qui dĂ©pend de l’image, Ă  partir d’une reconstruction de faible qualitĂ©. Nous prĂ©sentons dans cette thĂšse une preuve de concept pour PAVENET via des simulations Monte-Carlo de donnĂ©es d’acquisition d’un dĂ©tecteur innovant Ă©tudiĂ© au Radiation Physics Laboratory Ă  BostonThe purpose of tomography is to reconstruct a volume from its projections. In Computed Tomography (CT), X-rays are transmitted to a patient and attenuated by their tissues: the projections are obtained from the measured attenuation. For Positron Emission Tomography (PET), a radionuclide injected inside a patient emits a positron that generates two gamma photons in opposite directions. The projections correspond to the set of lines of response between each pair of simultaneously detected photons. Tomographic reconstruction for PET or CT amounts to solving an inverse problem. Analytical methods are fast but their efficiency is limited when data are under-sampled or noisy. Iterative methods are efficient for noise and artefacts removal, but the computation time represents a major drawback for practical use. Deep learning based methods have the potential to overcome those limits. The first objective of this thesis is to study the impact of the training loss on medical diagnosis-oriented evaluation metrics. We perform this study on bone microarchitecture CT imaging and show that in this case L1 loss should be used regarding all the considered metrics. Networks trained with perceptual losses show better transcription of structural features, at the cost of a deteriorated resolution. Adversarial losses improve the accuracy of the reconstruction in terms of density distribution. We then focus on Time of Flight (TOF) PET data for intraoperative surgical applications; our aim is to design a reconstruction method to improve the detectability of small tumors in the context of breast cancer. We propose a neural network called PAVENET that simultaneously retrieves the image and the image-dependent point-spread function (PSF) from a poor-quality initial reconstruction. We present in this thesis the proof of concept for PAVENET with experiments on Monte-Carlo simulations reproducing acquisitions from an innovative detector studied in the Radiation Physics Instrumentation Laboratory (RPIL) in Boston
    corecore