13 research outputs found

    Classification supervisée avec option de rejet partiel et contraintes de performance basée sur l'estimation des densités de probabilité

    Get PDF
    Cette communication traite les problÚmes de classification avec option de rejet partiel et contraintes de performances. L'objectif est d'étudier la possibilité d'exploiter la solution obtenue dans le cadre des tests d'hypothÚses statistiques en y introduisant des densités de probabilité conditionnelles estimées. Deux estimateurs de densités sont utilisés et deux modalités d'optimisation des estimateurs sont comparées et analysées

    Apprentissage progressif pour la reconnaissance de symboles dans les documents graphiques

    Get PDF
    National audienceLes mĂ©thodes actuelles de reconnaissance de symboles donnent de bons rĂ©sultats quand il s'agit de reconnaĂźtre peu de symboles diffĂ©rents qui sont peu bruitĂ©s et souvent dĂ©connectĂ©s du graphique. Cependant, dans le cas d'applications rĂ©elles, les mĂ©thodes sont encore mal maĂźtrisĂ©es quand il s'agit de discriminer dans de grandes bases entre plusieurs centaines de symboles diffĂ©rents, souvent complexes et bruitĂ©s et encapsulĂ©s dans les couches graphiques. Dans ce contexte il est nĂ©cessaire de mettre en oeuvre des mĂ©thodes d'apprentissage. Nous prĂ©sentons dans cet article une mĂ©thode d'apprentissage progressif pour la reconnaissance de symboles qui amĂ©liore son propre taux de reconnaissance au fur et Ă  mesure que de nouveaux symboles sont reconnus dans les documents. Pour ce faire, nous proposons une nouvelle exploitation de l'analyse discriminante qui fournit des rĂšgles d'affectation Ă  partir d'un Ă©chantillon d'apprentissage sur lequel les appartenances aux classes sont connues (apprentissage supervisĂ©). Mais cette mĂ©thode ne se rĂ©vĂšle efficace que si l'Ă©chantillon d'apprentissage et les donnĂ©es ultĂ©rieures sont observĂ©s dans les mĂȘmes conditions. Or cette hypothĂšse est rarement vĂ©rifiĂ©e dans les conditions rĂ©elles. Pour pallier ce problĂšme, nous avons adaptĂ© une approche rĂ©cente d'analyse discriminante conditionnelle qui ajoute Ă  chaque observation l'observation d'un vecteur alĂ©atoire, reprĂ©sentatif des effets parasites observĂ©s dans l'analyse discriminante classique

    ForĂȘts AlĂ©atoires PAC-BayĂ©siennes

    Get PDF
    Dans ce mĂ©moire de maĂźtrise, nous prĂ©sentons dans un premier temps un algorithme de l'Ă©tat de l'art appelĂ© ForĂȘts alĂ©atoires introduit par LĂ©o Breiman. Cet algorithme effectue un vote de majoritĂ© uniforme d'arbres de dĂ©cision construits en utilisant l'algorithme CART sans Ă©lagage. Par aprĂšs, nous introduisons l'algorithme que nous avons nommĂ© SORF. L'algorithme SORF s'inspire de l'approche PAC-Bayes, qui pour minimiser le risque du classificateur de Bayes, minimise le risque du classificateur de Gibbs avec un rĂ©gularisateur. Le risque du classificateur de Gibbs constitue en effet, une fonction convexe bornant supĂ©rieurement le risque du classificateur de Bayes. Pour chercher la distribution qui pourrait ĂȘtre optimale, l'algorithme SORF se rĂ©duit Ă  ĂȘtre un simple programme quadratique minimisant le risque quadratique de Gibbs pour chercher une distribution Q sur les classificateurs de base qui sont des arbres de la forĂȘt. Les rĂ©sultasts empiriques montrent que gĂ©nĂ©ralement SORF est presqu'aussi bien performant que les forĂȘts alĂ©atoires, et que dans certains cas, il peut mĂȘme mieux performer que les forĂȘts alĂ©atoires.In this master's thesis, we present at first an algorithm of the state of the art called Random Forests introduced by LĂ©o Breiman. This algorithm construct a uniformly weighted majority vote of decision trees built using the CART algorithm without pruning. Thereafter, we introduce an algorithm that we called SORF. The SORF algorithm is based on the PAC-Bayes approach, which in order to minimize the risk of Bayes classifier, minimizes the risk of the Gibbs classifier with a regularizer. The risk of Gibbs classifier is indeed a convex function which is an upper bound of the risk of Bayes classifier. To find the distribution that would be optimal, the SORF algorithm is reduced to being a simple quadratic program minimizing the quadratic risk of Gibbs classifier to seek a distribution Q of base classifiers which are trees of the forest. Empirical results show that generally SORF is almost as efficient as Random forests, and in some cases, it can even outperform Random forests

    Analyse intelligente des images pour la surveillance dans une agriculture de précision

    Get PDF
    Les avancĂ©es technologiques de la vision par ordinateur et l'utilisation des systĂšmes d'intelligence artificielle (comme l'apprentissage automatique ou profond) ont eu un fort impact dans l'agriculture en la faisant passer Ă  une nouvelle Ăšre digitalisĂ©e. Il s'agit d'une agriculture numĂ©rique ou de prĂ©cision dans laquelle on assiste Ă  une forte utilisation des donnĂ©es, de l'informatique intelligente, des drones, et des capteurs pour produire davantage. A cet effet, cette thĂšse propose de nouvelles rĂ©ponses aux enjeux de la surveillance des cultures menacĂ©es par des attaques fongiques. Ce qui nous a amenĂ© Ă  donner de nouvelles contributions visant Ă  relever les dĂ©fis d’une agriculture de prĂ©cision. Partant de lĂ , nous avons effectuĂ© une Ă©tude bibliomĂ©trique sur les apports de l’apprentissage profond en agriculture. Nous avons discutĂ© les contributions des chercheurs principalement impliquĂ©s, en vue d'apporter de nouvelles rĂ©ponses aux dĂ©fis de l’agriculture de prĂ©cision. Cette Ă©tude a Ă©tĂ© clĂŽturĂ©e par des recommandations essentielles dans la rĂ©alisation d’un systĂšme agricole intelligent. Il s’agit de (i) considĂ©rer la perception des acteurs humains du systĂšme; (ii) exiger la prise en compte des tests statistiques et des validations croisĂ©es des donnĂ©es d’entraĂźnement lors de la comparaison des performances de plusieurs classificateurs ; (iii) analyser la performance d’un classificateur sur les donnĂ©es d’entraĂźnement en faible quantitĂ©. Dans un premier temps, pour consolider cette Ă©tude, nous avons Ă©tudiĂ© la classification de la maladie mildiou au niveau de la culture du mil, une des cultures vivriĂšres des rĂ©gions d’Afrique et d’Asie. Dans ce travail, un accent a Ă©tĂ© mis sur la faible quantitĂ© de donnĂ©es d'entraĂźnements supervisĂ©es, nĂ©cessaires pour former de tels classificateurs. Dans un second temps, nous avons proposĂ© une nouvelle tĂąche de classification des rĂ©seaux de neurones convolutifs en augmentant les espaces de caractĂ©ristiques des donnĂ©es d’entraĂźnement. Cette approche se base sur les principes de l’apprentissage multitĂąches dans l’élaboration d’un modĂšle de classification multi-labels avec la comparaison de plusieurs classificateurs. Durant des annĂ©es, les recherches en apprentissage automatique Ă©taient beaucoup plus concentrĂ©es sur la performance des modĂšles de prĂ©diction plutĂŽt que sur leur comprĂ©hension, leur interprĂ©tation et leur pouvoir de dĂ©cision. Si nous comprenions ce que le modĂšle a appris, il est possible de garantir la qualitĂ© des rĂ©sultats obtenus. Dans un troisiĂšme temps, nous avons observĂ© les propriĂ©tĂ©s de visualisation d’un modĂšle profond afin d’obtenir des rĂ©sultats significatifs, explicables par un utilisateur quelconque. Nous avons qualitativement analysĂ© des cartes de visualisation des mĂ©thodes d'explicabilitĂ© lors de la localisation des insectes ravageurs des cultures. Au-delĂ  d’une prĂ©diction Ă  base du calcul de probabilitĂ©, nous avons guidĂ© le processus de la localisation d’insectes en employant la thĂ©orie de l’information mutuelle. L'apprentissage profond requiert assez souvent une grande quantitĂ© de donnĂ©es et une puissance de calcul pour entraĂźner un rĂ©seau de neurones profonds. Les rĂ©sultats obtenus par nos travaux ont prouvĂ© que, l'apprentissage par transfert, l'augmentation des donnĂ©es et le partage des tĂąches constituent des moyens efficients pour amĂ©liorer la capacitĂ© des rĂ©seaux de neurones profonds. Notons que les systĂšmes ont pour vocation d'interagir avec des utilisateurs humains. Ils doivent donc ĂȘtre en mesure d'expliquer, de justifier leur comportement et les dĂ©cisions qu'ils prennent afin que ces utilisateurs puissent comprendre les actions rĂ©alisĂ©es. Les contributions de cette thĂšse ont dĂ©voilĂ© que, l'exploration des mĂ©thodes de l'explicabilitĂ© est un moyen pertinent et utile pour le dĂ©ploiement des outils d'intelligence artificielle au service de l’agriculture de prĂ©cision

    Towards Understanding Generalization in Gradient-Based Meta-Learning

    Full text link
    Dans ce mĂ©moire, nous Ă©tudions la gĂ©nĂ©ralisation des rĂ©seaux de neurones dans le contexte du mĂ©ta-apprentissage, en analysant divers propriĂ©tĂ©s des surface leurs fonctions objectifs. La recherche en apprentissage automatique portant sur les surfaces de fonctions objectifs des rĂ©seaux de neurones ayant aidĂ© Ă  comprendre leur gĂ©nĂ©ralisation en apprentissage supervisĂ© standard, nous proposons l'Ă©tude de telles surfaces dans le but d'approfondir nos connaissances sur la gĂ©nĂ©ralisation en mĂ©ta-apprentissage. Nous introduisons d'abord la littĂ©rature sur les fonctions objectifs des rĂ©seaux de neurones Ă  la Section \ref{sec:intro:objective_landscapes}, puis celle portant sur le mĂ©ta-apprentissage Ă  la Section \ref{sec:intro:meta-learning}, pour enfin terminer notre introduction avec le mĂ©ta-apprentissage par descente de gradient, trĂšs similaire Ă  l'entraĂźnement des rĂ©seaux de neurones par descente de gradient stochastique et pour une tĂąche unique. Nous prĂ©sentons par la suite notre travail sur les fonctions objectifs en mĂ©ta-apprentissage au Chapitre \ref{chap:prof_forcing}, lequel nous avons soumis Ă  la confĂ©rence NeurIPS 2019 en tant qu'article scientifique. Au moment d'Ă©crire ce mĂ©moire, et au meilleur de notre connaissance, ce travail est le premier Ă  Ă©tudier empiriquement les surfaces des fonctions objectifs en mĂ©ta-apprentissage, particuliĂšrement dans le contexte de l'apprentissage profond, et nous mettons notamment en lumiĂšre certaines propriĂ©tĂ©s de ces surfaces qui apparaissent liĂ©es Ă  la gĂ©nĂ©ralisation des rĂ©seaux de neurones Ă  de nouvelles tĂąches. Nous dĂ©montrons empiriquement qu'alors que progresse la phase de mĂ©ta-entraĂźnement, pour les solutions aux nouvelles tĂąches obtenues via quelques itĂ©rations de descente de gradient, la courbure de la fonction objective dĂ©croit monotoniquement, la valeur de la fonction objective diminue, tandis que la distance euclidienne avec la solution ``mĂ©ta-entraĂźnement" augmente. Cependant, nous observons que la courbure des minima continue de dĂ©croĂźtre mĂȘme lorsque le sur-apprentissage devient apparent et que la gĂ©nĂ©ralisation commence Ă  se dĂ©grader, indiquant que la courbure des minima semble peu corrĂ©lĂ©e Ă  la gĂ©nĂ©ralisation en mĂ©ta-apprentissage par descente de gradient. De plus, nous montrons empiriquement que la gĂ©nĂ©ralisation aux nouvelles tĂąches semble plutĂŽt liĂ©e Ă  la cohĂ©rence de leurs trajectoires d'adaptation dans l'espace des paramĂštres, mesurĂ©e par la similaritĂ© cosinus moyenne entre les trajectoires. Nous montrons Ă©galement que la cohĂ©rence des gradients ''meta-test", mesurĂ©e par le produit scalaire moyen entre les vecteurs de gradients spĂ©cifiques aux nouvelles tĂąches, Ă©valuĂ© Ă  solution meta-entraĂźnement, est Ă©galement corrĂ©lĂ©e Ă  la gĂ©nĂ©ralisation. Nous basant sur ces observations, nous proposons un nouveau terme de rĂ©gularisation pour l'algorithme de mĂ©ta-apprentissage Model Agnostic Meta-Learning (MAML).In this master's thesis, we study the generalization of neural networks in gradient-based meta-learning by analyzing various properties of the objective landscapes. Meta-learning, a challenging paradigm where models not only have to learn a task but beyond that, are trained for ``learning to learn" as they must adapt to new tasks and environments with very limited data about them. With research on the objective landscapes of neural networks in classical supervised having provided some answers regarding their ability to generalize for new data points, we propose similar analyses aimed at understanding generalization in meta-learning. We first introduce the literature on objective landscapes of neural networks in Section \ref{sec:intro:objective_landscapes}. We then introduce the literature of meta-learning in Section \ref{chap:prof_forcing}, concluding our introduction with the approach of gradient-based meta-learning, a meta-learning setup that bears strong similarities to the traditional supervised learning setup through stochastic gradient-based optimization. At the time of writing of this thesis, and to the best of our knowledge, this is the first work to empirically study the objective landscapes in gradient-based meta-learning, especially in the context of deep learning. We notably provide some insights on some properties of those landscapes that appear correlated to the generalization to new tasks. We experimentally demonstrate that as meta-training progresses, the meta-test solutions, obtained after adapting the meta-train solution of the model, to new tasks via few steps of gradient-based fine-tuning, become flatter, lower in loss, and further away from the meta-train solution. We also show that those meta-test solutions become flatter even as generalization starts to degrade, thus providing experimental evidence against the correlation between generalization and flat minima in the paradigm of gradient-based meta-leaning. Furthermore, we provide empirical evidence that generalization to new tasks is correlated with the coherence between their adaptation trajectories in parameter space, measured by the average cosine similarity between task-specific trajectory directions, starting from a same meta-train solution. We also show that coherence of meta-test gradients, measured by the average inner product between the task-specific gradient vectors evaluated at meta-train solution, is also correlated with generalization. Based on these observations, we propose a novel regularizer for the Model Agnostic Meta-Learning (MAML) algorithm and provide experimental evidence for its effectiveness

    Generative models : a critical review

    Full text link
    Dans cette thĂšse, nous introduisons et motivons la modĂ©lisation gĂ©nĂ©rative comme une tĂąche centrale pour l’apprentissage automatique et fournissons une vue critique des algorithmes qui ont Ă©tĂ© proposĂ©s pour rĂ©soudre cette tĂąche. Nous montrons comment la modĂ©lisation gĂ©nĂ©rative peut ĂȘtre dĂ©finie mathĂ©matiquement en essayant de faire une distribution d’estimation identique Ă  une distribution de vĂ©ritĂ© de terrain inconnue. Ceci peut ensuite ĂȘtre quantifiĂ© en termes de valeur d’une divergence statistique entre les deux distributions. Nous dĂ©crivons l’approche du maximum de vraisemblance et comment elle peut ĂȘtre interprĂ©tĂ©e comme minimisant la divergence KL. Nous explorons un certain nombre d’approches dans la famille du maximum de vraisemblance, tout en discutant de leurs limites. Enfin, nous explorons l’approche antagoniste alternative qui consiste Ă  Ă©tudier les diffĂ©rences entre une distribution d’estimation et une distribution de donnĂ©es rĂ©elles. Nous discutons de la façon dont cette approche peut donner lieu Ă  de nouvelles divergences et mĂ©thodes qui sont nĂ©cessaires pour rĂ©ussir l’apprentissage par l’adversitĂ©. Nous discutons Ă©galement des nouveaux paramĂštres d’évaluation requis par l’approche contradictoire. Le chapitre ref chap: fortnet montre qu’en apprenant des modĂšles gĂ©nĂ©ratifs des couches cachĂ©es d’un rĂ©seau profond, on peut identifier quand le rĂ©seau fonctionne sur des donnĂ©es diffĂ©rentes des donnĂ©es observĂ©es pendant la formation. Cela nous permet d’étudier les diffĂ©rences entre les modes de fonctionnement libre et de forçage des enseignants dans les rĂ©seaux rĂ©currents. Cela conduit Ă©galement Ă  une meilleure robustesse face aux attaques adverses. Le chapitre ref chap: gibbsnet a explorĂ© une procĂ©dure itĂ©rative pour la gĂ©nĂ©ration et l’infĂ©rence dans les rĂ©seaux profonds, qui est inspirĂ©e par la procĂ©dure MCMC de gibbs bloquĂ©es pour l’échantillonnage Ă  partir de modĂšles basĂ©s sur l’énergie. Cela permet d’amĂ©liorer l’inpainting, la gĂ©nĂ©ration et l’infĂ©rence en supprimant l’exigence que les variables a priori sur les variables latentes aient une distribution connue. Le chapitre ref chap: discreg a Ă©tudiĂ© si les modĂšles gĂ©nĂ©ratifs pouvaient ĂȘtre amĂ©liorĂ©s en exploitant les connaissances acquises par des modĂšles de classification discriminants. Nous avons Ă©tudiĂ© cela en augmentant les autoencoders avec des pertes supplĂ©mentaires dĂ©finies dans les Ă©tats cachĂ©s d’un classificateur fixe. Dans la pratique, nous avons montrĂ© que cela conduisait Ă  des modĂšles gĂ©nĂ©rateurs mettant davantage l’accent sur les aspects saillants des donnĂ©es, et discutait Ă©galement des limites de cette approche.In this thesis we introduce and motivate generative modeling as a central task for machine learning and provide a critical view of the algorithms which have been proposed for solving this task. We overview how generative modeling can be de ned mathematically as trying to make an estimating distribution the same as an unknown ground truth distribution. This can then be quanti ed in terms of the value of a statistical divergence between the two distributions. We outline the maximum likelihood approach and how it can be interpreted as minimizing KL-divergence. We explore a number of approaches in the maximum likelihood family, while discussing their limitations. Finally, we explore the alternative adversarial approach which involves studying the di erences between an estimating distribution and a real data distribution. We discuss how this approach can give rise to new divergences and methods that are necessary to make adversarial learning successful. We also discuss new evaluation metrics which are required by the adversarial approach. Chapter 2 shows that by learning generative models of the hidden layers of a deep network can identify when the network is being run on data di ering from the data seen during training. This allows us to study di erences between freerunning and teacher forcing modes in recurrent networks. It also leads to improved robustness to adversarial attacks. Chapter 3 explored an iterative procedure for generation and inference in deep networks, which is inspired by the blocked gibbs MCMC procedure for sampling from energy-based models. This achieves improved inpainting, generation, and inference by removing the requirement that the prior over the latent variables have a known distribution. Chapter 4 studied whether generative models could be improved by exploiting the knowledge learned by discriminative classi cation models. We studied this by augmenting autoencoders with additional losses de ned in the hidden states of a xed classi er. In practice we showed that this led to generative models with better focus on salient aspects of the data, and also discussed limitations in this approach

    Modélisation Hiérarchique de Données Multidimensionnelles dans des Espaces RéguliÚrement Décomposés : Tome 4 : SynthÚse et Perspectives (2016 -2018)

    Get PDF
    Ce quatriĂšme et dernier tome a pour objectif de dĂ©tailler les travaux envisagĂ©s dans un projet prĂ©sentĂ© dans le tome prĂ©cĂ©dent. Il porte sur une nouvelle approche dĂ©diĂ©e au codage des images fixes et animĂ©es, Ă©tablissant ainsi un pont entre les corps de normes MPEG-4 et MPEG-7.Ce projet a pour objectif de dĂ©finir les principes du codage vidĂ©o auto-descriptif. Pour les Ă©tablir le document est dĂ©composĂ© en cinq chapitres qui dĂ©taillent les diverses techniques envisagĂ©es pour mettre au point une telle approche en codage visuel:- segmentation d’images,- calcul de descripteurs visuels,- calcul de regroupements perceptuels,- construction de dictionnaires visuels,- codage d’images et de vidĂ©os.FondĂ© sur les techniques de calcul multirĂ©solution, il se propose de dĂ©velopper une segmentation d’image en composantes rĂ©guliĂšres par morceaux, de calculer des attributs portant sur le support et le rendu des formes ainsi produites, indĂ©pendamment des transformations gĂ©omĂ©triques que celles-ci peuvent subir dans le plan image, et de les assembler en groupements perceptuels de maniĂšre Ă  pouvoir mettre en Ɠuvre une reconnaissance des formes en parties cachĂ©es.GrĂące Ă  la quantification vectorielle du support et du rendu des formes, il apparaĂźtra que les formes simples peuvent ĂȘtre assimilĂ©es Ă  un alphabet visuel et que les formes complexes deviennent alors des mots rĂ©digĂ©s sur cet alphabet qui pourront ĂȘtre enregistrĂ©s dans un dictionnaire. A l’aide d’un balayage au plus proche voisin appliquĂ© sur les formes de l’image, l’encodage auto-descriptif produira alors une phrase formĂ©e de mots rĂ©digĂ©s Ă  partir de l’alphabet des formes simples

    Sequential decision modeling in uncertain conditions

    Full text link
    Cette thĂšse consiste en une sĂ©rie d’approches pour la modĂ©lisation de dĂ©cision structurĂ©e - c’est-Ă -dire qu’elle propose des solutions utilisant des modĂšles gĂ©nĂ©ratifs pour des tĂąches intĂ©grant plusieurs entrĂ©es et sorties, ces entrĂ©es et sorties Ă©tant dictĂ©es par des interactions complexes entre leurs Ă©lĂ©ments. Un aspect crucial de ces problĂšmes est la prĂ©sence en plus d’un rĂ©sultat correct, des rĂ©sultats structurellement diffĂ©rents mais considĂ©rĂ©s tout aussi corrects, rĂ©sultant d’une grande mais nĂ©cessaire incertitude sur les sorties du systĂšme. Cette thĂšse prĂ©sente quatre articles sur ce sujet, se concentrent en particulier sur le domaine de la synthĂšse vocale Ă  partir de texte, gĂ©nĂ©ration symbolique de musique, traitement de texte, reconnaissance automatique de la parole, et apprentissage de reprĂ©sentations pour la parole et le texte. Chaque article prĂ©sente une approche particuliĂšre Ă  un problĂšme dans ces domaines respectifs, en proposant et Ă©tudiant des architectures profondes pour ces domaines. Bien que ces techniques d’apprentissage profond utilisĂ©es dans ces articles sont suffisamment versatiles et expressives pour ĂȘtre utilisĂ©es dans d’autres domaines, nous resterons concentrĂ©s sur les applications dĂ©crites dans chaque article. Le premier article prĂ©sente une approche permettant le contrĂŽle dĂ©taillĂ©, au niveau phonĂ©tique et symbolique, d’un systĂšme de synthĂšse vocale, en utilisant une mĂ©thode d’échange efficace permettant de combiner des reprĂ©sentations Ă  un niveau lexical. Puisque cette combinaison permet un contrĂŽle proportionnĂ© sur les conditions d’entrĂ©e, et amĂ©liore les prononciations faisant uniquement usage de caractĂšres, ce systĂšme de combinaison pour la synthĂšse vocale a Ă©tĂ© prĂ©fĂ©rĂ© durant des tests A/B par rapport Ă  des modĂšles de rĂ©fĂ©rence Ă©quivalents utilisant les mĂȘmes modalitĂ©s. Le deuxiĂšme article se concentre sur un autre systĂšme de synthĂšse vocale, cette fois-ci centrĂ© sur la construction d’une reprĂ©sentation multi-Ă©chelle de la parole Ă  travers une dĂ©composition structurĂ©e des descripteurs audio. En particulier, l’intĂ©rĂȘt de ce travail est dans sa mĂ©thodologie Ă©conome en calcul malgrĂ© avoir Ă©tĂ© bĂąti Ă  partir de travaux antĂ©rieurs beaucoup plus demandant en ressources de calcul. Afin de bien pouvoir faire de la synthĂšse vocale sous ces contraintes computationelles, plusieurs nouvelles composantes ont Ă©tĂ© conçues et intĂ©grĂ©es Ă  ce qui devient un modĂšle efficace de synthĂšse vocale. Le troisiĂšme article un nouveau modĂšle auto-rĂ©gressif pour modĂ©liser des chaĂźnes de symboles. Ce modĂšle fait usage de prĂ©dictions et d’estimations itĂ©rative et rĂ©pĂ©tĂ©es afin de construire une sortie structurĂ©e respectant plusieurs contraintes correspondant au domaine sous-jacent. Ce modĂšle est testĂ© dans le cadre de la gĂ©nĂ©ration symbolique de musique et la modĂ©lisation de texte, faisant preuve d’excellentes performances en particulier quand la quantitĂ© de donnĂ©es s’avĂšre limitĂ©e. Le dernier article de la thĂšse se concentre sur l’étude des reprĂ©sentations pour la parole et le texte apprise Ă  partir d’un systĂšme de reconnaissance vocale d’un travail antĂ©rieur. À travers une sĂ©rie d’études systĂ©matiques utilisant des modĂšles prĂ©-entraĂźnĂ©s de texte et de durĂ©e, relations qualitatives entre les donnĂ©es de texte et de parole, et Ă©tudes de performance sur la rĂ©cupĂ©ration transmodal “few shot”, nous exposons plusieurs propriĂ©tĂ©s essentielles sous-jacent Ă  la performance du systĂšme, ouvrant la voie pour des dĂ©veloppements algorithmiques futurs. De plus, les diffĂ©rents modĂšles rĂ©sultants de cette Ă©tude obtiennent des rĂ©sultats impressionnants sur un nombre de tĂąches de rĂ©fĂ©rence utilisant des modĂšles prĂ©-entraĂźnĂ© transfĂ©rĂ© sans modification.This thesis presents a sequence of approaches to structured decision modeling - that is, proposing generative solutions to tasks with multiple inputs and outputs, featuring complicated interactions between input elements and output elements. Crucially, these problems also include a high amount of uncertainty about the correct outcome and many largely equivalent but structurally different outcomes can be considered equally correct. This thesis presents four articles about these topics, particularly focusing on the domains of text-to-speech synthesis, symbolic music generation, text processing, automatic speech recognition, and speech-text representation learning. Each article presents a particular approach to solving problems in these respective domains, focused on proposing and understanding deep learning architectures for these domains. The deep learning techniques used in these articles are broadly applicable, flexible, and powerful enough that these general approaches may find application to other areas however we remain focused on the domains discussed in each respective article. The first article presents an approach allowing for flexible phonetic and character control of a text-to-speech system, utilizing an efficient "swap-out" method for blending representations at the word level. This blending allows for smooth control over input conditions, and also strengthens character only pronunciations, resulting in a preference for a blended text-to-speech system in A/B testing, compared to an equivalent baselines even when using the same input information modalities. The second article focuses on another text-to-speech system, this time centered on building multi-scale representations of speech audio using a structured decomposition of audio features. Particularly this work focuses on a compute efficient methodology, while building on prior work which requires a much greater computational budget than the proposed system. In order to effectively perform text-to-speech synthesis under these computational constraints, a number of new components are constructed and integrated, resulting in an efficient model for text-to-speech synthesis. The third article presents a new non-autoregressive model for modeling symbolic sequences. This model uses iterative prediction and re-estimation in order to build structured outputs, which respect numerous constraints in the underlying sequence domain. This model is applied to symbolic music modeling and text modeling, showing excellent performance particularly in limited data generative settings. The final article in this thesis focuses on understanding the speech-text representations learned by a text-injected speech recognition system from prior literature. Through a systematic series of studies utilizing pre-trained text and duration models, qualitative relations between text and speech sequences, and performance studies in few-shot cross-modal retrieval, we reveal a number of crucial properties underlying the performance of this system, paving the way for future algorithmic development. In addition, model variants built during this study achieve impressive performance results on a number of benchmark tasks using partially frozen and transferred parameters
    corecore