266 research outputs found

    Apprentissage par renforcement Bayésien de processus décisionnels de Markov partiellement observables : une approche basée sur les processus Gaussiens

    Get PDF
    L'apprentissage par renforcement est une approche d'apprentissage automatique permettant de développer des systèmes s'améliorant à partir d'interactions avec un environnement. Les processus décisionnels de Markov partiellement observables (PDMPO) font partie des modèles mathématiques fréquemment utiliser pour résoudre ce type de problème d'apprentissage. Cependant, la majorité des méthodes de résolution utilisées dans les processus décisionnels de Markov partiellement observables nécessitent la connaissance du modèle. De plus, les recherches actuelles sur le PDMPO se restreignent principalement aux espaces d'états discrets, ce qui complique son application à certains problèmes naturellement modélisés par un espace d'état continu. Ce mémoire présente une vision des PDMPO basée sur les processus Gaussiens, une méthode d'apprentissage supervisée ayant comme propriété particulière d'être une distribution de probabilité dans l'espace des fonctions. Cette propriété est notamment très intéressante du fait qu'elle ouvre la porte à un traitement Bayésien de l'incertitude sur les fonctions inconnues d'un PDMPO continu. Les résultats obtenus avec l'approche d'apprentissage par processus Gaussien montrent qu'il est possible d'opérer dans un environnement tout en identifiant le modèle de ce celui-ci. À partir des conclusions tirées à la suite de nos travaux sur le PDMPO, nous avons observé un certain manque pour ce qui est de l'identification du modèle sous l'incertain. Ainsi, ce mémoire expose aussi un premier pas vers une extension de l'apprentissage de PDMPO continu utilisant des séquences d'états de croyances lors de l'identification du modèle. Plus précisément, nous proposons une méthode de régression par processus Gaussiens utilisant des ensembles d'entraînement incertain pour réaliser l'inférence dans l'espace des fonctions. La méthode proposée est particulièrement intéressante, du fait qu'elle s'applique exactement comme pour le cas des processus Gaussiens classiques et qu'elle n'augmente p±as la complexité de l'apprentissage

    Méthodes des moments pour l'inférence de systèmes séquentiels linéaires rationnels

    Get PDF
    Learning stochastic models generating sequences has many applications in natural language processing, speech recognitions or bioinformatics. Multiplicity Automata (MA) are graphical latent variable models that encompass a wide variety of linear systems. In particular, they can model stochastic languages, stochastic processes and controlled processes. Traditional learning algorithms such as the one of Baum-Welch are iterative, slow and may converge to local optima. A recent alternative is to use the Method of Moments (MoM) to design consistent and fast algorithms with pseudo-PAC guarantees.However, MoM-based algorithms have two main disadvantages. First, the PAC guarantees hold only if the size of the learned model corresponds to the size of the target model. Second, although these algorithms learn a function close to the target distribution, most do not ensure it will be a distribution. Thus, a model learned from a finite number of examples may return negative values or values that do not sum to one.This thesis addresses both problems. First, we extend the theoretical guarantees for compressed models, and propose a regularized spectral algorithm that adjusts the size of the model to the data. Then, an application in electronic warfare is proposed to sequence of the dwells of a superheterodyne receiver. Finally, we design new learning algorithms based on the MoM that do not suffer the problem of negative probabilities. We show for one of them pseudo-PAC guarantees.L’apprentissage de modèles stochastiques générant des séquences a de nombreuses applications comme en traitement de la parole, du langage ou bien encore en bio-informatique. Les Automates à Multiplicité (MA) sont des modèles graphiques à variables latentes qui englobent une grande variété de systèmes linéaires pouvant représenter entre autres des langues stochastiques, des processus stochastiques ainsi que des processus contrôlés. Les algorithmes traditionnels d’apprentissage comme celui de Baum-Welch sont itératifs, lent et peuvent converger vers des optima locaux. Une alternative récente consiste à utiliser la méthode des moments (MoM) pour concevoir des algorithmes rapides et consistent avec des garanties pseudo-PAC.Cependant, les algorithmes basés sur la MoM ont deux inconvénients principaux. Tout d'abord, les garanties PAC ne sont valides que si la dimension du modèle appris correspond à la dimension du modèle cible. Deuxièmement, bien que les algorithmes basés sur la MoM apprennent une fonction proche de la distribution cible, la plupart ne contraignent pas celle-ci à être une distribution. Ainsi, un modèle appris à partir d’un nombre fini d’exemples peut renvoyer des valeurs négatives et qui ne somment pas à un.Ainsi, cette thèse s’adresse à ces deux problèmes en proposant 1) un élargissement des garanties théoriques pour les modèles compressés et 2) de nouveaux algorithmes d’apprentissage ne souffrant pas du problème des probabilités négatives et dont certains bénéficient de garanties PAC. Une application en guerre électronique est aussi proposée pour le séquencement des écoutes du récepteur superhétéordyne

    Clustering incrémental et méthodes de détection de nouveauté : application à l'analyse intelligente d'informations évoluant au cours du temps

    Get PDF
    Série Environnements et services numériques d'information Bibliographie en fin de chapitres. Notes bibliogr. IndexNational audienceLearning algorithms proved their ability to deal with large amount of data. Most of the statistical approaches use defined size learning sets and produce static models. However in specific situations: active or incremental learning, the learning task starts with only very few data. In that case, looking for algorithms able to produce models with only few examples becomes necessary. The literature's classifiers are generally evaluated with criteria such as: accuracy, ability to order data (ranking)... But this classifiers' taxonomy can really change if the focus is on the ability to learn with just few examples. To our knowledge, just few studies were performed on this problem. This study aims to study a larger panel of both algorithms (9 different kinds) and data sets (17 UCI bases)

    Modélisation et prévision pour des séries chronologiques à valeurs entières

    Full text link
    Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal

    Modélisation de la structure du silicium amorphe à l’aide d’algorithmes d’apprentissage profond

    Get PDF
    Le silicium amorphe est le système canonique pour l’étude des matériaux désordonnés de par son importance technologique et son intérêt théorique fondamental. En effet les détails de sa structure atomique sont encore aujourd’hui mal connus, et son étude théorique se base essentiellement sur des simulations numériques. Mais les méthodes Monte Carlo pour la génération des réseaux aléatoires continus voient leur réalisme dépendre fortement de la description du paysage énergétique considérée. Alors que les approches ab initio fournissent une description fidèle, leur application se limite à des systèmes de quelques centaines d’atomes au maximum. Les potentiels empiriques constituent en revanche une alternative efficace permettant la simulation de systèmes allant jusqu’à un million d’atomes au prix d’une fiabilité réduite. Cependant les avancées récentes en apprentissage automatique ont permis l’émergence de modèles génératifs profonds capables d’approximer des fonctions complexes en haute dimension à partir d’observations, qui ont démontré un grand succès dans des tâches de synthèse d’images et sonore. De par leur efficacité, ces derniers ouvrent alors la voie à un meilleur compromis entre performance et réalisme pour la modélisation des systèmes désordonnés. Dans le but d’étudier cette alternative, un réseau de neurones convolutif a été entraîné avec succès pour approximer la surface d’énergie potentielle de Stillinger-Weber du silicium amorphe avec une erreur quadratique moyenne 5.095 meV par atome, correspondant à 0,16% de l’énergie atomique. Ensuite, un modèle génératif profond, l’Auto- Encodeur de Wasserstein, a été entraîné pour l’apprentissage de la distribution atomique du silicium amorphe. Celui-ci génère des configurations qualitativement réalistes présentant un désordre structurel trop prononcé, ce qui confirme la viabilité de la méthode.Amorphous silicon is a canonical system for the study of disordered materials because of both its technological importance and fundamental interest. The details of its atomic structure are not yet well-known, and its theoretical study relies mainly on numerical simulations. But Monte Carlo approaches for generating continuous random networks show a realism that depend heavily on the considered description of the energy landscape. Ab initio methods provide a faithful description but are limited to small systems, typically of a few hundreds of atoms. On the other hand, empirical potentials are efficient alternatives as they enable the modeling of large-scale systems up to a million atoms, at the price of a reduced reliability. Recent advances in machine learning have led to the emergence of powerful deep generative models that are able to approximate complex high-dimensional functions from a dataset, which have shown great success in difficult generation tasks such as image and audio synthesis. Their efficiency lead the way to a better compromise between performance and realism for the modelization of disordered systems. In order to explore this alternative, a convolutional neural network is trained to approximate the potential energy surface of amorphous silicon as given by the Stillinger- Weber potential, which resulted in a root mean square error of 5.05 meV per atom, corresponding to 0,16% of the atomic energy. Then a deep generative model, the Wasserstein Auto-Encoder, is trained to generate amorphous configurations. The resulting model generates qualitatively realistic configurations, although with a strong structural disorder, thus confirming viability of the method

    Processus gaussiens pour la séparation de sources et le codage informé

    Get PDF
    La séparation de sources est la tâche qui consiste à récupérer plusieurs signaux dont on observe un ou plusieurs mélanges. Ce problème est particulièrement difficile et de manière à rendre la séparation possible, toute information supplémentaire connue sur les sources ou le mélange doit pouvoir être prise en compte. Dans cette thèse, je propose un formalisme général permettant d inclure de telles connaissances dans les problèmes de séparation, où une source est modélisée comme la réalisation d un processus gaussien. L approche a de nombreux intérêts : elle généralise une grande partie des méthodes actuelles, elle permet la prise en compte de nombreux a priori et les paramètres du modèle peuvent être estimés efficacement. Ce cadre théorique est appliqué à la séparation informée de sources audio, où la séparation est assistée d'une information annexe calculée en amont de la séparation, lors d une phase préliminaire où à la fois le mélange et les sources sont disponibles. Pour peu que cette information puisse se coder efficacement, cela rend possible des applications comme le karaoké ou la manipulation des différents instruments au sein d'un mix à un coût en débit bien plus faible que celui requis par la transmission séparée des sources. Ce problème de la séparation informée s apparente fortement à un problème de codage multicanal. Cette analogie permet de placer la séparation informée dans un cadre théorique plus global où elle devient un problème de codage particulier et bénéficie à ce titre des résultats classiques de la théorie du codage, qui permettent d optimiser efficacement les performances.Source separation consists in recovering different signals that are only observed through their mixtures. To solve this difficult problem, any available prior information about the sources must be used so as to better identify them among all possible solutions. In this thesis, I propose a general framework, which permits to include a large diversity of prior information into source separation. In this framework, the sources signals are modeled as the outcomes of independent Gaussian processes, which are powerful and general nonparametric Bayesian models. This approach has many advantages: it permits the separation of sources defined on arbitrary input spaces, it permits to take many kinds of prior knowledge into account and also leads to automatic parameters estimation. This theoretical framework is applied to the informed source separation of audio sources. In this setup, a side-information is computed beforehand on the sources themselves during a so-called encoding stage where both sources and mixtures are available. In a subsequent decoding stage, the sources are recovered using this information and the mixtures only. Provided this information can be encoded efficiently, it permits popular applications such as karaoke or active listening using a very small bitrate compared to separate transmission of the sources. It became clear that informed source separation is very akin to a multichannel coding problem. With this in mind, it was straightforwardly cast into information theory as a particular source-coding problem, which permits to derive its optimal performance as rate-distortion functions as well as practical coding algorithms achieving these bounds.PARIS-Télécom ParisTech (751132302) / SudocSudocFranceF

    Suivi de l’évolution des thèmes de publications scientifiques dans les communautés d’auteur·e·s et leurs co-citations

    Get PDF
    Dans la communauté scientifique, l’information est principalement diffusée par le biais de publications scientifiques. L’étude de l’évolution des thèmes de recherche dans le temps recèle une importance indéniable pour le monde universitaire. Le but étant pour les chercheur·e·s de connaitre les nouvelles tendances et orientations scientifiques. La détection, le suivi et la modélisation des communautés dans les réseaux sociaux dynamiques ont été des sujets très étudiés au cours de ces dernières années. Malgré l’importance traditionnelle accordée aux approches structurelles, l’analyse des réseaux de communautés basée sur le contenu n’est qu’une tendance encore très peu exploitée. Dans notre recherche, nous nous intéressons à l’étude conjointe de l’extraction et du suivi de l’évolution des thèmes de publications dans les réseaux de communautés d’auteur·e·s reliés entre eux par des co-citations. Nous considérons qu’un thème de recherches académiques peut être lié étroitement et directement à un ensemble de co-auteur·e·s collaborant étroitement entre eux afin de produire des articles appartenant à un domaine ou un thème scientifique précis. C’est ainsi que le changement dans la structure du réseau caractérise davantage les événements sociaux comme des projets en commun ou travaux dans la même orientation thématique. Cet ensemble d’auteur·e·s peut donc être représenté sous la forme d’un graphe dont les nœuds sont les auteur·e·s eux-mêmes, tandis que les liens de ce graphe représentent une co-citation sur le même article. Notre étude suit l’évolution de ces communautés d’auteur·e·s dans le temps en étudiant les caractéristiques sémantiques à partir des titres d’articles et mots-clés (seules données disponibles sur le contenu des articles dans l’ensemble des données fournies). Pour l’extraction thématique nous avons utilisé l’ingénierie des caractéristiques représentant chaque titre, en combinant les vecteurs obtenus par les modèles thématiques LSA, PLSA et LDA, pondérés avec TF-IDF, avec des vecteurs issus d’un modèle de l’apprentissage profond qui est Word2Vec. Les vecteurs résultants ont été soumis à des classificateurs (Régression logistique, Machine à vecteur de support) pour l’obtention de l’étiquetage thématique automatique des publications. Il s’avère que les meilleurs résultats ont été obtenus en concaténant les vecteurs obtenues par la LDA aux vecteurs produits par Word2Vec et SVM comme classificateur. Pour la prévision des événements critiques que peut subir une communauté au fil du temps, nous proposons un modèle de risque général qui utilise des techniques d’analyse de survie. Après l’extraction des caractéristiques topologiques et sémantiques jugées importantes, nous les avons soumises à l’analyse de CoxPH qui permet de déterminer l’impact de chaque variable explicative sur la prédiction d’un événement qu’une communauté peut subir à un instant donné

    Optimisation auto-adaptative en environnement d'analyse multidisciplinaire via les modèles de krigeage combinés à la méthode PLS

    Get PDF
    Aerospace turbomachinery consists of a plurality of blades. Their main function is to transfer energy between the air and the rotor. The bladed disks of the compressor are particularly important because they must satisfy both the requirements of aerodynamic performance and mechanical resistance. Mechanical and aerodynamic optimization of blades consists in searching for a set of parameterized aerodynamic shape that ensures the best compromise solution between a set of constraints.This PhD introduces a surrogate-based optimization method well adapted to high-dimensional problems. This kind of high-dimensional problem is very similar to the Snecma's problems. Our main contributions can be divided into two parts: Kriging models development and enhancement of an existing optimization method to handle high-dimensional problems under a large number of constraints.Concerning Kriging models, we propose a new formulation of covariance kernel which is able to reduce the number of hyper-parameters in order to accelerate the construction of the metamodel. One of the known limitations of Kriging models is about the estimation of its hyper-parameters. This estimation becomes more and more difficult when the number of dimension increases.In particular, the initial design of experiments (for surrogate modelling construction) requires an important number of points and therefore the inversion of the covariance matrix becomes time consuming. Our approach consists in reducing the number of parameters to estimate using the Partial Least Squares regression method (PLS). This method provides information about the linear relationship between input and output variables. This information is integrated into the Kriging model kernel while maintaining the symmetry and the positivity properties of the kernels. Thanks to this approach, the construction of these new models called KPLS is very fast because of the low number of new parameters to estimate. When the covariance kernel used is of an exponential type, the KPLS method can be used to initialize parameters of classical Kriging models, to accelerate the convergence of the estimation of parameters. The final method, called KPLS+K, allows to improve the accuracy of the model for multimodal functions.The second main contribution of this PhD is to develop a global optimization method to tackle high-dimensional problems under a large number of constraint functions thanks to KPLS or KPLS+K method. Indeed, we extended the self adaptive optimization method called "Efficient Global Optimization, EGO" for high-dimensional problems under constraints. Several enriching criteria have been tested. This method allows to estimate known global optima on academic problems up to 50 input variables.The proposed method is tested on two industrial cases, the first one, "MOPTA", from the automotive industry (with 124 input variables and 68 constraint functions) and the second one is a turbine blade from Snecma company (with 50 input variables and 31 constraint functions). The results show the effectiveness of the method to handle industrial problems. We also highlight some importantlimitations.Les turbomachines aéronautiques sont composées de plusieurs roues aubagées dont la fonction est de transférer l'énergie de l'air au rotor. Les roues aubagées des modules compresseur et turbine sont des pièces particulièrement sensibles car elles doivent répondre à des impératifs de performance aérodynamique, de tenue mécanique, de tenue thermique et de performance acoustique. L'optimisation aéro-méca-acoustique ou aéro-thermo-mécanique des aubages consiste à chercher, pour un ensemble de formes aérodynamiques paramétrées (par plusieurs dizaines de variables), celle assurant le meilleur compromis entre la performance aérodynamique du moteur et la satisfaction de plusieurs dizaines de contraintes souvent contradictoires.Cette thèse introduit une méthode d'optimisation basée sur les métamodèles et adaptée à la grande dimension pour répondre à la problématique industrielle des aubages. Les contributions de cette thèse portent sur deux aspects : le développement de modèles de krigeage, et l'adaptation d'une stratégie d'optimisation pour la gestion du grand nombre de variables et de contraintes.La première partie de ce travail traite des modèles de krigeage. Nous avons proposé une nouvelle formulation du noyau de covariance permettant de réduire le nombre de paramètres du modèle afin d'accélérer sa construction. Une des limitations connues du modèle de krigeage concerne l'estimation de ses paramètres. Cette estimation devient de plus en plus difficile lorsque nous augmentons la dimension du phénomène à approcher. En particulier, la base de données nécessite davantage de points et par conséquent la matrice de covariance du modèle du krigeage est de plus en plus coûteuse à inverser.Notre approche consiste à réduire le nombre de paramètres à estimer en utilisant la méthode de régression des moindres carrés partiels (PLS pour Partial Least Squares). Cette méthode de réduction dimensionnelle fournit des informations sur la relation linéaire entre les variables d'entrée et la variable de sortie. Ces informations ont été intégrées dans les noyaux du modèle de krigeage tout en conservant les propriétés de symétrie et de positivité des noyaux. Grâce à cette approche, la construction de ces nouveaux modèles appelés KPLS est très rapide étant donné le faible nombre de paramètres nécessaires à estimer. La validation de ces modèles KPLS sur des cas test académiques ou industriels a démontré leur qualité de prédiction équivalente voire même meilleure que celle des modèles de krigeage classiques. Dans le cas de noyaux de covariance de type exponentiel, la méthode KPLS peut être utilisée pour initialiser les paramètres du krigeage classique, afin d'accélérer la convergence de l'estimation des paramètres du modèle. La méthode résultante, notée KPLS+K, a permis d'améliorer la qualité des modèles dans le cas de fonctions fortement multimodales.La deuxième contribution de la thèse a consisté à développer une stratégie d'optimisation globale sous contraintes pour la grande dimension, en s'appuyant sur les modèles KPLS ou les modèles KPLS+K. En effet, nous avons étendu la méthode d'optimisation auto-adaptative connue dans la littérature sous le nom "Efficient Global Optimisation, EGO" pour gérer les problèmes d'optimisation sous contraintes en grande dimension. Différents critères d'enrichissement adaptatifs ont pu être explorés. Cette stratégie a permis de retrouver l'optimum global sur des problèmes académiques jusqu'à la dimension 50.La méthode proposée a été confrontée à deux types de problèmes industriels, le cas test MOPTA issu de l'industrie automobile (124 variables d'entrée et 68 fonctions contraintes) et le cas test Snecma des aubes de turbomachines (50 variables d'entrée et 31 fonctions contraintes). Les résultats ont permis de montrer la validité de la démarche ainsi que les limites de la méthode pour une application dans un cadre industriel
    • …
    corecore