5 research outputs found

    DĂ©clinaisons de bandits et leurs applications

    Get PDF
    Cette thĂšse s’intĂ©resse Ă  diffĂ©rentes variantes du problĂšme des bandits, une instance simplifiĂ©e d’un problĂšme de reinforcement learning (RL) dont l’accent est mis sur le compromis entre l’exploration et l’exploitation. Plus spĂ©cifiquement, l’accent est mis sur trois variantes, soient les bandits contextuels, structurĂ©s et multi-objectifs. Dans la premiĂšre, un agent recherche l’action optimale dĂ©pendant d’un contexte donnĂ©. Dans la seconde, un agent recherche l’action optimale dans un espace potentiellement grand et caractĂ©risĂ© par une mĂ©trique de similaritĂ©. Dans la derniĂšre, un agent recherche le compromis optimal sur un front de Pareto selon une fonction d’articulation des prĂ©fĂ©rences non observable directement. La thĂšse propose des algorithmes adaptĂ©s Ă  chacune de ces variantes, dont les performances sont appuyĂ©es par des garanties thĂ©oriques ou des expĂ©riences empiriques. Ces variantes de bandits servent de cadre Ă  deux applications rĂ©elles et Ă  haut potentiel d’impact, soient l’allocation de traitements adaptative pour la dĂ©couverte de stratĂ©gies de traitement du cancer personnalisĂ©es, et l’optimisation en-ligne de paramĂštres d’imagerie microscopique Ă  grande rĂ©solution pour l’acquisition efficace d’images utilisables en neuroscience. La thĂšse apporte donc des contributions Ă  la fois algorithmiques, thĂ©oriques et applicatives. Une adaptation de l’algorithme best empirical sampled average (BESA), GP BESA, est proposĂ©e pour le problĂšme des bandits contextuels. Son potentiel est mis en lumiĂšre par des expĂ©riences en simulation, lesquelles ont motivĂ© le dĂ©ploiement de la stratĂ©gie dans une Ă©tude sur des animaux en laboratoire. Les rĂ©sultats, prometteurs, montrent que GP BESA est en mesure d’étendre la longĂ©vitĂ© de souris atteintes du cancer et ainsi augmenter significativement la quantitĂ© de donnĂ©es recueillies sur les sujets. Une adaptation de l’algorithme Thompson sampling (TS), Kernel TS, est proposĂ©e pour le problĂšme des bandits structurĂ©s en reproducing kernel Hilbert space (RKHS). Une analyse thĂ©orique permet d’obtenir des garanties de convergence sur le pseudo-regret cumulatif. Des rĂ©sultats de concentration pour la rĂ©gression Ă  noyau avec rĂ©gularisation variable ainsi qu’une procĂ©dure d’ajustement adaptative de la rĂ©gularisation basĂ©e sur l’estimation empirique de la variance du bruit sont Ă©galement introduits. Ces contributions permettent de lever l’hypothĂšse classique sur la connaissance a priori de la variance du bruit en rĂ©gression Ă  noyau en-ligne. Des rĂ©sultats numĂ©riques illustrent le potentiel de ces outils. Des expĂ©riences empiriques illustrent Ă©galement la performance de Kernel TS et permettent de soulever des questionnements intĂ©ressants relativement Ă  l’optimalitĂ© des intuitions thĂ©oriques. Une nouvelle variante de bandits multi-objectifs gĂ©nĂ©ralisant la littĂ©rature est proposĂ©e. Plus spĂ©cifiquement, le nouveau cadre considĂšre que l’articulation des prĂ©fĂ©rences entre les objectifs provient d’une fonction non observable, typiquement d’un utilisateur (expert), et suggĂšre d’intĂ©grer cet expert Ă  la boucle d’apprentissage. Le concept des rayons de prĂ©fĂ©rence est ensuite introduit pour Ă©valuer la robustesse de la fonction de prĂ©fĂ©rences de l’expert Ă  des erreurs dans l’estimation de l’environnement. Une variante de l’algorithme TS, TS-MVN, est proposĂ©e et analysĂ©e. Des expĂ©riences empiriques appuient ces rĂ©sultats et constituent une investigation prĂ©liminaire des questionnements relatifs Ă  la prĂ©sence d’un expert dans la boucle d’apprentissage. La mise en commun des approches de bandits structurĂ©s et multi-objectifs permet de s’attaquer au problĂšme d’optimisation des paramĂštres d’imagerie STED de maniĂšre en-ligne. Les rĂ©sultats expĂ©rimentaux sur un vrai montage microscopique et avec de vrais Ă©chantillons neuronaux montrent que la technique proposĂ©e permet d’accĂ©lĂ©rer considĂ©rablement le processus de caractĂ©risation des paramĂštres et facilitent l’obtention rapide d’images pertinentes pour des experts en neuroscience.This thesis deals with various variants of the bandits problem, wihch corresponds to a simplified instance of a RL problem with emphasis on the exploration-exploitation trade-off. More specifically, the focus is on three variants: contextual, structured, and multi-objective bandits. In the first, an agent searches for the optimal action depending on a given context. In the second, an agent searches for the optimal action in a potentially large space characterized by a similarity metric. In the latter, an agent searches for the optimal trade-off on a Pareto front according to a non-observable preference function. The thesis introduces algorithms adapted to each of these variants, whose performances are supported by theoretical guarantees and/or empirical experiments. These bandit variants provide a framework for two real-world applications with high potential impact: 1) adaptive treatment allocation for the discovery of personalized cancer treatment strategies; and 2) online optimization of microscopic imaging parameters for the efficient acquisition of useful images. The thesis therefore offers both algorithmic, theoretical, and applicative contributions. An adaptation of the BESA algorithm, GP BESA, is proposed for the problem of contextual bandits. Its potential is highlighted by simulation experiments, which motivated the deployment of the strategy in a wet lab experiment on real animals. Promising results show that GP BESA is able to extend the longevity of mice with cancer and thus significantly increase the amount of data collected on subjects. An adaptation of the TS algorithm, Kernel TS, is proposed for the problem of structured bandits in RKHS. A theoretical analysis allows to obtain convergence guarantees on the cumulative pseudo-regret. Concentration results for the regression with variable regularization as well as a procedure for adaptive tuning of the regularization based on the empirical estimation of the noise variance are also introduced. These contributions make it possible to lift the typical assumption on the a priori knowledge of the noise variance in streaming kernel regression. Numerical results illustrate the potential of these tools. Empirical experiments also illustrate the performance of Kernel TS and raise interesting questions about the optimality of theoretical intuitions. A new variant of multi-objective bandits, generalizing the literature, is also proposed. More specifically, the new framework considers that the preference articulation between the objectives comes from a nonobservable function, typically a user (expert), and suggests integrating this expert into the learning loop. The concept of preference radius is then introduced to evaluate the robustness of the expert’s preference function to errors in the estimation of the environment. A variant of the TS algorithm, TS-MVN, is introduced and analyzed. Empirical experiments support the theoreitcal results and provide a preliminary investigation of questions about the presence of an expert in the learning loop. Put together, structured and multi-objective bandits approaches are then used to tackle the online STED imaging parameters optimization problem. Experimental results on a real microscopy setting and with real neural samples show that the proposed technique makes it possible to significantly accelerate the process of parameters characterization and facilitate the acquisition of images relevant to experts in neuroscience

    Programmation dynamique avec approximation de la fonction valeur

    Get PDF
    L'utilisation d'outils pour l'approximation de la fonction de valeur est essentielle pour pouvoir traiter des problĂšmes de prise de dĂ©cisions sĂ©quentielles de grande taille. Les mĂ©thodes de programmation dynamique (PD) et d'apprentissage par renforcement (A/R) introduites aux chapitres 1 et 2 supposent que la fonction de valeur peut ĂȘtre reprĂ©sentĂ©e (mĂ©morisĂ©e) en attribuant une valeur Ă  chaque Ă©tat (dont le nombre est supposĂ© fini), par exemple sous la forme d'un tableau. Ces mĂ©thodes de rĂ©solution, dites exactes, permettent de dĂ©terminer la solution optimale du problĂšme considĂ©rĂ© (ou tout au moins de converger vers cette solution optimale). Cependant, elles ne s'appliquent souvent qu'Ă  des problĂšmes jouets, car pour la plupart des applications intĂ©ressantes, le nombre d'Ă©tats possibles est si grand (voire infini dans le cas d'espaces continus) qu'une reprĂ©sentation exacte de la fonction ne peut ĂȘtre parfaitement mĂ©morisĂ©e. Il devient alors nĂ©cessaire de reprĂ©senter la fonction de valeur, de maniĂšre approchĂ©e, Ă  l'aide d'un nombre modĂ©rĂ© de coefficients, et de redĂ©finir et analyser des mĂ©thodes de rĂ©solution, dites approchĂ©es pour la PD et l'A/R, afin de prendre en compte les consĂ©quences de l'utilisation de telles approximations dans les problĂšmes de prise de dĂ©cisions sĂ©quentielles

    SĂ©lection contextuelle de services continus pour la robotique ambiante

    Get PDF
    La robotique ambiante s'intĂ©resse Ă  l'introduction de robots mobiles au sein d'environnements actifs oĂč ces derniers fournissent des fonctionnalitĂ©s alternatives ou complĂ©mentaires Ă  celles embarquĂ©es par les robots mobiles. Cette thĂšse Ă©tudie la mise en concurrence des fonctionnalitĂ©s internes et externes aux robots, qu'elle pose comme un problĂšme de sĂ©lection de services logiciels. La sĂ©lection de services consiste Ă  choisir un service ou une combinaison de services parmi un ensemble de candidats capables de rĂ©aliser une tĂąche requise. Pour cela, elle doit prĂ©dire et Ă©valuer la performance des candidats. Ces performances reposent sur des critĂšres non-fonctionnels comme la durĂ©e d'exĂ©cution, le coĂ»t ou le bruit. Ce domaine applicatif a pour particularitĂ© de nĂ©cessiter une coordination Ă©troite entre certaines de ses fonctionnalitĂ©s. Cette coordination se traduit par l'Ă©change de flots de donnĂ©es entre les fonctionnalitĂ©s durant leurs exĂ©cutions. Les fonctionnalitĂ©s productrices de ces flots sont modĂ©lisĂ©es comme des services continus. Cette nouvelle catĂ©gorie de services logiciels impose que les compositions de services soient hiĂ©rarchiques et introduit des contraintes supplĂ©mentaires pour la sĂ©lection de services. Cette thĂšse met en Ă©vidence la prĂ©sence d'un important couplage non-fonctionnel entre les performances des instances de services de diffĂ©rents niveaux, mĂȘme lorsque les flots de donnĂ©es sont unidirectionnels. L'approche proposĂ©e se concentre sur la prĂ©diction de la performance d'une instance de haut-niveau sachant son organigramme Ă  l'issue de la sĂ©lection. Un organigramme regroupe l'ensemble des instances de services sollicitĂ©es pour rĂ©aliser une tĂąche de haut-niveau. L'Ă©tude s'appuie sur un scĂ©nario impliquant la sĂ©lection d'un service de positionnement en vue de permettre le dĂ©placement d'un robot vers une destination requise. Pour un organigramme considĂ©rĂ©, la prĂ©diction de performance d'une instance de haut-niveau de ce scĂ©nario introduit les exigences suivantes : elle doit (i)ĂȘtre contextuelle en tenant compte, par exemple, du chemin suivi pour atteindre la destination requise, (ii) prendre en charge le remplacement d'une instance de sous-service suite Ă  un Ă©chec ou, par extension, de façon opportuniste. En consĂ©quence, cette sĂ©lection de services est posĂ©e comme un problĂšme de prise de dĂ©cision sĂ©quentielle formalisĂ© Ă  l'aide de processus de dĂ©cision markoviens Ă  horizon fini. La dimensionnalitĂ© importante du contexte en comparaison Ă  la frĂ©quence des dĂ©placements du robot rend inadaptĂ©es les mĂ©thodes consistant Ă  apprendre directement une fonction de valeur ou une fonction de transition. L'approche proposĂ©e repose sur des modĂšles de dynamique locaux et exploite le chemin de dĂ©placement calculĂ© par un sous-service pour estimer en ligne les valeurs des organigrammes disponibles dans l'Ă©tat courant. Cette estimation est effectuĂ©e par l'intermĂ©diaire d'une mĂ©thode de fouille stochastique d'arbre, Upper Confidence bounds applied to TreesAmbient robotics aims at introducing mobile robots in active environments where the latter provide new or alternative functionalities to those shipped by mobile robots. This thesis studies the competition between robot and external functionalities, which is set as a service selection problem. Service selection consists in choosing a service or a combination of services among a set of candidates able to fulfil a given request. To do this, it has to predict and evaluate candidate performances. These performances are based on non-functional requirements such as execution time, cost or noise. This application domain requires tight coordination between some of its functionalities. Tight coordination involves setting data streams between functionalities during their execution. In this proposal, functionalities producing data streams are modelled as continuous services. This new service category requires hierarchical service composition and adds some constraints to the service selection problem. This thesis shows that an important non-functional coupling appears between service instances at different levels, even when data streams are unidirectional. The proposed approach focuses on performance prediction of an high-level service instance given its organigram. This organigram gathers service instances involved in the high-level task processing. The scenario included in this study is the selection of a positioning service involved in a robot navigation high-level service. For a given organigram, performance prediction of an high-level service instance of this scenario has to: (i) be contextual by, for instance, considering moving path towards the required destination, (ii) support service instance replacement after a failure or in an opportunist manner. Consequently, this service selection is set as a sequential decision problem and is formalized as a finite-horizon Markov decision process. Its high contextual dimensionality with respect to robot moving frequency makes direct learning of Q-value functions or transition functions inadequate. The proposed approachre lies on local dynamic models and uses the planned moving path to estimate Q-values of organigrams available in the initial state. This estimation is done using a Monte-Carlo tree search method, Upper Confidence bounds applied to TreesPARIS-EST-UniversitĂ© (770839901) / SudocSudocFranceF
    corecore