411 research outputs found

    Probabilistic inverse reinforcement learning in unknown environments

    Full text link
    We consider the problem of learning by demonstration from agents acting in unknown stochastic Markov environments or games. Our aim is to estimate agent preferences in order to construct improved policies for the same task that the agents are trying to solve. To do so, we extend previous probabilistic approaches for inverse reinforcement learning in known MDPs to the case of unknown dynamics or opponents. We do this by deriving two simplified probabilistic models of the demonstrator's policy and utility. For tractability, we use maximum a posteriori estimation rather than full Bayesian inference. Under a flat prior, this results in a convex optimisation problem. We find that the resulting algorithms are highly competitive against a variety of other methods for inverse reinforcement learning that do have knowledge of the dynamics.Comment: Appears in Proceedings of the Twenty-Ninth Conference on Uncertainty in Artificial Intelligence (UAI2013

    Algorithms for Differentially Private Multi-Armed Bandits

    Get PDF
    We present differentially private algorithms for the stochastic Multi-Armed Bandit (MAB) problem. This is a problem for applications such as adaptive clinical trials, experiment design, and user-targeted advertising where private information is connected to individual rewards. Our major contribution is to show that there exist (ϵ,δ)(\epsilon, \delta) differentially private variants of Upper Confidence Bound algorithms which have optimal regret, O(ϵ1+logT)O(\epsilon^{-1} + \log T). This is a significant improvement over previous results, which only achieve poly-log regret O(ϵ2log2T)O(\epsilon^{-2} \log^{2} T), because of our use of a novel interval-based mechanism. We also substantially improve the bounds of previous family of algorithms which use a continual release mechanism. Experiments clearly validate our theoretical bounds

    Towards Optimal Algorithms For Online Decision Making Under Practical Constraints

    Get PDF
    Artificial Intelligence is increasingly being used in real-life applications such as driving with autonomous cars; deliveries with autonomous drones; customer support with chat-bots; personal assistant with smart speakers . . . An Artificial Intelligent agent (AI) can be trained to become expert at a task through a system of rewards and punishment, also well known as Reinforcement Learning (RL). However, since the AI will deal with human beings, it also has to follow some moral rules to accomplish any task. For example, the AI should be fair to the other agents and not destroy the environment. Moreover, the AI should not leak the privacy of users’ data it processes. Those rules represent significant challenges in designing AI that we tackle in this thesis through mathematically rigorous solutions.More precisely, we start by considering the basic RL problem modeled as a discrete Markov Decision Process. We propose three simple algorithms (UCRL-V, BUCRL and TSUCRL) using two different paradigms: Frequentist (UCRL-V) and Bayesian (BUCRL and TSUCRL). Through a unified theoretical analysis, we show that our three algorithms are near-optimal. Experiments performed confirm the superiority of our methods compared to existing techniques. Afterwards, we address the issue of fairness in the stateless version of reinforcement learning also known as multi-armed bandit. To concentrate our effort on the key challenges, we focus on two-agents multi-armed bandit. We propose a novel objective that has been shown to be connected to fairness and justice. We derive an algorithm UCRG to solve this novel objective and show theoretically its near-optimality. Next, we tackle the issue of privacy by using the recently introduced notion of Differential Privacy. We design multi-armed bandit algorithms that preserve differential-privacy. Theoretical analyses show that for the same level of privacy, our newly developed algorithms achieve better performance than existing techniques

    Quelles aires protégées pour l'Afrique de l'Ouest ? : conservation de la biodiversité et développement

    Get PDF

    Community development and participation in Togo: the case of AGAIB Plateaux

    Get PDF
    In order to reinforce the capacity for action of local African communities, international organisations support “participatory” projects that encourage greater local involvement in the implementation of actions. By adopting a well-designed approach, with realistic projects that address precise needs, local communities can be given the techniques and resources for their economic and social emancipation, thereby combating poverty. This mainly qualitative and documentary research follows activities of an AGAIB, an Agence d’Appui aux Initiatives de Base (Grassroots Initiative Support Agency) in Togo’s Plateaux region. This organisation has opted for a form of participatory democracy, enabling communities to take control of their situation through income generating activities (IGAs) and to participate at every step in projects that they themselves have initiated. To secure the future of these programs, however, and extend them to all Togolese communities, greater participation is required from the authorities.Afin de renforcer la capacité d’action des communautés locales  africaines, les organisations internationales appuient des projets dits participatifs impliquant davantage les populations de base à la réalisation des actions. À travers une approche bien adaptée et des projets réalistes répondant à des besoins précis, il est possible d’apporter aux communautés locales la technicité et les moyens de leur émancipation économique et sociale; et donc de réduire la pauvreté. Cette recherche, essentiellement qualitative et documentaire, retrace les activités de l’Agence d’Appui aux Initiatives de Base (AGAIB) dans la région des Plateaux au Togo. Cette organisation opte pour une démocratie participative; ce qui permet aux populations de se prendre en charge aux travers des activités génératrices de revenue (AGR) et de participer à chaque étape des projets initiés par eux-mêmes. Pour assurer la pérennité des programmes et l’étendre à l’ensemble des communautés togolaises, il faut une participation plus accrue des pouvoirs publics.Para reforzar la capacidad de acción de las comunidades africanas locales, las organizaciones internacionales respaldan proyectos conocidos como participativos, que cuentan con una implicación todavía mayor de la población local en la realización de sus actividades. A través de un enfoque perfectamente adaptado y a proyectos realistas que responden a necesidades precisas, es posible aportar a las comunidades locales los conocimientos técnicos y los medios para su emancipación económica y social y, así, reducir la pobreza. Este estudio, esencialmente cualitativo y documental, da un repaso a las actividades de la Agencia de Apoyo a las Iniciativas de Base (AGAIB por sus siglas en francés) en la región de las Planicies de Togo. Esta organización aboga por una democracia participativa, lo que permite a la población tomar el control a través de actividades generadoras de ingresos y participar en cada etapa de los proyectos iniciados por ellas mismas. Para garantizar la sostenibilidad de los programas y extenderlos al resto de comunidades togolesas, se hace necesaria una participación mayor de los poderes públicos

    Extension of the 2DH Saint-Venant hydrodynamic model for flows with vertical acceleration

    Get PDF
    Cette étude présente le modèle bidimensionnel horizontal (2DH) de Serre qui constitue une extension de celui de Saint-Venant (SV) auquel des termes supplémentaires d'accélération verticale sont ajoutés pour tenir compte de la présence de pression dynamique dans l'écoulement. Ses hypothèses sont exposées puis ses équations constitutives sont clairement développées en vue de faciliter sa compréhension. Afin d'éliminer la principale source de difficulté justifiant son manque de popularité et le rendre compatible avec la plupart des schémas numériques, un nouveau format est ensuite établi en séparant les dérivées spatiales de celles temporelles. Partant d'une expansion en séries de Taylor de deuxième ordre, des termes de diffusion artificielle sont ajoutés aux équations dynamiques puis à celle de continuité. Le système résultant est alors résolu à l'aide de la méthode standard des éléments finis utilisant des éléments triangulaires dits non-conformes en raison de leurs intéressantes propriétés d'orthogonalité. La simulation d'un bassin en eau calme puis d'un écoulement permanent uniforme à l'aide du code Matlab® correspondant aboutit exactement aux résultats analytiques escomptés. Le test de propagation d'onde solitaire est également satisfaisant (phase et amplitude). De plus, le modèle simule également bien l'écoulement de rupture de barrage. Cependant, les ondes prédites par le modèle de SV avancent plus vite que celles de Serre. La pression dynamique retarde donc la propagation de ces ondes. L'augmentation de la pente du fond accélère les ondes aussi bien pour Serre que pour SV mais réduit l'écart entre les fronts correspondant aux deux modèles. Un comportement inverse est observé lorsque le fond devient davantage rugueux ainsi que quand le ratio des niveaux d'eau aux deux extrémités du domaine s'accroît. La méthode de diffusion ajoutée s'est également révélée efficace pour la capture des ondes de rupture de barrage sans détérioration de la qualité des résultats numériques. Enfin, après avoir éliminé l'hypothèse de fluide non visqueux selon la verticale posée par Serre, le modèle 'Saint-Venant Plus' (SVP) est développé pour pouvoir tenir compte des contraintes visqueuses verticales significatives dans certains écoulements naturels. Cependant, la resolution numérique de SVP ne fait pas partie des objectifs de cette dièse qui présente seulement une comparaison théorique de la formulation mathématique de SVP avec celles des deux autres modèles (Serre et SV)
    corecore