This thesis addresses the dilemma between exploration and exploitation as it is faced by reinforcement learning algorithms, i.e. the problem of the choice of the action during the adaptive optimisation of multi-states decision models, and particularly of Markovian decision processes. Reinforcement learning is characterised by the use of approximate solutions. For this sake, we take inspiration from works of other communities as decision theory and adaptive optimal control. Three groups of difficulties are stressed : the impossibility to reach certainty about the unknown parameters before an infinite number of experiments, the algorithms to the representation of the problem used. The original contribution of this thesis is then the synthesis of the different approaches to the problem, the study of the limits of reinforcement learning distributed architectures, the proposal of algorithms using back-propagation of uncertainty and the results of numerical simulations. / Cette thèse s'intéresse au dilemme entre l'exploration et l'exploitation tel qu'il se pose dans les algorithmes d'apprentissage par renforcement, c'est-à-dire au problème du choix de l'action lors de l'optimisation adaptative des modèles de décision multi-états, et plus particulièrement des processus de décision de Markov. L'apprentissage par renforcement se caractérise par l'utilisation de solutions approchées; cette recherche vise à améliorer ces solutions. Trois groupes de difficultés sont soulignées : l'impossibilité d'obtenir des certitudes sur les paramètres inconnus avant un nombre infini d'expérimentations, l'insuffisance des raisonnements à l'échelle locale, la sensibilité des algorithmes à la représentation du problème utilisée. La contribution de cette thèse porte donc sur la synthèse des différentes approches du problème, l'étude des limites des architectures distribuées de l'apprentissage par renforcement, la proposition d'algorithmes utilisant la rétropropagation de l'incertitude et les résultats des simulations numériques