48 research outputs found

    Apprentissage par renforcement Bayésien de processus décisionnels de Markov partiellement observables : une approche basée sur les processus Gaussiens

    Get PDF
    L'apprentissage par renforcement est une approche d'apprentissage automatique permettant de développer des systèmes s'améliorant à partir d'interactions avec un environnement. Les processus décisionnels de Markov partiellement observables (PDMPO) font partie des modèles mathématiques fréquemment utiliser pour résoudre ce type de problème d'apprentissage. Cependant, la majorité des méthodes de résolution utilisées dans les processus décisionnels de Markov partiellement observables nécessitent la connaissance du modèle. De plus, les recherches actuelles sur le PDMPO se restreignent principalement aux espaces d'états discrets, ce qui complique son application à certains problèmes naturellement modélisés par un espace d'état continu. Ce mémoire présente une vision des PDMPO basée sur les processus Gaussiens, une méthode d'apprentissage supervisée ayant comme propriété particulière d'être une distribution de probabilité dans l'espace des fonctions. Cette propriété est notamment très intéressante du fait qu'elle ouvre la porte à un traitement Bayésien de l'incertitude sur les fonctions inconnues d'un PDMPO continu. Les résultats obtenus avec l'approche d'apprentissage par processus Gaussien montrent qu'il est possible d'opérer dans un environnement tout en identifiant le modèle de ce celui-ci. À partir des conclusions tirées à la suite de nos travaux sur le PDMPO, nous avons observé un certain manque pour ce qui est de l'identification du modèle sous l'incertain. Ainsi, ce mémoire expose aussi un premier pas vers une extension de l'apprentissage de PDMPO continu utilisant des séquences d'états de croyances lors de l'identification du modèle. Plus précisément, nous proposons une méthode de régression par processus Gaussiens utilisant des ensembles d'entraînement incertain pour réaliser l'inférence dans l'espace des fonctions. La méthode proposée est particulièrement intéressante, du fait qu'elle s'applique exactement comme pour le cas des processus Gaussiens classiques et qu'elle n'augmente p±as la complexité de l'apprentissage

    Programmation dynamique avec approximation de la fonction valeur

    Get PDF
    L'utilisation d'outils pour l'approximation de la fonction de valeur est essentielle pour pouvoir traiter des problèmes de prise de décisions séquentielles de grande taille. Les méthodes de programmation dynamique (PD) et d'apprentissage par renforcement (A/R) introduites aux chapitres 1 et 2 supposent que la fonction de valeur peut être représentée (mémorisée) en attribuant une valeur à chaque état (dont le nombre est supposé fini), par exemple sous la forme d'un tableau. Ces méthodes de résolution, dites exactes, permettent de déterminer la solution optimale du problème considéré (ou tout au moins de converger vers cette solution optimale). Cependant, elles ne s'appliquent souvent qu'à des problèmes jouets, car pour la plupart des applications intéressantes, le nombre d'états possibles est si grand (voire infini dans le cas d'espaces continus) qu'une représentation exacte de la fonction ne peut être parfaitement mémorisée. Il devient alors nécessaire de représenter la fonction de valeur, de manière approchée, à l'aide d'un nombre modéré de coefficients, et de redéfinir et analyser des méthodes de résolution, dites approchées pour la PD et l'A/R, afin de prendre en compte les conséquences de l'utilisation de telles approximations dans les problèmes de prise de décisions séquentielles

    Tolérance aux fautes dans les systèmes autonomes

    Get PDF
    Les systèmes autonomes suscitent aujourd'hui un intérêt croissant, que ce soit dans le domaine des robots d'exploration spatiale ou dans des domaines plus proches de l'homme, tels que les robots de service. Mais se pose le problème de leur sûreté de fonctionnement : peut-on avoir une confiance justifiée dans le comportement de systèmes conçus pour prendre des décisions sans intervention humaine? L'objectif de cette thèse est de proposer des concepts architecturaux capables d'améliorer la sûreté de fonctionnement des systèmes autonomes, en particulier par la conception et le développement de mécanismes de tolérance aux fautes adaptés à la fonction de planification, centrale à l'autonomie des systèmes complexes. Une évaluation des performances et de l'efficacité des mécanismes proposés est réalisée en utilisant la technique d'injection de fautes par mutation. ABSTRACT : Autonomous systems generate today a rising interest, whether in fields such as space exploration or applications nearer to man such as medical assistants, tour guides or utonomous vehicles. However, such critical applications raise the question of their dependability : can we justifiably trust systems designed to take decisions without human intervention? The objective of this thesis is to propose architectural concepts able to improve dependability in autonomous systems. In particular, it presents the design and implementation of fault tolerance mechanisms adapted to planning, an essential functionality in autonomous systems. An evaluation of the performance and the efficacy of the proposed mechanisms is realized by fault injection through source code mutatio

    Conception sûre et optimale de systèmes dynamiques critiques auto-adaptatifs soumis à des évènements redoutés probabilistes

    Get PDF
    This study takes place in the broad field of Artificial Intelligence, specifically at the intersection of two domains : Automated Planning and Formal Verification in probabilistic environment.In this context, it raises the question of the integration of new technologies in critical systems, and the complexity it entails : How to ensure that adding intelligence to a system, in the form of autonomy, is not done at the expense of safety ?To address this issue, this study aims to develop a tool-supported process for designing critical, self-adaptive systems. Throughout this document, innovations are therefore proposed in methods of formal modeling and in algorithms for safe and optimal planning.Cette étude s’inscrit dans le domaine de l’intelligence artificielle, plus précisément au croisementdes deux domaines que sont la planification autonome en environnement probabiliste et la vérification formelle probabiliste. Dans ce contexte, elle pose la question de la maîtrise de lacomplexité face à l’intégration de nouvelles technologies dans les systèmes critiques : commentgarantir que l’ajout d’une intelligence à un système, sous la forme d’une autonomie, ne se fassepas au détriment de la sécurité ?Pour répondre à cette problématique, cette étude a pour enjeu de développer un processus outillé, permettant de concevoir des systèmes auto-adaptatifs critiques, ce qui met en oeuvre à la fois des méthodes de modélisation formelle des connaissances d’ingénierie, ainsi que des algorithmes de planification sûre et optimale des décisions du système

    Algorithme tabou pour le problème de positionnement des trous de forage en tenant compte d'un indice d'incertitude des blocs

    Get PDF
    RÉSUMÉ : Dans le cadre de la recherche exploratoire, le problème du positionnement des trous de forage (PTF) émerge du besoin de planifier avec précision les forages de définitions dont le but est d’améliorer la connaissance du gisement souterrain. Pour résoudre ce problème deux approches sont souvent utilisées : l’approche géostatistique et l’approche d’optimisation. L’approche géostatistique actuelle consiste principalement à subdiviser le champ exploré en blocs classifiés en fonction de la précision de l’estimation de leur teneur en minerais, et à positionner plus ou moins subjectivement les forages vers les blocs d’intérêt. L’approche d’optimisation propose de sélectionner le meilleurs sous-ensemble de forages pour maximiser la couverture des blocs par les forages, mais ne discrimine pas les blocs en fonction de l’information déjà disponible sur ceux-ci. La nouvelle approche proposée dans ce travail intègre ces deux approches : une métaheuristique est développée pour résoudre le problème du PTF en prenant en compte un nouvel indice d’incertitude sur la présence du gisement dans un bloc : la variance de faciès. La méthode géostatistique proposée pour le calcul de la variance de faciès s’applique directement à la reconstitution de l’enveloppe surfacique du gisement. Elle est basée sur l’interprétation d’un variogramme expérimental construit à partir des forages existants et utilise la simulation par bandes tournantes. Le problème du PTF est reformulé pour tenir compte de ce nouvel indice d’incertitude des blocs et un algorithme tabou est développé pour permettre de résoudre le PTF ainsi reformulé. Les résultats de cet algorithme se montrent satisfaisants, permettant d’obtenir des solutions de qualité avoisinant 95% de l’optimum pour des instances moyennes du problème d’optimisation. L’intuition qui a donné lieu à ce travail est qu’il est possible d’intégrer un critère de discrimination des blocs, basé sur les forages existants dans la formulation actuelle et courante du PTF. Les travaux de cette recherche montrent que la prise en compte de la variance de faciès comme indice d’incertitude est une valeur ajoutée dans la solution du problème de PTF La méthode proposée est applicable aussi bien en 2D qu’en 3D.----------ABSTRACT : As part of mining exploration, the drill holes positioning problem (DPP) emerges from the need to accurately plan definition drill holes whose aim is to improve current knowledge of the underground deposit. Two approaches are often used to solve this problem: the geostatistical approach and the optimization approach. The current geostatistical approach consists mainly in subdividing the exploration field into blocks that are classified according to the perceived accuracy of their mineral content estimation. The drill holes are then planned with more or less subjectivity, roughly placing new drill holes next to the blocks of interest. The optimization approach aims to select the best subset of drill holes that maximizes coverage of the blocks (proximity between drill holes and blocks). However the blocks are not differentiated and the current available information (existing samplings) is unused. This research proposed a new approach that incorporates both approaches: a meta-heuristic is developed to solve the DPP while taking into account a new uncertainty index that quantifies reliability of the current interpretation of the blocks. This new index is defined as the blocks facies variance index. A geostatistical process is proposed for calculating the blocks facies variance and this process is shown to be enhancing the reconstitution of the deposit surface or external envelope. The proposed method relies on the experimental variogramme calculated from existing samples and involves geostatistical simulations using the turning bands algorithm. The DPP is reformulated to include the new uncertainty index and a tabou search algorithm is developed to solve that new formulation of the DPP. The proposed tabou search algorithm is shown to provide good quality solutions approaching 95% of the optimal solution calculated for medium size problems. The intuition that led to this work was that it is possible to enhance the DPP with the use of the current information from existing drill holes. This research shows that defining and taking into account the blocks facies variance adds value and provides better solutions to the DPP. Furthermore, the proposed method is applicable to both 2D and 3D deposits

    Commande collaborative pour un fauteuil roulant intelligent

    Get PDF
    RÉSUMÉ Le contrôle partagé est l’une des plus importantes problématiques à laquelle les chercheurs font face dans le domaine de l’interaction entre l’Homme et la machine. Il est souvent appliqué pour les véhicules motorisés avec contrôle assisté tels que les fauteuils roulants électriques, les marcheurs médicaux, les véhicules d’exploration spatiale et l’exploration sous-marine... Il est aussi utilisé pour la robotique manipulatrice avec les modules de téléopération des bras manipulateurs et des instruments chirurgicaux. Le but de ce mémoire est le développement d’un système de contrôle collaboratif entre un opérateur humain et un Fauteuil Roulant Motorisé Intelligent (FRMI) afin de faciliter les tâches de navigation pour les personnes à mobilité réduite dont la maladie affecte leur aptitude pour contrôler la machine d’une manière précise. Nous proposons donc un module de navigation qui se base théoriquement sur les processus de décision de Markov afin d’estimer d’une part l’intention du pilote et corriger d’autre part ses commandes dans le cas de danger. Ce module donne une importance majeure aux signaux de contrôle de l’humain qui est considéré dans tout le travail comme étant la source primaire de décision. Par conséquent, le module se contente uniquement de l’assister. Deux modes de fonctionnement de notre contrôleur collaboratif ont été créés afin de satisfaire divers styles de conduite et fournir des degrés d’assistances différents. Pour le premier mode, l’utilisateur fixe une ou plusieurs destinations sur la carte de l’environnement créée par le fauteuil en temps réel et ainsi pendant qu’il navigue librement, la machine estime son intention en observant ses commandes pour l’aider à atteindre la destination la plus probable en évitant tous les dangers. Par contre, pour le deuxième mode de fonctionnement, nous présentons un degré d’assistance plus élevé, autrement dit les rôles sont inversés et c’est le FRMI qui se chargera de toutes les tâches de navigation (planification de trajectoire, détermination de commandes de vitesse, évitement d’obstacle...). Le rôle du pilote se résume initialement dans l’expression d’une destination finale mais il peut reprendre le contrôle à tout instant si par exemple il change d’avis pendant la navigation et il veut atteindre un point intermédiaire sur la carte. Notre travail contribue à l’amélioration de l’interaction entre l’humain et la machine en partageant le contrôle pendant la navigation. Il assure aussi une sécurité supplémentaire en prévoyant les risques d’accrochage pour réduire la vitesse en cas de danger non détecté par l’usager.----------ABSTRACT Shared autonomy or shared control is one of the most important challenge that pushes researchers to focus more and more on the application of this kind of concept in the assistive technology. It adequately accommodates the living standards of the elderly and disabled communities. It helps them to accomplish the daily tasks with comfort and no assistance. To this end, we have chosen the Partially Observable Markov Decision Process in order to formulate our shared control of the semi-autonomous module added to our SmartWheeler in order to facilitate navigation tasks and to control the machine in a precise manner. Our decision process estimates firstly the intention of the driver and then corrects all his commands in case of danger. This gives the operator a lot of freedom in controlling the machine. As we consider human mind as a very good item to resolve quickly complex problem, it represents the primary source of decision in our work. Moreover, two modes of operation in our collaborative controller have been created to suit the driving style and provide different degrees of assistance. The user has to set one or more goals in the map. Then, with the first mode, he/she can navigate freely between all those goals. The SmartWheeler estimates his/her intention in order to help him/her to reach the intended destination. For the second mode of operation, we set a higher degree of assistance. The two controlling agents (human and machine) swap roles, so that the collaborative module takes in charge all navigation tasks (path planning, speed controls, obstacle avoidance...) and the pilot after choosing the final destination has to let the machine do the job. However, he/she also can take control at any time he/she wants. For example, if he/she changes his/her mind during the navigation and wants to reach an other goal, he/she has to give some velocity commands with the joystick and the module switches automatically to the first mode. Our work contributes to the improvement of human-machine interaction. It provides additional security by detecting collisions and dangerous scenarios. It reduces the speed and corrects orientations. We performed a user study to test our shared autonomy in several scenarios. The results show that our system did not cause any conflict between the two controlling agents. The subjects were not able to perceive the intervention of the module and they felt safer using our algorithm

    Méthodes et outils pour la réactivité et la proactivité des systèmes et des organisations

    Get PDF
    Le parcours de recherche présenté dans le dossier présente des contributions portant sur la réactivité et la proactivité des systèmes et des organisations. Ces contributions portent sur une méthode pour la surveillance en fabrication mécanique par une mise en œuvre du concept de capteur intelligent. Puis, l’exploitation des données de surveillance est réalisée par une architecture distribuée de surveillance et de conduite des machines et des processus accroissant la réactivité et la productivité de la ressource de production. Un retour d’expérience cognitif permet, par la capitalisation d’expériences passées, à une organisation de réagir plus vite face à une situation courante. La proactivité a été traitée par une méthode de pronostic des systèmes multi-composants fournissant des indicateurs d’aide à la décision ainsi que par la méthode les exploitant pour la planification conjointe de la production et de la maintenance. Le projet recherche porté doit contribuer à deux domaines d’application que sont l’ingénierie des systèmes et « l’industrie 4.0 ». En ingénierie des systèmes, le projet porte notamment sur les phases de conception par de l’aide à la recherche d’architectures répondant aux exigences de nouveaux cahier des charges mais aussi par des contributions à l’évaluation d’architectures éligibles, notamment, par la définition d’une architectures d’objets simulant l’environnement, la physique des composants, les fonctions, les scénarios assurant les échanges des différents types de flux. Dans le domaine de « l’industrie 4.0 », le projet porte sur la définition d’architectures fonctionnelles de ressources techniques pour accroître leur réactivité à leur état de santé et à celui du procédé mais aussi sur la définition de méthodes réactives et des services nécessaires pour (re)planifier la production et la maintenance selon la santé actuelle ou future des procédés et ressources techniques

    Réseaux Évidentiels pour la fusion de données multimodales hétérogènes (application à la détection de chutes)

    Get PDF
    Ces travaux de recherche se sont déroulés dans le cadre du développement d une application de télévigilance médicale ayant pour but de détecter des situations de détresse à travers l utilisation de plusieurs types de capteurs. La fusion multi-capteurs peut fournir des informations plus précises et fiables par rapport aux informations provenant de chaque capteur prises séparément. Par ailleurs les données issues de ces capteurs hétérogènes possèdent différents degrés d imperfection et de confiance. Parmi les techniques de fusion multi-capteurs, les méthodes crédibilistes fondées sur la théorie de Dempster-Shafer sont actuellement considérées comme les plus adaptées à la représentation et au traitement des informations imparfaites, de ce fait permettant une modélisation plus réaliste du problème. En nous appuyant sur une représentation graphique de la théorie de Dempster-Shafer appelée Réseaux Évidentiels, nous proposons une structure de fusion de données hétérogènes issues de plusieurs capteurs pour la détection de chutes afin de maximiser les performances de détection chutes et ainsi de rendre le système plus fiable. La non-stationnarité des signaux recueillis sur les capteurs du système considéré peut conduire à une dégradation des conditions expérimentales, pouvant rendre les Réseaux Évidentiels incohérents dans leurs décisions. Afin de compenser les effets résultant de la non-stationnarité des signaux provenant des capteurs, les Réseaux Évidentiels sont rendus évolutifs dans le temps, ce qui nous a conduit à introduire les Réseaux Evidentiels Dynamiques dans nos traitements et à les évaluer sur des scénarios de chute simulés correspondant à des cas d usage variésThis work took place in the development of a remote home healthcare monitoring application designed to detect distress situations through several types of sensors. The multi-sensor fusion can provide more accurate and reliable information compared to information provided by each sensor separately. Furthermore, data from multiple heterogeneous sensors present in the remote home healthcare monitoring systems have different degrees of imperfection and trust. Among the multi-sensor fusion techniques, belief methods based on Dempster-Shafer Theory are currently considered as the most appropriate for the representation and processing of imperfect information, thus allowing a more realistic modeling of the problem. Based on a graphical representation of the Dempster-Shafer called Evidential Networks, a structure of heterogeneous data fusion from multiple sensors for fall detection has been proposed in order to maximize the performance of automatic fall detection and thus make the system more reliable. Sensors non-stationary signals of the considered system may lead to degradation of the experimental conditions and make Evidential Networks inconsistent in their decisions. In order to compensate the sensors signals non-stationarity effects, the time evolution is taken into account by introducing the Dynamic Evidential Networks which was evaluated by the simulated fall scenarios corresponding to various use casesEVRY-INT (912282302) / SudocSudocFranceF

    Modélisation et reconnaissance active d'objets 3D de forme libre par vision en robotique

    Get PDF
    Cette thèse concerne la robotique au service de l’Homme. Un robot compagnon de l’Homme devra manipuler des objets 3D courants (bouteille, verre…), reconnus et localisés à partir de données acquises depuis des capteurs embarqués sur le robot. Nous exploitons la Vision, monoculaire ou stéréo. Pour traiter de la manipulation à partir de données visuelles, il faut au préalable construire deux représentations pour chaque objet : un modèle géométrique 3D, indispensable pour contrôler la saisie, et un modèle d’apparence visuelle, nécessaire pour la reconnaissance. Cette thèse traite donc de l’apprentissage de ces représentations, puis propose une approche active de reconnaissance d’objets depuis des images acquises par les caméras embarquées. La modélisation est traitée sur un objet 3D isolé posé sur une table, ; nous exploitons des données 3D acquises depuis un capteur stéréo monté sur un bras manipulateur; le capteur est déplacé par le bras autour de l’objet pour acquérir N images, exploitées pour construire un modèle de type maillage triangulaire. Nous proposons d’abord une approche originale de recalage des vues partielles de l’objet, fondée sur des informations de pseudo-couleur générées à partir des points 3D acquis sur l’objet à apprendre ; puis une méthode simple et rapide, fondée sur la paramétrisation sphérique, est proposée pour construire un maillage triangulaire à partir des vues recalées fusionnées dans un nuage de points 3D. Pour la reconnaissance active, nous exploitons une simple caméra. L’apprentissage du modèle d’apparence pour chaque objet, se fait aussi en déplaçant ce capteur autour de l’objet isolé posé sur une table. Ce modèle est donc fait de plusieurs vues ; dans chacune, (1) la silhouette de l’objet est extraite par un contour actif, puis (2) plusieurs descripteurs sont extraits, globaux (couleur, signature de la silhouette, shape context calculés) ou locaux (points d’intérêt, couleur ou shape context dans des régions). Pendant la reconnaissance, la scène peut contenir un objet isolé, ou plusieurs en vrac, avec éventuellement des objets non appris ; nous proposons une approche active, approche incrémentale qui met à jour un ensemble de probabilités P(Obji), i=1 à N+1 si N objets ont été appris ; les objets inconnus sont affectés à la classe N+1 ; P(Obji) donne la probabilité qu’un objet de la classe i soit présent dans la scène. A chaque étape la meilleure position du capteur est sélectionnée en exploitant la maximisation de l’information mutuelle. De nombreux résultats en images de synthèse ou en images réelles ont permis de valider cette approche. ABSTRACT : This document concerns service robotics for human assistance. A companion robot will have to manipulate everyday 3D objects (bottles, glasses…), recognized and localized from data acquired with sensors embedded on the robot, here using monocular or stereo vision. For vision-based object manipulation, it is necessary first to learn two representations for every object; a 3D geometrical model, mandatory to control the grasping task, and an appearance-based model, required for the visual recognition. This thesis deals first with the construction of these representations, and then proposes an active method for object recognition from images acquired from embedded cameras. The modeling is performed on a 3D object set alone on a table; 3D data are acquired from a stereo rig mounted on a manipulator; the sensor is moved by the arm around the object in order to acquire N images, from which a triangular mesh is built. It is proposed first an original approach for the registration of partial views, approach based on a pseudo-color created from the 3D points acquired on the object surface. Then an efficient method, based on a spherical parametrization, is proposed to make simpler the construction of a triangular mesh from the registered views aggregated in a 3D points cloud. The active recognition method is based on a single camera. The learning of the appearance-based model is also built, moving the camera around every object set alone on a table. This model is made of several views: for everyone, (1) the object silhouette is first extracted using a snake, (2) then, several descriptors are computed, either global (color, silhouette signature, shape context computed on all the object region) or local ones (interest points, color or shape contexts in discretized regions). The recognition process analyzes a scene with a single object, or with several ones set without order, including unknown objects. An incremental active method allows to update a probability vector P(Obji), i=1, N+1 if N objects have been learnt; the unknown objects are assigned to the class N+1; P(Obji) gives the probability that an object from the class i is in the scene. After every step, the best view point is selected for the next sensor position, using the maximization of the mutual information. The method has been validated from numerous results from synthetic or true image
    corecore