International audienceNous présentons dans cet article une solution innovante basée sur un algorithme d'apprentissage par renforcement, le Q-learning, pour le contrôle de formation d'un réseau de drones par un unique opérateur. Pour suivre automatiquement le drone maître, le seul téléguidé, tous les autres n'utilisent que les puissances de signal reçues durant les communications ad hoc. Grâce à ces seules valeurs obtenues en temps-réel, nous montrons que la formation peut être parfaitement maintenue en appliquant notre schéma comportemental. La solution proposée a été implantée sous forme protocolaire et testée sous ns-3. Les expérimentations montrent l'efficacité de notre approche

Djanbaz, Mirwaisse

Martin, Steven

Natalizio, Enrico

Quadri, Dominique

Shrit, Omar

Zema, Nicola Roberto

INRIA a CCSD electronic archive server

HAL Id: hal-02128006https://hal.archives-ouvertes.fr/hal-02128006v2Submitted on 28 May 2019HAL is a multi-disciplinary open accessarchive for the deposit and dissemination of sci-entific research documents, whether they are pub-lished or not. The documents may come fromteaching and research institutions in France orabroad, or from public or private research centers.L’archive ouverte pluridisciplinaire HAL, estdestinée au dépôt et à la diffusion de documentsscientifiques de niveau recherche, publiés ou non,émanant des établissements d’enseignement et derecherche français ou étrangers, des laboratoirespublics ou privés.Contrôle de formation d’un réseau de drones à based’apprentissage par renforcementNicola Roberto Zema, Mirwaisse Djanbaz, Dominique Quadri, Steven Martin,Enrico Natalizio, Omar ShritTo cite this version:Nicola Roberto Zema, Mirwaisse Djanbaz, Dominique Quadri, Steven Martin, Enrico Natalizio, et al..Contrôle de formation d’un réseau de drones à base d’apprentissage par renforcement. RencontresFrancophones sur la Conception de Protocoles, l’Évaluation de Performance et l’Expérimentation desRéseaux de Communication, Jun 2019, Narbonne, France. ￿hal-02128006v2￿Contrôle de formation d’un réseau de dronesà base d’apprentissage par renforcementNicola Roberto Zema1 †, Mirwaisse Djanbaz1, Dominique Quadri1,Steven Martin1, Enrico Natalizio2 et Omar Shrit11 LRI - Université Paris-Saclay, Orsay, France 2 LORIA - Université de Lorraine, Vandœuvre lès Nancy, FranceNous présentons une solution innovante basée sur un algorithme d’apprentissage par renforcement, le Q-learning, pourle contrôle de formation d’un réseau de drones par un unique opérateur. Pour suivre automatiquement le drone maître,le seul téléguidé, tous les autres n’utilisent que les puissances de signal reçues durant les communications ad hoc. Grâceà ces seules valeurs obtenues en temps-réel, la formation peut être parfaitement maintenue en appliquant notre schémacomportemental. Les expérimentations, menées sous ns-3, montrent l’efficacité de notre approche.Mots-clefs : Drones, flotte de drones, contrôle de formation, réseau ad hoc, apprentissage par renforcement, Q-learning1 IntroductionAprès être longtemps resté limité au secteur militaire, le marché du drone a connu ces dernières annéesune croissance exponentielle avec l’avènement des drones civils (professionnels et de loisir). Ce phénomènea ouvert de nombreux axes de recherche, tant au niveau matériel que logiciel, et a permis l’apparition denouvelles applications bouleversant différents secteurs d’activité (transports, bâtiment, agriculture, observa-tion, surveillance, . . . ). Le pilotage est devenu aisé et accessible à tous, avec des calculateurs embarqués deplus en plus performants et miniaturisés, une autonomie accrue, une stabilité renforcée et des fonctions pré-programmées. De nouveaux modèles apparaissent régulièrement, rivalisant d’inventivité, allant de simplesballons à des engins tout-terrain capables de voler, rouler et naviguer, en passant par des multicoptères auxpossibilités multiples. Mais un nouveau type d’utilisation se développe pour surmonter les limitations d’ununique drone, avec des applications encore à imaginer : les réseaux de drones. Ces flottes ont pour ambitionde mener des missions difficiles ou trop coûteuses par des drones individuels. Par exemple, un groupe dedrones peut observer, surveiller ou suivre des cibles spécifiques (personnes, véhicules, . . . ) dans de vasteszones. Des drones interconnectés peuvent également permettre une infrastructure réseau dans les airs afind’offrir une couverture plus efficace que les réseaux de communication classiques (manifestations, événe-ments sportifs, zones sinistrées, . . . ). Par ailleurs, les drones sont maintenant quasiment tous équipés d’unecaméra 2D ou 3D. Mais un seul drone ne peut observer en temps-réel une région hostile/inaccessible ouderrière un obstacle, en raison de la perte de connexion avec le centre de commande. Certaines solutionsexistantes fournissent une connectivité via des réseaux d’infrastructure (4G, réseaux satellites). Cependant,cette connectivité est fortement contrainte par la couverture de l’opérateur.Nous proposons ici une solution efficace pour permettre à un unique opérateur, avec une seule télécom-mande, de piloter un ensemble de drones volant en formation, dans des environnements intérieurs et ex-térieurs, pour assurer le service demandé. Pour ce faire, seul un drone est contrôlé à distance (le dronemaître), les autres (les suiveurs) se déplacant automatiquement pour maintenir la formation initiale. La so-lution proposée ne requiert aucune infrastructure spécifique ni aucun matériel supplémentaire ou dédié, enparticulier de module GPS dont les informations de positionnement peuvent être approximatives ou inexis-tantes (notamment dans des environnements intérieurs). Plus précisément, notre méthode, décrite dans laSection 2, permet de contrôler la formation d’un réseau de drones en adaptant un algorithme d’apprentis-sage par renforcement [Wat89], à savoir le Q-learning. Les drones suiveurs peuvent alors se (re)positionner†Ce travail a été réalisé dans le cadre du projet Wizard, dont les fonds proviennent d’un programme Européen FEDER.Nicola Roberto Zema , Mirwaisse Djanbaz, Dominique Quadri, Steven Martin, Enrico Natalizio et Omar Shritautomatiquement en s’appuyant uniquement sur les puissances de signal reçues, ou RSSI (Received SignalStrength Indication), durant leurs communications ad hoc, selon le schéma comportemental défini. Bienque des modèles aient été proposés, par exemple pour gérer des essaims de drones [WQXC14] ou coor-donner une flotte de drones pour accomplir des actions complexes [LB18], très peu de travaux mettent enoeuvre leur approche en situation réelle [CBF18]. Plusieurs travaux ont déjà étudié l’utilisation du RSSIpour maintenir la formation entre robots [KOK+10, WQXC14, GTK17]. Cependant, cette utilisation estretreinte au problème suivant : un robot donné doit localiser puis échanger les données de localisation etpropager les informations au reste du groupe [ZTHK17]. De même, le Q-learning a été proposé pour traiterdes problèmes de patrouilles de drones [Per08] et récemment pour contrôler une flotte de drones [HG17],mais sans prise en compte de la qualité de service demandée pour remplir la mission et en nécessitant unmatériel spécialisé de type vidéo.Notre approche, qui consiste à n’utiliser que les puissances de signal reçues pour contrôler la formation età adapter l’algorithme d’apprentissage en conséquence est non seulement originale et efficace, mais permetégalement de garantir que la QoS (en termes de débit) soit toujours satisfaite. Plus précisément, les dronesadaptent systématiquement et automatiquement leur position pour maintenir le même RSSI, garantissantainsi le débit nécessaire à l’application pour fonctionner correctement. La solution proposée a été implantéesous forme protocolaire et testée sous ns-3. Les résultats sont présentés dans la Section 3.2 RSSI et Q-learning pour le contrôle de formationL’apprentissage par renforcement [Wat89] est une classe de méthodes ayant pour objectif d’apprendre àoptimiser une récompense au cours du temps, à partir d’expériences [CK02]. Il considère un agent qui doitdécider de façon automatique et autonome une action dans un univers incertain, modélisé par un Processusde Décision Markovien (MDP). Dans notre cadre d’étude, seul le drone maître est contrôlé par un opérateur,les drones suiveurs se déplaçant automatiquement en fonction du maître. Chaque drone suiveur (qui est unagent) doit prendre des décisions (actions) dans un environnement (ici la simulation) afin de maximiserune récompense. Plus la formation initiale est maintenue et plus l’agent est récompensé. Ainsi, le but del’algorithme d’apprentissage par renforcement est d’apprendre la politique optimale, c’est-à-dire celle quiindique aux drones suiveurs dans quelle direction ils doivent se déplacer de telle sorte à rester le plus prochede la formation initiale. Plus précisément, l’environnement sera modélisé sous la forme d’un MDP composéd’un ensemble d’états finis S, d’un ensemble d’actions A et d’une fonction de récompense Q : S×A→ r.Un état correspond à la situation de l’environnement perçue par le drone. En l’occurrence, les drones ontseulement comme information les différents RSSI courants des drones voisins, ainsi que l’historique desprécédents RSSI et actions choisies.FIGURE 1: Trois drones en formation trianglePrenons l’exemple de trois drones dont la formation ini-tiale est un triangle isocèle (voir Figure 1). Chaque dronesuiveur nécessite de recevoir les informations des deuxautres drones. En supposant que les puissances de signalreçues sont symétriques, un état est alors défini commeun ensemble composé par le triplet des puissances entreles drones à l’instant précédent, la dernière action quele drone a effectuée et le triplet des puissances mesuréesjuste après cette action.Afin de limiter l’espace des états, il est possible de discrétiser les puissances de signal en les arrondissant àl’entier le plus proche. Ainsi, un élément de S pourrait être par exemple : {(-57dB, -58dB, -62dB),“aller à gauche”, (-58dB, -57dB, -63dB)}. Chaque transition donne lieu à une récom-pense (positive ou négative). L’algorithme va donc chercher à maximiser la somme des récompenses que ledrone reçoit sur une période de temps donnée. La valeur de cette récompense est déterminée en comparantles positions des drones suiveurs obtenues à la suite d’actions et les positions attendues. Plus l’erreur estfaible, plus la récompense est élevée. Enfin, nous définissons une fonction Q : S×A→ r permettant d’esti-mer la qualité d’un couple (état, action). Plus cette valeur est élevée, plus la récompense cumulée que nouspouvons espérer obtenir dans le futur en effectuant cette action à partir de cet état est élevée. Ainsi, pourContrôle de formation d’un réseau de drones à base d’apprentissage par renforcementchaque état, la fonction donne une valeur aux quatre actions possibles (aller à gauche, à droite, avancer,reculer) dans notre contexte. Un Q-tableau est associé à cette fonction, comprenant les différents états (enlignes) et les quatre actions possibles pour un drone (en colonnes). La valeur d’une case correspond doncà la qualité de l’action pour l’état considéré. Au démarrage, toutes les valeurs sont nulles. A partir de l’étatinitial, l’action permettant à la fonction Q de retourner la plus grande valeur est choisie. Une fois cetteaction réalisée, une récompense est accordée. Cette dernière permet de mettre à jour la fonction Q selon laformule suivante : Q(st ,at)← Q(st ,at)+α(rt + γ×maxa Q(st+1,a)) où Q(st ,at) représente la récompenseprécédente, α le taux d’apprentissage, rt la récompense, γ le facteur d’actualisation et maxa Q(st+1,a) l’esti-mation de la valeur future optimale. Enfin, (rt +γ×maxa Q(st+1,a)) est dite valeur apprise. De plus, lors dela phase d’entraînement, une valeur ε est établie permettant de définir le taux d’exploration. Pour implanternotre approche, nous avons utilisé la norme IEEE 802.11 en mode ad-hoc pour des communications entredrones, sans infrastructure ou point d’accès. Périodiquement, chaque drone diffuse un paquet contenant laliste des dernières mesures de RSSI (non discrétisées) et les sources associées. Les drones possèdent ainsiles valeurs RSSI de leurs voisins, permettant à chacun de calculer un état pour le Q-tableau.3 ExpérimentationsNous avons implanté le protocole en utilisant ns-3 [RH10] et nous avons fourni les informations recueilliespar l’échange des paquets contenant les RSSI à une application externe, à l’aide du système de publication-abonnement du système d’exploitation Robot (ROS) [Kou17]. Pour chaque drone, ns-3 propose une ap-plication qui stocke les valeurs des RSSI, les diffuse régulièrement (toutes les 200 ms) dans le simulateuret les met à disposition dans ROS. Un programme a également été développé afin de calculer une trajec-toire cinématique pour le maître et les suiveurs. Celle du maître suit un chemin prédéterminé à une vitessefixée, tandis que les suiveurs utilisent l’algorithme Q-learning pour maintenir la formation.Pour obtenir lesinformations RSSI, les suiveurs interrogent en permanence la partie ns-3 du système via le système de pu-blication / abonnement, récupèrent les valeurs mises à jour, puis renvoient leur mouvement dans ns-3. Pourchaque expérimentation, nous avons imposé que les drones se déplacent en conservant une formation entriangle isocèle. La base du triangle mesure 200 m de large et 100 m de long. Le maître suit un chemin de2000 m, comprenant trois virages à 90 degrés à 450, 950 et 1750 m. Les paquets sont diffusés à l’aide dela technologie 802.11n en mode ad-hoc, pouvant couvrir des centaines de mètres dans des conditions LOS.Pour les phases de formation et de tests, un modèle de propagation log-normal a été utilisé et la puissance detransmission a été réglé à 17 dBm. De plus, pour évaluer la réactivité des suiveurs par rapport aux mouve-ments du drone maître, nous avons fait varier la vitesse maximale de ce dernier tout en maintenant celle dessuiveurs à 10 m/s. Nous avons également testé les performances de notre solution en fonction du nombred’itérations pour la phase d’apprentissage de l’algorithme de Q-learning. Le résultat de notre analyse estl’erreur de positionnement, c’est-à-dire la distance euclidienne (à chaque instant) entre la position où lessuiveurs devraient être pour conserver la formation initiale et leur position réelle.FIGURE 2: Erreur de positionnementComme le montre la Figure 2, lorsque la phase d’ap-prentissage du Q-learning comprend au moins 2000 ité-rations (valeur obtenue par une campagne de simulationpréliminaire), la formation est maintenue, l’erreur étantaux alentours de 1 ou 2 % par rapport aux 200 mètres sé-parant les drones. L’amplitude des oscillations est fonc-tion de la vitesse maximale du drone maître (notée σ etexprimée en m/s), l’erreur étant naturellement plus faiblelorsque celui-ci se déplace plus lentement. Ainsi, pourune vitesse maximale raisonnable, nous pouvons consta-ter que l’erreur de positionnement est non seulementfaible, mais qu’elle ne fluctue quasiment pas au coursdu temps. Elle peut être réduite en considérant plus fi-nement les puissances de signal, avec pour conséquenceune augmentation du Q-tableau.Nicola Roberto Zema , Mirwaisse Djanbaz, Dominique Quadri, Steven Martin, Enrico Natalizio et Omar Shrit4 ConclusionNous avons proposé une solution efficace permettant à un opérateur, avec une seule télécommande, dansun enviromment extérieur ou intérieur, de contrôler un ensemble de drones se maintenant automatiquementen formation et offrant la qualité de service nécessaire à l’application en termes de débit. Notre approches’appuie uniquement sur les valeurs des puissances de signal reçues lors des communications ad hoc au seinde la formation, et ne requiert donc aucune infrastructure ou matériel dédié. Les mouvements qu’un dronedoit réaliser (hormis le maître piloté par l’opérateur) de manière autonome pour se (re)positionner correc-tement sont définis par un algorithme d’apprentissage par renforcement, le Q-learning. Notre solution a étéimplantée dans un protocole et testée avec ns-3. Les résultats sont concluants, montrant un taux d’erreur depositionnement stable et extrêmement faible.Parmi nos perspectives, nous pouvons citer l’étude de l’effet des communications ad hoc multi-sauts surla précision de la formation, mais également la détermination de la formation initiale au travers de la pro-grammation robuste, en intégrant l’incertitude du positionnement et de la couverture des drones en fonctionde l’application.Références[CBF18] Walton Pereira Coutinho, Maria Battarra, and Jörg Fliege. The unmanned aerial vehicle routingand trajectory optimisation problem, a taxonomic review. Computers & Industrial Enginee-ring, 120 :116 – 128, 2018.[CK02] Miclet L. Cornuéjols, A. and Y. Kodratoff. Apprentissage Artificiel : Concepts et algorithmes.Eyrolles, 2002.[GTK17] Pradipta Ghosh, Jason A Tran, and Bhaskar Krishnamachari. Arrest : A rssi based approachfor mobile sensing and tracking of a moving object. In Globecom Workshops (GC Wkshps),2017 IEEE, pages 1–6. IEEE, 2017.[HG17] S-M. Hung and S.N. Givigi. A q-learning approach to flocking with uavs in a stochasticenvironment. IEEE Transactions Cybernetics, 47(1) :186–197, 2017.[KOK+10] T. Komatsu, T. Ohkubo, K. Kobayashi, K. Watanabe, and Y. Kurihara. A study of rssi-basedformation control algorithm for multiple mobile robots. In Proceedings of SICE Annual Confe-rence 2010, pages 1127–1130, Aug 2010.[Kou17] Anis Koubâa. Robot operating system (ros) : The complete reference, volume 2. Springer,2017.[LB18] Yuanchang Liu and Richard Bucknall. A survey of formation control and motion planning ofmultiple unmanned vehicles. Robotica, 36(7) :1019–1047, 2018.[Per08] Hogan J. Moulin B. Berger J. Bélanger M. Perron, J. A hybrid approach based on multi-agent geosimulation and reinforcement learning to solve a uav patrolling problem. In WSC’08 Proceedings of the 40th Conference on Winter Simulation, pages 1259–1267, 2008.[RH10] George F Riley and Thomas R Henderson. The ns-3 network simulator. In Modeling and toolsfor network simulation, pages 15–34. Springer, 2010.[Wat89] C.J.C.H. Watkins. Learning from delayed rewards. PhD thesis, University of Cambridge,1989.[WQXC14] Han Wu, Shizhen Qu, Dongdong Xu, and Chunlin Chen. Precise localization and formationcontrol of swarm robots via wireless sensor networks. Mathematical Problems in Engineering,2014, 2014.[ZTHK17] W. Zhang, Y. Tang, T. Huang, and J. Kurths. Sampled-data consensus of linear multi-agentsystems with packet losses. IEEE Transactions on Neural Networks and Learning Systems,28(11) :2516–2527, Nov 2017.

Contrôle de formation d'un réseau de drones à base d'apprentissage par renforcement

https://hal.archives-ouvertes.fr/hal-02128006/document

Contrôle de formation d'un réseau de drones à base d'apprentissage par renforcement

Abstract

Similar works

Full text

Available Versions

INRIA a CCSD electronic archive server