Comparación de la explicación obtenida con modelos de explicabilidad para diferentes métodos de Reinforcement Learning

Abstract

El creciente uso de las tecnologías de Inteligencia Artificial para proveer productos y servicios destinados a humanos ha aumentado el interes en como estas tecnologías toman decisiones que pueden tener un grave impacto en la vida de las personas (como por ejemplo la concesión de un prestamo bancario, el diagnóstico sanitario a partir de imagenes medicas, o el acceso a un puesto de trabajo). Con la intención de abordar estos problemas, muchas instituciones en Europa (lideradas por la Comisión Europea) estan promoviendo la creación de tecnologías de IA de confianza (TRustworthy AI). Una de las formas de hacer estas tecnologías confiables consiste en hacer que todos los resultados que proveen sean entendibles por los humanos. La explicabilidad es una manera de proveer explicaciones a las decisiones tomadas por un modelo de IA o un algoritmo, y son especialmente usadas en las tecnologías de Deep Learning y Reinfocement Learning. Este proyecto forma parte de la investigación en curso acerca de la explicabilidad de agentes entrenados con Reinforcement Learning. El objetivo principal es comprobar si, dado un entorno fijo y un método de explicabilidad, diferentes tipos de algoritmos de entrenamiento producen explaciones diferentes (acerca de su comportamiento). Esta hipótesis será validada o refutada entrenando agentes con diferentes métodos de Reinforcement Learning y comparando sus políticas, basandose en métricas definidas en el proyecto, usando un modelo de explicabilidad común.The growing use of AI technologies to provide products and services to humans has raised concerns on how these technologies take some decisions that may heavily impact the people's lifes (such as the granting of a bank loan, the health diagnosis from some medical imagery, or the access to a job position). In order to address those concerns, many institutions in Europe (leaded by the European Commission) are promoting the creation of Trustworthy AI technologies. One of the ways to make theses technologies trustworthy is by making all results provided by them understandable by humans. Explainability is a way to provide explanations on the decisions made by a given AI model or algorithm, and it is specially used in technologies such as Deep Learning and Reinforcement Learning. This project is part of an ongoing research on the explainability of agents trained through Reinforcement Learning. The main objective is to check if, given a fixed environment and explainability model, different types of agent training algorithms produce different explanations (about their behavior). This hypothesis will be validated or refuted by training agents using different reinforcement learning methods and comparing their policies, based on metrics defined in the project, using the same explainability model

    Similar works