Search CORE

43 research outputs found

Deep Policies for Width-Based Planning in Pixel Domains

Author: Gómez Vicenç
Jonsson Anders
Junyent Miquel
Publication venue
Publication date: 05/07/2019
Field of study

Width-based planning has demonstrated great success in recent years due to its ability to scale independently of the size of the state space. For example, Bandres et al. (2018) introduced a rollout version of the Iterated Width algorithm whose performance compares well with humans and learning methods in the pixel setting of the Atari games suite. In this setting, planning is done on-line using the "screen" states and selecting actions by looking ahead into the future. However, this algorithm is purely exploratory and does not leverage past reward information. Furthermore, it requires the state to be factored into features that need to be pre-defined for the particular task, e.g., the B-PROST pixel features. In this work, we extend width-based planning by incorporating an explicit policy in the action selection mechanism. Our method, called

\pi

-IW, interleaves width-based planning and policy learning using the state-actions visited by the planner. The policy estimate takes the form of a neural network and is in turn used to guide the planning step, thus reinforcing promising paths. Surprisingly, we observe that the representation learned by the neural network can be used as a feature space for the width-based planner without degrading its performance, thus removing the requirement of pre-defined features for the planner. We compare

\pi

-IW with previous width-based methods and with AlphaZero, a method that also interleaves planning and learning, in simple environments, and show that

\pi

-IW has superior performance. We also show that

\pi

-IW algorithm outperforms previous width-based methods in the pixel setting of Atari games suite.Comment: In Proceedings of the 29th International Conference on Automated Planning and Scheduling (ICAPS 2019). arXiv admin note: text overlap with arXiv:1806.0589

arXiv.org e-Print Archive

Association for the Advancement of Artificial Intelligence: AAAI Publications

Hierarchical Width-Based Planning and Learning

Author: Gómez Vicenç
Jonsson Anders
Junyent Miquel
Publication venue
Publication date: 01/01/2021
Field of study

Width-based search methods have demonstrated state-of-the-art performance in a wide range of testbeds, from classical planning problems to image-based simulators such as Atari games. These methods scale independently of the size of the state-space, but exponentially in the problem width. In practice, running the algorithm with a width larger than 1 is computationally intractable, prohibiting IW from solving higher width problems. In this paper, we present a hierarchical algorithm that plans at two levels of abstraction. A high-level planner uses abstract features that are incrementally discovered from low-level pruning decisions. We illustrate this algorithm in classical planning PDDL domains as well as in pixel-based simulator domains. In classical planning, we show how IW(1) at two levels of abstraction can solve problems of width 2. For pixel-based domains, we show how in combination with a learned policy and a learned value function, the proposed hierarchical IW can outperform current flat IW-based planners in Atari games with sparse rewards

arXiv.org e-Print Archive

UPF Digital Repository

Association for the Advancement of Artificial Intelligence: AAAI Publications

Colaboración de la Universidad de Barcelona en las excavaciones del poblado ibérico de Molí d'Espígol, en Tornabous

Author: Baldellou Martínez Vicente
Cura i Morera Miquel
Junyent Emili
Llorens A.
Maluquer de Motes Joan
Publication venue: 'Edicions de la Universitat de Barcelona'
Publication date: 01/01/1971
Field of study

Revistes Catalanes amb Accés Obert

Repositori Obert UdL

Infrastructural Nature

Author: Aquilué Junyent Inés
Galindo González Julián
Martí Casanovas Miquel
Pesoa Marcilla Melisa
Roca Blanch Estanislao
Publication venue
Publication date: 21/11/2015
Field of study

Segon premiAward-winningPostprint (published version

UPCommons. Portal del coneixement obert de la UPC

La Internet del Futur: Anàlisi retrospectiva, reflexió i posicionament estratègic

Author: Alcober Segura Jesús Ángel
Cervelló Pastor Cristina
Domingo Pascual Jordi
Fernández Gabriel
Junyent Giralt Gabriel
Oliver Miquel
Paradells Aspas Josep
Sallent Ribes Sebastián
Serra Hurtado Arturo
Publication venue
Publication date: 01/01/2008
Field of study

Aquest treball té com a objectiu analitzar la situació actual de la Internet, per proposar noves alternatives i dibuixar un possible camí cap a la Internet del Futur. Aquesta anàlisi vol ser un punt de partida, un document de reflexió, que posicioni als agents locals i nacionals (entorns de la recerca, innovació i producció, i usuaris) en una situació capdavantera en la construcció del nou model econòmic i social del segle XXI. El treball consta de dos grans apartats, una introducció descriptiva i conceptual del paper que juga la Internet i la seva projecció futura, i una segona part on es desdibuixen en mes profunditat les bases tecnològiques de la possible Internet del futur a partir de la realitat actual.Preprin

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

UPCommons. Portal del coneixement obert de la UPC

State of emergency medicine in Spain

Spain has universal public health care coverage. Emergency care provisions are offered to patients in different modalities and levels according to the characteristics of the medical complaint: at primary care centers (PCC), in an extrahospital setting by emergency medical services (EMS) and at hospital emergency departments (ED). We have more than 3,000 PCCs, which are run by family doctors (general practitioners) and pediatricians. On average, there is 1 PCC for every 15,000 to 20,000 inhabitants, and every family doctor is in charge of 1,500 to 2,000 citizens, although less populated zones tend to have lower ratios. Doctors spend part of their duty time in providing emergency care to their own patients. While not fully devoted to emergency medicine (EM) practice, they do manage minor emergencies. However, Spanish EMSs contribute hugely to guarantee population coverage in all situations. These EMS are run by EM technicians (EMT), nurses and doctors, who usually work exclusively in the emergency arena. EDs dealt with more than 25 million consultations in 2008, which implies, on average, that one out of two Spaniards visited an ED during this time. They are usually equipped with a wide range of diagnostic tools, most including ultrasonography and computerized tomography scans. The academic and training background of doctors working in the ED varies: nearly half lack any structured specialty residence training, but many have done specific master or postgraduate studies within the EM field. The demand for emergency care has grown at an annual rate of over 4% during the last decade. This percentage, which was greater than the 2% population increase during the same period, has outpaced the growth in ED capacity. Therefore, Spanish EDs become overcrowded when the system exerts minimal stress. Despite the high EM caseload and the potential severity of the conditions, training in EM is still unregulated in Spain. However, in April 2009 the Spanish Minister of Health announced the imminent approval of an EM specialty, allowing the first EM resident to officially start in 2011. Spanish emergency physicians look forward to the final approval, which will complete the modernization of emergency health care provision in Spain

Crossref

Springer - Publisher Connector

PubMed Central

Notas bibliograficas

Directory of Open Access Journals

Anuario de Estudios Medievales (Institución Milá y Fontan - CSIC)

Treatment with tocilizumab or corticosteroids for COVID-19 patients with hyperinflammatory state: a multicentre cohort study (SAM-COVID-19)

Author: Abora Rial-Villavecchia
Adriana Sánchez Serrano
Adrián Sousa
Aina Gomila Grange
Ainhoa Sanjuan López
Ainhoa Urrutia Losada
Alberto Gato Díez
Alberto Romero-Palacios
Alberto Serrano Martínez
Alejandra Duarte Borges
Alejandro Araujo
Alexander Rombauts
Alexandra de la Vega
Alexandre Pérez González
Alfonso Cabello Úbeda
Alfonso Lluna Carrascosa
Alicia Hernández Torres
Almudena Hernández Milian
Ana Alberich Conesa
Ana Correa Ruiz
Ana Escoresca
Ana Ferrer Ribera
Ana Isabel Mariño Callejo
Ana Isabel Peláez Ballesta
Ana Such Diaz
Andrea Martín Plata
André Barbosa Ventura
Andrés Ruiz Sancho
Ane Andrés Eisenhofer
Anonymous
Antonia Alcaraz
Antonia Sepúlveda Berrocal
Antonio José Ruiz Reina
Antonio Plata Ciezar
Araceli González-Cuevas
Arantzazu Mera Fidalgo
Ariadna De Genover Gil
Aroa Villoslada Gelabert
Aychel Elena Roura Piloto
Beatriz Diaz Pollan
Beatriz Dietl
Beatriz Pérez-Monte Mínguez
Beatriz Sobrino Diaz
Beigel
Belén Loeches Yagüe
Berenguer
Bhimraj
Blanca Alonso Martínez
Blanca Martínez Cifre
Blanca Pinilla
Borja Gracia-Tello
Campochiaro
Capra
Carlos Bea Serrano
Carlos Dueñas Gutiérrez
Carlos Enrique Sabbagh Fajardo
Carlota Gudiol
Carmen Aguayo Jiménez
Carmen Herrero Rodríguez
Carmen Infante
Carmen Yllera
Carolina Roldán Fontana
Channappanavar
Chen
Chen
Chiara Fanciulli
Clara Martínez Montes
Clara Muñoz Aguirre
Claudia González Rico
Claudia Álvarez-Pouso
Claudio Bueno
Concepción García-García
Concepción Gonzalo
Cristina Badía
Cristina Cervera Acedo
Cristina Díez
Cristina Lojo Cruz
Cristina Peláez Ballesta
Cristina Pérez García
Daniel Molina Morant
Daniel Podzamczer
Daniel Roger Zapata
David Roa Alonso
David Vinuesa García
Diana Piñar Cabezos
Efrén Sánchez Vidal
Elena Aranda Rife
Elena Bereciartua Bastarrica
Elena Hellín-Valiente
Elena Marín
Elena Morcillo Rodríguez
Elena Salamanca-Rivera
Elena Trigo Esteban
Elena Álvaro Alonso
Eleni Patera
Elisa Cordero-Matía
Elisa García Vázquez
Elizabet Petkova-Saiz
Encarnación Moral Escudero
Enrique Bernal Morell
Enrique Míguez Rey
Ester Saez de Adana Arroniz
Esther Aznar Muñoz
Esther Calbo
Esther Martínez Birlanga
Eva Jiménez González de Buitrago
Eva León Jiménez
Eva Pilar García Villalba
Eva Talavera García
Evangelia Anna María Zioga
Fadel
Fernando de la Calle Prieto
Fernando Fernández Sánchez
Francesc Escrihuela
Francesca Gioia
Francisco Anguita Santos
Francisco Arnaiz de las Revillas
Francisco Javier De la Hera Fernández
Francisco Javier Martínez Marcos
Francisco Javier Rodríguez Gómez
Francisco Muñoz Beamud
Francisco Tejerina
Fátima Brañas Baztán
Gabriela Abelenda-Alonso
Gabriela Escudero López
Galadriel Pellejero
Gaspar Duro Ruiz
Gemma Mut Ramon
Gemma Muñiz Nicolás
Guan
Guaraldi
Guillem Policarpo Torres
Guillermo Cuevas Tascon
Gurutz Orbe Narváez
Gómez Lucía
Harris
Helem Haydeé Vílchez Rueda
Helena Albendín Iglesias
Hoffmann–La Roche
Horby
Hortensia Álvarez Díaz
Ignacio Pina
Ignacio Pérez Valero
Ignacio Álvarez Rodríguez
Inmaculada González-Cuello
Inmaculada Jarrín
Inmaculada López-Montesinos
Inés Fernández Jiménez
Inés Pérez Zapata
Irene Martín Rubio
Isabel A. Pérez Hernández
Isabel Asschert Agüero
Isabel Gutiérrez
Isabel Gutiérrez Martín
Isabel Rábago Lorite
Isidoro Fernández Romero
Israel Sevilla Moreno
Itziar Arrieta-Aldea
Iván Pelegrín Senent
Iván Piñero
Jara Llenas-García
Javier De la Torre Lima
Javier Garrido
Javier Martin Guerra
Jerónimo Pachón
Jessica Souto Higueras
Jesús Fortún Abete
Jesús Rodríguez-Baño
Jesús Ruiz Aragón
Joan Gómez-Junyent
Joel Elías Chara Cervantes
Jon Ugalde Espiñeira
Jordi Carratalà
Jordi Niubó
Jorge Calderón Parra
Jorge Calvo
Jorge Parra Ruiz
Jorge Valencia de la Rosa
Josefina García García
Josune Goikoetxea Agirre
José A. Oteo Revuelta
José Antonio Iribarren Loyarte
José Javier Castrodeza Sanz
José Joaquin Portu Zapirain
José Luis Sierra-Monzón
José M. Azcona Gutiérrez
José M. García de Lomas Guerrero
José Manuel Tafalla Torres
José María Reguera Iglesias
José María Robaina Bordón
José Miguel Cisneros
José Ramón Arribas
Juan Berenguer
Juan Berenguer
Juan Carlos Gainzarain Arana
Juan Carlos López
Juan Carlos Ramos Ramos
Juan Diego Ruiz Mesa
Juan González García
Juan González-Moreno
Juan Mora Delgado
Juan Pablo Avilés Parra
Juan Ramón Domínguez Vicent
Juan Salillas Hernando
Juan Torres Macho
Judit Villar-García
Julen Cadiñaños Loidi
Julio García Rodríguez
Justo Lajusticia Aisa
Júlia Pareja Coca
Karim Mohamed Ramírez
Laia Lorenzo-Esteller
Laia Raich Montiu
Laura Castelo Corral
Laura García Escudero
Laura García Pereña
Laura Guio Carrión
Laura Parra Gómez
Laura Rodríguez Fernández
Le
Leire Pérez-Latorre
Lluis Planas Bibiloni
Lorea Arteche Eguizabal
Lourdes Bladé Vidal
Lucia Boix Palop
Lucia Suárez
Lucia Valiente de Santis
Lucía Ramos Merino
Luisa González-Iglesias
Luz Martín Carbonero
Ma del Carmen Liébana Martos
Ma Jesús del Amor Espín
Ma Luisa Fernández Ávila
Ma Teresa Pérez Rodríguez
Maialen Ibarguren Pinilla
Manuel Alejandro Gálvez Bobadilla
Manuela Aguilar-Guisado
Margarita Ramírez
Mario Pérez Butragueño
Mariona Tasias Pitarch
Marta Arsuaga Vicente
Marta Asín-Corrochano
Marta Díaz Menéndez
Marta Fernández Morales
Marta Ibarrola Hierro
Marta Jiménez Escrig
Marta Lamata Subero
Marta Navarro Vilasaró
Marta Santos Peña
Martín Guillermo
María Antonia Ribot Sanso
María Carmen Fariñas Álvarez
María D. del Toro
María Erostarbe Gallardo
María Hernández-Bonaga
María Isabel Guirado Torrecillas
María Jesús Bustinduy Odriozola
María José Ríos-Villegas
María Lorena María Valle Feijoo Begoña Rodríguez Ferreira
María Luisa Machado Sicilia
María Paz García Butenegro
María Pilar Toledano Sierra
María Rivas-Carmenado
María Rodríguez Mayo
María Ruíz Campuzano
María Soledad García de Carlos
María Victoria Fernández-Baca
María Yllescas
María Ángeles Garcinuño
Mehta
Melchor Riera Jaume
Mercedes Clemente Presas
Meritxell Gavalda Manso
Meritxell Ortega Montoliu
Miguel Górgolas Hernández-Mora
Miguel Pedromingo Kus
Miguel Salvert Lletí
Miguel Torralba González de Suso
Miguel Ángel Morán Rodríguez
Mikel Temprano Gogenola
Miquel Hortos Alsina
Miquel Pujol
Mohamed Kallouchi
Montserrat Sanmarti Vilamala
Montserrat Viqueira González
Mònica Angerri Nadal
Mónica Liébana Gómez
Nerea Carrasco Antón
Nicolás Jiménez-García
Nicolás Merchante Gutiérrez
Nieves de la Cruz Felipe
Nieves Valcarce Pardeiro
Olga Meca Birlanga
Olga Sánchez-Pernaute
Onofre Martínez Madrid
Oscar Sanz Peláez
Pablo Ryan
Paloma Albiol Viñals
Patricia González Muñiz
Patricia González-Ruano Pérez
Patricia Jiménez Aguilar
Patricia Martínez Martín
Paula Mendoza Roy
Paula Santibañez Sáenz
Pedro Gil Divasson
Pedro Martínez Pérez-Crespo
Pedro Ángel Cuadros Tito
Pere Comas Casanova
Pilar Martín Dávila
Pilar Vizcarra
Rafae Silvariño Fernández
Raquel Álvarez Franco
Rebeca Longueira
Regino Rodríguez Álvarez
Reinaldo Espíndola Gómez
Ricardo Gil Sánchez
Rita Godoy Lorenzo
Rocío Montejano Sánchez
Rojas-Marte
Rosa de Miguel Buckley
Rosa Oltra Sempere
Rosana Rouco Esteves Marques
Rosario Castilla Ortiz
Sabela Sánchez Trigo
Saioa Domingo Echaburu
Salvador Pérez-Galera
Santiago Moreno Guillén
Santiago Pérez Parra
Sara Lidia Kamel Rey
Sara Vela Bernal
Sara Velasco Fuentes
Sergio España Cueto
Sergio Gilaberte Reyzábal
Sergio Manuel Santana Báez
Sergio Pérez Pinto
Sergio Román Soto
Silvana Fiorante
Silvia García Martínez
Silvia Suárez
Sonia Calzado Isbert
Sonia García Prieto
Sonsoles Salto
Tamara Caínzos Romero
Teresa Aldabó
Teresa Aldámiz-Echevarría
Teresa Giménez
Vanesa Alende Castro
Vicens Díaz de Brito Fernández
Vicente de la Rosa
Violeta Ramos Sesma
Virginia Almadana
Virginia Fernández Espinilla
Virginia Isern Fernández
Virginia Naranjo Velasco
Víctor Asensi
Xabier Kortajarena Urkola
Xavier Sanz Salvador
Ye
Yolanda Meije Castillo
Yuan
Zaira R. Palacios Baena
Zhang
Zuriñe Ortiz de Zárate Ibarra
Ángel Domínguez-Castellano
Ángeles García Flores
Ángeles Muñoz
Publication venue: 'Elsevier BV'
Publication date: 01/08/2020
Field of study

Objectives: The objective of this study was to estimate the association between tocilizumab or corticosteroids and the risk of intubation or death in patients with coronavirus disease 19 (COVID-19) with a hyperinflammatory state according to clinical and laboratory parameters. Methods: A cohort study was performed in 60 Spanish hospitals including 778 patients with COVID-19 and clinical and laboratory data indicative of a hyperinflammatory state. Treatment was mainly with tocilizumab, an intermediate-high dose of corticosteroids (IHDC), a pulse dose of corticosteroids (PDC), combination therapy, or no treatment. Primary outcome was intubation or death; follow-up was 21 days. Propensity score-adjusted estimations using Cox regression (logistic regression if needed) were calculated. Propensity scores were used as confounders, matching variables and for the inverse probability of treatment weights (IPTWs). Results: In all, 88, 117, 78 and 151 patients treated with tocilizumab, IHDC, PDC, and combination therapy, respectively, were compared with 344 untreated patients. The primary endpoint occurred in 10 (11.4%), 27 (23.1%), 12 (15.4%), 40 (25.6%) and 69 (21.1%), respectively. The IPTW-based hazard ratios (odds ratio for combination therapy) for the primary endpoint were 0.32 (95%CI 0.22-0.47; p < 0.001) for tocilizumab, 0.82 (0.71-1.30; p 0.82) for IHDC, 0.61 (0.43-0.86; p 0.006) for PDC, and 1.17 (0.86-1.58; p 0.30) for combination therapy. Other applications of the propensity score provided similar results, but were not significant for PDC. Tocilizumab was also associated with lower hazard of death alone in IPTW analysis (0.07; 0.02-0.17; p < 0.001). Conclusions: Tocilizumab might be useful in COVID-19 patients with a hyperinflammatory state and should be prioritized for randomized trials in this situatio

Crossref

UCrea

REPISALUD

UPF Digital Repository

Digital.CSIC

Diposit Digital de la Universitat de Barcelona

Fondo Bibliográfico Digital Institucional

idUS. Depósito de Investigación Universidad de Sevilla

Width-Based Planning and Learning

Author: Junyent Barbany Miquel
Publication venue: 'Universitat Pompeu Fabra'
Publication date: 15/10/2021
Field of study

Optimal sequential decision making is a fundamental problem to many diverse fields. In recent years, Reinforcement Learning (RL) methods have experienced unprecedented success, largely enabled by the use of deep learning models, reaching human-level performance in several domains, such as the Atari video games or the ancient game of Go. In contrast to the RL approach in which the agent learns a policy from environment interaction samples, ignoring the structure of the problem, the planning approach for decision making assumes known models for the agent's goals and domain dynamics, and focuses on determining how the agent should behave to achieve its objectives. Current planners are able to solve problem instances involving huge state spaces by precisely exploiting the problem structure that is defined in the state-action model. In this work we combine the two approaches, leveraging fast and compact policies from learning methods and the capacity to perform lookaheads in combinatorial problems from planning methods. In particular, we focus on a family of planners called width-based planners, that has demonstrated great success in recent years due to its ability to scale independently of the size of the state space. The basic algorithm, Iterated Width (IW), was originally proposed for classical planning problems, where a model for state transitions and goals, represented by sets of atoms, is fully determined. Nevertheless, width-based planners do not require a fully defined model of the environment, and can be used with simulators. For instance, they have been recently applied in pixel domains such as the Atari games. Despite its success, IW is purely exploratory, and does not leverage past reward information. Furthermore, it requires the state to be factored into features that need to be pre-defined for the particular task. Moreover, running the algorithm with a width larger than 1 in practice is usually computationally intractable, prohibiting IW from solving higher width problems. We begin this dissertation by studying the complexity of width-based methods when the state space is defined by multivalued features, as in the RL setting, instead of Boolean atoms. We provide a tight upper bound on the amount of nodes expanded by IW, as well as overall algorithmic complexity results. In order to deal with more challenging problems (i.e., those with a width higher than 1), we present a hierarchical algorithm that plans at two levels of abstraction. A high-level planner uses abstract features that are incrementally discovered from low-level pruning decisions. We illustrate this algorithm in classical planning PDDL domains as well as in pixel-based simulator domains. In classical planning, we show how IW(1) at two levels of abstraction can solve problems of width 2. To leverage past reward information, we extend width-based planning by incorporating an explicit policy in the action selection mechanism. Our method, called π-IW, interleaves width-based planning and policy learning using the state-actions visited by the planner. The policy estimate takes the form of a neural network and is in turn used to guide the planning step, thus reinforcing promising paths. Notably, the representation learned by the neural network can be used as a feature space for the width-based planner without degrading its performance, thus removing the requirement of pre-defined features for the planner. We compare π-IW with previous width-based methods and with AlphaZero, a method that also interleaves planning and learning, in simple environments, and show that π-IW has superior performance. We also show that the π-IW algorithm outperforms previous width-based methods in the pixel setting of Atari games suite. Finally, we show that the proposed hierarchical IW can be seamlessly integrated with our policy learning scheme, resulting in an algorithm that outperforms flat IW-based planners in Atari games with sparse rewards.La presa seqüencial de decisions òptimes és un problema fonamental en diversos camps. En els últims anys, els mètodes d'aprenentatge per reforç (RL) han experimentat un èxit sense precedents, en gran part gràcies a l'ús de models d'aprenentatge profund, aconseguint un rendiment a nivell humà en diversos dominis, com els videojocs d'Atari o l'antic joc de Go. En contrast amb l'enfocament de RL, on l'agent aprèn una política a partir de mostres d'interacció amb l'entorn, ignorant l'estructura del problema, l'enfocament de planificació assumeix models coneguts per als objectius de l'agent i la dinàmica del domini, i es basa en determinar com ha de comportar-se l'agent per aconseguir els seus objectius. Els planificadors actuals són capaços de resoldre problemes que involucren grans espais d'estats precisament explotant l'estructura del problema, definida en el model estat-acció. En aquest treball combinem els dos enfocaments, aprofitant polítiques ràpides i compactes dels mètodes d'aprenentatge i la capacitat de fer cerques en problemes combinatoris dels mètodes de planificació. En particular, ens enfoquem en una família de planificadors basats en el width (ample), que han tingut molt èxit en els últims anys gràcies a que la seva escalabilitat és independent de la mida de l'espai d'estats. L'algorisme bàsic, Iterated Width (IW), es va proposar originalment per problemes de planificació clàssica, on el model de transicions d'estat i objectius ve completament determinat, representat per conjunts d'àtoms. No obstant, els planificadors basats en width no requereixen un model de l'entorn completament definit i es poden utilitzar amb simuladors. Per exemple, s'han aplicat recentment a dominis gràfics com els jocs d'Atari. Malgrat el seu èxit, IW és un algorisme purament exploratori i no aprofita la informació de recompenses anteriors. A més, requereix que l'estat estigui factoritzat en característiques, que han de predefinirse per a la tasca en concret. A més, executar l'algorisme amb un width superior a 1 sol ser computacionalment intractable a la pràctica, el que impedeix que IW resolgui problemes de width superior. Comencem aquesta tesi estudiant la complexitat dels mètodes basats en width quan l'espai d'estats està definit per característiques multivalor, com en els problemes de RL, en lloc d'àtoms booleans. Proporcionem un límit superior més precís en la quantitat de nodes expandits per IW, així com resultats generals de complexitat algorísmica. Per fer front a problemes més complexos (és a dir, aquells amb un width superior a 1), presentem un algorisme jeràrquic que planifica en dos nivells d'abstracció. El planificador d'alt nivell utilitza característiques abstractes que es van descobrint gradualment a partir de decisions de poda en l'arbre de baix nivell. Il·lustrem aquest algorisme en dominis PDDL de planificació clàssica, així com en dominis de simuladors gràfics. En planificació clàssica, mostrem com IW(1) en dos nivells d'abstracció pot resoldre problemes de width 2. Per aprofitar la informació de recompenses passades, incorporem una política explícita en el mecanisme de selecció d'accions. El nostre mètode, anomenat π-IW, intercala la planificació basada en width i l'aprenentatge de la política usant les accions visitades pel planificador. Representem la política amb una xarxa neuronal que, al seu torn, s'utilitza per guiar la planificació, reforçant així camins prometedors. A més, la representació apresa per la xarxa neuronal es pot utilitzar com a característiques per al planificador sense degradar el seu rendiment, eliminant així el requisit d'usar característiques predefinides. Comparem π-IW amb mètodes anteriors basats en width i amb AlphaZero, un mètode que també intercala planificació i aprenentatge, i mostrem que π-IW té un rendiment superior en entorns simples. També mostrem que l'algorisme π-IW supera altres mètodes basats en width en els jocs d'Atari. Finalment, mostrem que el mètode IW jeràrquic proposat pot integrar-se fàcilment amb el nostre esquema d'aprenentatge de la política, donant com a resultat un algorisme que supera els planificadors no jeràrquics basats en IW en els jocs d'Atari amb recompenses distants.La toma secuencial de decisiones óptimas es un problema fundamental en diversos campos. En los últimos años, los métodos de aprendizaje por refuerzo (RL) han experimentado un éxito sin precedentes, en gran parte gracias al uso de modelos de aprendizaje profundo, alcanzando un rendimiento a nivel humano en varios dominios, como los videojuegos de Atari o el antiguo juego de Go. En contraste con el enfoque de RL, donde el agente aprende una política a partir de muestras de interacción con el entorno, ignorando la estructura del problema, el enfoque de planificación asume modelos conocidos para los objetivos del agente y la dinámica del dominio, y se basa en determinar cómo debe comportarse el agente para lograr sus objetivos. Los planificadores actuales son capaces de resolver problemas que involucran grandes espacios de estados precisamente explotando la estructura del problema, definida en el modelo estado-acción. En este trabajo combinamos los dos enfoques, aprovechando políticas rápidas y compactas de los métodos de aprendizaje y la capacidad de realizar búsquedas en problemas combinatorios de los métodos de planificación. En particular, nos enfocamos en una familia de planificadores basados en el width (ancho), que han demostrado un gran éxito en los últimos años debido a que su escalabilidad es independiente del tamaño del espacio de estados. El algoritmo básico, Iterated Width (IW), se propuso originalmente para problemas de planificación clásica, donde el modelo de transiciones de estado y objetivos viene completamente determinado, representado por conjuntos de átomos. Sin embargo, los planificadores basados en width no requieren un modelo del entorno completamente definido y se pueden utilizar con simuladores. Por ejemplo, se han aplicado recientemente en dominios gráficos como los juegos de Atari. A pesar de su éxito, IW es un algoritmo puramente exploratorio y no aprovecha la información de recompensas anteriores. Además, requiere que el estado esté factorizado en características, que deben predefinirse para la tarea en concreto. Además, ejecutar el algoritmo con un width superior a 1 suele ser computacionalmente intratable en la práctica, lo que impide que IW resuelva problemas de width superior. Empezamos esta tesis estudiando la complejidad de los métodos basados en width cuando el espacio de estados está definido por características multivalor, como en los problemas de RL, en lugar de átomos booleanos. Proporcionamos un límite superior más preciso en la cantidad de nodos expandidos por IW, así como resultados generales de complejidad algorítmica. Para hacer frente a problemas más complejos (es decir, aquellos con un width superior a 1), presentamos un algoritmo jerárquico que planifica en dos niveles de abstracción. El planificador de alto nivel utiliza características abstractas que se van descubriendo gradualmente a partir de decisiones de poda en el árbol de bajo nivel. Ilustramos este algoritmo en dominios PDDL de planificación clásica, así como en dominios de simuladores gráficos. En planificación clásica, mostramos cómo IW(1) en dos niveles de abstracción puede resolver problemas de width 2. Para aprovechar la información de recompensas pasadas, incorporamos una política explícita en el mecanismo de selección de acciones. Nuestro método, llamado π-IW, intercala la planificación basada en width y el aprendizaje de la política usando las acciones visitadas por el planificador. Representamos la política con una red neuronal que, a su vez, se utiliza para guiar la planificación, reforzando así caminos prometedores. Además, la representación aprendida por la red neuronal se puede utilizar como características para el planificador sin degradar su rendimiento, eliminando así el requisito de usar características predefinidas. Comparamos π-IW con métodos anteriores basados en width y con AlphaZero, un método que también intercala planificación y aprendizaje, y mostramos que π-IW tiene un rendimiento superior en entornos simples. También mostramos que el algoritmo π-IW supera otros métodos basados en width en los juegos de Atari. Finalmente, mostramos que el IW jerárquico propuesto puede integrarse fácilmente con nuestro esquema de aprendizaje de la política, dando como resultado un algoritmo que supera a los planificadores no jerárquicos basados en IW en los juegos de Atari con recompensas distantes

Tesis Doctorals en Xarxa