Article (Périodiques scientifiques)
Optimal and approximate Q-value functions for decentralized POMDPs
Oliehoek, Frans A.; Spaan, Matthijs T. J.; VLASSIS, Nikos
2008In Journal of Artificial Intelligence Research, 32, p. 289-353
Peer reviewed vérifié par ORBi
 

Documents


Texte intégral
live-2447-3856-jair.pdf
Postprint Éditeur (627.75 kB)
http://www.jair.org/media/2447/live-2447-3856-jair.pdf
Télécharger

Tous les documents dans ORBilu sont protégés par une licence d'utilisation.

Envoyer vers



Détails



Résumé :
[en] Decision-theoretic planning is a popular approach to sequential decision making problems, because it treats uncertainty in sensing and acting in a principled way. In single-agent frameworks like MDPs and POMDPs, planning can be carried out by resorting to Q-value functions: an optimal Q-value function Q* is computed in a recursive manner by dynamic programming, and then an optimal policy is extracted from Q*. In this paper we study whether similar Q-value functions can be defined for decentralized POMDP models (Dec-POMDPs), and how policies can be extracted from such value functions. We define two forms of the optimal Q-value function for Dec-POMDPs: one that gives a normative description as the Q-value function of an optimal pure joint policy and another one that is sequentially rational and thus gives a recipe for computation. This computation, however, is infeasible for all but the smallest problems. Therefore, we analyze various approximate Q-value functions that allow for efficient computation. We describe how they relate, and we prove that they all provide an upper bound to the optimal Q-value function Q*. Finally, unifying some previous approaches for solving Dec-POMDPs, we describe a family of algorithms for extracting policies from such Q-value functions, and perform an experimental evaluation on existing test problems, including a new firefighting benchmark problem.
Disciplines :
Sciences informatiques
Identifiants :
UNILU:UL-ARTICLE-2011-703
Auteur, co-auteur :
Oliehoek, Frans A.
Spaan, Matthijs T. J.
VLASSIS, Nikos ;  University of Luxembourg > Luxembourg Centre for Systems Biomedicine (LCSB)
Langue du document :
Anglais
Titre :
Optimal and approximate Q-value functions for decentralized POMDPs
Date de publication/diffusion :
2008
Titre du périodique :
Journal of Artificial Intelligence Research
ISSN :
1076-9757
eISSN :
1943-5037
Maison d'édition :
Morgan Kaufmann Publishers, San Francisco, Etats-Unis - Californie
Volume/Tome :
32
Pagination :
289-353
Peer reviewed :
Peer reviewed vérifié par ORBi
Commentaire :
MARKOV DECISION-PROCESSES COMPLEXITY SYSTEMS
Disponible sur ORBilu :
depuis le 17 novembre 2013

Statistiques


Nombre de vues
87 (dont 0 Unilu)
Nombre de téléchargements
162 (dont 0 Unilu)

citations Scopus®
 
424
citations Scopus®
sans auto-citations
393
OpenCitations
 
96
citations OpenAlex
 
228
citations WoS
 
285

Bibliographie


Publications similaires



Contacter ORBilu