|
Freek Stulp and Olivier Sigaud. Adaptation de la matrice de covariance pour l'apprentissage par renforcement direct. In 7èmes
Journées Francophones Planification, Décision, et Apprentissage pour la conduite de systèmes, 2012.
|
|
|
[PDF]851.7kB
|
|
|
La résolution de problèmes à états et actions continus par l'optimisation de politiques paramétriques est un sujet d'intérêt
récent en apprentissage par renforcement. L'algorithme PI2 est un exemple de cette approche, qui bénéficie de fondements mathématiques
solides tirés de la commande stochastique optimale et des outils de la théorie de l'estimation statistique. Dans cet article,
nous considérons PI2 en tant que membre de la famille plus vaste des méthodes qui partagent le concept de moyenne pondérée
par les probabilités pour mettre à jour itérativement des paramètres afin d'optimiser une fonction de coût. Nous comparons
PI2 à d'autres membres de la même famille - la <> et CMAES (Covariance Matrix Adaptation - Evolutionary
Strategies) - au niveau conceptuel et en termes de performance. La comparaison débouche sur la dérivation d'un nouvel algorithme
que nous appelons PI2CMA pour <>. Le principal avantage
de PI2CMA est qu'il détermine l'amplitude du bruit d'exploration automatiquement.
|
|
|
@InProceedings{stulp12adaptation,
title = {Adaptation de la matrice de covariance pour l'apprentissage par renforcement direct},
author = {Freek Stulp and Olivier Sigaud},
booktitle = {7\`emes Journ\'ees Francophones Planification, D\'ecision, et Apprentissage pour la conduite de syst\`emes},
year = {2012},
abstract = {La résolution de problèmes à états et actions continus par l'optimisation de politiques paramétriques est un sujet d'intérêt récent en apprentissage par renforcement. L'algorithme PI2 est un exemple de cette approche, qui bénéficie de fondements mathématiques solides tirés de la commande stochastique optimale et des outils de la théorie de l'estimation statistique. Dans cet article, nous considérons PI2 en tant que membre de la famille plus vaste des méthodes qui partagent le concept de moyenne pondérée par les probabilités pour mettre à jour itérativement des paramètres afin d'optimiser une fonction de coût. Nous comparons PI2 à d'autres membres de la même famille - la <<méthode d'entropie croisée>> et CMAES (Covariance Matrix Adaptation -- Evolutionary Strategies) - au niveau conceptuel et en termes de performance. La comparaison débouche sur la dérivation d'un nouvel algorithme que nous appelons PI2CMA pour <<Path Integral Policy Improvement with Covariance Matrix Adaptation>>. Le principal avantage de PI2CMA est qu'il détermine l'amplitude du bruit d'exploration automatiquement.},
bib2html_pubtype = {Refereed Conference Paper},
bib2html_rescat = {Reinforcement Learning of Robot Skills}
}
|
This material is presented to ensure timely dissemination of scholarly and technical work. Copyright and all rights therein
are retained by authors or by other copyright holders. All persons copying this information are expected to adhere to the
terms and constraints.
Generated by
bib2html.pl
(written by Patrick Riley
) on
Mon Jul 20, 2015 21:50:11 |