Publications Freek Stulp


Back to Homepage
Sorted by DateClassified by Publication TypeClassified by Research Category
Adaptation de la matrice de covariance pour l'apprentissage par renforcement direct
Freek Stulp and Olivier Sigaud. Adaptation de la matrice de covariance pour l'apprentissage par renforcement direct. In 7èmes Journées Francophones Planification, Décision, et Apprentissage pour la conduite de systèmes, 2012.
Download
[PDF]851.7kB  
Abstract
La résolution de problèmes à états et actions continus par l'optimisation de politiques paramétriques est un sujet d'intérêt récent en apprentissage par renforcement. L'algorithme PI2 est un exemple de cette approche, qui bénéficie de fondements mathématiques solides tirés de la commande stochastique optimale et des outils de la théorie de l'estimation statistique. Dans cet article, nous considérons PI2 en tant que membre de la famille plus vaste des méthodes qui partagent le concept de moyenne pondérée par les probabilités pour mettre à jour itérativement des paramètres afin d'optimiser une fonction de coût. Nous comparons PI2 à d'autres membres de la même famille - la <> et CMAES (Covariance Matrix Adaptation - Evolutionary Strategies) - au niveau conceptuel et en termes de performance. La comparaison débouche sur la dérivation d'un nouvel algorithme que nous appelons PI2CMA pour <>. Le principal avantage de PI2CMA est qu'il détermine l'amplitude du bruit d'exploration automatiquement.
BibTeX
@InProceedings{stulp12adaptation,
  title                    = {Adaptation de la matrice de covariance pour l'apprentissage par renforcement direct},
  author                   = {Freek Stulp and Olivier Sigaud},
  booktitle                = {7\`emes Journ\'ees Francophones Planification, D\'ecision, et Apprentissage pour la conduite de syst\`emes},
  year                     = {2012},
  abstract                 = {La résolution de problèmes à états et actions continus par l'optimisation de politiques paramétriques est un sujet d'intérêt récent en apprentissage par renforcement. L'algorithme PI2 est un exemple de cette approche, qui bénéficie de fondements mathématiques solides tirés de la commande stochastique optimale et des outils de la théorie de l'estimation statistique. Dans cet article, nous considérons PI2 en tant que membre de la famille plus vaste des méthodes qui partagent le concept de moyenne pondérée par les probabilités pour mettre à jour itérativement des paramètres afin d'optimiser une fonction de coût. Nous comparons PI2 à d'autres membres de la même famille - la <<méthode d'entropie croisée>> et CMAES (Covariance Matrix Adaptation -- Evolutionary Strategies) - au niveau conceptuel et en termes de performance. La comparaison débouche sur la dérivation d'un nouvel algorithme que nous appelons PI2CMA pour <<Path Integral Policy Improvement with Covariance Matrix Adaptation>>. Le principal avantage de PI2CMA est qu'il détermine l'amplitude du bruit d'exploration automatiquement.},
  bib2html_pubtype         = {Refereed Conference Paper},
  bib2html_rescat          = {Reinforcement Learning of Robot Skills}
}

This material is presented to ensure timely dissemination of scholarly and technical work. Copyright and all rights therein are retained by authors or by other copyright holders. All persons copying this information are expected to adhere to the terms and constraints.


Generated by bib2html.pl (written by Patrick Riley ) on Mon Jul 20, 2015 21:50:11