{"id":4667,"date":"2021-03-30T17:08:19","date_gmt":"2021-03-30T15:08:19","guid":{"rendered":"https:\/\/pages2.isir.upmc.fr\/sdoncieux\/?page_id=4667"},"modified":"2021-03-30T19:09:44","modified_gmt":"2021-03-30T17:09:44","slug":"de-la-simulation-a-la-realite","status":"publish","type":"page","link":"https:\/\/pages.isir.upmc.fr\/sdoncieux\/de-la-simulation-a-la-realite\/","title":{"rendered":"De la simulation \u00e0 la r\u00e9alit\u00e9"},"content":{"rendered":"\n<p>Apprendre \u00e0 r\u00e9soudre une t\u00e2che sur la base d&rsquo;une r\u00e9compense n\u00e9cessite d&rsquo;explorer les comportements possibles pour d\u00e9couvrir ceux qui maximisent ladite r\u00e9compense. Avec un espace d&rsquo;\u00e9tat et d&rsquo;action compact, peu de comportements sont possibles et ils peuvent \u00eatre test\u00e9s directement sur le robot r\u00e9el. Si l&rsquo;espace des \u00e9tats et des actions est trop large, il peut \u00eatre n\u00e9cessaire d&rsquo;explorer des centaines de milliers, voire des millions de politiques diff\u00e9rentes. Il est difficile de faire autant de tests sur un robot r\u00e9el. Il risque d&rsquo;\u00eatre endommag\u00e9, d&rsquo;autant plus que certains comportements peuvent \u00eatre dangereux pour le robot ou son environnement. Il est donc fr\u00e9quent de faire appel \u00e0 une simulation. La simulation ne correspond jamais exactement \u00e0 la r\u00e9alit\u00e9. Les comportements appris en simulation peuvent donc donner un r\u00e9sultat tr\u00e8s diff\u00e9rent lorsqu&rsquo;ils sont test\u00e9s sur le robot r\u00e9el. On parle alors de d\u00e9calage simulation-r\u00e9alit\u00e9. Cette probl\u00e9matique est centrale lors de l&rsquo;application de l&rsquo;apprentissage par renforcement \u00e0 la robotique.<\/p>\n\n\n\n<p>Nous avons explor\u00e9 plusieurs strat\u00e9gies pour limiter cet \u00e9cart. La premi\u00e8re consiste \u00e0 observer quelques comportements sur le syst\u00e8me r\u00e9el pour v\u00e9rifier ceux qui se transf\u00e8rent et ceux qui ne se transf\u00e8rent pas et favoriser ceux qui se transf\u00e8rent bien. Une autre strat\u00e9gie consiste \u00e0 apprendre plusieurs politiques pour atteindre un m\u00eame effet et retenir celle qui se transf\u00e8re le mieux, \u00e9ventuellement en l&rsquo;adaptant localement.<\/p>\n\n\n\n<p>Quelques articles sur le sujet:<\/p>\n\n\n\n<ul class=\"wp-block-list\"><li><a href=\"https:\/\/hal.archives-ouvertes.fr\/hal-00687617v1\">https:\/\/hal.archives-ouvertes.fr\/hal-00687617v1<\/a><\/li><li><a href=\"https:\/\/arxiv.org\/abs\/1901.00811\">https:\/\/arxiv.org\/abs\/1901.00811<\/a><\/li><\/ul>\n","protected":false},"excerpt":{"rendered":"<p>Apprendre \u00e0 r\u00e9soudre une t\u00e2che sur la base d&rsquo;une r\u00e9compense n\u00e9cessite d&rsquo;explorer les comportements possibles pour d\u00e9couvrir ceux qui maximisent ladite r\u00e9compense. Avec un espace d&rsquo;\u00e9tat et d&rsquo;action compact, peu de comportements sont possibles et ils peuvent \u00eatre test\u00e9s directement sur le robot r\u00e9el. Si l&rsquo;espace des \u00e9tats et des actions est trop large, il [&hellip;]<\/p>\n","protected":false},"author":9,"featured_media":0,"parent":0,"menu_order":0,"comment_status":"closed","ping_status":"closed","template":"","meta":{"footnotes":""},"class_list":["post-4667","page","type-page","status-publish","hentry"],"_links":{"self":[{"href":"https:\/\/pages.isir.upmc.fr\/sdoncieux\/wp-json\/wp\/v2\/pages\/4667","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/pages.isir.upmc.fr\/sdoncieux\/wp-json\/wp\/v2\/pages"}],"about":[{"href":"https:\/\/pages.isir.upmc.fr\/sdoncieux\/wp-json\/wp\/v2\/types\/page"}],"author":[{"embeddable":true,"href":"https:\/\/pages.isir.upmc.fr\/sdoncieux\/wp-json\/wp\/v2\/users\/9"}],"replies":[{"embeddable":true,"href":"https:\/\/pages.isir.upmc.fr\/sdoncieux\/wp-json\/wp\/v2\/comments?post=4667"}],"version-history":[{"count":3,"href":"https:\/\/pages.isir.upmc.fr\/sdoncieux\/wp-json\/wp\/v2\/pages\/4667\/revisions"}],"predecessor-version":[{"id":4688,"href":"https:\/\/pages.isir.upmc.fr\/sdoncieux\/wp-json\/wp\/v2\/pages\/4667\/revisions\/4688"}],"wp:attachment":[{"href":"https:\/\/pages.isir.upmc.fr\/sdoncieux\/wp-json\/wp\/v2\/media?parent=4667"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}