{"id":4665,"date":"2021-03-30T17:07:25","date_gmt":"2021-03-30T15:07:25","guid":{"rendered":"https:\/\/pages2.isir.upmc.fr\/sdoncieux\/?page_id=4665"},"modified":"2021-03-30T18:16:17","modified_gmt":"2021-03-30T16:16:17","slug":"acquisition-de-repertoires-dactions","status":"publish","type":"page","link":"https:\/\/pages.isir.upmc.fr\/sdoncieux\/acquisition-de-repertoires-dactions\/","title":{"rendered":"Acquisition de r\u00e9pertoires d&rsquo;actions"},"content":{"rendered":"\n<p>Apprendre \u00e0 r\u00e9soudre une t\u00e2che sur la base de la maximisation de la r\u00e9compense n\u00e9cessite de d\u00e9finir des espaces d&rsquo;\u00e9tats et d&rsquo;actions. L&rsquo;espace d&rsquo;action d\u00e9crit ce que le robot sera capable de faire. Concevoir automatiquement cet espace simplifie le travail du concepteur de robot et ouvre la possibilit\u00e9 de d\u00e9couvrir des fa\u00e7ons d&rsquo;agir propres \u00e0 sa morphologie. Cela permet d&rsquo;\u00e9largir les capacit\u00e9s adaptatives de l&rsquo;apprentissage par renforcement.<\/p>\n\n\n\n<p>La m\u00e9thode que l&rsquo;on utilise pour g\u00e9n\u00e9rer des r\u00e9pertoires d&rsquo;actions s&rsquo;appuie sur les algorithmes de qualit\u00e9-diversit\u00e9 et la recherche de nouveaut\u00e9 (voire <a href=\"https:\/\/pages2.isir.upmc.fr\/sdoncieux\/exploration-et-recompenses-rares\/\" data-type=\"page\" data-id=\"4662\">Exploration et r\u00e9compenses rares<\/a>). Le principe consiste \u00e0 d\u00e9finir un espace comportemental que l&rsquo;on souhaite couvrir avec le r\u00e9pertoire d&rsquo;actions. Les algorithmes de recherche de nouveaut\u00e9 ou de qualit\u00e9-diversit\u00e9 g\u00e9n\u00e8rent un ensemble de politiques diverses couvrant cet espace. Ces politiques peuvent ensuite \u00eatre utilis\u00e9es comme actions \u00e9l\u00e9mentaires d&rsquo;un processus de d\u00e9cision markovien de plus haut niveau.<\/p>\n\n\n\n<p>Article sur le sujet:<\/p>\n\n\n\n<ul class=\"wp-block-list\"><li><a href=\"https:\/\/arxiv.org\/abs\/1901.00811\" data-type=\"URL\" data-id=\"https:\/\/arxiv.org\/abs\/1901.00811\">https:\/\/arxiv.org\/abs\/1901.00811<\/a><\/li><\/ul>\n\n\n\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"637\" src=\"https:\/\/pages2.isir.upmc.fr\/sdoncieux\/wp-content\/uploads\/sites\/8\/2021\/03\/Baxter-apprentissage-babillage-Benoit-Girard-1024x637.jpg\" alt=\"\" class=\"wp-image-4682\" srcset=\"https:\/\/pages.isir.upmc.fr\/sdoncieux\/wp-content\/uploads\/sites\/8\/2021\/03\/Baxter-apprentissage-babillage-Benoit-Girard-1024x637.jpg 1024w, https:\/\/pages.isir.upmc.fr\/sdoncieux\/wp-content\/uploads\/sites\/8\/2021\/03\/Baxter-apprentissage-babillage-Benoit-Girard-300x187.jpg 300w, https:\/\/pages.isir.upmc.fr\/sdoncieux\/wp-content\/uploads\/sites\/8\/2021\/03\/Baxter-apprentissage-babillage-Benoit-Girard-768x478.jpg 768w, https:\/\/pages.isir.upmc.fr\/sdoncieux\/wp-content\/uploads\/sites\/8\/2021\/03\/Baxter-apprentissage-babillage-Benoit-Girard-1536x955.jpg 1536w, https:\/\/pages.isir.upmc.fr\/sdoncieux\/wp-content\/uploads\/sites\/8\/2021\/03\/Baxter-apprentissage-babillage-Benoit-Girard.jpg 1553w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><figcaption>Le baxter utilisant un r\u00e9pertoire d&rsquo;actions de manipulation du joystick pour piloter un \u00ab\u00a0robobo\u00a0\u00bb.<\/figcaption><\/figure>\n","protected":false},"excerpt":{"rendered":"<p>Apprendre \u00e0 r\u00e9soudre une t\u00e2che sur la base de la maximisation de la r\u00e9compense n\u00e9cessite de d\u00e9finir des espaces d&rsquo;\u00e9tats et d&rsquo;actions. L&rsquo;espace d&rsquo;action d\u00e9crit ce que le robot sera capable de faire. Concevoir automatiquement cet espace simplifie le travail du concepteur de robot et ouvre la possibilit\u00e9 de d\u00e9couvrir des fa\u00e7ons d&rsquo;agir propres \u00e0 [&hellip;]<\/p>\n","protected":false},"author":9,"featured_media":0,"parent":0,"menu_order":0,"comment_status":"closed","ping_status":"closed","template":"","meta":{"footnotes":""},"class_list":["post-4665","page","type-page","status-publish","hentry"],"_links":{"self":[{"href":"https:\/\/pages.isir.upmc.fr\/sdoncieux\/wp-json\/wp\/v2\/pages\/4665","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/pages.isir.upmc.fr\/sdoncieux\/wp-json\/wp\/v2\/pages"}],"about":[{"href":"https:\/\/pages.isir.upmc.fr\/sdoncieux\/wp-json\/wp\/v2\/types\/page"}],"author":[{"embeddable":true,"href":"https:\/\/pages.isir.upmc.fr\/sdoncieux\/wp-json\/wp\/v2\/users\/9"}],"replies":[{"embeddable":true,"href":"https:\/\/pages.isir.upmc.fr\/sdoncieux\/wp-json\/wp\/v2\/comments?post=4665"}],"version-history":[{"count":2,"href":"https:\/\/pages.isir.upmc.fr\/sdoncieux\/wp-json\/wp\/v2\/pages\/4665\/revisions"}],"predecessor-version":[{"id":4684,"href":"https:\/\/pages.isir.upmc.fr\/sdoncieux\/wp-json\/wp\/v2\/pages\/4665\/revisions\/4684"}],"wp:attachment":[{"href":"https:\/\/pages.isir.upmc.fr\/sdoncieux\/wp-json\/wp\/v2\/media?parent=4665"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}