{"id":4662,"date":"2021-03-30T17:06:25","date_gmt":"2021-03-30T15:06:25","guid":{"rendered":"https:\/\/pages2.isir.upmc.fr\/sdoncieux\/?page_id=4662"},"modified":"2021-03-30T17:57:06","modified_gmt":"2021-03-30T15:57:06","slug":"exploration-et-recompenses-rares","status":"publish","type":"page","link":"https:\/\/pages.isir.upmc.fr\/sdoncieux\/exploration-et-recompenses-rares\/","title":{"rendered":"Exploration et r\u00e9compenses rares"},"content":{"rendered":"\n<p>D\u00e9couvrir des espaces d&rsquo;\u00e9tat et d&rsquo;action pertinents n\u00e9cessite de g\u00e9n\u00e9rer les effets que le robot cherchera ensuite \u00e0 reproduire. La difficult\u00e9 est que de nombreux effets sont li\u00e9s \u00e0 des interactions rares qu&rsquo;il est donc peu probable d&rsquo;observer avec un mouvement purement al\u00e9atoire. Attraper un objet, par exemple, n\u00e9cessite de diriger le pr\u00e9henseur du robot vers l&rsquo;objet, de l&rsquo;orienter convenablement puis de le positionner avec pr\u00e9cision avant de d\u00e9clencher la saisie. S&rsquo;\u00e9carter ne serait-ce qu&rsquo;un peu de ce mouvement provoquera un \u00e9chec de la saisie. Des mouvements al\u00e9atoires ont donc peu de chance de r\u00e9ussir. Il est bien s\u00fbr possible de d\u00e9finir des mouvements d\u00e9di\u00e9s \u00e0 la saisie, c&rsquo;est d&rsquo;ailleurs un domaine de recherche tr\u00e8s fructueux de la robotique, mais s&rsquo;il n&rsquo;est pas possible de faire apprendre une action aussi simple, comment le robot pourra-t-il apprendre des mouvements plus complexes?<\/p>\n\n\n\n<p>L&rsquo;approche que j&rsquo;explore s&rsquo;appuie sur les algorithmes de recherche de nouveaut\u00e9 et de qualit\u00e9-diversit\u00e9. Le principe est de d\u00e9finir un espace comportemental que l&rsquo;algorithme cherchera \u00e0 couvrir de fa\u00e7on aussi uniforme que possible. Cet espace est en g\u00e9n\u00e9ral une description en petite dimension du comportement du robot (un ou plusieurs points de sa trajectoire, position d&rsquo;objets pertinents, &#8230;). Chaque politique que l&rsquo;algorithme explore est caract\u00e9ris\u00e9e par un point dans cet espace. Une proc\u00e9dure \u00e9volutionniste de variation-s\u00e9lection est alors mise en place pour choisir les points qui sont dans les parties les moins explor\u00e9es (recherche de nouveaut\u00e9). Ce processus tr\u00e8s simple tend vers un \u00e9chantillonnage uniforme de l&rsquo;espace comportemental. C&rsquo;est une propri\u00e9t\u00e9 tr\u00e8s int\u00e9ressante car on ne sait pas \u00e9chantillonner directement dans cet espace: des politiques tir\u00e9es al\u00e9atoirement se concentrent en g\u00e9n\u00e9ral sur une petite partie de l&rsquo;espace uniquement. Une mesure que qualit\u00e9 peut \u00eatre ajout\u00e9e. Pour des politiques ayant un comportement similaire, elle permettra de pr\u00e9f\u00e9rer la politique qui a la qualit\u00e9 la plus \u00e9lev\u00e9e. La qualit\u00e9 est donc utilis\u00e9e localement, ce n&rsquo;est pas un crit\u00e8re global \u00e0 maximiser.<\/p>\n\n\n\n<p>\u00catre capable de couvrir uniform\u00e9ment un tel espace permet d&rsquo;identifier ce qui est possible pour le robot et de r\u00e9soudre des t\u00e2ches en cas de r\u00e9compenses rares ou trompeuses. D\u00e9finir manuellement l&rsquo;espace comportemental est une limite de ces approches dont on cherche \u00e9galement \u00e0 s&rsquo;affranchir en construisant cet espace \u00e0 partir des perceptions du robot. <\/p>\n\n\n\n<p>Quelques articles sur le sujet:<\/p>\n\n\n\n<ul class=\"wp-block-list\"><li><a href=\"https:\/\/hal.archives-ouvertes.fr\/hal-02561846v1\">https:\/\/hal.archives-ouvertes.fr\/hal-02561846v1<\/a><\/li><li><a href=\"https:\/\/hal.archives-ouvertes.fr\/hal-02561763v1\">https:\/\/hal.archives-ouvertes.fr\/hal-02561763v1<\/a><\/li><li><a href=\"https:\/\/hal.archives-ouvertes.fr\/hal-02951255v1\">https:\/\/hal.archives-ouvertes.fr\/hal-02951255v1<\/a><\/li><\/ul>\n","protected":false},"excerpt":{"rendered":"<p>D\u00e9couvrir des espaces d&rsquo;\u00e9tat et d&rsquo;action pertinents n\u00e9cessite de g\u00e9n\u00e9rer les effets que le robot cherchera ensuite \u00e0 reproduire. La difficult\u00e9 est que de nombreux effets sont li\u00e9s \u00e0 des interactions rares qu&rsquo;il est donc peu probable d&rsquo;observer avec un mouvement purement al\u00e9atoire. Attraper un objet, par exemple, n\u00e9cessite de diriger le pr\u00e9henseur du robot [&hellip;]<\/p>\n","protected":false},"author":9,"featured_media":0,"parent":0,"menu_order":0,"comment_status":"closed","ping_status":"closed","template":"","meta":{"footnotes":""},"class_list":["post-4662","page","type-page","status-publish","hentry"],"_links":{"self":[{"href":"https:\/\/pages.isir.upmc.fr\/sdoncieux\/wp-json\/wp\/v2\/pages\/4662","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/pages.isir.upmc.fr\/sdoncieux\/wp-json\/wp\/v2\/pages"}],"about":[{"href":"https:\/\/pages.isir.upmc.fr\/sdoncieux\/wp-json\/wp\/v2\/types\/page"}],"author":[{"embeddable":true,"href":"https:\/\/pages.isir.upmc.fr\/sdoncieux\/wp-json\/wp\/v2\/users\/9"}],"replies":[{"embeddable":true,"href":"https:\/\/pages.isir.upmc.fr\/sdoncieux\/wp-json\/wp\/v2\/comments?post=4662"}],"version-history":[{"count":3,"href":"https:\/\/pages.isir.upmc.fr\/sdoncieux\/wp-json\/wp\/v2\/pages\/4662\/revisions"}],"predecessor-version":[{"id":4681,"href":"https:\/\/pages.isir.upmc.fr\/sdoncieux\/wp-json\/wp\/v2\/pages\/4662\/revisions\/4681"}],"wp:attachment":[{"href":"https:\/\/pages.isir.upmc.fr\/sdoncieux\/wp-json\/wp\/v2\/media?parent=4662"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}