{"id":4658,"date":"2021-03-30T16:29:01","date_gmt":"2021-03-30T14:29:01","guid":{"rendered":"https:\/\/pages2.isir.upmc.fr\/sdoncieux\/?page_id=4658"},"modified":"2021-03-30T17:17:12","modified_gmt":"2021-03-30T15:17:12","slug":"apprentissage-ouvert","status":"publish","type":"page","link":"https:\/\/pages.isir.upmc.fr\/sdoncieux\/apprentissage-ouvert\/","title":{"rendered":"Apprentissage ouvert"},"content":{"rendered":"\n<p>L\u2019apprentissage par renforcement est un domaine tr\u00e8s formalis\u00e9 qui s\u2019appuie sur le concept de processus de d\u00e9cision markovien. Dans ce contexte, l\u2019apprentissage est d\u00e9fini par un espace d\u2019\u00e9tat, un espace d\u2019actions, une fonction de transition qui d\u00e9crit l\u2019impact des actions sur l\u2019\u00e9tat et une r\u00e9compense qui associe une valeur num\u00e9rique \u00e0 un couple \u00e9tat-action. Cette formalisation pose de nombreuses difficult\u00e9s en robotique. D\u00e9terminer les diff\u00e9rentes parties de ce processus de d\u00e9cision markovien est d\u00e9licat. L\u2019\u00e9tat correspond \u00e0 l\u2019information dont doit disposer le robot pour d\u00e9cider de l\u2019action \u00e0 choisir. Cette information doit \u00eatre extraite des capteurs du robot, ce qui n\u00e9cessite d\u2019avoir une connaissance minimale sur la fa\u00e7on de la r\u00e9soudre, sans quoi le risque est d\u2019omettre une information importante. De plus, les capteurs n\u2019ont en g\u00e9n\u00e9ral acc\u00e8s qu\u2019\u00e0 une vue partielle de la situation du robot. Construire ces espaces d\u2019\u00e9tat est donc une \u00e9tape difficile. De m\u00eame, l\u2019espace d\u2019actions doit \u00eatre choisi avec soin. Le robot doit \u00eatre en mesure d\u2019exhiber le comportement appropri\u00e9, son espace d\u2019action doit donc \u00eatre suffisamment large, tout en permettant une exploration efficace, ce qui pousse cet espace \u00e0 \u00eatre de dimension limit\u00e9e. Il y a donc une tension entre un processus de d\u00e9cision markovien limit\u00e9 et sp\u00e9cifique \u00e0 une t\u00e2che, qui permet un apprentissage rapide, mais qui n\u00e9cessite une forte implication du concepteur du syst\u00e8me et qui limite ses capacit\u00e9s d\u2019adaptation au contexte identifi\u00e9 en amont, et un processus de d\u00e9cision markovien plus polyvalent, qui permettra potentiellement au robot de s\u2019adapter \u00e0 des contextes plus vari\u00e9s mais qui rendra l\u2019apprentissage plus difficile.<\/p>\n\n\n\n<p>La possibilit\u00e9 que j\u2019explore dans ce contexte, est d\u2019inclure la conception du processus de d\u00e9cision dans l\u2019apprentissage. Les espaces d\u2019\u00e9tat et d\u2019action ne sont plus donn\u00e9s, mais doivent \u00eatre construits automatiquement par le robot. Cela permet de tendre vers un apprentissage ouvert, aussi peu contraint que possible, dans lequel le robot peut construire des repr\u00e9sentations appropri\u00e9es en interagissant avec son environnement. Le but est donc de tendre vers un apprentissage \u00ab bout en bout \u00bb qui part directement du flux de donn\u00e9es issu des capteurs et g\u00e9n\u00e8re des actions bas niveau, dans une repr\u00e9sentation aussi peu contrainte que possible. Diff\u00e9rents processus visent \u00e0 extraire de ce flux des espaces d\u2019\u00e9tats et d\u2019actions qui pourront \u00eatre utilis\u00e9s pour r\u00e9soudre les t\u00e2ches auxquelles le robot sera confront\u00e9. Dans un tel syst\u00e8me, il n\u2019y a pas d\u2019unicit\u00e9 de ces espaces, plusieurs peuvent coexister et le robot peut en cr\u00e9er de nouveau.<\/p>\n\n\n\n<p>Pour plus de d\u00e9tails:<\/p>\n\n\n\n<ul class=\"wp-block-list\"><li><a href=\"https:\/\/hal.archives-ouvertes.fr\/hal-01889947\">https:\/\/hal.archives-ouvertes.fr\/hal-01889947<\/a><\/li><li><a href=\"https:\/\/hal.archives-ouvertes.fr\/hal-02562103\">https:\/\/hal.archives-ouvertes.fr\/hal-02562103<\/a><\/li><\/ul>\n\n\n\n<p><\/p>\n","protected":false},"excerpt":{"rendered":"<p>L\u2019apprentissage par renforcement est un domaine tr\u00e8s formalis\u00e9 qui s\u2019appuie sur le concept de processus de d\u00e9cision markovien. Dans ce contexte, l\u2019apprentissage est d\u00e9fini par un espace d\u2019\u00e9tat, un espace d\u2019actions, une fonction de transition qui d\u00e9crit l\u2019impact des actions sur l\u2019\u00e9tat et une r\u00e9compense qui associe une valeur num\u00e9rique \u00e0 un couple \u00e9tat-action. Cette [&hellip;]<\/p>\n","protected":false},"author":9,"featured_media":0,"parent":0,"menu_order":0,"comment_status":"closed","ping_status":"closed","template":"","meta":{"footnotes":""},"class_list":["post-4658","page","type-page","status-publish","hentry"],"_links":{"self":[{"href":"https:\/\/pages.isir.upmc.fr\/sdoncieux\/wp-json\/wp\/v2\/pages\/4658","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/pages.isir.upmc.fr\/sdoncieux\/wp-json\/wp\/v2\/pages"}],"about":[{"href":"https:\/\/pages.isir.upmc.fr\/sdoncieux\/wp-json\/wp\/v2\/types\/page"}],"author":[{"embeddable":true,"href":"https:\/\/pages.isir.upmc.fr\/sdoncieux\/wp-json\/wp\/v2\/users\/9"}],"replies":[{"embeddable":true,"href":"https:\/\/pages.isir.upmc.fr\/sdoncieux\/wp-json\/wp\/v2\/comments?post=4658"}],"version-history":[{"count":2,"href":"https:\/\/pages.isir.upmc.fr\/sdoncieux\/wp-json\/wp\/v2\/pages\/4658\/revisions"}],"predecessor-version":[{"id":4672,"href":"https:\/\/pages.isir.upmc.fr\/sdoncieux\/wp-json\/wp\/v2\/pages\/4658\/revisions\/4672"}],"wp:attachment":[{"href":"https:\/\/pages.isir.upmc.fr\/sdoncieux\/wp-json\/wp\/v2\/media?parent=4658"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}