L’apprentissage par renforcement est un domaine très formalisé qui s’appuie sur le concept de processus de décision markovien. Dans ce contexte, l’apprentissage est défini par un espace d’état, un espace d’actions, une fonction de transition qui décrit l’impact des actions sur l’état et une récompense qui associe une valeur numérique à un couple état-action. Cette formalisation pose de nombreuses difficultés en robotique. Déterminer les différentes parties de ce processus de décision markovien est délicat. L’état correspond à l’information dont doit disposer le robot pour décider de l’action à choisir. Cette information doit être extraite des capteurs du robot, ce qui nécessite d’avoir une connaissance minimale sur la façon de la résoudre, sans quoi le risque est d’omettre une information importante. De plus, les capteurs n’ont en général accès qu’à une vue partielle de la situation du robot. Construire ces espaces d’état est donc une étape difficile. De même, l’espace d’actions doit être choisi avec soin. Le robot doit être en mesure d’exhiber le comportement approprié, son espace d’action doit donc être suffisamment large, tout en permettant une exploration efficace, ce qui pousse cet espace à être de dimension limitée. Il y a donc une tension entre un processus de décision markovien limité et spécifique à une tâche, qui permet un apprentissage rapide, mais qui nécessite une forte implication du concepteur du système et qui limite ses capacités d’adaptation au contexte identifié en amont, et un processus de décision markovien plus polyvalent, qui permettra potentiellement au robot de s’adapter à des contextes plus variés mais qui rendra l’apprentissage plus difficile.
La possibilité que j’explore dans ce contexte, est d’inclure la conception du processus de décision dans l’apprentissage. Les espaces d’état et d’action ne sont plus donnés, mais doivent être construits automatiquement par le robot. Cela permet de tendre vers un apprentissage ouvert, aussi peu contraint que possible, dans lequel le robot peut construire des représentations appropriées en interagissant avec son environnement. Le but est donc de tendre vers un apprentissage « bout en bout » qui part directement du flux de données issu des capteurs et génère des actions bas niveau, dans une représentation aussi peu contrainte que possible. Différents processus visent à extraire de ce flux des espaces d’états et d’actions qui pourront être utilisés pour résoudre les tâches auxquelles le robot sera confronté. Dans un tel système, il n’y a pas d’unicité de ces espaces, plusieurs peuvent coexister et le robot peut en créer de nouveau.
Pour plus de détails: