Apprendre à résoudre une tâche sur la base d’une récompense nécessite d’explorer les comportements possibles pour découvrir ceux qui maximisent ladite récompense. Avec un espace d’état et d’action compact, peu de comportements sont possibles et ils peuvent être testés directement sur le robot réel. Si l’espace des états et des actions est trop large, il peut être nécessaire d’explorer des centaines de milliers, voire des millions de politiques différentes. Il est difficile de faire autant de tests sur un robot réel. Il risque d’être endommagé, d’autant plus que certains comportements peuvent être dangereux pour le robot ou son environnement. Il est donc fréquent de faire appel à une simulation. La simulation ne correspond jamais exactement à la réalité. Les comportements appris en simulation peuvent donc donner un résultat très différent lorsqu’ils sont testés sur le robot réel. On parle alors de décalage simulation-réalité. Cette problématique est centrale lors de l’application de l’apprentissage par renforcement à la robotique.
Nous avons exploré plusieurs stratégies pour limiter cet écart. La première consiste à observer quelques comportements sur le système réel pour vérifier ceux qui se transfèrent et ceux qui ne se transfèrent pas et favoriser ceux qui se transfèrent bien. Une autre stratégie consiste à apprendre plusieurs politiques pour atteindre un même effet et retenir celle qui se transfère le mieux, éventuellement en l’adaptant localement.
Quelques articles sur le sujet: