L’apprentissage par renforcement profond a fait sortir les robots à pattes d’un environnement de laboratoire contrôlé et leur a permis de marcher dans le monde réel. Cependant, pour réaliser la locomotion du robot, le contrôleur doit gérer les inadéquations de modèles et les capteurs bruyants et réagir aux faux pas et aux glissements. Les politiques actuelles sont insuffisantes pour atteindre l’agilité et la précision des animaux ou des humains.
Un article récent sur arXiv.org propose une formulation basée sur la position où le robot ne doit atteindre l’emplacement cible qu’après un temps défini. La récompense de la tâche n’est pas influencée par la trajectoire prise par le robot ; au contraire, il est basé sur la distance finale à la cible.
Les chercheurs montrent que la méthode proposée permet à la politique de réussir sur des terrains tels que les escaliers et les pentes avec une difficulté accrue. De plus, il permet d’entraîner des comportements complexes tels que sauter par-dessus des trous ou grimper sur des boîtes et entraîne une réduction des taux d’échec et de la consommation d’énergie.
L’approche courante de la navigation locale dans des environnements difficiles avec des robots à pattes nécessite la planification de trajectoire, le suivi de trajectoire et la locomotion, ce qui nécessite généralement une politique de contrôle de la locomotion qui suit avec précision une vitesse commandée. Cependant, en décomposant le problème de navigation en ces sous-tâches, nous limitons les capacités du robot puisque les tâches individuelles ne considèrent pas l’espace de solution complet. Dans ce travail, nous proposons de résoudre le problème complet en formant une politique de bout en bout avec apprentissage par renforcement profond. Au lieu de suivre en continu une trajectoire précalculée, le robot doit atteindre une position cible dans un délai imparti. Le succès de la tâche n’est évalué qu’à la fin d’un épisode, ce qui signifie que la politique n’a pas besoin d’atteindre la cible le plus rapidement possible. Il est libre de choisir sa trajectoire et la démarche de locomotion. La formation d’une politique de cette manière ouvre un plus grand ensemble de solutions possibles, ce qui permet au robot d’apprendre des comportements plus complexes. Nous comparons notre approche du suivi de la vitesse et montrons en outre que la dépendance temporelle de la récompense de la tâche est essentielle pour apprendre avec succès ces nouveaux comportements. Enfin, nous démontrons le déploiement réussi de politiques sur un robot quadrupède réel. Le robot est capable de traverser des terrains difficiles, ce qui n’était pas possible auparavant, tout en utilisant une démarche plus économe en énergie et en obtenant un taux de réussite plus élevé.
Article de recherche: Rudin, N., Hoeller, D., Bjelonic, M. et Hutter, M., « Compétences avancées par l’apprentissage de la locomotion et de la navigation locale de bout en bout », 2022. Lien : https://arxiv.org/abs/2209.12827