La navigation visuelle nécessite de reconnaître les caractéristiques de l’environnement pour atteindre la destination souhaitée. Il est appliqué dans divers scénarios, des robots autonomes aux technologies d’assistance à la mobilité humaine. Habituellement, les agents sont formés à la simulation pour gagner en rapidité, répétabilité et sécurité.
Cependant, la différence de complexité entre la simulation et les environnements du monde réel est le défi majeur auquel les contrôleurs formés à la simulation sont confrontés lorsqu’ils sont déployés dans le monde réel.
La vision biologique permet de se concentrer uniquement sur les parties importantes de la scène visuelle et d’ignorer le reste. Un article récent sur arXiv.org s’inspire de cet exemple et propose l’auto-attention pour combler le fossé de la réalité pour la navigation dans le monde réel.
Des chercheurs présentent le premier agent basé sur l’auto-attention formé avec succès à la navigation dans un espace d’action 3D. Les résultats montrent qu’une telle approche permet le traitement significatif d’images du monde réel en temps réel.
La navigation basée sur la vision nécessite le traitement d’informations complexes pour prendre des décisions axées sur les tâches. Les applications incluent les robots autonomes, les voitures autonomes et la vision assistée pour les humains. L’un des éléments clés du processus est l’extraction et la sélection de caractéristiques pertinentes dans l’espace des pixels sur lesquelles fonder les choix d’action, pour lesquels les techniques d’apprentissage automatique sont bien adaptées. Cependant, les agents d’apprentissage par renforcement profond formés à la simulation présentent souvent des résultats insatisfaisants lorsqu’ils sont déployés dans le monde réel en raison de différences de perception connues sous le nom de écart de réalité. Une approche qui n’a pas encore été explorée pour combler cet écart est l’auto-attention. Dans cet article, nous (1) effectuons une exploration systématique de l’espace des hyperparamètres pour la navigation basée sur l’auto-attention des environnements 3D et évaluons qualitativement le comportement observé à partir de différents ensembles d’hyperparamètres, y compris leur capacité à généraliser ; (2) présenter des stratégies pour améliorer les capacités de généralisation et le comportement de navigation des agents ; et (3) montrer comment les modèles formés à la simulation sont capables de traiter des images du monde réel de manière significative en temps réel. À notre connaissance, il s’agit de la première démonstration d’un agent basé sur l’auto-attention formé avec succès à la navigation dans un espace d’action 3D, en utilisant moins de 4000 paramètres.
Article de recherche: Ruiz-Serra, J., White, J., Petrie, S., Kameneva, T. et McCarthy, C., « Vers une navigation basée sur l’attention personnelle dans le monde réel », 2022. Lien : https://arxiv.org/abs/2209.07043