Après avoir regardé une émission de télévision, les humains peuvent se rappeler la disposition des pièces, l’emplacement des meubles et la hauteur relative des personnages.
Inspiré par de telles capacités, un article récent sur arXiv.org propose une méthode qui agrège de la même manière des informations 3D sur des collections vidéo et les utilise pour percevoir la pose humaine 3D précise et l’emplacement des acteurs.
Premièrement, une quantité importante de contexte 3D (caméras, structure et forme du corps) est identifiée dans des domaines avec répétition dans l’environnement et les personnes et agrégée à partir de séquences vidéo. Les chercheurs proposent une formulation qui intègre ce contexte dans les méthodes d’estimation humaine 3D, ce qui améliore la reconstruction humaine.
Cette forme de ré-identification surpasse systématiquement les lignes de base traditionnelles basées sur l’image. Les informations 3D agrégées peuvent également être utilisées pour des tâches telles que l’estimation du regard, la cinématographie ou l’édition d’images.
Les émissions de télévision décrivent une grande variété de comportements humains et ont été largement étudiées pour leur potentiel à être une riche source de données pour de nombreuses applications. Cependant, la majorité des travaux existants se concentrent sur les tâches de reconnaissance 2D. Dans cet article, nous faisons le constat qu’il existe une certaine persistance dans les émissions de télévision, c’est-à-dire la répétition des environnements et des humains, qui rend possible la reconstruction 3D de ce contenu. Forts de ces connaissances, nous proposons une approche automatique qui opère sur une saison entière d’une émission télévisée et agrège les informations en 3D ; nous construisons un modèle 3D de l’environnement, calculons les informations de la caméra, la structure de la scène 3D statique et les informations sur l’échelle du corps. Ensuite, nous démontrons comment ces informations agissent comme un contexte 3D riche qui peut guider et améliorer la récupération de la pose et de la position humaine 3D dans ces environnements. De plus, nous montrons que le raisonnement sur les humains et leur environnement en 3D permet un large éventail d’applications en aval : ré-identification, estimation du regard, cinématographie et retouche d’images. Nous appliquons notre approche sur les environnements de sept émissions de télévision emblématiques et effectuons une évaluation approfondie du système proposé.
Article de recherche: Pavlakos, G., Weber, E., Tancik, M. et Kanazawa, A., “Celui où ils ont reconstruit des humains et des environnements 3D dans des émissions de télévision”, 2022. Lien : https://arxiv.org/abs/ 2207.14279
Site du projet: https://ethanweber.me/sitcoms3D/