[ad_1] Il y a une demande de progrès dans modèles génératifs afin que les systèmes d'apprentissage comprennent et créent des espaces 3D. Un article récent sur arXiv.org propose Gaudi, un modèle génératif nommé en référence au célèbre architecte. Il peut capturer la distribution de scènes 3D et restituer des vues à partir de scènes échantillonnées à partir de la distribution apprise. Crédit image : Alexander Mueller via PxiciLicense gratuite Le modèle utilise une approche évolutive en deux étapes. Dans un premier temps, une représentation latente démêlant les champs de rayonnement et les poses de caméra est apprise. Ensuite, la distribution des représentations latentes désenchevêtrées est modélisée avec un a priori puissant. Les chercheurs introduisent un nouvel objectif d'optimisation du débruitage pour trouver des représentations latentes qui modélisent conjointement le champ de rayonnement et les poses de caméra de manière démêlée. L'approche obtient des performances de génération de pointe sur plusieurs ensembles de données et peut être utilisée à la fois pour des problèmes conditionnels et inconditionnels. Nous présentons GAUDI, un modèle génératif capable de capturer la distribution de scènes 3D complexes et réalistes qui peuvent être rendues de manière immersive à partir d'une caméra en mouvement. Nous abordons ce problème difficile avec une approche évolutive mais puissante, où nous optimisons d'abord une représentation latente qui démêle les champs de rayonnement et les poses de caméra. Cette représentation latente est ensuite utilisée pour apprendre un modèle génératif qui permet la génération inconditionnelle et conditionnelle de scènes 3D. Notre modèle généralise les travaux antérieurs qui se concentrent sur des objets uniques en supprimant l'hypothèse selon laquelle la distribution de la pose de la caméra peut être partagée entre les échantillons. Nous montrons que GAUDI obtient des performances de pointe dans le cadre génératif inconditionnel sur plusieurs ensembles de données et permet la génération conditionnelle de scènes 3D en fonction de variables de conditionnement telles que des observations d'images clairsemées ou du texte décrivant la scène. Article de recherche: Bautista, MA, "GAUDI : Un architecte neuronal pour la génération de scènes 3D immersives", 2022. Lien : https://arxiv.org/abs/2207.13751Site du projet: https://github.com/apple/ml-gaudi Tu peux offrez votre lien vers une page en rapport avec le sujet de cet article. !function(f,b,e,v,n,t,s){if(f.fbq)return;n=f.fbq=function(){n.callMethod? n.callMethod.apply(n,arguments):n.queue.push(arguments)};if(!f._fbq)f._fbq=n; n.push=n;n.loaded=!0;n.version='2.0';n.queue=[];t=b.createElement(e);t.async=!0; t.src=v;s=b.getElementsByTagName(e)[0];s.parentNode.insertBefore(t,s)}(window, document,'script','https://connect.facebook.net/en_US/fbevents.js'); fbq('init', '1254095111342376'); fbq('track', 'PageView'); [ad_2] Source link