L'IA NeRF de NVIDIA permet de reconstruire presque instantanément une scène 3D à partir d'une poignée d'images 2D,
Instant NeRF n'a besoin que de quelques secondes pour s'entraîner et produire des résultats
Les chercheurs de NVIDIA ont développé une approche pour reconstruire une scène 3D à partir d'une poignée d'images 2D « presque instantanément ». Pour ce faire, ils exploitent une nouvelle technologie populaire appelée Neural Radiance Fields (NeRF), qui est parfois accélérée jusqu'à 1 000 fois par rapport aux implémentations concurrentes, selon les dires de l'entreprise. NeRF est capable d’entraîner « un petit réseau neuronal » en l’espace de quelques secondes à partir d’une flopée de photos, à condition toutefois de bien connaître les angles de prises de vue. Le modèle résultant permet ensuite de générer toutes les données nécessaires pour créer l’environnement 3D de la scène en question. Un calcul qui, selon NVIDIA, ne nécessite que quelques « dizaines de microsecondes ».
Une nouvelle technologie appelée Neural Radiance Field ou NeRF implique la formation d'algorithmes d'IA pour permettre la création d'objets 3D à partir de photos en deux dimensions. NeRF a la capacité de remplir les blancs, pour ainsi dire, en interpolant ce que les photos 2D n'ont pas capturé. C'est une astuce qui pourrait mener à des avancées dans divers domaines, tels que les jeux vidéo et la conduite autonome. Maintenant, NVIDIA a développé une nouvelle technique NeRF - la plus rapide à ce jour, selon la société - qui ne nécessite que quelques secondes pour s'entraîner et générer une scène 3D.
Il ne faut que quelques secondes pour former le modèle, appelé Instant NeRF, en utilisant des dizaines de photos fixes et les angles de caméra à partir desquels elles ont été prises. Après cela, il est capable de générer une scène 3D en seulement des « dizaines de millisecondes ». Comme les autres techniques NeRF, elle nécessite des images prises à partir de plusieurs positions. Et pour les photos avec plusieurs sujets, les photos prises sans trop de mouvement sont privilégiées, sinon le résultat serait flou.
Fournissant un contexte à sa démo, NVIDIA explique que les techniques NeRF précédentes pouvaient prendre des heures pour s'entraîner pour une scène, puis quelques minutes pour rendre les scènes cibles. Bien que les résultats des précédentes implémentations plus lentes aient été bons, les chercheurs de NVIDIA tirant parti de la technologie AI ont appuyé sur l'accélérateur dans les performances.
« Lorsque la première photo instantanée a été prise il y a 75 ans avec un appareil photo Polaroid, il était révolutionnaire de capturer rapidement le monde 3D dans une image 2D réaliste. Aujourd'hui, les chercheurs en intelligence artificielle travaillent à l'opposé : transformer une collection d'images fixes en une scène numérique 3D en quelques secondes.
« Connu sous le nom de rendu inverse, le processus utilise l'IA pour approximer le comportement de la lumière dans le monde réel, permettant aux chercheurs de reconstruire une scène 3D à partir d'une poignée d'images 2D prises sous différents angles. L'équipe NVIDIA Research a développé une approche qui accomplit cette tâche presque instantanément, ce qui en fait l'un des premiers modèles de ce type à combiner une formation de réseau neuronal ultra-rapide et un rendu rapide.
« NVIDIA a appliqué cette approche à une nouvelle technologie populaire appelée Neural Radiance Fields, ou NeRF. Le résultat, baptisé Instant NeRF, est la technique NeRF la plus rapide à ce jour, réalisant plus de 1 000 accélérations dans certains cas. Le modèle ne nécessite que quelques secondes pour s'entraîner sur quelques dizaines de photos fixes - plus des données sur les angles de caméra à partir desquels elles ont été prises - et peut ensuite restituer la scène 3D résultante en quelques dizaines de millisecondes ».
« Si les représentations 3D traditionnelles comme les maillages polygonaux s'apparentent à des images vectorielles, les NeRF sont comme des images bitmap : elles capturent de manière dense la façon dont la lumière rayonne à partir d'un objet ou à l'intérieur d'une scène », explique David Luebke, vice-président de la recherche graphique chez NVIDIA. « En ce sens, Instant NeRF pourrait être aussi important pour la 3D que les appareils photo numériques et la compression JPEG l'ont été pour la photographie 2D, augmentant considérablement la vitesse, la facilité et la portée de la capture et du partage 3D ».
Présenté lors d'une session au NVIDIA GTC cette semaine, Instant NeRF pourrait être utilisé pour créer des avatars ou des scènes pour des mondes virtuels, pour capturer les participants à une vidéoconférence et leurs environnements en 3D, ou pour reconstruire des scènes pour des cartes numériques 3D. En hommage aux premiers jours des images Polaroid, NVIDIA Research a recréé une photo emblématique d'Andy Warhol prenant une photo instantanée, la transformant en une scène 3D à l'aide d'Instant NeRF.
Qu'est-ce que NeRF ?
NeRF utilisent des réseaux de neurones pour représenter et restituer des scènes 3D réalistes basées sur une collection d'entrées d'images 2D.
Collecter des données pour alimenter un NeRF, c'est un peu comme être un photographe de tapis rouge essayant de capturer la tenue d'une célébrité sous tous les angles - le réseau de neurones nécessite quelques dizaines d'images prises à partir de plusieurs positions autour de la scène, ainsi que la position de la caméra de chacun d'entre eux.
Dans une scène qui comprend des personnes ou d'autres éléments en mouvement, plus ces prises de vue sont rapides, mieux c'est. S'il y a trop de mouvement pendant le processus de capture d'image 2D, la scène 3D générée par l'IA sera floue.
À partir de là, un NeRF remplit essentiellement les blancs, entraînant un petit réseau de neurones pour reconstruire la scène en prédisant la couleur de la lumière rayonnant dans n'importe quelle direction, à partir de n'importe quel point de l'espace 3D. La technique peut même contourner les occlusions - lorsque des objets vus dans certaines images sont bloqués par des obstacles tels que des piliers dans d'autres images.
Accélération 1 000x avec Instant NeRF
Bien qu'estimer la profondeur et l'apparence d'un objet sur la base d'une vue partielle soit une compétence naturelle pour les humains, c'est une tâche exigeante pour l'IA.
La création d'une scène 3D avec des méthodes traditionnelles prend des heures ou plus, selon la complexité et la résolution de la visualisation. L'introduction de l'IA dans l'image accélère les choses. Les premiers modèles NeRF rendaient des scènes nettes sans artefacts en quelques minutes, mais prenaient encore des heures à s'entraîner.
Instant NeRF, cependant, réduit le temps de rendu de plusieurs ordres de grandeur. Il s'appuie sur une technique développée par NVIDIA appelée codage de grille de hachage multi-résolution, qui est optimisée pour fonctionner efficacement sur les GPU NVIDIA. En utilisant une nouvelle méthode de codage des entrées, les chercheurs peuvent obtenir des résultats de haute qualité en utilisant un minuscule réseau de neurones qui fonctionne rapidement.
Le modèle a été développé à l'aide de la boîte à outils NVIDIA CUDA et de la bibliothèque Tiny CUDA Neural Networks. Puisqu'il s'agit d'un réseau de neurones léger, il peut être formé et exécuté sur un seul GPU NVIDIA - fonctionnant plus rapidement sur des cartes avec NVIDIA Tensor Cores.
La technologie pourrait être utilisée pour entraîner des robots et des voitures autonomes à comprendre la taille et la forme d'objets du monde réel en capturant des images 2D ou des séquences vidéo d'eux. Elle pourrait également être utilisée dans l'architecture et le divertissement pour générer rapidement des représentations numériques d'environnements réels que les créateurs peuvent modifier et développer.
Au-delà des NeRF, les chercheurs de NVIDIA explorent comment cette technique d'encodage d'entrée pourrait être utilisée pour accélérer plusieurs défis d'IA, notamment l'apprentissage par renforcement, la traduction de langue et les algorithmes d'apprentissage en profondeur à usage général.
Source : NVIDIA
Et vous ?
Aviez-vous déjà entendu parler de NeRF ? Qu'en pensez-vous ?
Que pensez-vous de la prouesse technologique de NVIDIA ?
Quelles applications possibles voyez-vous ?
Voir aussi :
Facebook passe derrière NVIDIA en matière de capitalisation boursière et est désormais la huitième entreprise américaine la plus valorisée, sa valeur est tombée en dessous de 600 Mds $
NVIDIA bloque le minage de cryptomonnaies sur les cartes RTX 3080 et 3070, afin de les rendre plus accessibles aux joueurs sur PC
Partager