KI-Forscher von Nvidia haben einen Weg gefunden, eine Handvoll 2D-Bilder fast sofort in eine 3D-Szene umzuwandeln, indem sie blitzschnelles neuronales Netzwerktraining in Verbindung mit schnellem Rendering verwenden.

Der als inverses Rendering bekannte Prozess nutzt KI, um das Verhalten des Lichts in der realen Welt zu approximieren und 2D-Bilder, die aus verschiedenen Winkeln aufgenommen wurden, in 3D-Szenen umzuwandeln.

Nvidia-Forscher wendeten ihren neuen Ansatz auf eine beliebte neue Technologie namens Neural Radiation Fields, kurz NeRF, an. Das Ergebnis, das das Unternehmen Instant NeRF genannt hat, ist die bisher schnellste NeRF-Technik und in einigen Fällen mehr als 1000 Mal schneller. Das verwendete neuronale Modell benötigt nur wenige Sekunden, um einige Dutzend Standbilder zu trainieren, erfordert jedoch auch Daten zu den Kamerawinkeln, aus denen sie aufgenommen wurden.

David Luebke, VP of Graphics Research bei Nvidia, lieferte in einem Blogbeitrag zusätzliche Informationen zum Unterschied zwischen NeRF und Instant NeRF und sagte:

„Während traditionelle 3D-Darstellungen wie Polygonnetze Vektorbildern ähneln, sind NeRFs wie Bitmaps: Sie erfassen dicht, wie Licht von einem Objekt oder in eine Szene strahlt. In diesem Sinne könnte Instant NeRF für 3D genauso wichtig sein wie Digitalkameras und JPEG-Komprimierung für die 2D-Fotografie, und die Geschwindigkeit, Leichtigkeit und den Umfang der 3D-Erfassung und -Weitergabe dramatisch erhöhen.

Mögliche Anwendungsfälle

Mithilfe neuronaler Netze können NeRFs realistische 3D-Szenen basierend auf einer Eingabesammlung von 2D-Bildern rendern. Der interessanteste Teil ist jedoch, wie die zu ihrer Erstellung verwendeten neuronalen Netze die Lücken zwischen 2D-Bildern füllen können, selbst wenn die Objekte oder Personen darin durch Hindernisse blockiert sind.

Normalerweise kann das Erstellen einer 3D-Szene mit herkömmlichen Methoden einige bis mehrere Stunden dauern, je nach Komplexität und Auflösung des Displays. Durch die Einführung von KI in das Bild konnten selbst frühe NeRF-Modelle nach mehrstündigem Training innerhalb von Minuten scharfe, artefaktfreie Szenen erzeugen.

Nvidias Instant NeRFs sind in der Lage, die erforderliche Renderzeit um Größenordnungen zu reduzieren, indem sie eine vom Unternehmen entwickelte Technik namens Multi-Resolution Hash Grid Encoding verwenden, die für eine effiziente Ausführung auf Nvidia-GPUs optimiert wurde. Das Modell, das das Unternehmen auf der GTC 2022 vorgestellt hat, verwendet das Nvidia CUDA Toolkit und die Tiny CUDA Neural Networks Library, die auf einer einzigen Nvidia-GPU trainiert und ausgeführt werden können, obwohl Grafikkarten mit Nvidia Tensor Cores den Job noch schneller erledigen können.

In Zukunft könnte die Instant NeRF-Technologie verwendet werden, um schnell Avatare oder Szenen für virtuelle Welten zu erstellen, Videokonferenzteilnehmer und ihre Umgebung in 3D zu erfassen oder Szenen für digitale 3D-Karten zu rekonstruieren. Alternativ könnte die Technologie auch verwendet werden, um autonome Roboter und Autos zu trainieren, um die Größe und Form von realen Objekten besser zu verstehen, indem 2D-Bilder oder Videoaufnahmen von ihnen aufgenommen werden. Gleichzeitig kann die Architektur- und Unterhaltungsindustrie Instant NeRF verwenden, um schnell digitale Darstellungen realer Umgebungen zu erstellen, die von den Entwicklern modifiziert und erweitert werden können.

Nvidia-Forscher erforschen auch, wie ihre neue Eingabecodierungstechnik verwendet werden könnte, um verschiedene KI-Herausforderungen wie Verstärkungslernen, Sprachübersetzung und universelle Deep-Learning-Algorithmen zu beschleunigen.

Teilen Sie es