Nvidia hat eine Möglichkeit entwickelt, 2D-Fotos in 3D-Szenen umzuwandeln

Nvidia hat eine Möglichkeit entwickelt, 2D-Fotos in 3D-Szenen umzuwandeln

Die KI-Forscher von Nvidia haben eine Möglichkeit gefunden, eine Handvoll 2D-Bilder mithilfe blitzschnellen neuronalen Netzwerktrainings und schnellem Rendering nahezu augenblicklich in eine 3D-Szene umzuwandeln.

Der als Reverse Rendering bekannte Prozess nutzt KI, um das Verhalten von Licht in der realen Welt anzunähern und 2D-Bilder, die aus verschiedenen Winkeln aufgenommen wurden, in 3D-Szenen umzuwandeln.

Die Nvidia-Forscher wandten ihren neuen Ansatz auf eine beliebte neue Technologie namens Neural Radiation Fields, kurz NeRF, an. Das Ergebnis, das das Unternehmen Instant NeRF nennt, ist die bisher schnellste NeRF-Technik und in einigen Fällen mehr als 1000 Mal schneller. Das verwendete neuronale Modell lässt sich in nur wenigen Sekunden auf ein paar Dutzend Standbilder trainieren, benötigt aber auch Daten über die Kamerawinkel, aus denen sie aufgenommen wurden.

David Luebke, Vizepräsident für Grafikforschung bei Nvidia, lieferte in einem Blogbeitrag zusätzliche Informationen zum Unterschied zwischen NeRF und Instant NeRF und sagte:

„Während herkömmliche 3D-Renderings wie Polygonnetze Vektorbildern ähneln, sind NeRFs wie Bitmaps: Sie erfassen dicht die Art und Weise, wie Licht von einem Objekt oder in eine Szene strahlt. In diesem Sinne könnte Instant NeRF für 3D genauso wichtig sein wie Digitalkameras und JPEG-Komprimierung für die 2D-Fotografie und die Geschwindigkeit, Einfachheit und Reichweite der 3D-Erfassung und -Freigabe drastisch erhöhen.

Mögliche Anwendungsfälle

Mithilfe neuronaler Netze können NeRFs realistische 3D-Szenen basierend auf einer Eingabesammlung von 2D-Bildern rendern. Das Interessanteste daran ist jedoch, wie die neuronalen Netze, mit denen sie erstellt wurden, die Lücken zwischen 2D-Bildern füllen können, selbst wenn die Objekte oder Personen darin durch Hindernisse blockiert werden.

Typischerweise kann die Erstellung einer 3D-Szene mit herkömmlichen Methoden je nach Komplexität und Auflösung der Anzeige einige bis mehrere Stunden dauern. Durch die Einführung von KI in das Bild konnten selbst frühe NeRF-Modelle nach mehrstündigem Training innerhalb von Minuten scharfe, artefaktfreie Szenen erzeugen.

Nvidias Instant NeRFs sind in der Lage, die erforderliche Renderzeit um Größenordnungen zu reduzieren, indem sie eine vom Unternehmen entwickelte Technik namens Multi-Resolution Hash Grid Encoding verwenden, die für die effiziente Ausführung auf Nvidia-GPUs optimiert wurde. Das Modell, das das Unternehmen auf der GTC 2022 vorgestellt hat, nutzt das Nvidia CUDA Toolkit und die Tiny CUDA Neural Networks Library, die beide auf einer einzigen Nvidia GPU trainiert und ausgeführt werden können, obwohl Grafikkarten mit Nvidia Tensor Cores diese Aufgabe noch schneller erledigen können.

Zukünftig könnten mit der Instant NeRF-Technologie schnell Avatare oder Szenen für virtuelle Welten erstellt, Videokonferenzteilnehmer und ihre Umgebungen in 3D erfasst oder Szenen für digitale 3D-Karten rekonstruiert werden. Alternativ könnte die Technologie auch dazu verwendet werden, Robotern und autonomen Autos beizubringen, die Größe und Form realer Objekte durch die Aufnahme von 2D-Bildern oder Videoaufnahmen von ihnen besser zu verstehen. Gleichzeitig können die Architektur- und Unterhaltungsbranche Instant NeRF nutzen, um schnell digitale Darstellungen realer Umgebungen zu erstellen, die von den Entwicklern geändert und erweitert werden können.

Nvidia-Forscher untersuchen außerdem, wie ihre neue Eingabecodierungstechnik dazu genutzt werden könnte, verschiedene KI-Herausforderungen zu beschleunigen, etwa Reinforcement Learning, Sprachübersetzung und universelle Deep-Learning-Algorithmen.