Die Text-zu-Video-Technologie von Nvidia bringt Ihr GIF-Gaming auf die nächste Stufe

Jetzt, da ChatGPT und Midjourney ziemlich Mainstream sind, ist das nächste große KI-Rennen Text-zu-Video-Generatoren, und Nvidia hat gerade einige erstaunliche Demos der Technologie gezeigt, die Ihre GIFs bald auf ein neues Niveau heben könnten.

Ein neues Forschungspapier und eine neue Microsite (öffnet sich in einem neuen Tab) von Nvidias Toronto AI Lab mit dem Titel „High-Resolution Video Synthesis with Latent Diffusion Models“ geben uns einen Einblick in die unglaublichen Erstellungstools, mit denen Videokünstler mitmachen können: eine wachsende Liste von die besten KI-Kunstgeneratoren.

Latent Diffusion Models (oder LDMs) sind eine Art von KI, die Videos generieren kann, ohne dass große Rechenleistung erforderlich ist. Nvidia sagt, dass seine Technologie dies erreicht, indem sie die Arbeit von Text-zu-Bild-Generatoren, in diesem Fall Stable Diffusion, übernimmt und dem latenten räumlichen Diffusionsmodell eine „Zeitdimension“ hinzufügt.

Ein Gif eines Sturmtrupplers, der einen Strand aufsaugt

(Bildnachweis: Nvidia)

Mit anderen Worten: Seine generative KI kann Standbilder realistisch verschieben und mithilfe von Super-Resolution-Techniken skalieren. Das bedeutet, dass Sie kurze 4,7-Sekunden-Videos mit einer Auflösung von 1280 x 2048 oder längere Videos mit einer niedrigeren Auflösung von 512 x 1024 für Fahrvideos ausgeben können.

Als wir die frühen Demos (wie die oben und unten) sahen, dachten wir sofort, wie sehr dies unser GIF-Spiel vorantreiben könnte. Zugegeben, es gibt größere Auswirkungen, wie die Demokratisierung der Videoerstellung und die Möglichkeit automatischer Filmanpassungen, aber an diesem Punkt scheint Text in GIF der aufregendste Anwendungsfall zu sein.

Ein Teddybär, der eine E-Gitarre spielt.

(Bildnachweis: Nvidia)

Einfache Aufforderungen wie „Ein Sturmtruppler saugt den Strand“ und „Ein Teddybär spielt E-Gitarre, High Definition, 4K“ führen zu durchaus brauchbaren Ergebnissen, obwohl es bei einigen Kreationen natürlich zu Artefakten und Änderungen kommt.

Tatsächlich ist die Texttechnologie für ein Video wie die neuen Demoversionen von Nvidia am besten für Miniaturen und GIFs geeignet. Aber angesichts der schnellen Verbesserungen, die Nvidias KI-Generation für längere Szenen (öffnet sich in einem neuen Tab) zeigt, müssen wir wahrscheinlich nicht auf längere Text-zu-Video-Clips in Stock-Bibliotheken und darüber hinaus warten.

Analytik: Die nächste Grenze der generativen KI

Die Sonne lugt durch das Fenster eines New Yorker Lofts

(Bildnachweis: Hinweis)

Nvidia ist nicht das erste Unternehmen, das einen KI-Videotextgenerator vorstellt. Wir haben kürzlich das Debüt von Google Phenaki gesehen (wird in einem neuen Tab geöffnet), das sein Potenzial für längere Cue-basierte 20-Sekunden-Clips offenbart. Seine Demos zeigen auch einen Clip, wenn auch länger, der länger als zwei Minuten dauert.

Das Startup Runway, das an der Entwicklung des Text-zu-Bild-Generators „Stable Diffusion“ beteiligt war, hat letzten Monat auch sein Gen-2-KI-Videomodell (öffnet sich in einem neuen Tab) vorgestellt. Sie können damit nicht nur auf Eingabeaufforderungen wie „Nachmittagssonne späht durch ein New Yorker Loft-Fenster“ (Ergebnis oben) reagieren, sondern auch ein Standbild als Grundlage für das generierte Video bereitstellen und auch Stile anfordern, die auf Ihre Videos angewendet werden sollen .

Letzteres war auch ein Thema der jüngsten Adobe Firefly-Demos, die zeigten, wie KI die Videobearbeitung erleichtern würde. In Programmen wie Adobe Premiere Rush können Sie bald die Tages- oder Jahreszeit eingeben, die Sie in Ihrem Video sehen möchten, und die KI von Adobe erledigt den Rest.

Jüngste Demos von Nvidia, Google und Runway zeigen, dass das Rendern von Volltext zu Video in einem etwas verschwommenen Zustand ist, was oft zu seltsamen, verträumten oder verzerrten Ergebnissen führt. Aber für unser GIF-Spiel reicht es vorerst, und schnelle Verbesserungen sind sicherlich auf dem Weg, die die Technologie für längere Videos geeignet machen werden.