Disneys KI erstellt Cartoons basierend auf Textbeschreibungen

Es gibt bereits neuronale Netze, die auf der Grundlage von Textbeschreibungen Originalvideos erstellen. Und obwohl sie Filmemacher oder Animatoren noch nicht vollständig ersetzen können, gibt es bereits Fortschritte in diese Richtung. Disney Research und Rutgers entwickelt haben ein neuronales Netzwerk, das aus einem Textskript ein grobes Storyboard und ein Video erstellen kann.

Disneys KI erstellt Cartoons basierend auf Textbeschreibungen

Wie bereits erwähnt, arbeitet das System mit natürlicher Sprache, wodurch es in einer Reihe von Bereichen eingesetzt werden kann, beispielsweise bei der Erstellung von Lehrvideos. Diese Systeme werden Drehbuchautoren auch dabei helfen, ihre Ideen zu visualisieren. Gleichzeitig heißt es, das Ziel bestehe nicht darin, Schriftsteller und Künstler zu ersetzen, sondern ihre Arbeit effizienter und weniger mühsam zu gestalten.

Die Entwickler sagen, dass die Übersetzung von Text in Animationen keine leichte Aufgabe sei, da die Ein- und Ausgabedaten keine feste Struktur hätten. Daher können die meisten dieser Systeme komplexe Sätze nicht verarbeiten. Um die Einschränkungen früherer ähnlicher Programme zu überwinden, bauten die Entwickler ein modulares neuronales Netzwerk bestehend aus mehreren Komponenten auf. Dazu gehören ein Modul zur Verarbeitung natürlicher Sprache, ein Skript-Parsing-Modul und ein Modul, das Animationen generiert.

Disneys KI erstellt Cartoons basierend auf Textbeschreibungen

Zunächst analysiert das System den Text und übersetzt komplexe Sätze in einfache. Anschließend wird eine 3D-Animation erstellt. Für die Arbeit wird eine Bibliothek mit 52 animierten Blöcken verwendet, deren Liste durch Hinzufügen ähnlicher Elemente auf 92 erweitert wurde. Zum Erstellen von Animationen wird die Spiel-Engine Unreal Engine verwendet, die auf vorinstallierten Objekten und Modellen basiert. Daraus wählt das System geeignete Elemente aus und generiert ein Video.

Disneys KI erstellt Cartoons basierend auf Textbeschreibungen

Um das System zu trainieren, stellten die Forscher eine Reihe von Beschreibungen von 996 Elementen zusammen, die aus mehr als 1000 Skripten von IMSDb, SimplyScripts und ScriptORama5 stammten. Anschließend wurden qualitative Tests durchgeführt, bei denen 22 Teilnehmer die Möglichkeit hatten, 20 Animationen zu bewerten. Gleichzeitig gaben 68 % an, dass das System auf Basis der Eingabetexte recht gute Animationen erstellt habe.

Das Team räumte jedoch ein, dass das System nicht perfekt ist. Die Liste der Aktionen und Objekte ist nicht vollständig, und manchmal werden Verben mit ähnlichen Animationen durch lexikalische Vereinfachung nicht zugeordnet. Die Forscher beabsichtigen, diese Mängel in zukünftigen Arbeiten zu beheben.



Source: 3dnews.ru

Kommentar hinzufügen