Implementierung eines maschinellen Lernsystems zur Bildsynthese basierend auf Textbeschreibungen

Eine offene Implementierung des von OpenAI vorgeschlagenen maschinellen Lernsystems DALL-E 2 wurde veröffentlicht und ermöglicht es Ihnen, realistische Bilder und Gemälde basierend auf einer Textbeschreibung in natürlicher Sprache zu synthetisieren sowie Befehle in natürlicher Sprache anzuwenden, um Bilder zu bearbeiten ( zum Beispiel Objekte im Bild hinzufügen, löschen oder verschieben). Die ursprünglichen DALL-E 2-Modelle von OpenAI werden nicht veröffentlicht, es ist jedoch ein Papier mit detaillierten Angaben zur Methode verfügbar. Basierend auf der vorliegenden Beschreibung haben unabhängige Forscher eine alternative Implementierung vorbereitet, die in Python unter Verwendung des Pytorch-Frameworks geschrieben und unter der MIT-Lizenz vertrieben wird.

Implementierung eines maschinellen Lernsystems zur Bildsynthese basierend auf TextbeschreibungenImplementierung eines maschinellen Lernsystems zur Bildsynthese basierend auf Textbeschreibungen

Im Vergleich zur zuvor veröffentlichten Implementierung der ersten Generation von DALL-E bietet die neue Version eine genauere Übereinstimmung des Bildes mit der Beschreibung, ermöglicht einen größeren Fotorealismus und ermöglicht die Generierung von Bildern in höheren Auflösungen. Das System benötigt große Ressourcen, um das Modell zu trainieren; zum Beispiel erfordert das Training der Originalversion von DALL-E 2 100–200 Stunden Rechenzeit auf der GPU, d. h. ca. 2–4 Wochen Berechnungen mit 256 NVIDIA Tesla V100 GPUs.

Implementierung eines maschinellen Lernsystems zur Bildsynthese basierend auf Textbeschreibungen

Derselbe Autor begann auch mit der Entwicklung einer erweiterten Version – DALLE2 Video, die darauf abzielt, Videos aus einer Textbeschreibung zu synthetisieren. Unabhängig davon können wir das von der Sberbank entwickelte Ru-Dalle-Projekt mit einer offenen Implementierung des DALL-E der ersten Generation erwähnen, das für die Erkennung von Beschreibungen in russischer Sprache angepasst wurde.

Source: opennet.ru

Kommentar hinzufügen