Ëmsetzung vun engem Maschinn Léiersystem fir Bildsynthese baséiert op Textbeschreiwung

Eng oppe Implementatioun vum Maschinnléieresystem DALL-E 2, proposéiert vum OpenAI, gouf publizéiert an erlaabt Iech realistesch Biller a Biller ze synthetiséieren op Basis vun enger Textbeschreiwung an der natierlecher Sprooch, souwéi Kommandoen an der natierlecher Sprooch anzesetzen fir Biller z'änneren ( zum Beispill, Objeten am Bild addéieren, läschen oder réckelen). D'Original DALL-E 2 Modeller vum OpenAI ginn net publizéiert, awer e Pabeier deen d'Method detailléiert ass verfügbar. Baséierend op der existéierender Beschreiwung hunn onofhängeg Fuerscher eng alternativ Implementatioun virbereet, déi am Python geschriwwe gëtt, de Pytorch Kader benotzt an ënner der MIT Lizenz verdeelt.

Ëmsetzung vun engem Maschinn Léiersystem fir Bildsynthese baséiert op TextbeschreiwungËmsetzung vun engem Maschinn Léiersystem fir Bildsynthese baséiert op Textbeschreiwung

Am Verglach mat der virdru publizéierter Ëmsetzung vun der éischter Generatioun vun DALL-E gëtt déi nei Versioun e méi genee Match vum Bild op d'Beschreiwung, erlaabt e gréissere Photorealismus a mécht et méiglech Biller a méi héije Resolutiounen ze generéieren. De System erfuerdert grouss Ressourcen fir de Modell ze trainéieren; zum Beispill d'Ausbildung vun der Originalversioun vum DALL-E 2 erfuerdert 100-200 Tausend Rechenstonnen op der GPU, d.h. iwwer 2-4 Woche vun Berechnungen mat 256 NVIDIA Tesla V100 GPUs.

Ëmsetzung vun engem Maschinn Léiersystem fir Bildsynthese baséiert op Textbeschreiwung

Dee selwechten Auteur huet och ugefaang eng erweidert Versioun z'entwéckelen - DALLE2 Video, fir de Video aus enger Textbeschreiwung ze synthetiséieren. Separat kënne mir de Ru-Dalle Projet notéieren, dee vu Sberbank entwéckelt gouf, mat enger oppener Ëmsetzung vun der éischter Generatioun DALL-E, ugepasst fir Beschreiwungen op Russesch ze erkennen.

Source: opennet.ru

Setzt e Commentaire