Efektivigo de maŝinlernada sistemo por bildsintezo bazita sur teksta priskribo

Malferma efektivigo de la maŝinlernado DALL-E 2, proponita de OpenAI, estis publikigita kaj ebligas al vi sintezi realismajn bildojn kaj pentraĵojn surbaze de teksta priskribo en natura lingvo, kaj ankaŭ apliki ordonojn en natura lingvo por redakti bildojn ( ekzemple, aldoni, forigi aŭ movi objektojn en la bildo). La originalaj DALL-E 2 modeloj de OpenAI ne estas publikigitaj, sed artikolo estas havebla detaligante la metodon. Surbaze de la ekzistanta priskribo, sendependaj esploristoj preparis alternativan efektivigon skribitan en Python, uzante la Pytorch-kadron kaj distribuitan sub la MIT-licenco.

Efektivigo de maŝinlernada sistemo por bildsintezo bazita sur teksta priskriboEfektivigo de maŝinlernada sistemo por bildsintezo bazita sur teksta priskribo

Kompare al la antaŭe publikigita efektivigo de la unua generacio DALL-E, la nova versio disponigas pli precizan kongruon de la bildo al la priskribo, ebligas pli grandan fotorealismon kaj ebligas generi bildojn en pli altaj rezolucioj. La sistemo postulas grandajn rimedojn por trejni la modelon; ekzemple, trejni la originalan version de DALL-E 2 postulas 100-200 mil horojn da komputado sur la GPU, t.e. ĉirkaŭ 2-4 semajnoj da kalkuloj kun 256 GPU-oj NVIDIA Tesla V100.

Efektivigo de maŝinlernada sistemo por bildsintezo bazita sur teksta priskribo

La sama aŭtoro ankaŭ komencis disvolvi plilongigitan version - DALLE2 Video, celantan sintezi filmeton el teksta priskribo. Aparte, ni povas noti la ru-dalle-projekton evoluigitan de Sberbank, kun malferma efektivigo de la unua generacio DALL-E, adaptita por rekoni priskribojn en la rusa.

fonto: opennet.ru

Aldoni komenton