Szöveges leíráson alapuló képszintézis gépi tanulási rendszerének megvalósítása

Megjelent az OpenAI által javasolt DALL-E 2 gépi tanulási rendszer nyílt megvalósítása, amely lehetővé teszi valósághű képek és festmények szintetizálását természetes nyelvű szöveges leírás alapján, valamint természetes nyelvű parancsok alkalmazását a képek szerkesztéséhez ( például objektumok hozzáadása, törlése vagy áthelyezése a képen ). Az OpenAI eredeti DALL-E 2 modelljeit nem tették közzé, de elérhető a módszert részletező papír. A meglévő leírás alapján független kutatók elkészítettek egy alternatív, Python nyelven írt, Pytorch keretrendszert használó, MIT licenc alatt terjesztett implementációt.

Szöveges leíráson alapuló képszintézis gépi tanulási rendszerének megvalósításaSzöveges leíráson alapuló képszintézis gépi tanulási rendszerének megvalósítása

A DALL-E első generációjának korábban publikált megvalósításához képest az új verzió pontosabban illeszkedik a képhez a leíráshoz, nagyobb fotorealizmust tesz lehetővé, és lehetővé teszi a nagyobb felbontású képek előállítását. A rendszer nagy erőforrásokat igényel a modell betanításához, például a DALL-E 2 eredeti verziójának betanítása 100-200 ezer óra számítási időt igényel a GPU-n, pl. kb 2-4 hét számítás 256 NVIDIA Tesla V100 GPU-val.

Szöveges leíráson alapuló képszintézis gépi tanulási rendszerének megvalósítása

Ugyanez a szerző elkezdte fejleszteni a kiterjesztett változatot is, a DALLE2 Video-t, amelynek célja a videó szintetizálása szöveges leírásból. Külön megemlíthetjük a Sberbank által kifejlesztett ru-dalle projektet, amely az első generációs DALL-E nyílt megvalósításával rendelkezik, amely az orosz nyelvű leírások felismerésére lett adaptálva.

Forrás: opennet.ru

Hozzászólás