Megjelent az OpenAI által javasolt DALL-E 2 gépi tanulási rendszer nyílt megvalósítása, amely lehetővé teszi valósághű képek és festmények szintetizálását természetes nyelvű szöveges leírás alapján, valamint természetes nyelvű parancsok alkalmazását a képek szerkesztéséhez ( például objektumok hozzáadása, törlése vagy áthelyezése a képen ). Az OpenAI eredeti DALL-E 2 modelljeit nem tették közzé, de elérhető a módszert részletező papír. A meglévő leírás alapján független kutatók elkészítettek egy alternatív, Python nyelven írt, Pytorch keretrendszert használó, MIT licenc alatt terjesztett implementációt.
A DALL-E első generációjának korábban publikált megvalósításához képest az új verzió pontosabban illeszkedik a képhez a leíráshoz, nagyobb fotorealizmust tesz lehetővé, és lehetővé teszi a nagyobb felbontású képek előállítását. A rendszer nagy erőforrásokat igényel a modell betanításához, például a DALL-E 2 eredeti verziójának betanítása 100-200 ezer óra számítási időt igényel a GPU-n, pl. kb 2-4 hét számítás 256 NVIDIA Tesla V100 GPU-val.
Ugyanez a szerző elkezdte fejleszteni a kiterjesztett változatot is, a DALLE2 Video-t, amelynek célja a videó szintetizálása szöveges leírásból. Külön megemlíthetjük a Sberbank által kifejlesztett ru-dalle projektet, amely az első generációs DALL-E nyílt megvalósításával rendelkezik, amely az orosz nyelvű leírások felismerésére lett adaptálva.
Forrás: opennet.ru