Implementering av ett maskininlärningssystem för bildsyntes baserat på textbeskrivning

En öppen implementering av maskininlärningssystemet DALL-E 2, föreslagen av OpenAI, har publicerats och låter dig syntetisera realistiska bilder och målningar baserat på en textbeskrivning på naturligt språk, samt tillämpa kommandon på naturligt språk för att redigera bilder ( till exempel lägga till, ta bort eller flytta objekt i bilden ). OpenAI:s ursprungliga DALL-E 2-modeller publiceras inte, men ett dokument som beskriver metoden finns tillgängligt. Baserat på den befintliga beskrivningen har oberoende forskare förberett en alternativ implementering skriven i Python, med Pytorch-ramverket och distribuerad under MIT-licensen.

Implementering av ett maskininlärningssystem för bildsyntes baserat på textbeskrivningImplementering av ett maskininlärningssystem för bildsyntes baserat på textbeskrivning

Jämfört med den tidigare publicerade implementeringen av den första generationen av DALL-E ger den nya versionen en mer exakt matchning av bilden till beskrivningen, möjliggör större fotorealism och gör det möjligt att generera bilder i högre upplösningar. Systemet kräver stora resurser för att träna modellen, till exempel att träna originalversionen av DALL-E 2 kräver 100-200 tusen timmars beräkning på GPU:n, d.v.s. ca 2-4 veckors beräkningar med 256 NVIDIA Tesla V100 GPU:er.

Implementering av ett maskininlärningssystem för bildsyntes baserat på textbeskrivning

Samma författare började också utveckla en utökad version - DALLE2 Video, som syftar till att syntetisera video från en textbeskrivning. Separat kan vi notera ru-dalle-projektet utvecklat av Sberbank, med en öppen implementering av första generationens DALL-E, anpassad för att känna igen beskrivningar på ryska.

Källa: opennet.ru

Lägg en kommentar