Implementering av maskinlæringssystem for bildesyntese basert på tekstbeskrivelse

En åpen implementering av maskinlæringssystemet DALL-E 2, foreslått av OpenAI, har blitt publisert og lar deg syntetisere realistiske bilder og malerier basert på en tekstbeskrivelse på naturlig språk, samt bruke kommandoer på naturlig språk for å redigere bilder ( for eksempel legge til, slette eller flytte objekter i bildet ). OpenAIs originale DALL-E 2-modeller er ikke publisert, men et papir som beskriver metoden er tilgjengelig. Basert på den eksisterende beskrivelsen har uavhengige forskere utarbeidet en alternativ implementering skrevet i Python, ved hjelp av Pytorch-rammeverket og distribuert under MIT-lisensen.

Implementering av maskinlæringssystem for bildesyntese basert på tekstbeskrivelseImplementering av maskinlæringssystem for bildesyntese basert på tekstbeskrivelse

Sammenlignet med den tidligere publiserte implementeringen av første generasjon av DALL-E, gir den nye versjonen et mer nøyaktig samsvar mellom bildet og beskrivelsen, gir større fotorealisme og gjør det mulig å generere bilder i høyere oppløsninger. Systemet krever store ressurser for å trene modellen; for eksempel å trene den originale versjonen av DALL-E 2 krever 100-200 tusen timer med databehandling på GPU, dvs. ca 2-4 uker med beregninger med 256 NVIDIA Tesla V100 GPUer.

Implementering av maskinlæringssystem for bildesyntese basert på tekstbeskrivelse

Samme forfatter begynte også å utvikle en utvidet versjon - DALLE2 Video, rettet mot å syntetisere video fra en tekstbeskrivelse. Separat kan vi merke oss ru-dalle-prosjektet utviklet av Sberbank, med en åpen implementering av første generasjon DALL-E, tilpasset for å gjenkjenne beskrivelser på russisk.

Kilde: opennet.ru

Legg til en kommentar