Implementering af maskinlæringssystem til billedsyntese baseret på tekstbeskrivelse

En åben implementering af maskinlæringssystemet DALL-E 2, foreslået af OpenAI, er blevet offentliggjort og giver dig mulighed for at syntetisere realistiske billeder og malerier baseret på en tekstbeskrivelse i naturligt sprog, samt anvende kommandoer i naturligt sprog til at redigere billeder ( f.eks. tilføje, slette eller flytte objekter i billedet ). OpenAI's originale DALL-E 2-modeller er ikke offentliggjort, men et papir, der beskriver metoden, er tilgængeligt. Baseret på den eksisterende beskrivelse har uafhængige forskere udarbejdet en alternativ implementering skrevet i Python, ved hjælp af Pytorch-rammeværket og distribueret under MIT-licensen.

Implementering af maskinlæringssystem til billedsyntese baseret på tekstbeskrivelseImplementering af maskinlæringssystem til billedsyntese baseret på tekstbeskrivelse

Sammenlignet med den tidligere publicerede implementering af første generation af DALL-E giver den nye version et mere præcist match af billedet til beskrivelsen, giver mulighed for større fotorealisme og gør det muligt at generere billeder i højere opløsninger. Systemet kræver store ressourcer for at træne modellen; for eksempel kræver træning af den originale version af DALL-E 2 100-200 tusinde timers databehandling på GPU'en, dvs. omkring 2-4 ugers beregninger med 256 NVIDIA Tesla V100 GPU'er.

Implementering af maskinlæringssystem til billedsyntese baseret på tekstbeskrivelse

Samme forfatter begyndte også at udvikle en udvidet version - DALLE2 Video, med det formål at syntetisere video ud fra en tekstbeskrivelse. Separat kan vi bemærke ru-dalle-projektet udviklet af Sberbank, med en åben implementering af den første generation af DALL-E, tilpasset til at genkende beskrivelser på russisk.

Kilde: opennet.ru

Tilføj en kommentar