Implementering van 'n masjienleerstelsel vir beeldsintese gebaseer op teksbeskrywing

'n Oop implementering van die masjienleerstelsel DALL-E 2, voorgestel deur OpenAI, is gepubliseer en stel jou in staat om realistiese beelde en skilderye te sintetiseer gebaseer op 'n teksbeskrywing in natuurlike taal, sowel as opdragte in natuurlike taal toe te pas om beelde te redigeer ( byvoorbeeld, voeg, skrap of skuif voorwerpe in die prent ). OpenAI se oorspronklike DALL-E 2-modelle word nie gepubliseer nie, maar 'n referaat wat die metode uiteensit, is beskikbaar. Op grond van die bestaande beskrywing het onafhanklike navorsers 'n alternatiewe implementering voorberei wat in Python geskryf is, met behulp van die Pytorch-raamwerk en versprei onder die MIT-lisensie.

Implementering van 'n masjienleerstelsel vir beeldsintese gebaseer op teksbeskrywingImplementering van 'n masjienleerstelsel vir beeldsintese gebaseer op teksbeskrywing

In vergelyking met die voorheen gepubliseerde implementering van die eerste generasie van DALL-E, bied die nuwe weergawe 'n meer akkurate passing van die beeld by die beskrywing, maak voorsiening vir groter fotorealisme en maak dit moontlik om beelde in hoΓ«r resolusies te genereer. Die stelsel vereis groot hulpbronne om die model op te lei; byvoorbeeld, opleiding van die oorspronklike weergawe van DALL-E 2 vereis 100-200 duisend ure se rekenaar op die GPU, d.w.s. ongeveer 2-4 weke se berekeninge met 256 NVIDIA Tesla V100 GPU's.

Implementering van 'n masjienleerstelsel vir beeldsintese gebaseer op teksbeskrywing

Dieselfde skrywer het ook begin om 'n uitgebreide weergawe te ontwikkel - DALLE2 Video, wat daarop gemik is om video uit 'n teksbeskrywing te sintetiseer. Afsonderlik kan ons let op die ru-dalle-projek wat deur Sberbank ontwikkel is, met 'n oop implementering van die eerste generasie DALL-E, aangepas om beskrywings in Russies te herken.

Bron: opennet.ru

Voeg 'n opmerking