Implementatie van een machine learning-systeem voor beeldsynthese op basis van tekstbeschrijving

Er is een open implementatie van het machine learning-systeem DALL-E 2 gepubliceerd, voorgesteld door OpenAI, waarmee u realistische afbeeldingen en schilderijen kunt synthetiseren op basis van een tekstbeschrijving in natuurlijke taal, en opdrachten in natuurlijke taal kunt toepassen om afbeeldingen te bewerken ( bijvoorbeeld objecten in de afbeelding toevoegen, verwijderen of verplaatsen). De originele DALL-E 2-modellen van OpenAI zijn niet gepubliceerd, maar er is een artikel beschikbaar waarin de methode wordt beschreven. Op basis van de bestaande beschrijving hebben onafhankelijke onderzoekers een alternatieve implementatie voorbereid, geschreven in Python, met behulp van het Pytorch-framework en gedistribueerd onder de MIT-licentie.

Implementatie van een machine learning-systeem voor beeldsynthese op basis van tekstbeschrijvingImplementatie van een machine learning-systeem voor beeldsynthese op basis van tekstbeschrijving

Vergeleken met de eerder gepubliceerde implementatie van de eerste generatie DALL-E zorgt de nieuwe versie voor een nauwkeurigere afstemming van de afbeelding op de beschrijving, maakt een groter fotorealisme mogelijk en maakt het mogelijk om afbeeldingen in hogere resoluties te genereren. Het systeem vereist grote bronnen om het model te trainen; het trainen van de originele versie van DALL-E 2 vereist bijvoorbeeld 100-200 computeruren op de GPU, d.w.z. ongeveer 2-4 weken rekenen met 256 NVIDIA Tesla V100 GPU's.

Implementatie van een machine learning-systeem voor beeldsynthese op basis van tekstbeschrijving

Dezelfde auteur begon ook met het ontwikkelen van een uitgebreide versie - DALLE2 Video, gericht op het synthetiseren van video uit een tekstbeschrijving. Afzonderlijk kunnen we het door Sberbank ontwikkelde ru-dalle-project opmerken, met een open implementatie van de eerste generatie DALL-E, aangepast voor het herkennen van beschrijvingen in het Russisch.

Bron: opennet.ru

Voeg een reactie