என்விடியா ஓப்பன் சோர்ஸ் ஸ்டைல்கான்3, முக தொகுப்புக்கான இயந்திர கற்றல் அமைப்பு

NVIDIA ஆனது StyleGAN3க்கான மூலக் குறியீட்டை வெளியிட்டுள்ளது, இது மக்களின் முகங்களின் யதார்த்தமான படங்களை ஒருங்கிணைப்பதை நோக்கமாகக் கொண்ட ஒரு ஜெனரேட்டிவ் அட்வர்சரியல் நியூரல் நெட்வொர்க் (GAN) அடிப்படையிலான இயந்திர கற்றல் அமைப்பாகும். இந்த குறியீடு பைடார்ச் கட்டமைப்பைப் பயன்படுத்தி பைத்தானில் எழுதப்பட்டுள்ளது மற்றும் என்விடியா மூல குறியீடு உரிமத்தின் கீழ் விநியோகிக்கப்படுகிறது, இது வணிக பயன்பாட்டிற்கு கட்டுப்பாடுகளை விதிக்கிறது.

Flickr-Faces-HQ (FFHQ) சேகரிப்பில் பயிற்றுவிக்கப்பட்ட ஆயத்த பயிற்சி பெற்ற மாதிரிகள், இதில் 70 ஆயிரம் உயர்தர (1024x1024) மக்களின் முகங்களின் PNG படங்களையும் பதிவிறக்கம் செய்யலாம். கூடுதலாக, AFHQv2 (விலங்குகளின் முகங்களின் புகைப்படங்கள்) மற்றும் Metfaces (கிளாசிக்கல் ஓவியத்தின் உருவப்படங்களிலிருந்து மக்களின் முகங்களின் படங்கள்) சேகரிப்புகளின் அடிப்படையில் கட்டப்பட்ட மாதிரிகள் உள்ளன. வளர்ச்சியின் கவனம் முகங்களில் உள்ளது, ஆனால் இயற்கைக்காட்சிகள் மற்றும் கார்கள் போன்ற எந்தவொரு பொருட்களையும் உருவாக்க கணினிக்கு பயிற்சி அளிக்கப்படலாம். கூடுதலாக, உங்கள் சொந்த பட சேகரிப்புகளைப் பயன்படுத்தி ஒரு நரம்பியல் வலையமைப்பிற்கு சுய பயிற்சிக்கான கருவிகள் வழங்கப்படுகின்றன. ஒன்று அல்லது அதற்கு மேற்பட்ட NVIDIA கிராபிக்ஸ் கார்டுகள் (டெஸ்லா V100 அல்லது A100 GPU பரிந்துரைக்கப்படுகிறது), குறைந்தது 12 GB RAM, PyTorch 1.9 மற்றும் CUDA 11.1+ டூல்கிட் தேவை. இதன் விளைவாக வரும் முகங்களின் செயற்கை தன்மையை தீர்மானிக்க, ஒரு சிறப்பு கண்டுபிடிப்பான் உருவாக்கப்படுகிறது.

பல முகங்களின் அம்சங்களின் இடைக்கணிப்பு, அவற்றின் சிறப்பியல்பு அம்சங்களை ஒருங்கிணைத்தல், அத்துடன் இறுதிப் படத்தை தேவையான வயது, பாலினம், முடி நீளம், புன்னகையின் தன்மை, மூக்கின் வடிவம், ஆகியவற்றின் அடிப்படையில் ஒரு புதிய முகத்தின் படத்தை ஒருங்கிணைக்க இந்த அமைப்பு உங்களை அனுமதிக்கிறது. தோல் நிறம், கண்ணாடி மற்றும் புகைப்பட கோணம். ஜெனரேட்டர் படத்தை பாணிகளின் தொகுப்பாகக் கருதுகிறது, பொதுவான உயர்நிலை பண்புக்கூறுகளிலிருந்து (போஸ், பாலினம், வயது மாற்றங்கள்) சிறப்பியல்பு விவரங்களை (freckles, முடி, கண்ணாடிகள்) தானாகவே பிரிக்கிறது மற்றும் மேலாதிக்கத்தின் உறுதியுடன் எந்த வடிவத்திலும் அவற்றை இணைக்க உங்களை அனுமதிக்கிறது. எடை குணகங்கள் மூலம் பண்புகள். இதன் விளைவாக, உண்மையான புகைப்படங்களிலிருந்து பிரித்தறிய முடியாத படங்கள் உருவாக்கப்படுகின்றன.

என்விடியா ஓப்பன் சோர்ஸ் ஸ்டைல்கான்3, முக தொகுப்புக்கான இயந்திர கற்றல் அமைப்பு

StyleGAN தொழில்நுட்பத்தின் முதல் பதிப்பு 2019 இல் வெளியிடப்பட்டது, அதன் பிறகு StyleGAN2020 இன் மேம்படுத்தப்பட்ட பதிப்பு 2 இல் முன்மொழியப்பட்டது, இது படத்தின் தரத்தை மேம்படுத்த அனுமதிக்கிறது மற்றும் சில கலைப்பொருட்களை நீக்குகிறது. அதே நேரத்தில், அமைப்பு நிலையானதாக இருந்தது, அதாவது. யதார்த்தமான அனிமேஷன் மற்றும் முக அசைவை அடைய அனுமதிக்கவில்லை. StyleGAN3 ஐ உருவாக்கும் போது, ​​அனிமேஷன் மற்றும் வீடியோவில் அதன் பயன்பாட்டிற்கு தொழில்நுட்பத்தை மாற்றியமைப்பதே முக்கிய குறிக்கோளாக இருந்தது.

StyleGAN3 மறுவடிவமைப்பு செய்யப்பட்ட பட உருவாக்கக் கட்டமைப்பைப் பயன்படுத்துகிறது. ஊடாடும் காட்சிப்படுத்தல் (visualizer.py), பகுப்பாய்வு (avg_spectra.py) மற்றும் வீடியோ உருவாக்கம் (gen_video.py) ஆகியவற்றிற்கான புதிய பயன்பாடுகள் இதில் அடங்கும். செயல்படுத்தல் நினைவக நுகர்வு குறைக்கிறது மற்றும் கற்றல் செயல்முறையை விரைவுபடுத்துகிறது.

என்விடியா ஓப்பன் சோர்ஸ் ஸ்டைல்கான்3, முக தொகுப்புக்கான இயந்திர கற்றல் அமைப்பு

StyleGAN3 கட்டமைப்பின் ஒரு முக்கிய அம்சம், நரம்பியல் வலையமைப்பில் உள்ள அனைத்து சமிக்ஞைகளையும் தொடர்ச்சியான செயல்முறைகளின் வடிவத்தில் விளக்குவதற்கான மாற்றமாகும், இது பகுதிகளை உருவாக்கும் போது, ​​தனிப்பட்ட பிக்சல்களின் முழுமையான ஒருங்கிணைப்புகளுடன் பிணைக்கப்படாத தொடர்புடைய நிலைகளைக் கையாளுவதை சாத்தியமாக்கியது. படம், ஆனால் சித்தரிக்கப்பட்ட பொருட்களின் மேற்பரப்பில் சரி செய்யப்பட்டது. StyleGAN மற்றும் StyleGAN2 இல், தலைமுறையின் போது பிக்சல்களுடன் பிணைப்பது டைனமிக் ரெண்டரிங்கின் போது சிக்கல்களுக்கு வழிவகுத்தது, எடுத்துக்காட்டாக, படம் நகரும் போது, ​​சுருக்கங்கள் மற்றும் முடிகள் போன்ற சிறிய விவரங்கள் பொருந்தவில்லை, இது முகத்தின் மற்ற பகுதிகளிலிருந்து தனித்தனியாக நகர்கிறது. . StyleGAN3 இல், இந்த சிக்கல்கள் தீர்க்கப்படுகின்றன மற்றும் தொழில்நுட்பம் வீடியோ உருவாக்கத்திற்கு மிகவும் பொருத்தமானதாகிவிட்டது.

கூடுதலாக, "டிரான்ஸ்ஃபார்மர்" கட்டமைப்பைக் கொண்ட ஆழமான நரம்பியல் நெட்வொர்க்கை அடிப்படையாகக் கொண்ட மிகப்பெரிய மொழி மாதிரியான MT-NLG இன் NVIDIA மற்றும் மைக்ரோசாப்ட் உருவாக்கிய அறிவிப்பை நாம் கவனிக்கலாம். மாடல் 530 பில்லியன் அளவுருக்களை உள்ளடக்கியது, மேலும் 4480 GPUகள் (560 DGX A100 சர்வர்கள் ஒவ்வொன்றும் 8 A100 80GB GPUகள்) பயிற்சிக்காக பயன்படுத்தப்பட்டது. மாதிரியின் பயன்பாடுகளில், முடிக்கப்படாத வாக்கியங்களை முடிப்பதைக் கணிப்பது, கேள்விகளுக்குப் பதிலளிப்பது, புரிதலைப் படிப்பது, இயற்கை மொழியில் அனுமானங்களை வரைவது மற்றும் சொற்களின் பொருளைத் தெளிவுபடுத்துவது போன்ற இயல்பான மொழி செயலாக்க சிக்கல்களைத் தீர்ப்பது ஆகியவை அடங்கும்.

என்விடியா ஓப்பன் சோர்ஸ் ஸ்டைல்கான்3, முக தொகுப்புக்கான இயந்திர கற்றல் அமைப்பு


ஆதாரம்: opennet.ru

கருத்தைச் சேர்