படங்களை மிகைப்படுத்த AI ஐப் பயன்படுத்துதல்

படங்களை மிகைப்படுத்த AI ஐப் பயன்படுத்துதல்
நரம்பியல் நெட்வொர்க்குகள் போன்ற தரவு உந்துதல் அல்காரிதம்கள் உலகத்தை புயலால் தாக்கியுள்ளன. மலிவான மற்றும் சக்திவாய்ந்த உபகரணங்கள் மற்றும் ஒரு பெரிய அளவு தரவு உட்பட பல காரணங்களால் அவற்றின் வளர்ச்சி ஏற்படுகிறது. நரம்பியல் நெட்வொர்க்குகள் தற்போது "அறிவாற்றல்" பணிகளான படத்தை அறிதல், இயற்கையான மொழி புரிதல் போன்றவற்றுடன் தொடர்புடைய எல்லாவற்றிலும் முன்னணியில் உள்ளன. ஆனால் அவர்கள் அத்தகைய பணிகளுக்கு மட்டுப்படுத்தப்படக்கூடாது. எஞ்சிய கற்றலைப் பயன்படுத்தி, நரம்பியல் நெட்வொர்க்குகளைப் பயன்படுத்தி படங்களை எவ்வாறு சுருக்குவது என்பது பற்றி இந்தக் கட்டுரை பேசுகிறது. கட்டுரையில் வழங்கப்பட்ட அணுகுமுறை நிலையான கோடெக்குகளை விட வேகமானது மற்றும் சிறந்தது. திட்டங்கள், சமன்பாடுகள் மற்றும், நிச்சயமாக, வெட்டு கீழ் சோதனைகள் ஒரு அட்டவணை.

இந்த கட்டுரை அடிப்படையாக கொண்டது இந்த வேலை. நீங்கள் நரம்பியல் நெட்வொர்க்குகள் மற்றும் அவற்றின் கருத்துகளை நன்கு அறிந்திருக்கிறீர்கள் என்று கருதப்படுகிறது. வளைவு и இழப்பு செயல்பாடு.

பட சுருக்கம் என்றால் என்ன, அது எப்படி வேலை செய்கிறது?

பட சுருக்கம் என்பது ஒரு படத்தை மாற்றும் செயல்முறையாகும், இதனால் அது குறைந்த இடத்தை எடுக்கும். படங்களைச் சேமிப்பது அதிக இடத்தை எடுக்கும், அதனால்தான் அசல் படத்தின் அளவைக் குறைக்கும் நோக்கில் JPEG மற்றும் PNG போன்ற கோடெக்குகள் உள்ளன.

உங்களுக்குத் தெரியும், பட சுருக்கத்தில் இரண்டு வகைகள் உள்ளன: இழப்பு இல்லை и இழப்புகளுடன். பெயர்கள் குறிப்பிடுவது போல, இழப்பற்ற சுருக்கமானது அசல் படத் தரவைத் தக்கவைத்துக்கொள்ள முடியும், அதே சமயம் இழப்பற்ற சுருக்கமானது சுருக்கத்தின் போது சில தரவை இழக்கிறது. எடுத்துக்காட்டாக, JPG என்பது லாஸ்ஸி அல்காரிதம்கள் [தோராயமாக. மொழிபெயர் - அடிப்படையில், இழப்பற்ற JPEG] பற்றி மறந்துவிடக் கூடாது, மேலும் PNG என்பது இழப்பற்ற வழிமுறையாகும்.

படங்களை மிகைப்படுத்த AI ஐப் பயன்படுத்துதல்
இழப்பற்ற மற்றும் இழப்பற்ற சுருக்கத்தின் ஒப்பீடு

வலதுபுறத்தில் உள்ள படத்தில் நிறைய தடையற்ற கலைப்பொருட்கள் இருப்பதைக் கவனியுங்கள். இது தொலைந்த தகவல். ஒரே மாதிரியான வண்ணங்களின் அண்டை பிக்சல்கள் இடத்தைச் சேமிப்பதற்காக ஒற்றைப் பகுதியாக சுருக்கப்படுகின்றன, ஆனால் உண்மையான பிக்சல்கள் பற்றிய தகவல்கள் இழக்கப்படுகின்றன. நிச்சயமாக, JPEG, PNG போன்ற கோடெக்குகளில் பயன்படுத்தப்படும் அல்காரிதம்கள் மிகவும் சிக்கலானவை, ஆனால் இது நஷ்டமான சுருக்கத்திற்கு ஒரு நல்ல உள்ளுணர்வு உதாரணம். இழப்பற்ற சுருக்கம் நல்லது, ஆனால் இழப்பற்ற சுருக்கப்பட்ட கோப்புகள் நிறைய வட்டு இடத்தை எடுத்துக்கொள்கின்றன. நிறைய தகவல்களை இழக்காமல் படங்களை சுருக்க சிறந்த வழிகள் உள்ளன, ஆனால் அவை மிகவும் மெதுவாக உள்ளன மற்றும் பலர் மீண்டும் மீண்டும் அணுகுமுறைகளைப் பயன்படுத்துகின்றனர். பல CPU அல்லது GPU கோர்களில் அவற்றை இணையாக இயக்க முடியாது என்பதே இதன் பொருள். இந்த வரம்பு தினசரி பயன்பாட்டில் முற்றிலும் நடைமுறைக்கு மாறானது.

கன்வல்யூஷனல் நியூரல் நெட்வொர்க் உள்ளீடு

ஏதாவது கணக்கிட வேண்டும் மற்றும் கணக்கீடுகள் தோராயமாக இருந்தால், சேர்க்கவும் நரம்பு வலையமைப்பு. பட சுருக்கத்தை மேம்படுத்த ஆசிரியர்கள் மிகவும் நிலையான கன்வல்யூஷனல் நியூரல் நெட்வொர்க்கைப் பயன்படுத்தினர். வழங்கப்பட்ட முறை சிறந்த தீர்வுகளுக்கு இணையாக செயல்படுவது மட்டுமல்லாமல் (சிறந்ததாக இல்லாவிட்டால்), இணையான கணினியையும் பயன்படுத்தலாம், இது வேகத்தில் வியத்தகு அதிகரிப்புக்கு வழிவகுக்கிறது. காரணம், கன்வல்யூஷனல் நியூரல் நெட்வொர்க்குகள் (சிஎன்என்கள்) படங்களிலிருந்து இடஞ்சார்ந்த தகவல்களைப் பிரித்தெடுப்பதில் மிகச் சிறந்தவை, பின்னர் அவை மிகவும் கச்சிதமான வடிவத்தில் வழங்கப்படுகின்றன (எடுத்துக்காட்டாக, படத்தின் "முக்கியமான" பிட்கள் மட்டுமே பாதுகாக்கப்படுகின்றன). ஆசிரியர்கள் இந்த சிஎன்என் திறனைப் பயன்படுத்தி படங்களை சிறப்பாகப் பிரதிநிதித்துவப்படுத்த விரும்பினர்.

கட்டிடக்கலை

ஆசிரியர்கள் இரட்டை நெட்வொர்க்கை முன்மொழிந்தனர். முதல் நெட்வொர்க் ஒரு படத்தை உள்ளீடாக எடுத்து ஒரு சிறிய பிரதிநிதித்துவத்தை (ComCNN) உருவாக்குகிறது. இந்த நெட்வொர்க்கின் வெளியீடு நிலையான கோடெக் (எ.கா. JPEG) மூலம் செயலாக்கப்படுகிறது. கோடெக்கால் செயலாக்கப்பட்ட பிறகு, படம் இரண்டாவது நெட்வொர்க்கிற்கு அனுப்பப்படுகிறது, இது அசல் படத்தைத் திரும்பப் பெறும் முயற்சியில் கோடெக்கிலிருந்து படத்தை "சரிசெய்கிறது". ஆசிரியர்கள் இந்த நெட்வொர்க்கிற்கு மறுசீரமைப்பு CNN (RecCNN) என்று பெயரிட்டுள்ளனர். GANகளைப் போலவே, இரண்டு நெட்வொர்க்குகளும் மீண்டும் மீண்டும் பயிற்சியளிக்கப்படுகின்றன.

படங்களை மிகைப்படுத்த AI ஐப் பயன்படுத்துதல்
ComCNN காம்பாக்ட் பிரதிநிதித்துவம் நிலையான கோடெக்கிற்கு அனுப்பப்பட்டது

படங்களை மிகைப்படுத்த AI ஐப் பயன்படுத்துதல்
RecCNN. ComCNN வெளியீடு அளவிடப்பட்டு RecCNNக்கு அளிக்கப்படுகிறது, இது மீதமுள்ளவற்றைக் கற்றுக்கொள்ள முயற்சிக்கும்

கோடெக் வெளியீடு அளவிடப்பட்டு பின்னர் RecCNNக்கு அனுப்பப்பட்டது. RecCNN படத்தை முடிந்தவரை அசலுக்கு நெருக்கமாக வழங்க முயற்சிக்கும்.

படங்களை மிகைப்படுத்த AI ஐப் பயன்படுத்துதல்
இறுதி முதல் இறுதி வரை பட சுருக்க கட்டமைப்பு. Co(.) என்பது ஒரு பட சுருக்க அல்காரிதம் ஆகும். ஆசிரியர்கள் JPEG, JPEG2000 மற்றும் BPG ஆகியவற்றைப் பயன்படுத்தினர்

மீதி என்றால் என்ன?

மீதமுள்ளவை கோடெக் மூலம் டிகோட் செய்யப்படும் படத்தை "மேம்படுத்த" ஒரு பிந்தைய செயலாக்க படியாக கருதலாம். உலகத்தைப் பற்றி நிறைய "தகவல்கள்" இருப்பதால், ஒரு நரம்பியல் நெட்வொர்க் எதைச் சரிசெய்வது என்பது பற்றிய அறிவாற்றல் முடிவுகளை எடுக்க முடியும். இந்த யோசனை அடிப்படையாக கொண்டது எஞ்சிய கற்றல், உங்களால் முடிந்த விவரங்களைப் படியுங்கள் இங்கே.

இழப்பு செயல்பாடுகள்

எங்களிடம் இரண்டு நரம்பியல் நெட்வொர்க்குகள் இருப்பதால் இரண்டு இழப்பு செயல்பாடுகள் பயன்படுத்தப்படுகின்றன. இவற்றில் முதலாவது, ComCNN, L1 என பெயரிடப்பட்டுள்ளது மற்றும் பின்வருமாறு வரையறுக்கப்படுகிறது:

படங்களை மிகைப்படுத்த AI ஐப் பயன்படுத்துதல்
ComCNN க்கான இழப்பு செயல்பாடு

விளக்கம்

இந்த சமன்பாடு சிக்கலானதாகத் தோன்றலாம், ஆனால் இது உண்மையில் நிலையானது (ரூட் சராசரி சதுரப் பிழை) எம்எஸ்இ. ||² என்பது அவர்கள் இணைக்கும் திசையன் நெறியைக் குறிக்கிறது.

படங்களை மிகைப்படுத்த AI ஐப் பயன்படுத்துதல்
சமன்பாடு 1.1

Cr என்பது ComCNN இன் வெளியீட்டைக் குறிக்கிறது. θ என்பது ComCNN அளவுருக்களின் கற்றலைக் குறிக்கிறது, XK என்பது உள்ளீட்டுப் படம்

படங்களை மிகைப்படுத்த AI ஐப் பயன்படுத்துதல்
சமன்பாடு 1.2

Re() RecCNN என்பதன் சுருக்கம். இந்த சமன்பாடு சமன்பாடு 1.1 இன் அர்த்தத்தை RecCNN க்கு வெறுமனே தெரிவிக்கிறது. θ என்பது RecCNN பயிற்சியளிக்கக்கூடிய அளவுருக்களைக் குறிக்கிறது (மேலே ஒரு தொப்பி என்பது அளவுருக்கள் நிலையானவை என்று பொருள்).

உள்ளுணர்வு வரையறை

சமன்பாடு 1.0 ComCNN அதன் எடையை மாற்றிவிடும், அதனால் RecCNN உடன் மீண்டும் உருவாக்கப்படும் போது, ​​இறுதிப் படம் உள்ளீட்டுப் படத்தைப் போலவே இருக்கும். இரண்டாவது RecCNN இழப்பு செயல்பாடு பின்வருமாறு வரையறுக்கப்படுகிறது:

படங்களை மிகைப்படுத்த AI ஐப் பயன்படுத்துதல்
சமன்பாடு 2.0

விளக்கம்

மீண்டும், செயல்பாடு சிக்கலானதாக தோன்றலாம், ஆனால் இது ஒரு நிலையான நரம்பியல் நெட்வொர்க் இழப்பு செயல்பாடு (MSE) ஆகும்.

படங்களை மிகைப்படுத்த AI ஐப் பயன்படுத்துதல்
சமன்பாடு 2.1

Co() கோடெக் வெளியீடு என்று பொருள், மேலே தொப்பியுடன் கூடிய x என்றால் ComCNN வெளியீடு என்று பொருள். θ2 என்பது RecCNN பயிற்சியளிக்கக்கூடிய அளவுருக்கள், res() இது RecCNN இன் எஞ்சிய வெளியீடு மட்டுமே. RecCNN ஆனது Co() மற்றும் உள்ளீட்டு படத்திற்கு இடையே உள்ள வேறுபாட்டின் மீது பயிற்றுவிக்கப்பட்டுள்ளது, ஆனால் உள்ளீடு படத்தில் இல்லை என்பது குறிப்பிடத்தக்கது.

உள்ளுணர்வு வரையறை

சமன்பாடு 2.0 ஆனது RecCNN அதன் எடையை மாற்றும், இதனால் வெளியீடு உள்ளீட்டுப் படத்தைப் போலவே இருக்கும்.

கற்றல் திட்டம்

மாதிரிகள் மீண்டும் மீண்டும் பயிற்சியளிக்கப்படுகின்றன GAN. இரண்டாவது மாடலின் எடைகள் புதுப்பிக்கப்படும் போது முதல் மாடலின் எடைகள் சரி செய்யப்படுகின்றன, பின்னர் முதல் மாடல் பயிற்சியின் போது இரண்டாவது மாடலின் எடைகள் சரி செய்யப்படுகின்றன.

சோதனைகள்

ஆசிரியர்கள் தங்கள் முறையை எளிய கோடெக்குகள் உட்பட ஏற்கனவே உள்ள முறைகளுடன் ஒப்பிட்டனர். பொருத்தமான வன்பொருளில் அதிக வேகத்தை பராமரிக்கும் போது அவர்களின் முறை மற்றவர்களை விட சிறப்பாக செயல்படுகிறது. கூடுதலாக, ஆசிரியர்கள் இரண்டு நெட்வொர்க்குகளில் ஒன்றை மட்டுமே பயன்படுத்த முயன்றனர் மற்றும் செயல்திறன் வீழ்ச்சியைக் குறிப்பிட்டனர்.

படங்களை மிகைப்படுத்த AI ஐப் பயன்படுத்துதல்
கட்டமைப்பு ஒற்றுமை குறியீட்டு ஒப்பீடு (SSIM). உயர் மதிப்புகள் அசலுக்கு சிறந்த ஒற்றுமையைக் குறிக்கின்றன. தடிமனான வகை ஆசிரியர்களின் பணியின் முடிவைக் குறிக்கிறது

முடிவுக்கு

பட சுருக்கத்திற்கு ஆழ்ந்த கற்றலைப் பயன்படுத்துவதற்கான புதிய வழியைப் பார்த்தோம், மேலும் பட வகைப்பாடு மற்றும் மொழி செயலாக்கம் போன்ற "பொது" பணிகளுக்கு அப்பாற்பட்ட பணிகளில் நரம்பியல் நெட்வொர்க்குகளைப் பயன்படுத்துவதற்கான சாத்தியக்கூறுகளைப் பற்றி பேசினோம். இந்த முறை நவீன தேவைகளை விட தாழ்ந்ததல்ல, ஆனால் நீங்கள் படங்களை மிக வேகமாக செயலாக்க அனுமதிக்கிறது.

நியூரல் நெட்வொர்க்குகளைக் கற்றுக்கொள்வது எளிதாகிவிட்டது, ஏனென்றால் நாங்கள் குறிப்பாக ஹப்ராவ்சானுக்காக ஒரு விளம்பரக் குறியீட்டை உருவாக்கியுள்ளோம் HABR, பேனரில் குறிப்பிடப்பட்டுள்ள தள்ளுபடிக்கு கூடுதலாக 10% தள்ளுபடி அளிக்கிறது.

படங்களை மிகைப்படுத்த AI ஐப் பயன்படுத்துதல்

மேலும் படிப்புகள்

சிறப்புக் கட்டுரைகள்

ஆதாரம்: www.habr.com

கருத்தைச் சேர்