රූප අධික ලෙස සම්පීඩනය කිරීමට AI භාවිතා කිරීම

රූප අධික ලෙස සම්පීඩනය කිරීමට AI භාවිතා කිරීම
ස්නායු ජාල වැනි දත්ත මත පදනම් වූ ඇල්ගොරිතම ලෝකය කුණාටුවකට හසු වී ඇත. ලාභ සහ බලවත් දෘඪාංග සහ අතිවිශාල දත්ත ප්‍රමාණයක් ඇතුළුව හේතු කිහිපයක් නිසා ඔවුන්ගේ සංවර්ධනය මෙහෙයවනු ලැබේ. රූප හඳුනාගැනීම, ස්වභාවික භාෂා අවබෝධය යනාදී "ප්‍රජානන" කර්තව්‍යයන් හා සම්බන්ධ සෑම දෙයකම ස්නායු ජාල දැනට ඉදිරියෙන්ම සිටී. නමුත් ඔවුන් එවැනි කාර්යයන් සඳහා සීමා නොවිය යුතුය. මෙම ද්රව්යය අවශේෂ ඉගෙනීම භාවිතා කරමින් ස්නායුක ජාල භාවිතා කරමින් රූප සම්පීඩනය කිරීමේ ක්රමයක් විස්තර කරයි. ලිපියේ ඉදිරිපත් කර ඇති ප්රවේශය සම්මත කෝඩෙක්ස් වලට වඩා වේගවත් හා වඩා හොඳින් ක්රියා කරයි. යෝජනා ක්රම, සමීකරණ සහ, ඇත්ත වශයෙන්ම, කප්පාදුව යටතේ පරීක්ෂණ සහිත වගුවක්.

මෙම ලිපිය පදනම් වී ඇත මේ කාර්යය. ඔබ ස්නායුක ජාල සහ ඒවායේ සංකල්ප ගැන හුරුපුරුදු බව උපකල්පනය කෙරේ convolution и පාඩු කාර්යය.

රූප සම්පීඩනය යනු කුමක්ද සහ එය පැමිණෙන්නේ කුමන ආකාරයේද?

රූප සම්පීඩනය යනු රූපයක් අඩු ඉඩක් ගන්නා ලෙස පරිවර්තනය කිරීමේ ක්‍රියාවලියයි. පින්තූර සරලව ගබඩා කිරීම සඳහා විශාල ඉඩක් ගතවනු ඇත, එබැවින් මුල් රූපයේ ප්‍රමාණය අඩු කිරීමට ඉලක්ක කරන JPEG සහ PNG වැනි කෝඩෙක්ස් ඇත.

ඔබ දන්නා පරිදි, රූප සම්පීඩනය වර්ග දෙකක් තිබේ: පාඩුවක් නැත и පාඩු සමඟ. නම්වලින් පෙනී යන පරිදි, පාඩු රහිත සම්පීඩනය මඟින් මුල් රූප දත්ත නැවත ලබා ගත හැකි අතර, සම්පීඩනය අතරතුර පාඩු සහිත සම්පීඩනය සමහර දත්ත නැති කරයි. උදාහරණයක් ලෙස, JPG යනු පාඩු සහිත ඇල්ගොරිතම වේ [ආසන්න වශයෙන්. පරිවර්තනය - මූලික වශයෙන්, පාඩු රහිත JPEG] ගැන ද අමතක නොකරමු, සහ PNG යනු පාඩු රහිත ඇල්ගොරිතමයකි.

රූප අධික ලෙස සම්පීඩනය කිරීමට AI භාවිතා කිරීම
පාඩු රහිත සහ පාඩු සහිත සම්පීඩනය සංසන්දනය කිරීම

දකුණු පස ඇති රූපයේ අවහිර වූ පුරාවස්තු රාශියක් ඇති බව සලකන්න. මෙය නැතිවූ තොරතුරු වේ. ඉඩ ඉතිරි කර ගැනීම සඳහා සමාන වර්ණ යාබද පික්සල එක් ප්‍රදේශයක් ලෙස සම්පීඩිත වේ, නමුත් සත්‍ය පික්සල පිළිබඳ තොරතුරු නැති වී යයි. ඇත්ත වශයෙන්ම, JPEG, PNG, ආදිය කෝඩෙක්ස්වල භාවිතා කරන ඇල්ගොරිතම වඩාත් සංකීර්ණ වේ, නමුත් මෙය පාඩු සහිත සම්පීඩනය සඳහා හොඳ අවබෝධාත්මක උදාහරණයකි. Lossless සම්පීඩනය හොඳයි, නමුත් පාඩුවකින් තොරව සම්පීඩිත ගොනු විශාල තැටි ඉඩක් ගනී. බොහෝ තොරතුරු අහිමි නොවී පින්තූර සම්පීඩනය කිරීමට වඩාත් කාර්යක්ෂම ක්‍රම තිබේ, නමුත් ඒවා තරමක් මන්දගාමී වන අතර බොහෝ දෙනෙක් පුනරාවර්තන ප්‍රවේශයන් භාවිතා කරති. මෙයින් අදහස් කරන්නේ ඒවා බහු CPU හෝ GPU කෝර් මත සමාන්තරව ධාවනය කළ නොහැකි බවයි. මෙම සීමාව නිසා ඒවා එදිනෙදා භාවිතය සඳහා සම්පූර්ණයෙන්ම ප්‍රායෝගික නොවේ.

Convolutional Neural Network Input

යමක් ගණනය කිරීමට අවශ්ය නම් සහ ගණනය කිරීම් ආසන්න විය හැකි නම්, එකතු කරන්න ස්නායු ජාලය. කතුවරුන් රූප සම්පීඩනය වැඩි දියුණු කිරීම සඳහා තරමක් සම්මත සංචලන ස්නායු ජාලයක් භාවිතා කළහ. ඉදිරිපත් කරන ලද ක්‍රමය හොඳම විසඳුම් සමඟ සමාන්තරව ක්‍රියා කරනවා පමණක් නොව (වඩා හොඳ නොවේ නම්), එය සමාන්තර පරිගණනය ද භාවිතා කළ හැකි අතර එහි ප්‍රතිඵලයක් ලෙස වේගය නාටකාකාර ලෙස වැඩි වේ. හේතුව නම්, convolutional neural networks (CNNs) රූපවලින් අවකාශීය තොරතුරු උකහා ගැනීමේදී ඉතා හොඳ වන අතර, ඒවා පසුව වඩාත් සංයුක්ත ස්වරූපයෙන් නිරූපණය කෙරේ (උදාහරණයක් ලෙස, රූපයේ "වැදගත්" බිටු පමණක් රඳවා තබා ගනී). කතුවරුන්ට අවශ්‍ය වූයේ රූප වඩාත් හොඳින් නිරූපණය කිරීමට CNN හි මෙම විශේෂාංගය භාවිතා කිරීමට ය.

ගෘහ නිර්මාණ ශිල්පය

කතුවරුන් ද්විත්ව ජාලයක් යෝජනා කළහ. පළමු ජාලය රූපයක් ආදානය ලෙස ගෙන සංයුක්ත නිරූපණයක් (ComCNN) ජනනය කරයි. මෙම ජාලයේ ප්‍රතිදානය පසුව සම්මත කෝඩෙක් (JPEG වැනි) මගින් සකසනු ලැබේ. කෝඩෙක් විසින් සැකසූ පසු, රූපය දෙවන ජාලයකට යවනු ලැබේ, එය මුල් රූපය ආපසු ලබා දීමට උත්සාහ කිරීමේදී කෝඩෙක් වෙතින් රූපය "නිවැරදි" කරයි. කතුවරුන් මෙම ජාලය ප්‍රතිනිර්මාණය CNN (RecCNN) ලෙස හැඳින්වූහ. GANs මෙන්, ජාල දෙකම පුනරාවර්තන ලෙස පුහුණු කර ඇත.

රූප අධික ලෙස සම්පීඩනය කිරීමට AI භාවිතා කිරීම
ComCNN සංයුක්ත නිරූපණය සම්මත කෝඩෙක් වෙත මාරු කරන ලදී

රූප අධික ලෙස සම්පීඩනය කිරීමට AI භාවිතා කිරීම
RecCNN. ComCNN ප්‍රතිදානය ඉහළ නංවා RecCNN වෙත සපයනු ලැබේ, එය ඉතිරිය ඉගෙන ගැනීමට උත්සාහ කරනු ඇත

කෝඩෙක් ප්‍රතිදානය ඉහළට ගෙන පසුව RecCNN වෙත සංග්‍රහ කෙරේ. RecCNN හැකිතාක් මුල් පිටපතට සමාන රූපයක් ප්‍රතිදානය කිරීමට උත්සාහ කරයි.

රූප අධික ලෙස සම්පීඩනය කිරීමට AI භාවිතා කිරීම
අවසානය සිට අවසානය දක්වා රූප සම්පීඩන රාමුව. Co(.) යනු රූප සම්පීඩන ඇල්ගොරිතමයකි. කතුවරුන් JPEG, JPEG2000 සහ BPG භාවිතා කළහ

ඉතිරිය කුමක්ද?

ඉතිරිය කෝඩෙක් මගින් විකේතනය කරන ලද රූපය "වැඩිදියුණු කිරීම" සඳහා පසු-සැකසුම් කිරීමේ පියවරක් ලෙස සැලකිය හැකිය. ලෝකය පිළිබඳ බොහෝ "තොරතුරු" සමඟ, ස්නායු ජාලයකට නිවැරදි කළ යුතු දේ පිළිබඳ සංජානන තීරණ ගත හැකිය. මෙම අදහස පදනම් වී ඇත අවශේෂ පුහුණුව, ඔබට හැකි විස්තර කියවන්න මෙහි.

කාර්යයන් අහිමි වීම

අපට ස්නායුක ජාල දෙකක් ඇති නිසා පාඩු ශ්‍රිත දෙකක් භාවිතා වේ. මේවායින් පළමු, ComCNN, L1 ලෙස ලේබල් කර ඇති අතර එය පහත පරිදි අර්ථ දැක්වේ:

රූප අධික ලෙස සම්පීඩනය කිරීමට AI භාවිතා කිරීම
ComCNN සඳහා ක්‍රියාකාරිත්වය නැතිවීම

පැහැදිලි කිරීම

මෙම සමීකරණය සංකීර්ණ බවක් පෙනෙන්නට ඇත, නමුත් එය ඇත්ත වශයෙන්ම සම්මතය (මධ්‍යන්‍ය වර්ග දෝෂය) MSE. ||² යන්නෙන් අදහස් වන්නේ ඔවුන් වට කර ඇති දෛශිකයේ සම්මතයයි.

රූප අධික ලෙස සම්පීඩනය කිරීමට AI භාවිතා කිරීම
සමීකරණය 1.1

Cr යනු ComCNN හි ප්‍රතිදානයයි. θ යනු ComCNN පරාමිතිවල පුහුණු හැකියාව, XK යනු ආදාන රූපයයි

රූප අධික ලෙස සම්පීඩනය කිරීමට AI භාවිතා කිරීම
සමීකරණය 1.2

Re() RecCNN යන්නෙන් අදහස් කෙරේ. මෙම සමීකරණය 1.1 සමීකරණයේ අගය RecCNN වෙත යවයි. θ RecCNN හි පුහුණු කළ හැකි පරාමිති දක්වයි (ඉහළ ඇති තොප්පිය යනු පරාමිති සවි කර ඇති බවයි).

බුද්ධිමය අර්ථ දැක්වීම

සමීකරණය 1.0 ComCNN හට එහි බර වෙනස් කිරීමට බල කරනු ඇත, එනම් RecCNN භාවිතයෙන් ප්‍රතිනිර්මාණය කරන විට, අවසාන රූපය හැකිතාක් ආදාන රූපයට සමාන වේ. දෙවන RecCNN පාඩු ශ්‍රිතය පහත පරිදි අර්ථ දක්වා ඇත:

රූප අධික ලෙස සම්පීඩනය කිරීමට AI භාවිතා කිරීම
සමීකරණය 2.0

පැහැදිලි කිරීම

නැවතත් ශ්‍රිතය සංකීර්ණ ලෙස පෙනෙනු ඇත, නමුත් එය බොහෝ දුරට සම්මත ස්නායු ජාල අලාභ ශ්‍රිතයකි (MSE).

රූප අධික ලෙස සම්පීඩනය කිරීමට AI භාවිතා කිරීම
සමීකරණය 2.1

Co() කෝඩෙක් ප්‍රතිදානය යන්නෙන් අදහස් වේ, x යනු ඉහළ තොප්පියකින් අදහස් කෙරේ ComCNN ප්‍රතිදානය. θ2 යනු RecCNN හි පුහුණු කළ හැකි පරාමිති වේ. res() හුදෙක් RecCNN හි අවශේෂ ප්‍රතිදානය වේ. RecCNN පුහුණු කර ඇත්තේ Co() සහ ආදාන රූපය අතර වෙනස මත මිස ආදාන රූපය මත නොවන බව සඳහන් කිරීම වටී.

බුද්ධිමය අර්ථ දැක්වීම

සමීකරණය 2.0 RecCNN හට එහි බර වෙනස් කිරීමට බල කරනු ඇත, එවිට ප්‍රතිදානය හැකිතාක් ආදාන රූපයට සමාන වේ.

ඉගෙනුම් යෝජනා ක්රමය

ආකෘති පුනරාවර්තන ලෙස පුහුණු කරනු ලැබේ, සමාන වේ GAN. පළමු මාදිලියේ බර ස්ථාවර වන අතර දෙවන මාදිලියේ බර යාවත්කාලීන වේ, දෙවන මාදිලියේ බර පළමු මාදිලිය පුහුණු කරන අතරතුර ස්ථාවර වේ.

පරීක්ෂණ

කතුවරුන් ඔවුන්ගේ ක්‍රමය සරල කෝඩෙක්ස් ඇතුළු පවතින ක්‍රම සමඟ සංසන්දනය කළහ. සුදුසු දෘඪාංගවල අධික වේගයක් පවත්වා ගනිමින් ඔවුන්ගේ ක්‍රමය අනෙක් අයට වඩා හොඳින් ක්‍රියා කරයි. මීට අමතරව, කතුවරුන් ජාල දෙකෙන් එකක් පමණක් භාවිතා කිරීමට උත්සාහ කළ අතර කාර්ය සාධනයේ පහත වැටීමක් සටහන් විය.

රූප අධික ලෙස සම්පීඩනය කිරීමට AI භාවිතා කිරීම
ව්‍යුහාත්මක සමානතා දර්ශකය (SSIM) සැසඳීම. ඉහළ අගයන් මුල් පිටපතට වඩා හොඳ සමානකමක් දක්වයි. කතුවරුන්ගේ කාර්යයේ ප්රතිඵල තද අකුරින් උද්දීපනය කර ඇත.

නිගමනය

අපි රූප සම්පීඩනය සඳහා ගැඹුරු ඉගෙනීම භාවිතා කිරීමට නව ක්රමයක් දෙස බැලූ අතර, රූප වර්ගීකරණය සහ භාෂා සැකසීම වැනි "සාමාන්ය" වලින් ඔබ්බට ගිය කාර්යයන් සඳහා ස්නායු ජාල භාවිතා කිරීමේ හැකියාව ගැන කතා කළෙමු. මෙම ක්‍රමය නවීන අවශ්‍යතා වලට වඩා පහත් නොවනවා පමණක් නොව, පින්තූර වඩා වේගයෙන් සැකසීමටද ඔබට ඉඩ සලසයි.

අපි විශේෂයෙන් Khabra පදිංචිකරුවන් සඳහා ප්රවර්ධන කේතයක් නිර්මාණය කර ඇති නිසා, ස්නායුක ජාල අධ්යයනය කිරීම පහසු වී ඇත. HABR, බැනරයේ දක්වා ඇති වට්ටම් සඳහා අමතර 10% වට්ටමක් ලබා දීම.

රූප අධික ලෙස සම්පීඩනය කිරීමට AI භාවිතා කිරීම

තවත් පාඨමාලා

විශේෂාංග ලිපි

මූලාශ්රය: www.habr.com

අදහස් එක් කරන්න