Uża l-AI biex tikkompressa żżejjed immaġini

Uża l-AI biex tikkompressa żżejjed immaġini
Algoritmi mmexxija mid-dejta bħan-netwerks newrali ħadu d-dinja b’salt. L-iżvilupp tagħhom huwa mmexxi minn diversi raġunijiet, inkluż ħardwer irħis u qawwi u ammonti kbar ta 'dejta. In-netwerks newrali bħalissa huma minn ta’ quddiem f’dak kollu li għandu x’jaqsam ma’ ħidmiet “konjittivi” bħar-rikonoxximent tal-immaġni, il-fehim tal-lingwa naturali, eċċ. Iżda m'għandhomx ikunu limitati għal kompiti bħal dawn. Dan il-materjal jiddeskrivi metodu għall-kompressjoni ta 'immaġini bl-użu ta' netwerks newrali bl-użu ta 'tagħlim residwu. L-approċċ ippreżentat fl-artikolu jaħdem aktar malajr u aħjar minn codecs standard. Skemi, ekwazzjonijiet u, ovvjament, tabella b'testijiet taħt il-qatgħa.

Dan l-artikolu huwa bbażat fuq dan xogħol. Huwa preżunt li inti familjari man-netwerks newrali u l-kunċetti tagħhom konvoluzzjoni и funzjoni ta 'telf.

X'inhi l-kompressjoni tal-immaġni u f'liema tipi tidħol?

Il-kompressjoni tal-immaġni hija l-proċess tat-trasformazzjoni ta 'immaġni sabiex tieħu inqas spazju. Sempliċement il-ħażna tal-immaġini tieħu ħafna spazju, għalhekk hemm codecs bħal JPEG u PNG li għandhom l-għan li jnaqqsu d-daqs tal-immaġni oriġinali.

Kif tafu, hemm żewġ tipi ta 'kompressjoni tal-immaġni: ebda telf и bit-telf. Kif jissuġġerixxu l-ismijiet, il-kompressjoni mingħajr telf tista 'tirkupra d-dejta tal-immaġni oriġinali, filwaqt li l-kompressjoni lossy titlef xi dejta waqt il-kompressjoni. pereżempju, JPG huma algoritmi ta' telf [madwar. traduzzjoni - bażikament, ejja wkoll ma ninsewx dwar JPEG mingħajr telf], u PNG huwa algoritmu mingħajr telf.

Uża l-AI biex tikkompressa żżejjed immaġini
Tqabbil ta 'kompressjoni lossless u lossy

Innota li l-immaġni fuq il-lemin għandha ħafna artifacts blocky. Din hija informazzjoni mitlufa. Pixels biswit ta 'kuluri simili huma kkompressati bħala żona waħda biex jiffrankaw l-ispazju, iżda l-informazzjoni dwar il-pixels attwali tintilef. Naturalment, l-algoritmi użati fil-codecs JPEG, PNG, eċċ huma ħafna aktar kumplessi, iżda dan huwa eżempju intuwittiv tajjeb ta 'kompressjoni lossy. Il-kompressjoni mingħajr telf hija tajba, iżda l-fajls kompressati mingħajr telf jieħdu ħafna spazju fuq id-diska. Hemm modi aktar effiċjenti biex tikkompressa immaġini mingħajr ma titlef ħafna informazzjoni, iżda huma pjuttost bil-mod u ħafna jużaw approċċi iterattivi. Dan ifisser li ma jistgħux jitmexxew b'mod parallel fuq CPU multipli jew cores GPU. Din il-limitazzjoni tagħmilhom kompletament imprattikabbli għall-użu ta 'kuljum.

Input tan-Netwerk Neural Konvoluzzjonali

Jekk xi ħaġa trid tiġi kkalkulata u l-kalkoli jistgħu jkunu approssimattivi, żid netwerk newrali. L-awturi użaw netwerk newrali konvoluzzjonali pjuttost standard biex itejbu l-kompressjoni tal-immaġni. Il-metodu ppreżentat mhux biss iwettaq fuq l-istess livell ta 'l-aħjar soluzzjonijiet (jekk mhux aħjar), jista' juża wkoll kompjuters paralleli, li jirriżulta f'żieda drammatika fil-veloċità. Ir-raġuni hija li n-netwerks newrali konvoluzzjonali (CNNs) huma tajbin ħafna fl-estrazzjoni ta 'informazzjoni spazjali minn immaġini, li mbagħad jiġu rappreżentati f'forma aktar kompatta (pereżempju, jinżammu biss il-bits "importanti" tal-immaġni). L-awturi riedu jużaw din il-karatteristika tas-CNN biex jirrappreżentaw aħjar l-immaġini.

arkitettura

L-awturi pproponew netwerk doppju. L-ewwel netwerk jieħu immaġni bħala input u jiġġenera rappreżentazzjoni kompatta (ComCNN). L-output ta 'dan in-netwerk imbagħad jiġi pproċessat minn codec standard (bħal JPEG). Ladarba tiġi pproċessata mill-codec, l-immaġni tintbagħat lit-tieni netwerk, li "jikkoreġi" l-immaġni mill-codec f'tentattiv biex tirritorna l-immaġni oriġinali. L-awturi sejħu dan in-netwerk bħala rikostruzzjoni CNN (RecCNN). Bħal GANs, iż-żewġ netwerks huma mħarrġa b'mod iterattiv.

Uża l-AI biex tikkompressa żżejjed immaġini
Rappreżentazzjoni kompatta ComCNN trasferita għal codec standard

Uża l-AI biex tikkompressa żżejjed immaġini
RecCNN. L-output tal-ComCNN huwa upscaled u mitmugħ lil RecCNN, li se jipprova jitgħallem il-bqija

L-output tal-codec huwa upscaled u mbagħad mitmugħ lil RecCNN. RecCNN se jipprova joħroġ immaġni li tkun simili kemm jista' jkun għall-oriġinal.

Uża l-AI biex tikkompressa żżejjed immaġini
Qafas ta 'kompressjoni tal-immaġni tarf sa tarf. Co(.) huwa algoritmu tal-kompressjoni tal-immaġni. L-awturi użaw JPEG, JPEG2000 u BPG

X'inhu l-bqija?

Il-bqija jista 'jitqies bħala pass ta' wara l-ipproċessar biex "jtejjeb" l-immaġni li tkun dekodifikata mill-codec. B'ħafna "informazzjoni" dwar id-dinja, netwerk newrali jista 'jieħu deċiżjonijiet konjittivi dwar x'għandu jiffissa. Din l-idea hija bbażata fuq taħriġ residwu, aqra d-dettalji li dwarhom tista ' hawn.

Funzjonijiet ta 'telf

Jintużaw żewġ funzjonijiet ta 'telf minħabba li għandna żewġ netwerks newrali. L-ewwel wieħed minn dawn, ComCNN, huwa mmarkat L1 u huwa definit kif ġej:

Uża l-AI biex tikkompressa żżejjed immaġini
Funzjoni ta 'telf għal ComCNN

Spjegazzjoni

Din l-ekwazzjoni tista’ tidher ikkumplikata, iżda fil-fatt hija standard (żball medju kwadrat) MSE. ||² tfisser in-norma tal-vettur li jinkludu.

Uża l-AI biex tikkompressa żżejjed immaġini
Ekwazzjoni 1.1

Cr tindika l-output ta 'ComCNN. θ tindika t-taħriġ tal-parametri ComCNN, XK hija l-immaġni tal-input

Uża l-AI biex tikkompressa żżejjed immaġini
Ekwazzjoni 1.2

Re() tirreferi għal RecCNN. Din l-ekwazzjoni sempliċement tgħaddi l-valur tal-ekwazzjoni 1.1 lil RecCNN. θ tindika l-parametri li jistgħu jitħarrġu ta 'RecCNN (il-limitu ta' fuq ifisser li l-parametri huma ffissati).

Definizzjoni intuwittiva

L-ekwazzjoni 1.0 se ġġiegħel lill-ComCNN tibdel il-piżijiet tagħha b'tali mod li, meta tiġi rikostitwita bl-użu ta' RecCNN, l-immaġni finali tidher kemm jista' jkun simili għall-immaġni tal-input. It-tieni funzjoni tat-telf RecCNN hija definita kif ġej:

Uża l-AI biex tikkompressa żżejjed immaġini
Ekwazzjoni 2.0

Spjegazzjoni

Għal darb'oħra l-funzjoni tista 'tidher kumplessa, iżda fil-biċċa l-kbira hija funzjoni ta' telf ta 'netwerk newrali standard (MSE).

Uża l-AI biex tikkompressa żżejjed immaġini
Ekwazzjoni 2.1

Co() tfisser output codec, x b'tapp fuq ifisser output ComCNN. θ2 huma l-parametri li jistgħu jitħarrġu tar-RecCNN, res() hija sempliċement l-output residwu ta' RecCNN. Ta 'min jinnota li RecCNN huwa mħarreġ fuq id-differenza bejn Co() u l-immaġni tal-input, iżda mhux fuq l-immaġni tal-input.

Definizzjoni intuwittiva

L-ekwazzjoni 2.0 se ġġiegħel lil RecCNN jibdel il-piżijiet tiegħu sabiex l-output jidher kemm jista 'jkun simili għall-immaġni tal-input.

Skema ta' tagħlim

Mudelli huma mħarrġa b'mod iterattiv, simili għal GAN. Il-piżijiet tal-ewwel mudell jiġu ffissati filwaqt li l-piżijiet tat-tieni mudell jiġu aġġornati, imbagħad il-piżijiet tat-tieni mudell jiġu ffissati waqt li l-ewwel mudell jiġi mħarreġ.

Testijiet

L-awturi qabblu l-metodu tagħhom ma 'metodi eżistenti, inklużi codecs sempliċi. Il-metodu tagħhom jaħdem aħjar minn oħrajn filwaqt li jżommu veloċità għolja fuq il-ħardwer xieraq. Barra minn hekk, l-awturi ppruvaw jużaw wieħed biss miż-żewġ netwerks u nnutaw tnaqqis fil-prestazzjoni.

Uża l-AI biex tikkompressa żżejjed immaġini
Paragun ta' l-indiċi ta' xebh strutturali (SSIM). Valuri għoljin jindikaw xebh aħjar mal-oriġinal. Ir-riżultati tax-xogħol tal-awturi huma enfasizzati b'tipa grassa.

Konklużjoni

Ħarsa lejn mod ġdid kif nużaw it-tagħlim profond għall-kompressjoni tal-immaġni, u tkellimna dwar il-possibbiltà li jintużaw netwerks newrali f'kompiti lil hinn minn dawk "ġenerali", bħall-klassifikazzjoni tal-immaġni u l-ipproċessar tal-lingwa. Dan il-metodu mhux biss mhuwiex inferjuri għar-rekwiżiti moderni, iżda jippermetti wkoll li tipproċessa immaġini ħafna aktar malajr.

Sar aktar faċli li tistudja n-netwerks newrali, għaliex ħloqna kodiċi promozzjonali speċjalment għar-residenti ta 'Khabra HABR, billi tagħti skont addizzjonali ta' 10% għar-roħs indikat fuq il-banner.

Uża l-AI biex tikkompressa żżejjed immaġini

Aktar korsijiet

Artikoli Dehru

Sors: www.habr.com

Żid kumment