Algorîtmayên data-rêvekirî yên wekî torên neuralî cîhan bi bahoz girtiye. Pêşveçûna wan ji hêla gelek sedeman ve tê rêve kirin, di nav de hardware erzan û hêzdar û mîqdarên mezin ên daneyê. Tora neuralî naha li pêşiya her tiştê ku bi karên "cognitive" ve girêdayî ye, wekî naskirina wêneyê, têgihîştina zimanê xwezayî, hwd. Lê divê ew bi karên wiha re sînordar nemînin. Ev materyal rêbazek ji bo berhevkirina wêneyan bi karanîna torên neuralî bi karanîna fêrbûna bermayî vedibêje. Nêzîkatiya ku di gotarê de hatî pêşkêş kirin ji kodekên standard zûtir û çêtir dixebite. Schemes, hevkêşan û, bê guman, tabloyek bi ceribandinên di bin qutbûnê de.
Ev gotar li ser bingeha ev kar. Tê texmîn kirin ku hûn bi torên neuralî û têgehên wan dizanin convolution и fonksiyona winda.
Tevlihevkirina wêneyê çi ye û di kîjan celeban de tê?
Tevlihevkirina wêneyê pêvajoyek veguherîna wêneyek e ku ew cîh kêmtir digire. Tenê hilanîna wêneyan dê pir cîh bigire, ji ber vê yekê kodekên mîna JPEG û PNG hene ku armanc dikin ku mezinahiya wêneya orjînal kêm bikin.
Wekî ku hûn dizanin, du celeb komkirina wêneyê hene: winda tune и bi windahiyan. Wekî ku ji navan tê pêşniyar kirin, komkirina bê windahî dikare daneyên wêneya orjînal vegerîne, dema ku berhevkirina winda di dema berhevkirinê de hin daneyan winda dike. ji bo nimûne, JPG algorîtmayên winda ne [nêzîkî. werger - Di bingeh de, em di heman demê de JPEG bê windahî jî ji bîr nekin, û PNG algorîtmayek bê windahî ye.
Berawirdkirina kompresasyona bê windahî û winda
Bala xwe bidinê ku wêneya li milê rastê gelek berhemên blokan hene. Ev agahdariya winda ye. Pixelên cîran ên rengên wekhev wekî yek dever têne berhev kirin da ku cîh xilas bikin, lê agahdariya li ser pîxelên rastîn winda dibin. Bê guman, algorîtmayên ku di kodekên JPEG, PNG, hwd de têne bikar anîn pir tevlihevtir in, lê ev mînakek întuîtîv a baş a berhevkirina winda ye. Tevlihevkirina bê winda baş e, lê pelên ku bê windahî hatine berhev kirin gelek cîhê dîskê digire. Rêbazên bikêrtir hene ku hûn wêneyan bişkînin bêyî ku gelek agahdarî winda bikin, lê ew pir hêdî ne û gelek nêzîkatiyên dubare bikar tînin. Ev tê vê wateyê ku ew nekarin bi paralelî li ser pir corên CPU an GPU-yê werin xebitandin. Ev sînorkirin wan ji bo karanîna rojane bi tevahî nepratîk dike.
Têketina Tora Neuralî ya Convolutional
Ger tiştek pêdivî ye ku were hesibandin û hesab dibe ku nêzîk be, lê zêde bike tora neuralî. Nivîskaran torgilokek neuralî ya bihevra standard bikar anîn da ku berhevkirina wêneyê baştir bikin. Rêbaza pêşkêşkirî ne tenê li gorî çareseriyên çêtirîn (heke ne çêtir be), ew dikare hesabkirina paralel jî bikar bîne, ku di encamê de lezek berbiçav zêde dibe. Sedem ev e ku torên neuralî yên konvolutional (CNN) di derxistina agahdariya mekan ji wêneyan de pir baş in, yên ku paşê bi rengek tevlihevtir têne xuyang kirin (mînak, tenê biçên "giring" ên wêneyê têne parastin). Nivîskaran dixwest ku vê taybetmendiya CNN-ê bikar bînin da ku wêneyan baştir temsîl bikin.
avakarî
Nivîskaran torgilokek dualî pêşniyar kirin. Tora yekem wêneyek wekî têketinê digire û nûneriyek tevlihev (ComCNN) diafirîne. Dûv re derketina vê torê ji hêla kodek standard (wek JPEG) ve tê hilanîn. Piştî ku ji hêla kodek ve hatî hilberandin, wêne ji torgilokek duyemîn re tê şandin, ku wêneyê ji kodêkê "sererast" dike û hewl dide ku wêneya orîjînal vegerîne. Nivîskaran navê vê torê kir CNN (RecCNN) ji nû ve avakirinê. Mîna GAN-an, her du torgilok bi rengek dubare têne perwerde kirin.
Nûnertiya ComCNN Compact veguhezîne kodek standard
RecCNN. Hilberîna ComCNN zêde dibe û ji RecCNN re tê xwarin, ku dê hewl bide ku mayî fêr bibe
Hilberîna kodek nûvekirî ye û dûv re ji RecCNN re tê xwarin. RecCNN dê hewl bide ku wêneyek ku bi qasî ku pêkan dişibihe orjînalê derxe.
Çarçoveya berhevkirina wêneyê ya dawî-bi-dawî. Co(.) algorîtmaya berhevkirina wêneyê ye. Nivîskar JPEG, JPEG2000 û BPG bikar anîn
Ma mayî çi ye?
Ya mayî dikare wekî pêngavek paş-pêvajoyê were hesibandin ku wêneya ku ji hêla kodek ve hatî deşîfrekirin "pêşvebirin". Digel gelek "agahdariya" di derbarê cîhanê de, torgilokek neuralî dikare biryarên naskirî bide ka ka çi rast bike. Ev raman li ser bingehê ye perwerdeya bermayî, hûragahiyan li ser ku hûn dikarin bixwînin vir.
fonksiyonên winda
Ji ber ku du torên neuralî hene du fonksiyonên winda têne bikar anîn. Yekem ji van, ComCNN, bi L1 tête navnîş kirin û bi vî rengî tête diyar kirin:
Fonksiyona windakirinê ji bo ComCNN
Daxûyanî
Dibe ku ev hevkêşî tevlihev xuya bike, lê bi rastî ew standard e (navgîniya xeletiya çargoşe) MSE. ||² tê wateya norma vektora ku ew pêve dikin.
Wekheviya 1.1
Cr hilberîna ComCNN destnîşan dike. θ perwerdebûna parametreyên ComCNN destnîşan dike, XK wêneya têketinê ye
Wekheviya 1.2
Re() ji bo RecCNN radiweste. Ev hevkêş bi tenê nirxa hevkêşeya 1.1 ji RecCNN re derbas dike. θ parametreyên perwerdekirî yên RecCNN destnîşan dike (kapa li jor tê vê wateyê ku parametre sabît in).
pênase Intuitive
Wekheviya 1.0 dê ComCNN neçar bike ku giraniyên xwe biguhezîne ku, dema ku bi karanîna RecCNN-ê ji nû ve were çêkirin, wêneya paşîn bi qasî ku gengaz dibe dişibihe wêneya têketinê. Duyemîn fonksiyona windakirina RecCNN bi vî rengî tête diyar kirin:
Wekheviya 2.0
Daxûyanî
Dîsa dibe ku fonksiyon tevlihev xuya bike, lê ew bi piranî fonksiyonek windabûna tora neuralî ya standard (MSE) ye.
Wekheviya 2.1
Co() tê wateya derketina kodek, x bi kapek li jor tê wateya derketina ComCNN. θ2 parametreyên perwerdekirî yên RecCNN ne, res() tenê hilberîna mayî ya RecCNN e. Hêjayî gotinê ye ku RecCNN li ser cûdahiya di navbera Co() û wêneya têketinê de tê perwerde kirin, lê ne li ser wêneya têketinê.
pênase Intuitive
Wekheviya 2.0 dê RecCNN neçar bike ku giraniya xwe biguhezîne da ku encam bi qasî ku pêkan dişibihe wêneya têketinê.
Plana fêrbûnê
Modelên dubare têne perwerde kirin, mîna GAN. Dema ku pîvanên modela duyemîn têne nûve kirin, giraniya modela yekem têne rast kirin, dema ku modela yekem tê perwerde kirin giraniyên modela duyemîn têne rast kirin.
Testsên
Nivîskar rêbaza xwe bi rêbazên heyî re, tevî kodekên hêsan, berhev kirin. Rêbaza wan ji yên din çêtir dixebite dema ku leza bilind li ser hardware guncan diparêze. Wekî din, nivîskaran hewl da ku tenê yek ji du toran bikar bînin û kêmbûnek performansê destnîşan kirin.
Berhevdana nîşana wekheviya strukturel (SSIM). Nirxên bilind wekheviya orîjînal çêtir nîşan dide. Encamên xebata nivîskaran bi stûr têne xuyang kirin.
encamê
Me li rêyek nû nihêrî ku fêrbûna kûr ji bo berhevkirina wêneyê bikar bîne, û li ser îhtîmala karanîna torên neuralî di peywiran de ji yên "gelemperî" wêdetir, wek dabeşkirina wêneyê û pêvajokirina ziman axivî. Ev rêbaz ne tenê ji hewcedariyên nûjen ne hindik e, lê di heman demê de dihêle hûn wêneyan pir zûtir pêvajoyê bikin.
Lêkolînkirina torên neuralî hêsantir bûye, ji ber ku me kodek danasînê bi taybetî ji bo niştecîhên Xebra çêkiriye HABR, 10% erzanî zêde dide dakêşana ku li ser pankartê hatî destnîşan kirin.