Bikaranîna AI-ê ji bo zêdekirina wêneyan

Bikaranîna AI-ê ji bo zêdekirina wêneyan
Algorîtmayên data-rêvekirî yên wekî torên neuralî cîhan bi bahoz girtiye. Pêşveçûna wan ji hêla gelek sedeman ve tê rêve kirin, di nav de hardware erzan û hêzdar û mîqdarên mezin ên daneyê. Tora neuralî naha li pêşiya her tiştê ku bi karên "cognitive" ve girêdayî ye, wekî naskirina wêneyê, têgihîştina zimanê xwezayî, hwd. Lê divê ew bi karên wiha re sînordar nemînin. Ev materyal rêbazek ji bo berhevkirina wêneyan bi karanîna torên neuralî bi karanîna fêrbûna bermayî vedibêje. Nêzîkatiya ku di gotarê de hatî pêşkêş kirin ji kodekên standard zûtir û çêtir dixebite. Schemes, hevkêşan û, bê guman, tabloyek bi ceribandinên di bin qutbûnê de.

Ev gotar li ser bingeha ev kar. Tê texmîn kirin ku hûn bi torên neuralî û têgehên wan dizanin convolution и fonksiyona winda.

Tevlihevkirina wêneyê çi ye û di kîjan celeban de tê?

Tevlihevkirina wêneyê pêvajoyek veguherîna wêneyek e ku ew cîh kêmtir digire. Tenê hilanîna wêneyan dê pir cîh bigire, ji ber vê yekê kodekên mîna JPEG û PNG hene ku armanc dikin ku mezinahiya wêneya orjînal kêm bikin.

Wekî ku hûn dizanin, du celeb komkirina wêneyê hene: winda tune и bi windahiyan. Wekî ku ji navan tê pêşniyar kirin, komkirina bê windahî dikare daneyên wêneya orjînal vegerîne, dema ku berhevkirina winda di dema berhevkirinê de hin daneyan winda dike. ji bo nimûne, JPG algorîtmayên winda ne [nêzîkî. werger - Di bingeh de, em di heman demê de JPEG bê windahî jî ji bîr nekin, û PNG algorîtmayek bê windahî ye.

Bikaranîna AI-ê ji bo zêdekirina wêneyan
Berawirdkirina kompresasyona bê windahî û winda

Bala xwe bidinê ku wêneya li milê rastê gelek berhemên blokan hene. Ev agahdariya winda ye. Pixelên cîran ên rengên wekhev wekî yek dever têne berhev kirin da ku cîh xilas bikin, lê agahdariya li ser pîxelên rastîn winda dibin. Bê guman, algorîtmayên ku di kodekên JPEG, PNG, hwd de têne bikar anîn pir tevlihevtir in, lê ev mînakek întuîtîv a baş a berhevkirina winda ye. Tevlihevkirina bê winda baş e, lê pelên ku bê windahî hatine berhev kirin gelek cîhê dîskê digire. Rêbazên bikêrtir hene ku hûn wêneyan bişkînin bêyî ku gelek agahdarî winda bikin, lê ew pir hêdî ne û gelek nêzîkatiyên dubare bikar tînin. Ev tê vê wateyê ku ew nekarin bi paralelî li ser pir corên CPU an GPU-yê werin xebitandin. Ev sînorkirin wan ji bo karanîna rojane bi tevahî nepratîk dike.

Têketina Tora Neuralî ya Convolutional

Ger tiştek pêdivî ye ku were hesibandin û hesab dibe ku nêzîk be, lê zêde bike tora neuralî. Nivîskaran torgilokek neuralî ya bihevra standard bikar anîn da ku berhevkirina wêneyê baştir bikin. Rêbaza pêşkêşkirî ne tenê li gorî çareseriyên çêtirîn (heke ne çêtir be), ew dikare hesabkirina paralel jî bikar bîne, ku di encamê de lezek berbiçav zêde dibe. Sedem ev e ku torên neuralî yên konvolutional (CNN) di derxistina agahdariya mekan ji wêneyan de pir baş in, yên ku paşê bi rengek tevlihevtir têne xuyang kirin (mînak, tenê biçên "giring" ên wêneyê têne parastin). Nivîskaran dixwest ku vê taybetmendiya CNN-ê bikar bînin da ku wêneyan baştir temsîl bikin.

avakarî

Nivîskaran torgilokek dualî pêşniyar kirin. Tora yekem wêneyek wekî têketinê digire û nûneriyek tevlihev (ComCNN) diafirîne. Dûv re derketina vê torê ji hêla kodek standard (wek JPEG) ve tê hilanîn. Piştî ku ji hêla kodek ve hatî hilberandin, wêne ji torgilokek duyemîn re tê şandin, ku wêneyê ji kodêkê "sererast" dike û hewl dide ku wêneya orîjînal vegerîne. Nivîskaran navê vê torê kir CNN (RecCNN) ji nû ve avakirinê. Mîna GAN-an, her du torgilok bi rengek dubare têne perwerde kirin.

Bikaranîna AI-ê ji bo zêdekirina wêneyan
Nûnertiya ComCNN Compact veguhezîne kodek standard

Bikaranîna AI-ê ji bo zêdekirina wêneyan
RecCNN. Hilberîna ComCNN zêde dibe û ji RecCNN re tê xwarin, ku dê hewl bide ku mayî fêr bibe

Hilberîna kodek nûvekirî ye û dûv re ji RecCNN re tê xwarin. RecCNN dê hewl bide ku wêneyek ku bi qasî ku pêkan dişibihe orjînalê derxe.

Bikaranîna AI-ê ji bo zêdekirina wêneyan
Çarçoveya berhevkirina wêneyê ya dawî-bi-dawî. Co(.) algorîtmaya berhevkirina wêneyê ye. Nivîskar JPEG, JPEG2000 û BPG bikar anîn

Ma mayî çi ye?

Ya mayî dikare wekî pêngavek paş-pêvajoyê were hesibandin ku wêneya ku ji hêla kodek ve hatî deşîfrekirin "pêşvebirin". Digel gelek "agahdariya" di derbarê cîhanê de, torgilokek neuralî dikare biryarên naskirî bide ka ka çi rast bike. Ev raman li ser bingehê ye perwerdeya bermayî, hûragahiyan li ser ku hûn dikarin bixwînin vir.

fonksiyonên winda

Ji ber ku du torên neuralî hene du fonksiyonên winda têne bikar anîn. Yekem ji van, ComCNN, bi L1 tête navnîş kirin û bi vî rengî tête diyar kirin:

Bikaranîna AI-ê ji bo zêdekirina wêneyan
Fonksiyona windakirinê ji bo ComCNN

Daxûyanî

Dibe ku ev hevkêşî tevlihev xuya bike, lê bi rastî ew standard e (navgîniya xeletiya çargoşe) MSE. ||² tê wateya norma vektora ku ew pêve dikin.

Bikaranîna AI-ê ji bo zêdekirina wêneyan
Wekheviya 1.1

Cr hilberîna ComCNN destnîşan dike. θ perwerdebûna parametreyên ComCNN destnîşan dike, XK wêneya têketinê ye

Bikaranîna AI-ê ji bo zêdekirina wêneyan
Wekheviya 1.2

Re() ji bo RecCNN radiweste. Ev hevkêş bi tenê nirxa hevkêşeya 1.1 ji RecCNN re derbas dike. θ parametreyên perwerdekirî yên RecCNN destnîşan dike (kapa li jor tê vê wateyê ku parametre sabît in).

pênase Intuitive

Wekheviya 1.0 dê ComCNN neçar bike ku giraniyên xwe biguhezîne ku, dema ku bi karanîna RecCNN-ê ji nû ve were çêkirin, wêneya paşîn bi qasî ku gengaz dibe dişibihe wêneya têketinê. Duyemîn fonksiyona windakirina RecCNN bi vî rengî tête diyar kirin:

Bikaranîna AI-ê ji bo zêdekirina wêneyan
Wekheviya 2.0

Daxûyanî

Dîsa dibe ku fonksiyon tevlihev xuya bike, lê ew bi piranî fonksiyonek windabûna tora neuralî ya standard (MSE) ye.

Bikaranîna AI-ê ji bo zêdekirina wêneyan
Wekheviya 2.1

Co() tê wateya derketina kodek, x bi kapek li jor tê wateya derketina ComCNN. θ2 parametreyên perwerdekirî yên RecCNN ne, res() tenê hilberîna mayî ya RecCNN e. Hêjayî gotinê ye ku RecCNN li ser cûdahiya di navbera Co() û wêneya têketinê de tê perwerde kirin, lê ne li ser wêneya têketinê.

pênase Intuitive

Wekheviya 2.0 dê RecCNN neçar bike ku giraniya xwe biguhezîne da ku encam bi qasî ku pêkan dişibihe wêneya têketinê.

Plana fêrbûnê

Modelên dubare têne perwerde kirin, mîna GAN. Dema ku pîvanên modela duyemîn têne nûve kirin, giraniya modela yekem têne rast kirin, dema ku modela yekem tê perwerde kirin giraniyên modela duyemîn têne rast kirin.

Testsên

Nivîskar rêbaza xwe bi rêbazên heyî re, tevî kodekên hêsan, berhev kirin. Rêbaza wan ji yên din çêtir dixebite dema ku leza bilind li ser hardware guncan diparêze. Wekî din, nivîskaran hewl da ku tenê yek ji du toran bikar bînin û kêmbûnek performansê destnîşan kirin.

Bikaranîna AI-ê ji bo zêdekirina wêneyan
Berhevdana nîşana wekheviya strukturel (SSIM). Nirxên bilind wekheviya orîjînal çêtir nîşan dide. Encamên xebata nivîskaran bi stûr têne xuyang kirin.

encamê

Me li rêyek nû nihêrî ku fêrbûna kûr ji bo berhevkirina wêneyê bikar bîne, û li ser îhtîmala karanîna torên neuralî di peywiran de ji yên "gelemperî" wêdetir, wek dabeşkirina wêneyê û pêvajokirina ziman axivî. Ev rêbaz ne tenê ji hewcedariyên nûjen ne hindik e, lê di heman demê de dihêle hûn wêneyan pir zûtir pêvajoyê bikin.

Lêkolînkirina torên neuralî hêsantir bûye, ji ber ku me kodek danasînê bi taybetî ji bo niştecîhên Xebra çêkiriye HABR, 10% erzanî zêde dide dakêşana ku li ser pankartê hatî destnîşan kirin.

Bikaranîna AI-ê ji bo zêdekirina wêneyan

Kursên bêtir

Gotarên Taybetî

Source: www.habr.com

Add a comment