Gigamit ang AI aron ma-overcompress ang mga imahe

Gigamit ang AI aron ma-overcompress ang mga imahe
Ang mga algorithm nga gipatuyok sa datos sama sa mga neural network ang nakadaot sa kalibutan. Ang ilang pag-uswag tungod sa daghang mga hinungdan, lakip ang barato ug kusgan nga kagamitan ug daghang mga datos. Ang mga neural network sa pagkakaron anaa sa unahan sa tanan nga may kalabutan sa "cognitive" nga mga buluhaton sama sa pag-ila sa imahe, natural nga pagsabot sa pinulongan, ug uban pa. Apan dili sila kinahanglan nga limitado sa ingon nga mga buluhaton. Kini nga artikulo naghisgot kung giunsa ang pag-compress sa mga imahe gamit ang mga neural network, gamit ang nahabilin nga pagkat-on. Ang pamaagi nga gipresentar sa artikulo mas paspas ug mas maayo kaysa sa mga standard nga codec. Mga laraw, mga equation ug, siyempre, usa ka lamesa nga adunay mga pagsulay sa ilawom sa pagputol.

Kini nga artikulo gibase sa kini trabaho. Gituohan nga pamilyar ka sa mga neural network ug sa ilang mga konsepto. convolution ΠΈ pagkawala function.

Unsa ang image compression ug giunsa kini pagtrabaho?

Ang pag-compress sa imahe mao ang proseso sa pag-convert sa usa ka imahe aron gamay ra ang magamit nga lugar. Ang pagtago lang sa mga imahe mokuha ug daghang espasyo, mao nga adunay mga codec sama sa JPEG ug PNG nga nagtumong sa pagpakunhod sa gidak-on sa orihinal nga imahe.

Sama sa imong nahibal-an, adunay duha ka klase sa pag-compress sa imahe: walay kapildihan ΠΈ uban sa mga kapildihan. Sama sa gisugyot sa mga ngalan, ang lossless compression mahimong magpabilin sa orihinal nga data sa imahe, samtang ang lossy compression mawad-an sa pipila ka data sa panahon sa compression. pananglitan, ang JPG kay lossy algorithms [approx. transl. - Sa panguna, dili usab naton kalimtan ang bahin sa pagkawalay JPEG], ug ang PNG usa ka wala’y pagkawala nga algorithm.

Gigamit ang AI aron ma-overcompress ang mga imahe
Pagtandi sa lossless ug lossy compression

Matikdi nga adunay daghang blocky artifact sa imahe sa tuo. Kini ang nawala nga impormasyon. Ang mga silingang pixel nga parehas nga kolor gi-compress isip usa ka lugar aron makadaginot sa wanang, apan nawala ang impormasyon bahin sa aktuwal nga mga pixel. Siyempre, ang mga algorithm nga gigamit sa JPEG, PNG, ug uban pa nga mga codec mas komplikado, apan kini usa ka maayo nga intuitive nga pananglitan sa lossy compression. Maayo ang lossless compression, pero ang lossless compressed files mokuha ug daghang disk space. Adunay mas maayo nga mga paagi sa pag-compress sa mga imahe nga dili mawala ang daghang impormasyon, apan kini hinay ug daghan ang naggamit sa mga pamaagi nga nagbalikbalik. Nagpasabot kini nga dili kini mahimo nga magkaparehas sa daghang mga CPU o GPU nga mga cores. Kini nga limitasyon naghimo kanila nga hingpit nga dili praktikal sa adlaw-adlaw nga paggamit.

Convolutional Neural Network input

Kung adunay kinahanglan nga kalkulado ug ang mga kalkulasyon mahimong gibanabana, idugang neural network. Gigamit sa mga tagsulat ang usa ka patas nga sukaranan nga convolutional neural network aron mapaayo ang pag-compress sa imahe. Ang gipresentar nga pamaagi dili lamang nagpahigayon sa par sa labing maayo nga mga solusyon (kon dili mas maayo), kini mahimo usab nga mogamit sa parallel computing, nga mosangpot sa usa ka dramatikong pagtaas sa gikusgon. Ang rason mao nga ang Convolutional Neural Networks (CNNs) maayo kaayo sa pagkuha sa spatial nga impormasyon gikan sa mga hulagway, nga unya gipresentar sa usa ka mas compact nga porma (pananglitan, ang "importante" nga mga piraso lamang sa imahe ang gipreserbar). Gusto sa mga tagsulat nga gamiton kini nga kapabilidad sa CNN aron mas maayo nga magrepresentar sa mga imahe.

arkitektura

Gisugyot sa mga tagsulat ang usa ka doble nga network. Ang una nga network nagkuha usa ka imahe ingon input ug nagmugna usa ka compact representation (ComCNN). Ang output niini nga network giproseso dayon sa usa ka standard codec (e.g. JPEG). Human maproseso sa codec, ang hulagway gipasa ngadto sa ikaduhang network, nga "nag-ayo" sa hulagway gikan sa codec sa pagsulay nga ibalik ang orihinal nga hulagway. Ginganlan sa mga tagsulat kini nga network nga Reconstructive CNN (RecCNN). Sama sa mga GAN, ang duha ka network gibansay sa iteratively.

Gigamit ang AI aron ma-overcompress ang mga imahe
Ang ComCNN Compact nga representasyon gipasa sa standard codec

Gigamit ang AI aron ma-overcompress ang mga imahe
RecCNN. Ang output sa ComCNN gipadako ug gipakaon sa RecCNN, nga mosulay sa pagkat-on sa nahabilin

Ang output sa codec gipadako ug dayon gipasa sa RecCNN. Ang RecCNN mosulay sa paghimo sa imahe nga duol sa orihinal kutob sa mahimo.

Gigamit ang AI aron ma-overcompress ang mga imahe
End-to-end image compression framework. Ang Co(.) usa ka algorithm sa kompresiyon sa imahe. Gigamit sa mga tagsulat ang JPEG, JPEG2000 ug BPG

Unsa ang nahabilin?

Ang nahibilin mahimong isipon isip usa ka post-processing nga lakang aron "mapauswag" ang hulagway nga gi-decode sa codec. Ang pagbaton og daghang "impormasyon" bahin sa kalibutan, ang usa ka neural network makahimo og mga desisyon sa panghunahuna bahin sa kung unsa ang ayohon. Kini nga ideya gibase sa nahabilin nga pagkat-on, basaha ang mga detalye kung asa nimo mahimo dinhi.

Mga gimbuhaton sa pagkawala

Ang duha ka pagkawala function gigamit tungod kay kita adunay duha ka neural network. Ang una niini, ComCNN, gimarkahan og L1 ug gihubit ingon sa mosunod:

Gigamit ang AI aron ma-overcompress ang mga imahe
Pagkawala function alang sa ComCNN

Pagpatin-aw

Kini nga equation mahimong daw komplikado, apan kini sa tinuod mao ang standard (root mean square error) MSE. ||Β² nagpasabot sa naandan sa vector nga ilang gilakip.

Gigamit ang AI aron ma-overcompress ang mga imahe
Equation 1.1

Ang Cr nagpasabot sa output sa ComCNN. Ang ΞΈ nagpasabut sa pagkat-on sa mga parameter sa ComCNN, ang XK mao ang input nga imahe

Gigamit ang AI aron ma-overcompress ang mga imahe
Equation 1.2

Re() nagpasabot sa RecCNN. Kini nga equation yanong nagpahayag sa kahulogan sa equation 1.1 ngadto sa RecCNN. Ang ΞΈ nagpasabot sa RecCNN nga mabansay nga mga parametro (ang kalo sa ibabaw nagpasabot nga ang mga parametro giayo).

Intuitive nga Kahulugan

Ang equation 1.0 magpahinabo sa ComCNN sa pag-usab sa mga gibug-aton niini aron sa dihang gimugna pag-usab sa RecCNN, ang kataposang hulagway morag susama kutob sa mahimo sa input nga hulagway. Ang ikaduha nga pagkawala sa function sa RecCNN gihubit ingon sa mosunod:

Gigamit ang AI aron ma-overcompress ang mga imahe
Equation 2.0

Pagpatin-aw

Sa makausa pa, ang function mahimo’g tan-awon nga komplikado, apan kini alang sa kadaghanan usa ka standard nga neural network loss function (MSE).

Gigamit ang AI aron ma-overcompress ang mga imahe
Equation 2.1

Co() nagpasabut nga output sa codec, x nga adunay kalo sa ibabaw nagpasabut nga output sa ComCNN. Ang ΞΈ2 kay RecCNN trainable parameters, res() mao ra ang nahabilin nga output sa RecCNN. Angay nga matikdan nga ang RecCNN gibansay sa kalainan tali sa Co() ug sa input image, apan dili sa input image.

Intuitive nga Kahulugan

Ang equation 2.0 magpahinabo sa RecCNN nga usbon ang mga gibug-aton niini aron ang output morag susama sa mahimo sa input image.

Pamaagi sa pagkat-on

Ang mga modelo gibansay balik-balik, sama sa GAN. Ang mga gibug-aton sa unang modelo gitakda samtang ang mga gibug-aton sa ikaduha nga modelo gi-update, unya ang mga gibug-aton sa ikaduha nga modelo gitakda samtang ang unang modelo gibansay.

Mga Pagsulay

Gitandi sa mga tagsulat ang ilang pamaagi sa kasamtangan nga mga pamaagi, lakip ang yano nga mga codec. Ang ilang pamaagi mas maayo kay sa uban samtang nagpadayon sa taas nga tulin sa angay nga hardware. Dugang pa, ang mga tagsulat misulay sa paggamit lamang sa usa sa duha ka mga network ug nakamatikod sa usa ka drop sa performance.

Gigamit ang AI aron ma-overcompress ang mga imahe
Structural Similarity Index Comparison (SSIM). Ang taas nga mga kantidad nagpakita sa usa ka mas maayo nga pagkasama sa orihinal. Ang maisog nga tipo nagpakita sa resulta sa buhat sa mga tagsulat

konklusyon

Nagtan-aw kami sa usa ka bag-ong paagi sa paggamit sa lawom nga pagkat-on sa kompresiyon sa imahe, ug naghisgot bahin sa posibilidad sa paggamit sa mga neural network sa mga buluhaton nga lapas sa "kinatibuk-ang" mga buluhaton sama sa pag-uuri sa imahe ug pagproseso sa sinultian. Kini nga pamaagi dili lamang dili ubos sa modernong mga kinahanglanon, apan nagtugot usab kanimo sa pagproseso sa mga hulagway nga mas paspas.

Ang pagkat-on sa mga neural network nahimong mas sayon, tungod kay naghimo kami og promo code ilabi na alang sa Habravchan HABR, paghatag og dugang nga 10% nga diskwento sa diskwento nga gipakita sa bandila.

Gigamit ang AI aron ma-overcompress ang mga imahe

Dugang nga mga kurso

Gipili nga mga Artikulo

Source: www.habr.com

Idugang sa usa ka comment