Mae algorithmau sy'n cael eu gyrru gan ddata fel rhwydweithiau niwral wedi mynd â'r byd yn aruthrol. Mae eu datblygiad oherwydd sawl rheswm, gan gynnwys offer rhad a phwerus a llawer iawn o ddata. Ar hyn o bryd mae rhwydweithiau niwral ar flaen y gad ym mhopeth sy'n ymwneud â thasgau "gwybyddol" megis adnabod delweddau, deall iaith naturiol, ac ati. Ond ni ddylid eu cyfyngu i dasgau o'r fath. Mae'r erthygl hon yn sôn am sut i gywasgu delweddau gan ddefnyddio rhwydweithiau niwral, gan ddefnyddio dysgu gweddilliol. Mae'r dull a gyflwynir yn yr erthygl yn gyflymach ac yn well na chodecs safonol. Cynlluniau, hafaliadau ac, wrth gwrs, tabl gyda phrofion o dan y toriad.
Mae'r erthygl hon yn seiliedig ar hwn gwaith. Tybir eich bod yn gyfarwydd â rhwydweithiau niwral a'u cysyniadau. convolution и swyddogaeth colli.
Beth yw cywasgu delwedd a sut mae'n gweithio?
Cywasgu delwedd yw'r broses o drosi delwedd fel ei bod yn cymryd llai o le. Byddai storio delweddau'n cymryd llawer o le, a dyna pam mae yna godecs fel JPEG a PNG sy'n ceisio lleihau maint y ddelwedd wreiddiol.
Fel y gwyddoch, mae dau fath o gywasgu delwedd: dim colled и gyda cholledion. Fel y mae'r enwau'n awgrymu, gall cywasgu di-golled gadw'r data delwedd wreiddiol, tra bod cywasgu colledus yn colli rhywfaint o ddata yn ystod cywasgu. er enghraifft, mae JPG yn algorithmau coll [tua. traws. - yn y bôn, gadewch i ni hefyd beidio ag anghofio am JPEG di-golled], ac mae PNG yn algorithm di-golled.
Cymharu cywasgiad di-golled a cholled
Sylwch fod yna lawer o arteffactau rhwystredig yn y ddelwedd ar y dde. Mae hyn yn wybodaeth goll. Mae picseli cyfagos o liwiau tebyg yn cael eu cywasgu fel un ardal i arbed lle, ond mae gwybodaeth am y picsel gwirioneddol yn cael ei golli. Wrth gwrs, mae'r algorithmau a ddefnyddir yn y codecau JPEG, PNG, ac ati yn llawer mwy cymhleth, ond mae hon yn enghraifft reddfol dda o gywasgu colledig. Mae cywasgu di-golled yn dda, ond mae ffeiliau cywasgedig di-golled yn cymryd llawer o le ar y ddisg. Mae yna ffyrdd gwell o gywasgu delweddau heb golli llawer o wybodaeth, ond maen nhw'n eithaf araf ac mae llawer yn defnyddio dulliau ailadroddus. Mae hyn yn golygu na ellir eu rhedeg yn gyfochrog ar greiddiau CPU neu GPU lluosog. Mae'r cyfyngiad hwn yn eu gwneud yn gwbl anymarferol mewn defnydd bob dydd.
Mewnbwn Rhwydwaith Niwral Convolutional
Os oes angen cyfrifo rhywbeth a gall y cyfrifiadau fod yn fras, ychwanegwch rhwydwaith niwral. Defnyddiodd yr awduron rwydwaith niwral convolutional gweddol safonol i wella cywasgu delweddau. Mae'r dull a gyflwynir nid yn unig yn perfformio ar yr un lefel â'r atebion gorau (os nad yn well), gall hefyd ddefnyddio cyfrifiadura cyfochrog, sy'n arwain at gynnydd dramatig mewn cyflymder. Y rheswm yw bod Rhwydweithiau Niwral Convolutional (CNNs) yn dda iawn am dynnu gwybodaeth ofodol o ddelweddau, sydd wedyn yn cael eu cyflwyno mewn ffurf fwy cryno (er enghraifft, dim ond darnau "pwysig" y ddelwedd sy'n cael eu cadw). Roedd yr awduron eisiau defnyddio'r gallu CNN hwn i gynrychioli'r delweddau yn well.
pensaernïaeth
Cynigiodd yr awduron rwydwaith dwbl. Mae'r rhwydwaith cyntaf yn cymryd delwedd fel mewnbwn ac yn cynhyrchu cynrychiolaeth gryno (ComCNN). Yna caiff allbwn y rhwydwaith hwn ei brosesu gan godec safonol (e.e. JPEG). Ar ôl cael ei phrosesu gan y codec, trosglwyddir y ddelwedd i ail rwydwaith, sy'n "trwsio" y ddelwedd o'r codec mewn ymgais i ddychwelyd y ddelwedd wreiddiol. Enwodd yr awduron y rhwydwaith hwn yn Reconstructive CNN (RecCNN). Fel GANs, mae'r ddau rwydwaith wedi'u hyfforddi'n ailadroddol.
Mae cynrychiolaeth Compact ComCNN yn cael ei drosglwyddo i godec safonol
RecCNN. Mae allbwn ComCNN yn cael ei gynyddu a'i fwydo i RecCNN, a fydd yn ceisio dysgu'r gweddill
Mae allbwn y codec yn cael ei gynyddu ac yna'n cael ei drosglwyddo i RecCNN. Bydd RecCNN yn ceisio gwneud y ddelwedd mor agos at y gwreiddiol â phosibl.
Fframwaith cywasgu delwedd o'r dechrau i'r diwedd. Mae Co (.) yn algorithm cywasgu delwedd. Defnyddiodd yr awduron JPEG, JPEG2000 a BPG
Beth yw gweddill?
Gellir meddwl am y gweddill fel cam ôl-brosesu i "wella" y ddelwedd sy'n cael ei datgodio gan y codec. Gyda llawer o “wybodaeth” am y byd, gall rhwydwaith niwral wneud penderfyniadau gwybyddol ynghylch beth i'w drwsio. Mae'r syniad hwn yn seiliedig ar dysgu gweddilliol, darllenwch y manylion y gallwch chi yma.
Colli swyddogaethau
Defnyddir y ddwy swyddogaeth golled oherwydd bod gennym ddau rwydwaith niwral. Mae'r cyntaf o'r rhain, ComCNN, wedi'i labelu'n L1 ac fe'i diffinnir fel a ganlyn:
Swyddogaeth colli ar gyfer ComCNN
Esboniad
Gall yr hafaliad hwn ymddangos yn gymhleth, ond mewn gwirionedd dyma'r safon (gwall sgwâr cymedrig gwraidd) MSE. Mae ||² yn golygu norm y fector maen nhw'n ei amgáu.
Hafaliad 1.1
Mae Cr yn dynodi allbwn ComCNN. θ yn dynodi dysgadwyedd paramedrau ComCNN, XK yw'r ddelwedd mewnbwn
Hafaliad 1.2
Re() yn sefyll am RecCNN. Yn syml, mae’r hafaliad hwn yn cyfleu ystyr hafaliad 1.1 i RecCNN. θ yn dynodi paramedrau RecCNN y gellir eu hyfforddi (mae het ar ei ben yn golygu bod y paramedrau'n sefydlog).
Diffiniad Sythweledol
Bydd Hafaliad 1.0 yn achosi ComCNN i newid ei bwysau fel bod y ddelwedd derfynol, o'i hail-greu gyda RecCNN, yn edrych mor debyg â phosibl i'r ddelwedd mewnbwn. Diffinnir ail swyddogaeth colli RecCNN fel a ganlyn:
Hafaliad 2.0
Esboniad
Unwaith eto, gall y swyddogaeth edrych yn gymhleth, ond swyddogaeth colli rhwydwaith niwral safonol (MSE) yw hon ar y cyfan.
Hafaliad 2.1
Co() yn golygu allbwn codec, x gyda het ar ei ben yn golygu allbwn ComCNN. Mae θ2 yn baramedrau hyfforddadwy RecCNN, res() dim ond allbwn gweddilliol RecCNN yw hwn. Mae'n werth nodi bod RecCNN wedi'i hyfforddi ar y gwahaniaeth rhwng Co() a'r ddelwedd mewnbwn, ond nid ar y ddelwedd mewnbwn.
Diffiniad Sythweledol
Bydd Hafaliad 2.0 yn achosi i RecCNN newid ei bwysau fel bod yr allbwn yn edrych mor debyg â phosibl i'r ddelwedd mewnbwn.
Cynllun dysgu
Mae modelau'n cael eu hyfforddi'n ailadroddol, fel GAN. Mae pwysau'r model cyntaf yn sefydlog tra bod pwysau'r ail fodel yn cael eu diweddaru, yna mae pwysau'r ail fodel yn sefydlog tra bod y model cyntaf yn cael ei hyfforddi.
Profion
Cymharodd yr awduron eu dull â dulliau presennol, gan gynnwys codecau syml. Mae eu dull yn perfformio'n well nag eraill tra'n cynnal cyflymder uchel ar y caledwedd priodol. Yn ogystal, ceisiodd yr awduron ddefnyddio dim ond un o'r ddau rwydwaith a nododd ostyngiad mewn perfformiad.
Cymhariaeth Mynegai Tebygrwydd Strwythurol (SSIM). Mae gwerthoedd uchel yn dangos tebygrwydd gwell i'r gwreiddiol. Mae teip trwm yn dynodi canlyniad gwaith yr awduron
Casgliad
Edrychom ar ffordd newydd o gymhwyso dysgu dwfn i gywasgu delweddau, a siarad am y posibilrwydd o ddefnyddio rhwydweithiau niwral mewn tasgau y tu hwnt i dasgau “cyffredinol” fel dosbarthu delweddau a phrosesu iaith. Mae'r dull hwn nid yn unig yn israddol i ofynion modern, ond hefyd yn caniatáu ichi brosesu delweddau yn llawer cyflymach.
Mae dysgu rhwydweithiau niwral wedi dod yn haws, oherwydd fe wnaethom ni god promo yn arbennig ar gyfer Habravchan HABR, gan roi gostyngiad ychwanegol o 10% i'r gostyngiad a nodir ar y faner.