AI erabiltzea irudiak gainkonprimitzeko

AI erabiltzea irudiak gainkonprimitzeko
Sare neuronalak bezalako datuetan oinarritutako algoritmoek hartu dute mundua. Haien garapena hainbat arrazoirengatik da, besteak beste, ekipo merkea eta indartsua eta datu kopuru handi bat. Sare neuronalak gaur egun ataza "kognitiboekin" zerikusia duen guztian daude abangoardian, hala nola, irudien ezagupena, hizkuntza naturalaren ulermena, etab. Baina ez dira horrelako zereginetara mugatu behar. Artikulu honetan irudiak sare neuronalak erabiliz nola konprimitu, hondar ikaskuntza erabiliz hitz egiten da. Artikuluan aurkezten den ikuspegia kodec estandarrak baino azkarragoa eta hobea da. Eskemak, ekuazioak eta, nola ez, ebaki azpian probak dituen taula.

Artikulu hau oinarritzen da hau lana. Sare neuronalak eta haien kontzeptuak ezagutzen dituzula suposatzen da. biribilketa ΠΈ galera funtzioa.

Zer da irudien konpresioa eta nola funtzionatzen du?

Irudien konpresioa irudi bat bihurtzeko prozesua da, leku gutxiago okupatzeko. Irudiak gordetzeak leku asko hartuko luke, horregatik jatorrizko irudiaren tamaina murriztea helburu duten JPEG eta PNG bezalako kodekak daude.

Dakizuenez, bi irudi-konpresioa mota daude: galerarik ez ΠΈ galerekin. Izenak dioen bezala, galerarik gabeko konpresioak jatorrizko irudiaren datuak gorde ditzake, eta galerazko konpresioak datu batzuk galtzen ditu konpresioan zehar. adibidez, JPG galera algoritmoak dira [gutxi gorabehera. itzul. - funtsean, ez dezagun ahaztu galerarik gabeko JPEG], eta PNG galerarik gabeko algoritmoa da.

AI erabiltzea irudiak gainkonprimitzeko
Galerarik gabeko eta galerazko konpresioaren konparazioa

Kontuan izan eskuineko irudian bloke-artefaktu asko daudela. Galdutako informazioa da. Antzeko koloretako pixel alboak eremu bakar gisa konprimitzen dira lekua aurrezteko, baina benetako pixelei buruzko informazioa galtzen da. Jakina, JPEG, PNG eta abar kodecetan erabiltzen diren algoritmoak askoz konplexuagoak dira, baina hau galdutako konpresioaren adibide intuitibo ona da. Galerarik gabeko konpresioa ona da, baina galerarik gabeko fitxategi konprimituek diskoko leku asko hartzen dute. Irudiak informazio asko galdu gabe konprimitzeko modu hobeak daude, baina nahiko motelak dira eta askok ikuspegi iteratiboak erabiltzen dituzte. Horrek esan nahi du ezin direla paraleloan exekutatu CPU edo GPU nukleo anitzetan. Muga horrek guztiz praktikoak bihurtzen ditu eguneroko erabileran.

Sare neuronal konboluzionala sarrera

Zerbait kalkulatu behar bada eta kalkuluak gutxi gorabeherakoak izan daitezke, gehitu neurona-sare. Egileek sare neuronal konboluzional nahiko estandarra erabili zuten irudien konpresioa hobetzeko. Aurkeztutako metodoak soluzio onenen parekoa izateaz gain (hobea ez bada), konputazio paraleloa ere erabil dezake, eta horrek abiadura izugarri handitzea dakar. Arrazoia da Sare Neuronal Konboluzionalak (CNN) oso onak direla irudietatik informazio espaziala ateratzen, gero forma trinkoagoan aurkezten direla (adibidez, irudiaren bit "garrantzitsuak" baino ez dira gordetzen). Egileek CNN gaitasun hori erabili nahi zuten irudiak hobeto irudikatzeko.

arkitektura

Egileek sare bikoitza proposatu zuten. Lehenengo sareak irudi bat hartzen du sarrera gisa eta irudikapen trinkoa (ComCNN) sortzen du. Ondoren, sare honen irteera kodek estandar batek prozesatzen du (adibidez, JPEG). Kodekak prozesatu ondoren, irudia bigarren sare batera pasatzen da, eta horrek kodekaren irudia "konpontzen" du jatorrizko irudia itzuli nahian. Egileek sare honi Reconstructive CNN (RecCNN) izena jarri zioten. GANak bezala, bi sareak modu iteratiboki entrenatzen dira.

AI erabiltzea irudiak gainkonprimitzeko
ComCNN Compact irudikapena kodek estandarrera pasatzen da

AI erabiltzea irudiak gainkonprimitzeko
RecCNN. ComCNN irteera eskalatu eta RecCNNra elikatzen da, eta gainerakoa ikasten saiatuko da

Kodekaren irteera eskalatu egiten da eta, ondoren, RecCNNra pasatzen da. RecCNN irudia jatorrizkotik ahalik eta hurbilen errendatzen saiatuko da.

AI erabiltzea irudiak gainkonprimitzeko
Mutur-muturreko irudien konpresioaren esparrua. Co(.) irudien konpresioaren algoritmo bat da. Egileek JPEG, JPEG2000 eta BPG erabili zituzten

Zer da hondarra?

Gainerakoa, kodekak dekodetzen ari den irudia "hobetzeko" postprozesatzeko urrats gisa har daiteke. Munduari buruzko "informazio" asko edukita, sare neuronal batek erabaki kognitiboak har ditzake zer konpondu behar den. Ideia hau oinarritzen da hondar ikaskuntza, irakurri ahal dituzun xehetasunak Hemen.

Galera-funtzioak

Bi galera-funtzioak bi sare neuronal ditugulako erabiltzen dira. Horietako lehenengoa, ComCNN, L1 etiketatuta dago eta honela definitzen da:

AI erabiltzea irudiak gainkonprimitzeko
ComCNN-ren galera-funtzioa

azalpen

Ekuazio honek konplikatua dirudi, baina benetan estandarra da (erdiko batez besteko errore karratua) MSE. ||Β² biltzen duten bektorearen araua esan nahi du.

AI erabiltzea irudiak gainkonprimitzeko
1.1 ekuazioa

Cr ComCNN-ren irteera adierazten du. ΞΈ ComCNN parametroen ikasteko gaitasuna adierazten du, XK sarrerako irudia da

AI erabiltzea irudiak gainkonprimitzeko
1.2 ekuazioa

Re() RecCNN esan nahi du. Ekuazio honek 1.1 ekuazioaren esanahia helarazten dio RecCNNri. ΞΈ RecCNN entrena daitezkeen parametroak adierazten ditu (gainean kapela batek parametroak finkoak direla esan nahi du).

Definizio intuitiboa

1.0 ekuazioak ComCNN-k bere pisuak aldatzea eragingo du, RecCNNrekin birsortzen denean, azken irudia sarrerako irudiaren ahalik eta antzekoena izan dadin. Bigarren RecCNN galera funtzioa honela definitzen da:

AI erabiltzea irudiak gainkonprimitzeko
2.0 ekuazioa

azalpen

Berriz ere, funtzioak konplikatua dirudi, baina hau gehienetan neurona-sareen galera-funtzio estandarra da (MSE).

AI erabiltzea irudiak gainkonprimitzeko
2.1 ekuazioa

Co() Codec irteera esan nahi du, x goiko kapela batekin ComCNN irteera esan nahi du. ΞΈ2 RecCNN entrena daitezkeen parametroak dira, res() RecCNN-ren hondar irteera besterik ez da. Aipatzekoa da RecCNN Co() eta sarrerako irudiaren arteko desberdintasunean trebatu dela, baina ez sarrerako irudian.

Definizio intuitiboa

2.0 ekuazioak RecCNN-k bere pisuak aldatzea eragingo du, irteerak sarrerako irudiaren antzekoen itxura izan dezan.

Ikaskuntza-eskema

Ereduak modu iteratiboan entrenatzen dira, adibidez GAN. Lehenengo modeloaren pisuak finkatzen dira bigarren ereduaren pisuak eguneratzen diren bitartean, eta gero bigarren ereduaren pisuak finkatzen dira lehenengo eredua entrenatzen ari den bitartean.

probak

Egileek beren metodoa lehendik zeuden metodoekin alderatu zuten, kodek sinpleak barne. Haien metodoak besteek baino hobeto funtzionatzen dute hardware egokian abiadura handia mantentzen duten bitartean. Gainera, egileak bi sareetatik bakarra erabiltzen saiatu ziren eta errendimenduaren jaitsiera nabaritu zuten.

AI erabiltzea irudiak gainkonprimitzeko
Egitura-Antzeko Indizeen Konparaketa (SSIM). Balio altuek jatorrizkoaren antza hobea adierazten dute. Letra lodiak egileen lanaren emaitza adierazten du

Ondorioa

Irudien konpresioari deep learning aplikatzeko modu berri bat aztertu genuen, eta sare neuronalak erabiltzeko aukerari buruz hitz egin genuen ataza β€œorokorretan” haratago, hala nola irudien sailkapena eta hizkuntza prozesatzea. Metodo hau eskakizun modernoak baino txikiagoa ez izateaz gain, irudiak askoz azkarrago prozesatzeko aukera ematen du.

Sare neuronalak ikastea errazagoa bihurtu da, promozio-kode bat egin dugulako bereziki Habravchanentzat HABR, pankartan adierazitako deskontuari %10eko deskontu gehigarria emanez.

AI erabiltzea irudiak gainkonprimitzeko

Ikastaro gehiago

Artikulu aipagarriak

Iturria: www.habr.com

Gehitu iruzkin berria