🥇Neironu tīkli. Kur tas viss virzās

Raksts sastāv no divām daļām:

Īss apraksts par dažām tīkla arhitektūrām objektu noteikšanai attēlos un attēlu segmentēšanai ar man saprotamākajām saitēm uz resursiem. Centos izvēlēties video skaidrojumus un vēlams krievu valodā.
Otrā daļa ir mēģinājums izprast neironu tīklu arhitektūru attīstības virzienu. Un uz tām balstītas tehnoloģijas.

1. attēls. Neironu tīklu arhitektūras izpratne nav vienkārša

Viss sākās, izveidojot divas demonstrācijas lietojumprogrammas objektu klasifikācijai un noteikšanai Android tālrunī:

Aizmugurējās versijas demonstrācija, kad dati tiek apstrādāti serverī un pārsūtīti uz tālruni. Trīs veidu lāču attēlu klasifikācija: brūns, melns un rotaļu.
Priekšgala demonstrācijakad dati tiek apstrādāti pašā tālrunī. Trīs veidu objektu noteikšana (objektu noteikšana): lazdu rieksti, vīģes un datumi.

Ir atšķirība starp attēlu klasifikācijas, objektu noteikšanas uzdevumiem attēlā un attēla segmentācija. Tāpēc radās nepieciešamība noskaidrot, kuras neironu tīklu arhitektūras uztver attēlos esošos objektus un kuras var tos segmentēt. Es atradu šādus arhitektūru piemērus ar man saprotamākajām saitēm uz resursiem:

Arhitektūras sērija, kuras pamatā ir R-CNN (Rreģioni ar Convolution Neurāls Ntīklu funkcijas): R-CNN, Fast R-CNN, Ātrāks R-CNN, Maska R-CNN. Lai attēlā noteiktu objektu, ierobežojošās kastes tiek piešķirtas, izmantojot reģiona ierosinājumu tīkla (RPN) mehānismu. Sākotnēji RPN vietā tika izmantots lēnāks selektīvās meklēšanas mehānisms. Pēc tam atlasītie ierobežotie reģioni klasifikācijai tiek ievadīti parastā neironu tīkla ieejā. R-CNN arhitektūrai ir nepārprotamas “for” cilpas ierobežotos reģionos, kopā līdz 2000 darbiem caur AlexNet iekšējo tīklu. Skaidras “for” cilpas palēnina attēlu apstrādes ātrumu. Izteikto cilpu skaits, kas iet caur iekšējo neironu tīklu, samazinās ar katru jauno arhitektūras versiju, un tiek veiktas arī desmitiem citu izmaiņu, lai palielinātu ātrumu un aizstātu objektu noteikšanas uzdevumu ar objektu segmentēšanu maskā R-CNN.
Yolo (You Only Larī Once) ir pirmais neironu tīkls, kas mobilajās ierīcēs reāllaikā atpazina objektus. Atšķirīga iezīme: objektu atšķiršana vienā piegājienā (tikai paskatieties vienreiz). Tas ir, YOLO arhitektūrā nav skaidru “for” cilpu, tāpēc tīkls darbojas ātri. Piemēram, šī līdzība: NumPy, veicot darbības ar matricām, nav arī izteiktu “for” cilpu, kuras NumPy tiek realizētas zemākos arhitektūras līmeņos, izmantojot programmēšanas valodu C. YOLO izmanto iepriekš definētu logu režģi. Lai viens un tas pats objekts netiktu definēts vairākas reizes, tiek izmantots logu pārklāšanās koeficients (IoU). Ikrustojums oaplūkot Ujonu). Šī arhitektūra darbojas plašā diapazonā un ir augsta robustums: modeli var apmācīt fotogrāfijās, taču tas joprojām labi darbojas ar roku zīmētām gleznām.
SSD (Sieiet Skarsts MultiBox Detector) – tiek izmantoti visveiksmīgākie YOLO arhitektūras “haki” (piemēram, nemaksimālā slāpēšana) un tiek pievienoti jauni, lai neironu tīkls darbotos ātrāk un precīzāk. Atšķirīga iezīme: objektu atšķiršana vienā piegājienā, izmantojot noteiktu logu režģi (noklusējuma lodziņš) attēla piramīdā. Attēla piramīda tiek kodēta konvolūcijas tensoros, izmantojot secīgas konvolūcijas un apvienošanas darbības (ar max-pooling operāciju telpiskā dimensija samazinās). Tādā veidā vienā tīkla skrējienā tiek noteikti gan lieli, gan mazi objekti.
MobileSSD (mobilsNetV2+ SSD) ir divu neironu tīklu arhitektūru kombinācija. Pirmais tīkls MobileNetV2 darbojas ātri un palielina atpazīšanas precizitāti. MobileNetV2 tiek izmantots VGG-16 vietā, kas sākotnēji tika izmantots oriģināls raksts. Otrais SSD tīkls nosaka objektu atrašanās vietu attēlā.
SqueezeNet – ļoti mazs, bet precīzs neironu tīkls. Pats par sevi tas neatrisina objektu noteikšanas problēmu. Tomēr to var izmantot dažādu arhitektūru kombinācijā. Un tiek izmantots mobilajās ierīcēs. Atšķirīgā iezīme ir tāda, ka dati vispirms tiek saspiesti četros 1 × 1 konvolūcijas filtros un pēc tam izvērsti četros 1 × 1 un četros 3 × 3 konvolūcijas filtros. Viena šāda datu saspiešanas-paplašināšanas iterācija tiek saukta par “ugunsgrēka moduli”.
DeepLab (Semantic Image Segmentation with Deep Convolutional Nets) – objektu segmentēšana attēlā. Arhitektūras īpatnība ir paplašināta konvolūcija, kas saglabā telpisko izšķirtspēju. Tam seko rezultātu pēcapstrādes posms, izmantojot grafisko varbūtības modeli (nosacījuma nejaušības lauks), kas ļauj noņemt nelielus trokšņus segmentācijā un uzlabot segmentētā attēla kvalitāti. Aiz drausmīgā nosaukuma “grafiskais varbūtības modelis” slēpjas parasts Gausa filtrs, kas ir tuvināts par pieciem punktiem.
Mēģināja izdomāt ierīci RefineDet (Viens šāviens rafinētneironu tīkls objektam Detakcija), bet es neko daudz nesapratu.
Es arī apskatīju, kā darbojas “uzmanības” tehnoloģija: video1, video2, video3. Atšķirīga “uzmanības” arhitektūras iezīme ir automātiska to reģionu atlase, kuriem attēlā ir pastiprināta uzmanība (RoI, RVeneto of Interest), izmantojot neironu tīklu, ko sauc par Uzmanības vienību. Paaugstinātas uzmanības apgabali ir līdzīgi norobežojošajiem lodziņiem, taču atšķirībā no tiem tie nav fiksēti attēlā un tiem var būt izplūdušas robežas. Pēc tam no pastiprinātas uzmanības reģioniem tiek izolētas zīmes (iezīmes), kuras tiek “ievadītas” uz atkārtotiem neironu tīkliem ar arhitektūru LSDM, GRU vai Vanilla RNN. Atkārtoti neironu tīkli spēj analizēt pazīmju attiecības secībā. Atkārtotos neironu tīklus sākotnēji izmantoja, lai tulkotu tekstu citās valodās, un tagad arī tulkošanai attēlus uz tekstu и tekstu uz attēlu.

Izpētot šīs arhitektūras Sapratu, ka neko nesaprotu. Un nav tā, ka manam neironu tīklam ir problēmas ar uzmanības mehānismu. Visu šo arhitektūru izveide ir kā kaut kāds milzīgs hakatons, kurā autori sacenšas hackos. Hack ir ātrs risinājums sarežģītai programmatūras problēmai. Tas ir, starp visām šīm arhitektūrām nav redzama un saprotama loģiska saikne. Viss, kas viņus vieno, ir visveiksmīgāko hakeru kopums, ko viņi aizņemas viens no otra, kā arī kopīgs visiem. slēgta cikla konvolūcijas darbība (kļūda backpropagation, backpropagation). Nē sistēmu domāšana! Nav skaidrs, ko mainīt un kā optimizēt esošos sasniegumus.

Tā kā starp uzlaušanu nav loģiskas saiknes, tos ir ārkārtīgi grūti atcerēties un pielietot praksē. Tās ir sadrumstalotas zināšanas. Labākajā gadījumā atmiņā paliek daži interesanti un negaidīti mirkļi, bet lielākā daļa saprastā un nesaprotamā pazūd no atmiņas dažu dienu laikā. Būs labi, ja pēc nedēļas atcerēsies vismaz arhitektūras nosaukumu. Taču vairākas stundas un pat dienas darba laika pagāja, lasot rakstus un skatoties apskatu video!

2. attēls – Neironu tīklu zoodārzs

Lielākā daļa zinātnisko rakstu autoru, manuprāt, dara visu iespējamo, lai pat šīs sadrumstalotās zināšanas lasītājam nesaprastu. Bet līdzdalības frāzes desmit rindu teikumos ar formulām, kas ņemtas “no zila gaisa”, ir atsevišķa raksta tēma (problēma publicēt vai pazust).

Šī iemesla dēļ ir nepieciešams sistematizēt informāciju, izmantojot neironu tīklus, un tādējādi paaugstināt izpratnes un iegaumēšanas kvalitāti. Tāpēc mākslīgo neironu tīklu atsevišķu tehnoloģiju un arhitektūru analīzes galvenā tēma bija šāds uzdevums: uzzini, kur tas viss notiek, nevis kāda konkrēta neironu tīkla ierīce atsevišķi.

Kur tas viss iet? Galvenie rezultāti:

Mašīnmācīšanās jaunuzņēmumu skaits pēdējo divu gadu laikā strauji kritās. Iespējamais iemesls: "neironu tīkli vairs nav kaut kas jauns."
Ikviens var izveidot funkcionējošu neironu tīklu, lai atrisinātu vienkāršu problēmu. Lai to izdarītu, paņemiet gatavu modeli no “modeļa zoodārza” un apmāciet pēdējo neironu tīkla slāni (pārneses mācības) par gataviem datiem no Google datu kopu meklēšana vai no 25 tūkstoši Kaggle datu kopu bezmaksas mākoņa Jupyter piezīmju grāmatiņa.
Sāka veidot lielie neironu tīklu ražotāji "zoodārzu paraugi" (zooloģiskā dārza modelis). Izmantojot tos, varat ātri izveidot komerciālu lietojumprogrammu: TF centrmezgls TensorFlow, MMD noteikšana PyTorch, Detectron priekš Caffe2, ķēde-modelzoo par Chainer un pārējie.
Neironu tīkli, kas darbojas īsts laiks (reāllaika) mobilajās ierīcēs. No 10 līdz 50 kadriem sekundē.
Neironu tīklu izmantošana tālruņos (TF Lite), pārlūkprogrammās (TF.js) un iekšā sadzīves priekšmeti (IoT, INTERNET of Teņģes). Īpaši tālruņos, kas jau atbalsta neironu tīklus aparatūras līmenī (neironu paātrinātāji).
“Būs katra ierīce, apģērba gabals un, iespējams, pat pārtika IP-v6 adrese un sazināties savā starpā" - Sebastians Thruns.
Publikāciju skaits par mašīnmācību ir sācis pieaugt pārsniedz Mūra likumu (dubultojot ik pēc diviem gadiem) kopš 2015. gada. Acīmredzot rakstu analīzei mums ir nepieciešami neironu tīkli.
Šādas tehnoloģijas kļūst arvien populārākas:
- PyTorch – popularitāte strauji aug un, šķiet, apsteidz TensorFlow.
- Automātiska hiperparametru izvēle AutoML – popularitāte vienmērīgi aug.
- Pakāpeniska precizitātes samazināšanās un aprēķinu ātruma palielināšanās: neskaidra loģika, algoritmi veicinot, neprecīzi (aptuveni) aprēķini, kvantēšana (kad neironu tīkla svari tiek pārvērsti veselos skaitļos un kvantēti), neironu paātrinātāji.
- Tulkošana attēlus uz tekstu и tekstu uz attēlu.
- radīšana XNUMXD objekti no video, tagad reāllaikā.
- Galvenais par DL ir tas, ka datu ir daudz, taču tos savākt un marķēt nav viegli. Tāpēc iezīmēšanas automatizācija attīstās (automatizēta anotācija) neironu tīkliem, kas izmanto neironu tīklus.
Ar neironu tīkliem pēkšņi kļuva datorzinātne eksperimentālā zinātne un cēlās reproducējamības krīze.
IT nauda un neironu tīklu popularitāte parādījās vienlaikus, kad skaitļošana kļuva par tirgus vērtību. Ekonomika mainās no zelta un valūtas ekonomikas uz zelts-valūta-skaitļošana. Skatiet manu rakstu par ekonomofizika un IT naudas parādīšanās iemesls.

Pamazām parādās jauns ML/DL programmēšanas metodika (Machine Learning & Deep Learning), kuras pamatā ir programmas attēlošana kā apmācītu neironu tīklu modeļu kopa.

3. attēls – ML/DL kā jauna programmēšanas metodika

Tomēr tas nekad nav parādījies "neironu tīklu teorija", kuras ietvaros var sistemātiski domāt un strādāt. Tas, ko tagad sauc par “teoriju”, patiesībā ir eksperimentāli, heiristiski algoritmi.

Saites uz maniem un citiem resursiem:

Datu zinātnes biļetens. Galvenokārt attēlu apstrāde. Ikvienam, kurš vēlas to saņemt, jāsūta e-pasts (foobar167<gaf-gaf>gmail<dot>com). Izsūtu saites uz rakstiem un video, tiklīdz materiāls krājas.
Vispārējs kursu un rakstu sarakstskurām esmu izturējis un kurām vēlos tikt garām.
Kursi un video iesācējiem, kur jums vajadzētu sākt pētīt neironu tīklus. Plus brošūra "Ievads mašīnmācībā un mākslīgajos neironu tīklos".
Noderīgi rīki, kur katrs atradīs sev ko interesantu.
Mēs atklājām, ka tie ir ļoti noderīgi. video kanāli zinātnisku rakstu analīzei Datu zinātne. Atrodiet, abonējiet tos un nosūtiet saites saviem kolēģiem un arī man. Piemēri:
- Divu minūšu dokumenti
- Henrija AI laboratorijas
- Janiks Kilčers
- CodeEmporium
- Emuārs Chengwei Zhang aka Tony607 ar soli pa solim sniegtām instrukcijām un atvērto avotu.

Спасибо за внимание!

Avots: www.habr.com

Neironu tīkli. Kur tas viss virzās?

Pievieno komentāru Atcelt atbildi