Klassifikazzjoni ta' tpinġijiet miktuba bl-idejn. Rapport f'Yandex

Ftit xhur ilu, il-kollegi tagħna minn Google jintefqu fuq Kaggle kompetizzjoni biex jinħoloq klassifikatur għall-immaġini miksuba fil-sensazzjonali il-logħba "Malajr, Iġbed!" It-tim, li kien jinkludi l-iżviluppatur Yandex Roman Vlasov, ħa r-raba 'post fil-kompetizzjoni. Fit-taħriġ tat-tagħlim tal-magni ta 'Jannar, Roman qasam l-ideat tat-tim tiegħu, l-implimentazzjoni finali tal-klassifikatur, u prattiki interessanti tal-avversarji tiegħu.


- Hi kollha! Jisimni Roma Vlasov, illum se ngħidlek dwar Quick, Draw! Isfida għar-Rikonoxximent tad-Doodle.

Klassifikazzjoni ta' tpinġijiet miktuba bl-idejn. Rapport f'Yandex

Kien hemm ħames persuni fit-tim tagħna. ingħaqadt eżatt qabel l-iskadenza tal-għaqda. Konna sfortunati, konna mħawwad ftit, imma konna mħawwad mill-pożizzjoni tal-flus, u tħawwad mill-pożizzjoni tad-deheb. U ħadna r-raba’ post onorevoli.

(Matul il-kompetizzjoni, it-timijiet osservaw lilhom infushom fi klassifikazzjoni, li kienet iffurmata abbażi tar-riżultati murija fuq parti waħda tas-sett tad-dejta propost. Il-klassifikazzjoni finali, min-naħa tagħha, ġiet iffurmata fuq parti oħra tas-sett tad-dejta. Dan isir hekk li l-parteċipanti tal-kompetizzjoni ma jaġġustawx l-algoritmi tagħhom għal data speċifika Għalhekk, fil-finali, meta taqleb bejn il-klassifikazzjonijiet, il-pożizzjonijiet jitħawwdu ftit (mill-Ingliż shake up - biex jitħalltu): fuq data oħra, ir-riżultat jista 'jirriżulta li jkun differenti. It-tim ta 'Roman kien l-ewwel fl-ewwel tlieta. F'dan il-każ, l-ewwel tlieta huma flus, żona ta 'klassifikazzjoni monetarja, peress li l-ewwel tliet postijiet biss ingħataw premju fi flus. Wara t-tħawwid, it-tim kien diġà fi ir-raba' post. Bl-istess mod, it-tim l-ieħor tilef ir-rebħa, il-pożizzjoni tad-deheb. - Ed.)

Klassifikazzjoni ta' tpinġijiet miktuba bl-idejn. Rapport f'Yandex

Il-kompetizzjoni kienet sinifikanti wkoll li Evgeniy Babakhnin irċieva grandmastru, Ivan Sosin irċieva kaptan, Roman Soloviev baqa 'grandmaster, Alex Parinov irċieva kaptan, sirt espert, u issa jien diġà kaptan.

Klassifikazzjoni ta' tpinġijiet miktuba bl-idejn. Rapport f'Yandex

X'inhu dan Quick, Draw? Dan huwa servizz minn Google. Google kellu l-għan li jippopolalizza l-AI u b'dan is-servizz ried juri kif jaħdmu n-netwerks newrali. Tmur hemm, ikklikkja Ejja niġbed, u titfaċċa paġna ġdida fejn qallek: iġbed żigżag, għandek 20 sekonda biex tagħmel dan. Qed tipprova tiġbed żigżag f'20 sekonda, bħal hawn, pereżempju. Jekk tirnexxi, in-netwerk jgħid li huwa żigżag u timxi 'l quddiem. Hemm biss sitt stampi bħal dawn.

Jekk in-netwerk ta' Google naqas milli jagħraf dak li ġibdet, tpoġġiet salib fuq il-kompitu. Aktar tard ngħidlek x'se jfisser fil-futur jekk tpinġija hijiex rikonoxxuta min-netwerk jew le.

Dan is-servizz ġabar numru pjuttost kbir ta 'utenti, u l-istampi kollha li l-utenti ġibdu ġew illoggjati.

Klassifikazzjoni ta' tpinġijiet miktuba bl-idejn. Rapport f'Yandex

Irnexxielna niġbru kważi 50 miljun immaġini. Minn dan, il-ferrovija u d-data tat-test għall-kompetizzjoni tagħna ġew iffurmati. Mill-mod, l-ammont ta 'dejta fit-test u n-numru ta' klassijiet huma enfasizzati b'tipa grassa għal raġuni. Ngħidlek dwarhom ftit aktar tard.

Il-format tad-dejta kien kif ġej. Dawn mhumiex biss immaġini RGB, iżda, bejn wieħed u ieħor, reġistru ta 'dak kollu li għamel l-utent. Il-kelma hija l-mira tagħna, il-kodiċi tal-pajjiż huwa minn fejn ġej l-awtur tad-doodle, il-timestamp huwa l-ħin. It-tikketta rikonoxxuta turi biss jekk in-netwerk għarafx l-immaġni minn Google jew le. U t-tpinġija nnifisha hija sekwenza, approssimazzjoni ta 'kurva li l-utent jiġbed b'punti. U ħinijiet. Dan huwa l-ħin mill-bidu tat-tpinġija tal-istampa.

Klassifikazzjoni ta' tpinġijiet miktuba bl-idejn. Rapport f'Yandex

Id-dejta ġiet ippreżentata f'żewġ formati. Dan huwa l-ewwel format, u t-tieni huwa ssimplifikat. Huma qatgħu l-ħinijiet minn hemm u approssimaw dan is-sett ta 'punti b'sett iżgħar ta' punti. Għal dan użaw Algoritmu Douglas-Pecker. Għandek sett kbir ta 'punti li sempliċiment jqarreb linja dritta, iżda fil-fatt tista' tapprossima din il-linja b'żewġ punti biss. Din hija l-idea tal-algoritmu.

Id-dejta tqassmet kif ġej. Kollox huwa uniformi, iżda hemm xi outliers. Meta solvejna l-problema, ma ħarisniex lejha. Il-ħaġa prinċipali hija li ma kien hemm l-ebda klassijiet li kienu verament ftit, ma kellniex għalfejn nagħmlu kampjuni peżati u kampjunar żejjed tad-dejta.

Klassifikazzjoni ta' tpinġijiet miktuba bl-idejn. Rapport f'Yandex

Kif kienu jidhru l-istampi? Din hija l-klassi "ajruplan" u eżempji minnha bit-tikketti rikonoxxuti u mhux rikonoxxuti. Il-proporzjon tagħhom kien x'imkien madwar 1 sa 9. Kif tistgħu taraw, id-dejta hija pjuttost storbjuża. Naħseb li huwa ajruplan. Jekk inti tħares lejn mhux rikonoxxut, f'ħafna każijiet huwa biss storbju. Xi ħadd saħansitra pprova jikteb "ajruplan," iżda milli jidher bil-Franċiż.

Il-biċċa l-kbira tal-parteċipanti sempliċement ħadu grilji, ġibdu data minn din is-sekwenza ta 'linji bħala stampi RGB, u tefgħuhom fin-netwerk. Ġibt bejn wieħed u ieħor bl-istess mod: ħadt paletta ta 'kuluri, ġibt l-ewwel linja b'kulur wieħed, li kienet fil-bidu ta' din il-paletta, l-aħħar linja b'oħra, li kienet fl-aħħar tal-paletta, u bejniethom Interpolajt kullimkien billi tuża din il-paletta. Mill-mod, dan ta riżultat aħjar milli kieku tiġbed bħal fuq l-ewwel slide - biss bl-iswed.

Membri oħra tat-tim, bħal Ivan Sosin, ippruvaw approċċi kemmxejn differenti għat-tpinġija. B’kanal wieħed sempliċement ġibed stampa griża, b’kanal ieħor ġibed kull stroke bi gradjent mill-bidu sat-tmiem, minn 32 sa 255, u bit-tielet kanal fassal gradjent fuq il-puplesiji kollha minn 32 sa 255.

Ħaġa oħra interessanti hija li Alex Parinov tella' informazzjoni fin-netwerk billi juża countrycode.

Klassifikazzjoni ta' tpinġijiet miktuba bl-idejn. Rapport f'Yandex

Il-metrika użata fil-kompetizzjoni hija Preċiżjoni Medja Medja. X'inhi l-essenza ta' din il-metrika għall-kompetizzjoni? Tista 'tagħti tliet tbassar, u jekk ma jkunx hemm tbassir korrett f'dawn it-tlieta, imbagħad ikollok 0. Jekk hemm waħda korretta, allura l-ordni tagħha titqies. U r-riżultat fil-mira se jingħadd bħala 1 diviż bl-ordni tat-tbassir tiegħek. Pereżempju, għamilt tliet tbassir, u dak korrett huwa l-ewwel wieħed, imbagħad taqsam 1 b'1 u tikseb 1. Jekk il-preditur huwa korrett u l-ordni tiegħu huwa 2, imbagħad jaqsam 1 bi 2, ikollok 0,5. Ukoll, eċċ.

Klassifikazzjoni ta' tpinġijiet miktuba bl-idejn. Rapport f'Yandex

Bil-preproċessar tad-dejta - kif tiġbed stampi u l-bqija - iddeċidejna ftit. Liema arkitetturi użajna? Ippruvajna nużaw arkitetturi tax-xaħam bħal PNASNet, SENet, u arkitetturi diġà klassiċi bħal SE-Res-NeXt, qed jidħlu dejjem aktar f'kompetizzjonijiet ġodda. Kien hemm ukoll ResNet u DenseNet.

Klassifikazzjoni ta' tpinġijiet miktuba bl-idejn. Rapport f'Yandex

Klassifikazzjoni ta' tpinġijiet miktuba bl-idejn. Rapport f'Yandex

Klassifikazzjoni ta' tpinġijiet miktuba bl-idejn. Rapport f'Yandex

Kif għallimna dan? Il-mudelli kollha li ħadna kienu mħarrġa minn qabel fuq imagenet. Għalkemm hemm ħafna dejta, 50 miljun immaġini, iżda xorta waħda, jekk tieħu netwerk imħarreġ minn qabel fuq imagenet, wera riżultati aħjar milli kieku sempliċement tħarreġha mill-bidu.

Liema tekniki ta’ tagħlim użajna? Dan huwa Cosing Annealing with Warm Restarts, li se nitkellem dwaru ftit aktar tard. Din hija teknika li nuża fi kważi l-kompetizzjonijiet riċenti kollha tiegħi, u magħhom jirriżulta li nħarreġ il-grids pjuttost tajjeb, biex nikseb minimu tajjeb.

Klassifikazzjoni ta' tpinġijiet miktuba bl-idejn. Rapport f'Yandex

Li jmiss Naqqas ir-Rata ta' Tagħlim fuq Plateau. Tibda tħarreġ in-netwerk, tistabbilixxi ċerta rata ta 'tagħlim, tkompli tgħallemha, u t-telf tiegħek jikkonverġi gradwalment għal ċertu valur. Tiċċekkja dan, pereżempju, għal għaxar epoki t-telf ma nbidel xejn. Intnaqqas ir-rata tat-tagħlim tiegħek b'ċertu valur u tkompli titgħallem. Terġa' tinżel ftit, tikkonverġi f'xi minimu, u terġa' tnaqqas ir-rata tat-tagħlim, u l-bqija, sakemm in-netwerk tiegħek finalment jikkonverġi.

Li jmiss hija teknika interessanti: Tħassirx ir-rata tat-tagħlim, żid id-daqs tal-lott. Hemm artiklu bl-istess isem. Meta tħarreġ netwerk, m'għandekx għalfejn tnaqqas ir-rata tat-tagħlim, tista 'sempliċement iżżid id-daqs tal-lott.

Din it-teknika, mill-mod, intużat minn Alex Parinov. Beda b'lott ugwali għal 408, u meta n-netwerk tiegħu laħaq xi plateau, huwa sempliċement irdoppja d-daqs tal-lott, eċċ.

Fil-fatt, ma niftakarx liema valur laħaq id-daqs tal-lott tiegħu, iżda dak li hu interessanti huwa li kien hemm timijiet fuq Kaggle li użaw l-istess teknika, id-daqs tal-lott tagħhom kien ta 'madwar 10000 XNUMX. Mill-mod, oqfsa moderni għal tagħlim fil-fond, bħal PyTorch, pereżempju, jippermettilek tagħmel dan faċilment. Tiġġenera l-lott tiegħek u tissottomettih lin-netwerk mhux kif inhu, fl-intier tiegħu, iżda taqsamha f'biċċiet sabiex tidħol fil-kard tal-vidjo tiegħek, ikkalkula l-gradjenti, u wara li tkun ikkalkolat il-gradjent għall-lott kollu, aġġorna il-piżijiet.

Mill-mod, daqsijiet kbar ta 'lott kienu għadhom inklużi f'din il-kompetizzjoni, minħabba li d-dejta kienet pjuttost storbjuża, u daqs ta' lott kbir għenek tapprossima l-gradjent b'mod aktar preċiż.

Intuża wkoll psewdo-tikkettjar, l-aktar użat minn Roman Soloviev. Huwa ħa kampjuni ta' madwar nofs id-dejta mit-test f'lottijiet, u ħarreġ il-grilja fuq lottijiet bħal dawn.

Id-daqs tal-istampi kien importanti, iżda l-fatt hu li għandek ħafna dejta, għandek bżonn titħarreġ għal żmien twil, u jekk id-daqs tal-istampa tiegħek huwa pjuttost kbir, allura tħarreġ għal żmien twil ħafna. Iżda dan ma żiedx ħafna mal-kwalità tal-klassifikatur finali tiegħek, għalhekk kien ta 'min juża xi tip ta' kompromess. U ppruvajna biss stampi li ma kinux kbar ħafna fid-daqs.

Kif tgħallem kollox? L-ewwel, ittieħdu stampi ta 'daqs żgħir, saru diversi epoki fuqhom, dan ħa ħafna ħin. Imbagħad ingħataw stampi ta 'daqs kbir, in-netwerk ġie mħarreġ, imbagħad saħansitra aktar, saħansitra aktar, sabiex ma jitħarreġx mill-bidu u ma jaħlux ħafna ħin.

Dwar l-ottimizzaturi. Użajna SGD u Adam. B'dan il-mod kien possibbli li tikseb mudell wieħed, li ta veloċità ta '0,941-0,946 fuq il-leaderboard pubbliku, li huwa pjuttost tajjeb.

Jekk tgħaqqad il-mudelli b'xi mod, int se tasal xi mkien madwar 0,951. Jekk tuża teknika oħra, int se tikseb punteġġ finali ta '0,954 fuq il-bord pubbliku, bħalma ltqajna. Imma aktar dwar dan aktar tard. Sussegwentement ngħidlek kif immuntajna l-mudelli, u kif irnexxielna niksbu veloċità finali bħal din.

Sussegwentement nixtieq nitkellem dwar Cosing Annealing ma Warm Restarts jew Stochastic Gradient Descent ma Warm Restarts. Bejn wieħed u ieħor, fil-prinċipju, tista 'tuża kwalunkwe ottimizzatur, iżda l-punt huwa dan: jekk tħarreġ netwerk wieħed u gradwalment jikkonverġi għal xi minimu, allura kollox huwa tajjeb, ikollok netwerk wieħed, tagħmel ċerti żbalji, imma int jista 'jħarreġha ftit differenti. Inti se tissettja xi rata inizjali ta 'tagħlim, u gradwalment tnaqqasha skond din il-formula. Tbaxxiha, in-netwerk tiegħek jasal għal xi minimu, imbagħad tiffranka l-piżijiet, u għal darb'oħra tistabbilixxi r-rata ta 'tagħlim li kienet fil-bidu tat-taħriġ, u b'hekk tmur x'imkien 'il fuq minn dan il-minimu, u għal darb'oħra tnaqqas ir-rata ta' tagħlim tiegħek.

Għalhekk, tista 'żżur diversi minimi f'daqqa, li fihom it-telf tiegħek se jkun, flimkien jew nieqes, l-istess. Iżda l-fatt hu li n-netwerks b'dawn il-piżijiet se jagħtu żbalji differenti fid-data tiegħek. Billi tagħmel medja tagħhom, ikollok xi tip ta 'approssimazzjoni, u l-veloċità tiegħek tkun ogħla.

Klassifikazzjoni ta' tpinġijiet miktuba bl-idejn. Rapport f'Yandex

Dwar kif immuntajna l-mudelli tagħna. Fil-bidu tal-preżentazzjoni, għidt li tagħti attenzjoni lill-ammont ta 'dejta fit-test u n-numru ta' klassijiet. Jekk iżżid 1 man-numru ta 'miri fis-sett tat-test u taqsam bin-numru ta' klassijiet, ikollok in-numru 330, u dan inkiteb fuq il-forum - li l-klassijiet fit-test huma bilanċjati. Dan jista' jintuża.

Ibbażat fuq dan, Roman Soloviev ħareġ b'metrika, sejjaħnieha Proxy Score, li kienet korrelata pjuttost tajjeb mal-leaderboard. Il-punt hu: tagħmel tbassir, ħu l-ewwel 1 ta 'tbassir tiegħek u għodd in-numru ta' oġġetti għal kull klassi. Sussegwentement, naqqas 330 minn kull valur u żid il-valuri assoluti li jirriżultaw.

Inkisbu l-valuri li ġejjin. Dan għenna biex ma noħolqux leaderboard ta' probing, iżda biex nivvalidaw lokalment u nagħżlu koeffiċjenti għall-ensembles tagħna.

B'ensemble tista 'tikseb tali veloċità. X'nista' nagħmel aktar? Ejja ngħidu li użajt l-informazzjoni li l-klassijiet fit-test tiegħek huma bilanċjati.

L-ibbilanċjar kien differenti. Eżempju ta’ wieħed minnhom — ibbilanċjar min-nies li ħadu l-ewwel post.

X’għamilna? L-ibbilanċjar tagħna kien pjuttost sempliċi, kien issuġġerit minn Evgeny Babakhnin. L-ewwel għamilna t-tbassir tagħna skond l-ewwel 1 u għażilna kandidati minnhom - sabiex in-numru ta' klassijiet ma jaqbiżx it-330. Iżda għal xi klassijiet tispiċċa b'inqas minn tbassir 330. Tajjeb, ejja wkoll issortja bl-aqwa 2 u l-aqwa 3. , u aħna se nagħżlu wkoll kandidati.

L-ibbilanċjar tagħna kif kien differenti mill-ibbilanċjar tal-ewwel post? Huma użaw approċċ iterattiv, ħadu l-aktar klassi popolari u naqqsu l-probabbiltajiet għal dik il-klassi b'xi numru żgħir sakemm dik il-klassi ma baqgħetx l-aktar popolari. Ħadna l-aktar klassi popolari li jmiss. Għalhekk baqgħu jbaxxuhom sakemm in-numru tal-klassijiet kollha sar ugwali.

Kulħadd uża approċċ aktar jew nieqes wieħed biex iħarreġ in-netwerks, iżda mhux kulħadd uża l-ibbilanċjar. Bl-użu tal-ibbilanċjar, tista 'tmur fid-deheb, u jekk kont xortik tajba, imbagħad fil-flus.

Kif tipproċessa data minn qabel? Kulħadd ipproċessa d-data, flimkien jew nieqes, bl-istess mod - jagħmel karatteristiċi magħmulin bl-idejn, ipprova jikkodifika ħinijiet b'kuluri differenti ta 'puplesija, eċċ Alexey Nozdrin-Plotnitsky, li ħa t-8 post, tkellem dwar dan.

Klassifikazzjoni ta' tpinġijiet miktuba bl-idejn. Rapport f'Yandex

Għamilha differenti. Huwa qal li dawn il-karatteristiċi kollha tiegħek magħmulin bl-idejn ma jaħdmux, m'għandekx bżonn tagħmel dan, in-netwerk tiegħek għandu jitgħallem dan kollu waħdu. U minflok, ħareġ b'moduli ta 'tagħlim li pproċessaw id-dejta tiegħek minn qabel. Huwa tefa' d-dejta oriġinali fihom mingħajr preproċessar - koordinati tal-punti u ħinijiet.

Imbagħad ħa d-differenza bbażata fuq il-koordinati, u għamel medja ta 'dan kollu abbażi tal-ħinijiet. U ħareġ b'matriċi pjuttost twila. Applika l-konvoluzzjoni 1D għaliha diversi drabi biex jikseb matriċi ta 'daqs 64xn, fejn n huwa n-numru totali ta' punti, u 64 hija magħmula sabiex tgħaddi l-matriċi li tirriżulta lis-saff ta 'kwalunkwe netwerk konvoluzzjonali, li jaċċetta n-numru ta' kanali - 64. huwa kiseb matriċi 64xn, imbagħad minn dan kien meħtieġ li jinħoloq tensor ta 'xi daqs sabiex in-numru ta' kanali kien ugwali għal 64. Huwa nnormalizza l-punti kollha X, Y fil-medda minn 0 sa 32 biex jinħoloq tensor ta' daqs 32x32. Ma nafx għaliex ried 32x32, ġara biss hekk. U f'din il-koordinata poġġa framment ta 'din il-matriċi ta' daqs 64xn. Allura spiċċat biss b'tensor ta '32x32x64 li tista' tpoġġi aktar fin-netwerk newrali konvoluzzjonali tiegħek. Dak kollu ridt ngħid.

Sors: www.habr.com

Żid kumment