Nhazi nke eserese ejiri aka dee. Kpọọ akụkọ na Yandex

Ọnwa ole na ole gara aga, ndị ọrụ ibe anyị sitere na Google nọrọ na Kaggle asọmpi iji mepụta classifier maka onyonyo enwetara na ihe na-akpali akpali egwuregwu ahụ " Ngwa ngwa, see!" Otu ahụ, nke gụnyere Yandex onye mmepụta Roman Vlasov, weere ọnọdụ nke anọ na asọmpi ahụ. Na ọzụzụ mmụta igwe nke January, Roman kesara echiche nke otu ya, mmejuputa ikpeazụ nke classifier, na omume na-adọrọ mmasị nke ndị mmegide ya.


- Ndewo, unu niile! Aha m bụ Roma Vlasov, taa, m ga-agwa gị gbasara ngwa ngwa, Draw! Ihe ịma aka ịmata Doodle.

Nhazi nke eserese ejiri aka dee. Kpọọ akụkọ na Yandex

Mmadụ ise nọ n'òtù anyị. M sonyeere ozugbo tupu oge a ga-ejikọ ọnụ. Anyị enweghị ihu ọma, a na-ama jijiji ntakịrị, ma anyị na-ama jijiji site n'ọnọdụ ego, ha na-ama jijiji site n'ọkwá ọla edo. Anyị wee were ọnọdụ anọ dị nsọ.

(N'oge asọmpi ahụ, ndị otu ahụ na-ahụ onwe ha na ọkwa, bụ nke e hibere na-adabere na nsonaazụ egosiri n'otu akụkụ nke data a na-atụ aro. Emebere ọkwa ikpeazụ, n'aka nke ya, n'akụkụ ọzọ nke dataset. A na-eme nke a. Ya mere, na njedebe ikpeazụ, mgbe ị na-agbanwe n'etiti ọkwa, ọnọdụ ndị ahụ na-ama jijiji ntakịrị (site na English shake up - to mix): na data ndị ọzọ, nsonaazụ ya nwere ike pụta. Ndị otu Roman bụ nke mbụ n'ime atọ kachasị elu. N'okwu a, nke atọ kachasị elu bụ ego, mpaghara ego ego, ebe ọ bụ na naanị ebe atọ mbụ ka e nyere onyinye ego. N'otu aka ahụ, otu ndị ọzọ tụfuru mmeri, ọnọdụ ọla edo. - Ed.)

Nhazi nke eserese ejiri aka dee. Kpọọ akụkọ na Yandex

Asọmpi ahụ dịkwa ịrịba ama na Evgeniy Babakhnin nwetara nna ukwu, Ivan Sosin nwetara nna ukwu, Roman Soloviev nọgidere bụrụ nna ukwu, Alex Parinov nwetara nna ukwu, m ghọrọ ọkachamara, ma ugbu a, abụ m nna ukwu.

Nhazi nke eserese ejiri aka dee. Kpọọ akụkọ na Yandex

Kedu ihe bụ ngwa ngwa, Draw? Nke a bụ ọrụ sitere na Google. Google nwere ebumnuche nke ịkwalite AI na ọrụ a chọrọ igosi ka netwọkụ akwara si arụ ọrụ. Ị na-aga ebe ahụ, pịa Ka anyị see, ibe ọhụrụ ga-apụta ebe a gwara gị: see zigzag, ị nwere 20 sekọnd ime nke a. Ị na-agbalị ise zigzag na 20 sekọnd, dị ka ebe a, ọmụmaatụ. Ọ bụrụ na ịga nke ọma, netwọk na-ekwu na ọ bụ zigzag na ị ga-aga n'ihu. Enwere naanị foto isii dị otú ahụ.

Ọ bụrụ na netwọk Google aghọtaghị ihe ị sere, etinyere obe n'ọrụ ahụ. Mgbe e mesịrị, m ga-agwa gị ihe ọ ga-apụta n'ọdịnihu ma a na-amata eserese site na netwọk ma ọ bụ na ọ bụghị.

Ọrụ a chịkọtara ọnụ ọgụgụ buru ibu nke ndị ọrụ, na foto niile ndị ọrụ sere ka etinyere.

Nhazi nke eserese ejiri aka dee. Kpọọ akụkọ na Yandex

Anyị jisiri ike ịnakọta ihe oyiyi nde 50. Site na nke a, e hiwere ụgbọ oloko na ụbọchị ule maka asọmpi anyị. Site n'ụzọ, ọnụ ọgụgụ nke data na ule na ọnụ ọgụgụ nke klaasị na-apụta ìhè n'atụghị egwu maka ihe kpatara ya. M ga-agwa gị gbasara ha obere oge ma emechaa.

Usoro data dị ka ndị a. Ndị a abụghị naanị onyonyo RGB, mana, n'ụzọ siri ike, ndekọ nke ihe niile onye ọrụ mere. Okwu bụ ebumnuche anyị, koodu obodo bụ ebe onye dere doodle si, timestamp bụ oge. Labelụ a ma ama na-egosi naanị ma netwọkụ ahụ amatala onyonyo site na Google ma ọ bụ na ọ bụghị. Na ịbịaru n'onwe ya bụ usoro, ihe dị ka akụkụ nke akụkụ nke onye ọrụ na-adọta na isi ihe. Na oge. Nke a bụ oge site na mmalite nke ịbịaru foto.

Nhazi nke eserese ejiri aka dee. Kpọọ akụkọ na Yandex

E gosipụtara data n'ụdị abụọ. Nke a bụ usoro nke mbụ, ma nke abụọ dị mfe. Ha wepụrụ oge ndị ahụ site n'ebe ahụ wee were obere isi ihe were kpọkọta isi ihe a. Maka nke a ha ji Douglas-Pecker algorithm. Ị nwere nnukwu isi ihe na-eme ka ahịrị kwụ ọtọ, mana n'ezie ị nwere ike jiri naanị isi ihe abụọ were nkeji ole na ole were nkeji ole na ole. Nke a bụ echiche nke algọridim.

E kesara data ahụ dị ka ndị a. Ihe niile bụ otu, mana enwere ụfọdụ ndị na-apụ apụ. Mgbe anyị doziri nsogbu ahụ, anyị anaghị ele ya anya. Ihe bụ isi bụ na ọ nweghị klas ndị dị ole na ole n'ezie, anyị ekwesịghị ime samplers dị arọ na nchịkọta data.

Nhazi nke eserese ejiri aka dee. Kpọọ akụkọ na Yandex

Kedu ihe foto ndị a dị? Nke a bụ klaasị "ụgbọelu" na ihe atụ sitere na ya nwere akara ndị amataghị na amataghị ya. Ha ruru bụ ebe gburugburu 1 ka 9. Dị ka ị pụrụ ịhụ, na data bụ nnọọ mkpọtụ. M ga-eche na ọ bụ ụgbọ elu. Ọ bụrụ n’ile anya na amatabeghị, n’ọtụtụ ọnọdụ ọ bụ naanị mkpọtụ. Otu onye nwara ide “ụgbọelu,” mana o doro anya na ọ bụ n'asụsụ French.

Ọtụtụ ndị sonyere na-ewere grids, see data sitere na usoro ahịrị a dị ka foto RGB, wee tụba ha na netwọkụ. M na-ese ihe dị ka otu ụzọ: M weere a palette nke agba, sere akpa akara na otu agba, nke bụ na mmalite nke a palette, ikpeazụ akara na ọzọ, nke dị na njedebe nke palette, na n'etiti ha. Eji m palette a na-agbakọ ọnụ n'ebe niile. Site n'ụzọ, nke a nyere a mma N'ihi ka ọ bụrụ na ị na-ese dị ka na nnọọ mbụ slide - dị na nwa.

Ndị otu ndị ọzọ, dị ka Ivan Sosin, nwara ụzọ dịtụ iche iche maka eserese. N'otu ọwa ọ na-ese naanị foto isi awọ, na ọwa ọzọ ọ na-ese strok ọ bụla na gradient site na mmalite ruo na njedebe, site na 32 ruo 255, na ọwa nke atọ ọ na-ese gradient n'elu strok niile site na 32 ruo 255.

Ihe ọzọ na-adọrọ mmasị bụ na Alex Parinov bulitere ozi na netwọk site na iji koodu obodo.

Nhazi nke eserese ejiri aka dee. Kpọọ akụkọ na Yandex

Ihe metrik ejiri na asọmpi a bụ Nkezi Nkezi. Gịnị bụ isi ihe metrik a maka asọmpi? Ị nwere ike ịnye amụma atọ, ma ọ bụrụ na enweghị amụma ziri ezi na atọ ndị a, ị ga-enweta 0. Ọ bụrụ na e nwere nke ziri ezi, mgbe ahụ, a na-echebara usoro ya echiche. A ga-agụkwa nsonaazụ ebumnuche dị ka 1 kewara site n'usoro amụma gị. Dịka ọmụmaatụ, ịmere amụma amụma atọ, nke ziri ezi bụ nke mbụ, wee kewaa 1 site na 1 wee nweta 1. Ọ bụrụ na amụma amụma ziri ezi na usoro ya bụ 2, kewaa 1 site na 2, ị ga-enweta 0,5. Ọfọn, wdg.

Nhazi nke eserese ejiri aka dee. Kpọọ akụkọ na Yandex

Site na nhazi data - otu esi ese foto na ihe ndị ọzọ - anyị ekpebiela ntakịrị. Kedu ụlọ ọrụ ụlọ anyị ji mee ihe? Anyị nwara iji ụlọ arụrụ arụ dị ka PNASNet, SENet, na ụlọ ochie ochie dị ka SE-Res-NeXt, ha na-abanyewanye n'asọmpi ọhụrụ. Enwekwara ResNet na DenseNet.

Nhazi nke eserese ejiri aka dee. Kpọọ akụkọ na Yandex

Nhazi nke eserese ejiri aka dee. Kpọọ akụkọ na Yandex

Nhazi nke eserese ejiri aka dee. Kpọọ akụkọ na Yandex

Olee otú anyị si kụzie ihe a? Ụdị niile anyị weere bụ nke a zụrụ azụ na imagenet. Ọ bụ ezie na e nwere ọtụtụ data, 50 nde oyiyi, ma ka, ọ bụrụ na ị na-a netwọk tupu zụrụ na imagenet, o gosiri mma pụta karịa ma ọ bụrụ na ị nanị zụrụ ya si ọkọ.

Olee usoro izi ihe anyị ji mee ihe? Nke a bụ Cosing Annealing with Warm Restarts, nke m ga-ekwu maka obere oge ma emechaa. Nke a bụ usoro nke m na-eji na ihe fọrọ nke nta ka ọ bụrụ asọmpi niile m na-adịbeghị anya, na ha na-atụgharị iji zụọ grids nke ọma, iji nweta ezigbo opekempe.

Nhazi nke eserese ejiri aka dee. Kpọọ akụkọ na Yandex

Na-esote wedata ọnụ ọgụgụ mmụta na Plateau. Ị na-amalite ịzụ netwọkụ, setịpụ ọnụ ọgụgụ mmụta ụfọdụ, na-aga n'ihu na-akụzi ya, na ọnwụ gị ji nke nta nke nta na-agbakọta ruo otu uru. Ị na-elele nke a, dịka ọmụmaatụ, maka oge iri, ọnwụ agbanwebeghị ma ọlị. Ị na-ebelata ọnụego mmụta gị site na uru ụfọdụ wee gaa n'ihu na-amụ ihe. Ọ na-adaba ntakịrị ọzọ, na-agbakọta na opekempe, ị ga-ewetukwa ọnụego mmụta ọzọ, na ihe ndị ọzọ, ruo mgbe netwọk gị ga-emecha jikọọ.

Ihe na-esote bụ usoro na-adọrọ mmasị: E mebiela ọnụ ọgụgụ mmụta, mụbaa nha batch. Enwere otu akụkọ nwere otu aha. Mgbe ị na-azụ netwọkụ, ịkwesighi ibelata ọnụego mmụta, ị nwere ike ịbawanye nha nha.

Usoro a, n'agbanyeghị, bụ Alex Parinov ji mee ihe. Ọ malitere site n'ihe ruru 408, mgbe netwọk ya rutere n'ebe ụfọdụ, ọ na-eme ka nha nke batch okpukpu abụọ, wdg.

N'ezie, anaghị m echeta ihe uru batch ya ruru, ma ihe na-adọrọ mmasị bụ na e nwere ndị otu na Kaggle na-eji otu usoro ahụ eme ihe, ọnụ ọgụgụ ha dị ihe dị ka 10000. Site n'ụzọ, usoro ọgbara ọhụrụ maka mmụta miri emi, dị ka. Dịka ọmụmaatụ, PyTorch na-enye gị ohere ime nke a n'ụzọ dị mfe. Ị na-emepụta batch gị ma nyefee ya na netwọk ọ bụghị dị ka ọ dị, n'ozuzu ya, mana kewaa ya n'ime iberibe ka ọ dabara na kaadị vidiyo gị, gbakọọ gradients, na mgbe ị gbakọọ gradient maka dum batch, melite. arọ ndị ahụ.

Site n'ụzọ, nnukwu batch ka na-esonye na asọmpi a, n'ihi na data ahụ dị oke mkpọtụ, na nnukwu batch na-enyere gị aka ịmatakwu gradient.

A na-ejikwa akara pseudo, nke Roman Soloviev na-ejikarị eme ihe. O were ihe dị ka ọkara data sitere na ule ahụ na batches, ma zụọ grid na batches dị otú ahụ.

Ogo nke foto dị mkpa, mana nke bụ eziokwu bụ na ị nwere ọtụtụ data, ịkwesịrị ịzụ ọzụzụ ogologo oge, ma ọ bụrụ na nha foto gị buru ibu, mgbe ahụ ị ga-azụ ọzụzụ ogologo oge. Mana nke a etinyeghị ọtụtụ ihe na ogo nke nhazi ikpeazụ gị, yabụ na ọ bara uru iji ụdị azụmaahịa. Anyị nwara naanị foto ndị na-abụghị nnukwu nha.

Olee otú e si mụta ya niile? Nke mbụ, a na-ese foto ndị pere mpe, a na-agba ọtụtụ oge na ha, nke a were ogologo oge. Mgbe ahụ, e nyere foto ndị buru ibu, a zụrụ netwọk ahụ, mgbe ahụ ọbụna karịa, ọbụna karịa, ka ọ ghara ịzụ ya site na ọkọ ma ghara ịla oge dị ukwuu.

Banyere optimizers. Anyị na-eji SGD na Adam. N'ụzọ dị otú a, ọ ga-ekwe omume ịnweta otu ihe nlereanya, nke nyere ọsọ ọsọ nke 0,941-0,946 na onyeisi oche ọha, nke dị mma.

Ọ bụrụ na ị chịkọta ụdị ahụ n'ụzọ ụfọdụ, ị ga-enweta ebe gburugburu 0,951. Ọ bụrụ na iji otu usoro ọzọ, ị ga-enweta akara ikpeazụ nke 0,954 na bọọdụ ọha, dịka anyị nwetara. Ma ọzọ na nke ahụ mechara. Ọzọ, m ga-agwa gị otú anyị si kpọkọta ụdị, na otú anyị jisiri ike nweta ụdị ọsọ ikpeazụ.

Na-esote, ọ ga-amasị m ikwu maka Cosing Annealing with Warm Restarts ma ọ bụ Stochastic Gradient Deescent nwere Mmalite Ọkụ. N'ikwu okwu n'ụzọ dị mfe, n'ụkpụrụ, ị nwere ike iji njikarịcha ọ bụla, mana isi ihe bụ nke a: ọ bụrụ na ị na-azụ otu netwọkụ ma jiri nwayọọ nwayọọ na-agbakọta na nke kacha nta, mgbe ahụ ihe niile dị mma, ị ga-enweta otu netwọkụ, ọ na-emehie ụfọdụ, mana ị nwere ike ịzụ ya ntakịrị iche. Ị ga-edozi ọnụego mmụta mbụ, wee jiri nwayọọ nwayọọ wetuo ya dịka usoro a si dị. Ị wetulata ya, netwọk gị na-abịarute opekempe, wee chekwaa ihe ọ̀tụ̀tụ̀, wee tọọkwa ọnụego mmụta nke dị na mmalite ọzụzụ, si otú ahụ na-aga ebe elu site na opekempe a, ma na-ewetukwa ọnụego mmụta gị ọzọ.

Ya mere, ị nwere ike ịga leta opekempe dị iche iche n'otu oge, nke ọnwụ gị ga-abụ, gbakwunyere ma ọ bụ mwepu, otu. Mana nke bụ eziokwu bụ na netwọkụ ndị nwere ibu ndị a ga-enye njehie dị iche iche na ụbọchị gị. Site na nkezi ha, ị ga-enweta ụfọdụ ụdị approximation, na ọsọ gị ga-adị elu.

Nhazi nke eserese ejiri aka dee. Kpọọ akụkọ na Yandex

Banyere otu anyị si kpọkọta ụdị anyị. Ná mmalite nke ngosi, ekwuru m ka ị ṅaa ntị na ọnụọgụ data dị na ule na ọnụ ọgụgụ nke klas. Ọ bụrụ na ị gbakwunye 1 na ọnụ ọgụgụ nke lekwasịrị anya na nlele ule wee kewaa site na ọnụ ọgụgụ nke klaasị, ị ga-enweta nọmba 330, nke a na-edekwa na nnọkọ - na klas ndị dị na ule ahụ bụ nke ziri ezi. Enwere ike iji nke a mee ihe.

Dabere na nke a, Roman Soloviev weputara metrik, anyị na-akpọ ya Proxy Score, nke jikọtara nke ọma na bọọdụ ndu. Isi ihe bụ: ị na-eme amụma, buru n'elu 1 nke ndị amụma gị wee gụọ ọnụ ọgụgụ nke ihe maka klaasị ọ bụla. Na-esote, wepụ 330 na uru ọ bụla wee gbakwunye ụkpụrụ zuru oke nke ga-esi na ya pụta.

E nwetara ụkpụrụ ndị a. Nke a nyeere anyị aka ịghara ịmepụta bọọdụ ndị na-enyocha nyocha, kama iji kwado na mpaghara wee họrọ ọnụọgụgụ maka mkpokọta anyị.

Site na mkpokọta ị nwere ike nweta ọsọ dị otú ahụ. Kedu ihe ọzọ m nwere ike ime? Ka e were ya na i jiri ozi na klaasị na ule gị dabara adaba.

Nhazi ahụ dị iche. Ihe atụ nke otu n'ime ha - itule site na ụmụ okorobịa ndị weere ọnọdụ mbụ.

Gịnị ka anyị mere? Nhazi anyị dị nnọọ mfe, Evgeny Babakhnin tụrụ aro ya. Anyị buru ụzọ hazie amụma anyị site n'elu 1 na ndị a họpụtara ahọpụta site na ha - nke mere na ọnụ ọgụgụ klaasị agafeghị 330. Ma maka ụfọdụ klas ị na-ejedebe na ihe na-erughị 330 amụma amụma. , na anyị ga-ahọpụtakwa ndị ga-aga.

Olee otú nguzozi anyị si dị iche na nguzozi nke ebe mbụ? Ha na-eji usoro nkwuwa okwu, na-ewere klaasị kachasị ewu ewu ma na-ebelata ohere maka klaasị ahụ site na ọnụ ọgụgụ dị nta ruo mgbe klas ahụ abụghịzi nke ewu ewu. Anyị weere klas kacha ewu ewu na-esote. Ya mere, ha nọgidere na-eweda ha ala ruo mgbe ọnụ ọgụgụ nke klaasị niile hà nhata.

Onye ọ bụla na-eji gbakwunyere ma ọ bụ wepụrụ otu ụzọ maka netwọk ụgbọ oloko, mana ọ bụghị onye ọ bụla na-eji nhazi. Iji nguzozi, ị nwere ike ịbanye n'ime ọla edo, ma ọ bụrụ na ị nwere chi ọma, wee banye ego.

Kedu ka esi edozi ụbọchị? Onye ọ bụla na-ebu ụzọ mee ụbọchị ahụ, gbakwunyere ma ọ bụ mwepu, n'otu ụzọ ahụ - na-emepụta ihe ndị e ji aka mee, na-agbalị ịmepụta oge dị iche iche na agba strok, wdg Alexey Nozdrin-Plotnitsky, bụ onye weere 8th ebe, kwuru banyere nke a.

Nhazi nke eserese ejiri aka dee. Kpọọ akụkọ na Yandex

O mere ya n'ụzọ dị iche. O kwuru na ihe ndị a niile ejiri aka rụọ nke gị anaghị arụ ọrụ, ọ dịghị mkpa ka ị mee nke ahụ, netwọk gị kwesịrị ịmụta ihe a niile n'onwe ya. Ma kama, o weputara modul mmụta nke bu ụzọ hazie data gị. Ọ tụbara data mbụ n'ime ha n'ebughị ụzọ rụọ ọrụ - nhazi oge na oge.

Mgbe ahụ, o were ihe dị iche na-adabere na nhazi, na nkezi ya niile dabere na oge. O wee wepụta matrix dị ogologo karịa. O tinyere 1D convolution na ya ọtụtụ ugboro iji nweta matriks nke nha 64xn, ebe n bụ ọnụ ọgụgụ nke isi ihe, na 64 mere iji nye nri matrix na-esi na ya pụta na oyi akwa nke netwọk mgbagwoju anya ọ bụla, nke na-anabata ọnụ ọgụgụ nke ọwa. - 64. o nwetara 64xn matrix, mgbe ahụ, site na nke a, ọ dị mkpa ịmepụta tensor nke ụfọdụ size nke mere na ọnụ ọgụgụ nke ọwa hà nhata 64. O normalized ihe niile X, Y na nso si 0 ka 32 mepụta a tensor nke nha 32x32. Amaghị m ihe kpatara o jiri chọọ 32x32, ọ mere otu ahụ. Na nhazi a, o debere iberibe matriks nke nha 64xn. Yabụ na ọ kwụsịrị na tensor 32x32x64 nke ị nwere ike itinye n'ihu na netwọkụ akwara ozi gị. Nke ahụ bụ ihe m chọrọ ikwu.

isi: www.habr.com

Tinye a comment