Մեծ հադրոնային կոլայդեր և Օդնոկլասնիկի

Շարունակելով Habré-ում մեքենայական ուսուցման մրցույթների թեման, մենք կցանկանայինք ընթերցողներին ներկայացնել ևս երկու հարթակներ: Նրանք, իհարկե, այնքան հսկայական չեն, որքան kaggle-ը, բայց նրանք անպայման արժանի են ուշադրության:

Մեծ հադրոնային կոլայդեր և Օդնոկլասնիկի

Անձամբ ես շատ չեմ սիրում կատաղել մի քանի պատճառներով.

  • նախ, այնտեղ մրցույթները հաճախ տևում են մի քանի ամիս, և ակտիվ մասնակցությունը մեծ ջանք է պահանջում.
  • երկրորդ՝ հանրային միջուկներ (հանրային լուծումներ)։ Kaggle-ի հետևորդները խորհուրդ են տալիս նրանց վերաբերվել տիբեթյան վանականների հանգստությամբ, բայց իրականում շատ ամոթ է, երբ մի բան, որի վրա աշխատել ես մեկ-երկու ամիս, հանկարծ պարզվում է, որ բոլորի համար դրված է արծաթե սկուտեղի վրա:

Բարեբախտաբար, մեքենայական ուսուցման մրցույթներ անցկացվում են այլ հարթակներում, և այս մրցույթներից մի քանիսը կքննարկվեն:

IDAO SNA Հեքըթոն 2019
Պաշտոնական լեզու՝ անգլերեն,
կազմակերպիչներ՝ Yandex, Sberbank, HSE
Պաշտոնական ռուսաց լեզու,
կազմակերպիչներ՝ Mail.ru Group
Առցանց փուլ՝ հունվարի 15 — փետրվարի 11, 2019;
Եզրափակիչ տեղում՝ 4 թվականի ապրիլի 6-2019
առցանց - փետրվարի 7-ից մարտի 15-ը;
անցանց - մարտի 30-ից ապրիլի 1-ը:
Օգտագործելով մեծ հադրոնային կոլայդերում գտնվող մասնիկի մասին որոշակի տվյալներ (ուղիղ, իմպուլս և այլ բավականին բարդ ֆիզիկական պարամետրեր), որոշեք՝ արդյոք այն մյուոն է, թե ոչ։
Այս հայտարարությունից բացահայտվել է 2 խնդիր.
- մեկում դուք պարզապես պետք է ուղարկեք ձեր կանխատեսումը,
- իսկ մյուսում` կանխատեսման ամբողջական կոդը և մոդելը, և կատարումը ենթակա էր բավականին խիստ սահմանափակումների գործարկման ժամանակի և հիշողության օգտագործման վերաբերյալ:
SNA Hackathon մրցույթի համար հավաքագրվել են 2018 թվականի փետրվար-մարտ ամիսների օգտատերերի նորությունների հոսքերում բաց խմբերից ցուցադրվող բովանդակության տեղեկամատյանները: Թեստային հավաքածուն պարունակում է մարտի վերջին մեկուկես շաբաթը: Մատյանում յուրաքանչյուր գրառում պարունակում է տեղեկատվություն այն մասին, թե ինչ է ցուցադրվել և ում, ինչպես նաև ինչպես է օգտատերը արձագանքել այս բովանդակությանը.
SNA Hackathon-ի առաջադրանքների էությունն այն է, որ Odnoklassniki սոցիալական ցանցի յուրաքանչյուր օգտատեր դասակարգի իր հոսքը՝ հնարավորինս բարձր բարձրացնելով այն գրառումները, որոնք կստանան «դաս»:
Առցանց փուլում առաջադրանքը բաժանվեց 3 մասի.
1. դասակարգել պաշտոնները՝ ըստ տարբեր համագործակցային հատկանիշների
2. դասակարգել գրառումները՝ հիմնվելով դրանց պարունակած պատկերների վրա
3. դասակարգել հաղորդագրությունները ըստ դրանց պարունակած տեքստի
Բարդ հարմարեցված չափումներ, ROC-AUC-ի նման մի բան Օգտագործողի կողմից միջին ROC-AUC
Առաջին փուլի մրցանակներ՝ N տեղի համար նախատեսված շապիկներ, անցում դեպի երկրորդ փուլ, որտեղ մրցույթի ընթացքում վճարվել է գիշերակաց և սնունդ.
Երկրորդ փուլ - ??? (Որոշակի պատճառներով ես ներկա չէի մրցանակաբաշխությանը և չկարողացա պարզել, թե ի վերջո ինչ մրցանակներ են եղել): Հաղթող թիմի բոլոր անդամներին նոութբուքեր են խոստացել
Մրցանակներ առաջին փուլի համար՝ շապիկներ 100 լավագույն մասնակիցների համար, անցում դեպի երկրորդ փուլ, որտեղ վճարվել է ճանապարհորդություն Մոսկվա, կացարան և սնունդ մրցույթի ընթացքում։ Նաև առաջին փուլի ավարտին հայտարարվեցին մրցանակներ 3-ին փուլում 1 առաջադրանքներից լավագույնների համար. բոլորը շահեցին RTX 2080 TI վիդեո քարտ:
Երկրորդ փուլը թիմային էր, թիմերը բաղկացած էին 2-ից 5 հոգուց, մրցանակներ.
1-ին տեղ - 300 ռուբլի
2-ին տեղ - 200 ռուբլի
3-ին տեղ - 100 ռուբլի
ժյուրիի մրցանակ - 100 ռուբլի
Պաշտոնական հեռագրային խումբ, ~190 մասնակից, հաղորդակցություն անգլերենով, հարցերը պետք է մի քանի օր սպասեին պատասխանին Պաշտոնական խումբ հեռագրում, ~1500 մասնակից, առաջադրանքների ակտիվ քննարկում մասնակիցների և կազմակերպիչների միջև
Կազմակերպիչները տրամադրել են երկու հիմնական լուծում՝ պարզ և առաջադեմ։ Simple-ը պահանջում էր 16 ԳԲ-ից պակաս RAM, իսկ առաջադեմ հիշողությունը չէր տեղավորվում 16-ի մեջ: Միևնույն ժամանակ, մի փոքր առաջ նայելով, մասնակիցները չկարողացան զգալիորեն գերազանցել առաջադեմ լուծումը։ Այս լուծումները գործարկելիս դժվարություններ չեն եղել։ Հարկ է նշել, որ առաջադեմ օրինակում կար մեկնաբանություն՝ ակնարկով, թե որտեղից սկսել լուծումը բարելավելը։ Առաջադրանքներից յուրաքանչյուրի համար տրվել են հիմնական պարզունակ լուծումներ, որոնք հեշտությամբ հաղթահարել են մասնակիցները։ Մրցույթի առաջին օրերին մասնակիցները բախվեցին մի քանի դժվարությունների. նախ՝ տվյալները տրվեցին Apache Parquet ձևաչափով, և Python-ի և մանրահատակի փաթեթի ոչ բոլոր համակցություններն էին աշխատում առանց սխալների։ Երկրորդ դժվարությունը փոստի ամպից նկարներ ներբեռնելն էր, այս պահին մեծ քանակությամբ տվյալներ միանգամից ներբեռնելու հեշտ միջոց չկա: Արդյունքում այս խնդիրները մի քանի օրով հետաձգեցին մասնակիցներին։

IDAO. Առաջին փուլ

Խնդիրն էր դասակարգել մյուոն/ոչ մյուոն մասնիկները՝ ըստ նրանց բնութագրերի։ Այս առաջադրանքի հիմնական առանձնահատկությունը մարզումների տվյալների մեջ քաշի սյունակի առկայությունն էր, որը կազմակերպիչներն իրենք մեկնաբանեցին որպես վստահություն այս տողի պատասխանի նկատմամբ: Խնդիրն այն էր, որ բավականին մի շարք շարքեր պարունակում էին բացասական կշիռներ:

Մեծ հադրոնային կոլայդեր և Օդնոկլասնիկի

Մի քանի րոպե ակնարկով գծի մասին մտածելուց հետո (ակնարկը պարզապես ուշադրություն հրավիրեց քաշի սյունակի այս հատկանիշի վրա) և կառուցելով այս գրաֆիկը, մենք որոշեցինք ստուգել 3 տարբերակ.

1) շրջել բացասական կշիռներով գծերի թիրախը (և համապատասխանաբար կշիռները)
2) կշիռները տեղափոխել նվազագույն արժեքի, որպեսզի սկսեն 0-ից
3) մի օգտագործեք լարային կշիռներ

Երրորդ տարբերակը վատագույնը ստացվեց, բայց առաջին երկուսը բարելավեցին արդյունքը, լավագույնը թիվ 1 տարբերակն էր, որն անմիջապես առաջին առաջադրանքում մեզ բերեց ներկայիս երկրորդ տեղ, իսկ երկրորդում՝ առաջին։
Մեծ հադրոնային կոլայդեր և Օդնոկլասնիկի
Մեր հաջորդ քայլը բացակայող արժեքների տվյալների վերանայումն էր: Կազմակերպիչները մեզ տվեցին արդեն սանրված տվյալներ, որտեղ բավական քիչ արժեքներ կային, և դրանք փոխարինվեցին -9999-ով։

Մենք գտանք բացակայող արժեքներ MatchedHit_{X,Y,Z}[N] և MatchedHit_D{X,Y,Z}[N] սյունակներում և միայն այն դեպքում, երբ N=2 կամ 3: Ինչպես հասկանում ենք, որոշ մասնիկներ անցեք բոլոր 4 դետեկտորները և կանգ առավ կամ 3-րդ կամ 4-րդ ափսեի վրա: Տվյալները պարունակում էին նաև Lextra_{X,Y}[N] սյունակներ, որոնք, ըստ երևույթին, նկարագրում են նույնը, ինչ MatchedHit_{X,Y,Z}[N], սակայն օգտագործելով ինչ-որ էքստրապոլացիա: Այս չնչին ենթադրությունները հուշում էին, որ Lextra_{X,Y}[N]-ը կարող է փոխարինվել MatchedHit_{X,Y,Z}[N]-ում բացակայող արժեքներով (միայն X և Y կոորդինատների համար): MatchedHit_Z[N]-ը լավ լրացված էր միջինով: Այս մանիպուլյացիաները թույլ տվեցին մեզ հասնել 1-ին միջանկյալ տեղ երկու առաջադրանքներում:

Մեծ հադրոնային կոլայդեր և Օդնոկլասնիկի

Հաշվի առնելով, որ նրանք ոչինչ չտվեցին առաջին փուլում հաղթելու համար, մենք կարող էինք կանգ առնել այնտեղ, բայց շարունակեցինք, նկարեցինք գեղեցիկ նկարներ և հայտնվեցինք նոր հատկանիշներով։

Մեծ հադրոնային կոլայդեր և Օդնոկլասնիկի

Օրինակ, մենք գտանք, որ եթե գծագրենք մասնիկի հատման կետերը չորս դետեկտորային թիթեղներից յուրաքանչյուրի հետ, ապա կարող ենք տեսնել, որ թիթեղներից յուրաքանչյուրի կետերը խմբավորված են 5 ուղղանկյունների մեջ՝ 4-ից 5 հարաբերակցությամբ և կենտրոնացած կետը (0,0), իսկ առաջին ուղղանկյունում կետեր չկան:

Ափսեի թիվ / ուղղանկյունի չափսերը 1 2 3 4 5
Ափսե 1 500 × 625 1000 × 1250 2000 × 2500 4000 × 5000 8000 × 10000
Ափսե 2 520 × 650 1040 × 1300 2080 × 2600 4160 × 5200 8320 × 10400
Ափսե 3 560 × 700 1120 × 1400 2240 × 2800 4480 × 5600 8960 × 11200
Ափսե 4 600 × 750 1200 × 1500 2400 × 3000 4800 × 6000 9600 × 12000

Այս չափերը որոշելով՝ մենք յուրաքանչյուր մասնիկի համար ավելացրինք 4 նոր դասակարգային հատկանիշ՝ ուղղանկյունի թիվը, որով այն հատում է յուրաքանչյուր ափսե:

Մեծ հադրոնային կոլայդեր և Օդնոկլասնիկի

Մենք նաև նկատեցինք, որ մասնիկները կարծես կենտրոնից ցրվեցին դեպի կողքերը, և միտք առաջացավ ինչ-որ կերպ գնահատել այս ցրման «որակը»: Իդեալում, հավանաբար, հնարավոր կլիներ ինչ-որ «իդեալական» պարաբոլա ստեղծել՝ կախված թռիչքի կետից և գնահատել շեղումը դրանից, բայց մենք սահմանափակվեցինք «իդեալական» ուղիղ գծով: Յուրաքանչյուր մուտքի կետի համար կառուցելով նման իդեալական ուղիղ գծեր՝ մենք կարողացանք հաշվարկել յուրաքանչյուր մասնիկի հետագծի ստանդարտ շեղումը այս ուղիղ գծից: Քանի որ թիրախ = 1-ի միջին շեղումը 152 էր, իսկ թիրախ = 0-ի համար՝ 390, մենք փորձնականորեն գնահատեցինք այս հատկանիշը որպես լավ: Եվ իսկապես, այս հատկանիշը անմիջապես հասավ ամենաօգտակարների գագաթին:

Մենք ուրախացանք և ավելացրինք յուրաքանչյուր մասնիկի բոլոր 4 հատման կետերի շեղումը իդեալական ուղիղ գծից՝ որպես լրացուցիչ 4 հատկանիշ (և դրանք նույնպես լավ աշխատեցին):

Մրցույթի թեմայի վերաբերյալ գիտական ​​հոդվածների հղումները, որոնք մեզ տրամադրել էին կազմակերպիչները, հուշում էին, որ մենք հեռու ենք այս խնդիրը լուծելու առաջիններից և, հավանաբար, կա ինչ-որ մասնագիտացված ծրագրակազմ: Գիթհուբում հայտնաբերելով պահեստ, որտեղ ներդրվել են IsMuonSimple, IsMuon, IsMuonLoose մեթոդները, մենք դրանք տեղափոխեցինք մեր կայք՝ չնչին փոփոխություններով: Մեթոդներն իրենք շատ պարզ էին. օրինակ, եթե էներգիան որոշակի շեմից փոքր է, ապա այն մյուոն չէ, այլապես մյուոն է։ Նման պարզ հատկանիշներն ակնհայտորեն չէին կարող բարձրացնել գրադիենտ խթանման դեպքում, ուստի մենք ավելացրինք ևս մեկ նշանակալի «հեռավորություն» շեմին: Այս հատկանիշները նույնպես մի փոքր բարելավվել են: Թերևս, ավելի մանրակրկիտ վերլուծելով գոյություն ունեցող մեթոդները, հնարավոր եղավ գտնել ավելի ուժեղ մեթոդներ և դրանք ավելացնել նշաններին։

Մրցույթի վերջում մենք փոքր-ինչ շտկեցինք երկրորդ խնդրի «արագ» լուծումը, ի վերջո այն տարբերվեց բազայինից հետևյալ կետերով.

  1. Բացասական քաշ ունեցող շարքերում թիրախը շրջվել է
  2. Լրացվեց բաց թողնված արժեքները MatchedHit_{X,Y,Z}[N]-ում
  3. Նվազեցված խորությունը մինչև 7
  4. Կրճատվել է ուսուցման մակարդակը մինչև 0.1 (0.19 էր)

Արդյունքում, մենք փորձեցինք ավելի շատ գործառույթներ (ոչ այնքան հաջող), ընտրեցինք պարամետրեր և վարժեցրինք catboost, lightgbm և xgboost, փորձեցինք կանխատեսումների տարբեր խառնուրդներ և նախքան մասնավորը բացելը մենք վստահորեն հաղթեցինք երկրորդ առաջադրանքում, իսկ առաջինում մենք հայտնվեցինք մասնակիցների թվում: առաջնորդներ.

Մասնավորը բացելուց հետո 10-ին առաջադրանքի համար 1-րդ տեղում էինք, իսկ երկրորդում՝ 3-րդ տեղում: Բոլոր առաջատարները խառնվեցին իրար, և մասնավորի արագությունն ավելի բարձր էր, քան տախտակի վրա: Թվում է, որ տվյալները վատ շերտավորված էին (կամ, օրինակ, մասնավորում բացասական կշիռներով տողեր չկային) և սա մի փոքր հիասթափեցնող էր:

SNA Hackathon 2019 - Տեքստեր. Առաջին փուլ

Խնդիրն այն էր, որ «Օդնոկլասնիկի» սոցիալական ցանցում օգտատերերի գրառումները դասակարգվեն՝ ելնելով դրանց պարունակած տեքստից, բացի տեքստից, կային գրառման ևս մի քանի բնութագրեր (լեզուն, սեփականատերը, ստեղծման ամսաթիվը և ժամը, դիտման ամսաթիվը և ժամը: )

Որպես տեքստի հետ աշխատելու դասական մոտեցում, ես կառանձնացնեի երկու տարբերակ.

  1. Յուրաքանչյուր բառի քարտեզագրում n-չափ վեկտորային տարածության մեջ այնպես, որ նմանատիպ բառերն ունենան նմանատիպ վեկտորներ (կարդալ ավելին այստեղ մեր հոդվածը), այնուհետև կամ գտնել տեքստի միջին բառը, կամ օգտագործել մեխանիզմներ, որոնք հաշվի են առնում բառերի հարաբերական դիրքը (CNN, LSTM/GRU):
  2. Օգտագործելով մոդելներ, որոնք կարող են անմիջապես աշխատել ամբողջ նախադասությունների հետ: Օրինակ՝ Բերտը։ Տեսականորեն այս մոտեցումը պետք է ավելի լավ աշխատի:

Քանի որ սա իմ առաջին փորձն էր տեքստերի հետ, սխալ կլինի ինչ-որ մեկին սովորեցնել, ուստի ես ինքս կսովորեցնեմ: Սրանք այն խորհուրդներն են, որոնք ես ինքս ինձ կտայի մրցույթի սկզբում.

  1. Նախքան ինչ-որ բան սովորեցնելու վազելը, նայեք տվյալներին: Բացի բուն տեքստից, տվյալները ունեին մի քանի սյունակներ, և դրանցից հնարավոր էր շատ ավելին քամել, քան ես: Ամենապարզ բանը որոշ սյունակների համար թիրախային կոդավորում անելն է:
  2. Մի սովորեք բոլոր տվյալների վրա: Տվյալները շատ էին (մոտ 17 միլիոն տող) և բացարձակապես անհրաժեշտ չէր օգտագործել դրանք բոլորը վարկածները ստուգելու համար։ Ուսուցումն ու նախնական մշակումը բավականին դանդաղ էին, և ես ակնհայտորեն ժամանակ կունենայի փորձարկել ավելի հետաքրքիր վարկածներ:
  3. <Հակասական խորհուրդ> Պետք չէ մարդասպան մոդել փնտրել: Ես երկար ժամանակ պարզեցի Էլմոյին և Բերտին, հուսալով, որ նրանք ինձ անմիջապես կհասցնեն բարձր տեղ, և արդյունքում ես օգտագործեցի FastText նախապես պատրաստված ներկառուցումներ ռուսաց լեզվի համար։ Էլմոյի հետ ես չկարողացա ավելի լավ արագության հասնել, և դեռ ժամանակ չունեի Բերտի հետ պարզելու դա:
  4. <Հակասական խորհուրդ> Կարիք չկա փնտրել մեկ մարդասպան հատկանիշ: Տվյալներին նայելով՝ ես նկատեցի, որ տեքստերի մոտ 1 տոկոսն իրականում տեքստ չի պարունակում: Բայց կային հղումներ դեպի որոշ ռեսուրսներ, և ես գրեցի մի պարզ վերլուծիչ, որը բացեց կայքը և հանեց վերնագիրը և նկարագրությունը: Թվում էր, թե լավ գաղափար էր, բայց հետո ես տարվեցի և որոշեցի վերլուծել բոլոր տեքստերի բոլոր հղումները և նորից շատ ժամանակ կորցրի: Այս ամենը վերջնական արդյունքի էական բարելավում չտվեց (չնայած, օրինակ, ես հասկացա ցողունը):
  5. Դասական հատկանիշներն աշխատում են: Մենք Google-ում, օրինակ, «տեքստի առանձնահատկությունները kaggle», կարդում և ավելացնում ենք ամեն ինչ: TF-IDF-ն բարելավեց, ինչպես նաև վիճակագրական առանձնահատկությունները, ինչպիսիք են տեքստի երկարությունը, բառերը և կետադրական նշանների քանակը:
  6. Եթե ​​կան DateTime սյունակներ, ապա արժե դրանք վերլուծել մի քանի առանձին հատկանիշների (շաբաթվա ժամեր, օրեր և այլն): Որ հատկանիշները պետք է ընդգծվեն, պետք է վերլուծվեն գրաֆիկների/որոշ չափումների միջոցով: Այստեղ, քմահաճույքով, ես ամեն ինչ ճիշտ արեցի և կարևորեցի անհրաժեշտ հատկանիշները, բայց նորմալ վերլուծությունը չէր խանգարի (օրինակ, ինչպես արեցինք եզրափակիչում):

Մեծ հադրոնային կոլայդեր և Օդնոկլասնիկի

Մրցույթի արդյունքում ես վերապատրաստեցի մեկ keras մոդել բառի կոնվուլյացիայով, ևս մեկը՝ հիմնված LSTM-ի և GRU-ի վրա։ Նրանք երկուսն էլ օգտագործում էին ռուսաց լեզվի համար նախապես պատրաստված FastText ներկառուցումներ (ես փորձեցի մի շարք այլ ներկառուցումներ, բայց դրանք ամենալավն էին աշխատում): Կանխատեսումները միջինացնելուց հետո 7 մասնակիցների մեջ գրավեցի վերջնական 76-րդ տեղը։

Առաջին փուլից հետո տպագրվել է Նիկոլայ Անոխինի հոդվածը, ով զբաղեցրել է երկրորդ տեղը (նա մասնակցել է մրցակցությունից դուրս), և նրա լուծումը մինչև ինչ-որ փուլ կրկնել է իմը, բայց նա ավելի հեռուն է գնացել՝ շնորհիվ query-key-value ուշադրության մեխանիզմի։

Երկրորդ փուլ OK & IDAO

Մրցումների երկրորդ փուլերը տեղի ունեցան գրեթե անընդմեջ, ուստի որոշեցի դրանք միասին նայել։

Նախ, ես և նոր ձեռք բերված թիմը հայտնվեցինք Mail.ru ընկերության տպավորիչ գրասենյակում, որտեղ մեր խնդիրն էր համատեղել առաջին փուլի երեք թրեքների մոդելները՝ տեքստ, նկարներ և համագործակցություն: Սրա համար 2 օրից մի փոքր ավելի է հատկացվել, որը շատ քիչ է ստացվել։ Փաստորեն, մենք կարողացանք կրկնել մեր արդյունքները միայն առաջին փուլից՝ չստանալով որևէ շահույթ միավորումից։ Ի վերջո զբաղեցրինք 5-րդ տեղը, բայց չկարողացանք օգտագործել տեքստային մոդելը։ Մյուս մասնակիցների լուծումները նայելուց հետո, թվում է, թե արժեր փորձել խմբավորել տեքստերը և ավելացնել դրանք կոլաբ մոդելի մեջ։ Այս փուլի կողմնակի ազդեցությունն էր նոր տպավորությունները, հանդիպումն ու շփումը զով մասնակիցների և կազմակերպիչների հետ, ինչպես նաև քնի խիստ պակասը, ինչը կարող էր ազդել IDAO-ի եզրափակիչ փուլի արդյունքի վրա:

IDAO 2019-ի եզրափակիչ փուլում խնդիրն էր կանխատեսել օդանավակայանում Yandex տաքսու վարորդների պատվերի սպասման ժամանակը։ 2-րդ փուլում բացահայտվել են 3 առաջադրանքներ = 3 օդանավակայան: Յուրաքանչյուր օդանավակայանի համար տրվում են րոպե առ րոպե տվյալներ վեց ամսվա համար տաքսիների պատվերների քանակի վերաբերյալ։ Եվ որպես թեստային տվյալներ տրվեցին հաջորդ ամսվա և րոպե առ րոպե տվյալները վերջին 2 շաբաթվա պատվերների վերաբերյալ։ Ժամանակը քիչ էր (1,5 օր), առաջադրանքը բավականին կոնկրետ էր, թիմից միայն մեկ հոգի էր եկել մրցույթի, և արդյունքում տխուր տեղ էր մինչև վերջ։ Հետաքրքիր գաղափարները ներառում էին արտաքին տվյալների օգտագործման փորձեր՝ եղանակ, խցանումներ և Yandex տաքսիների պատվերի վիճակագրություն: Թեև կազմակերպիչները չեն նշել, թե որոնք են այդ օդանավակայանները, սակայն շատ մասնակիցներ ենթադրել են, որ դրանք Շերեմետևոն, Դոմոդեդովոն և Վնուկովոն են։ Թեև մրցույթից հետո այս ենթադրությունը հերքվեց, որոշ առանձնահատկություններ, օրինակ, մոսկովյան եղանակի տվյալները բարելավեցին արդյունքները և՛ վավերացման, և՛ առաջատարների վրա:

Ամփոփում

  1. ML մրցույթները զով և հետաքրքիր են: Այստեղ դուք կգտնեք հմտությունների կիրառում տվյալների վերլուծության, խորամանկ մոդելների և տեխնիկայի մեջ, և պարզապես ողջախոհությունը ողջունելի է:
  2. ML-ն արդեն գիտելիքի հսկայական զանգված է, որը կարծես թե աճում է էքսպոնենցիալ: Ես իմ առջեւ նպատակ դրեցի ծանոթանալ տարբեր ոլորտների (ազդանշաններ, նկարներ, աղյուսակներ, տեքստ) և արդեն հասկացա, թե որքան շատ բան կա ուսումնասիրելու։ Օրինակ, այս մրցույթներից հետո ես որոշեցի ուսումնասիրել՝ կլաստերավորման ալգորիթմներ, գրադիենտ խթանող գրադարանների հետ աշխատելու առաջադեմ տեխնիկա (մասնավորապես՝ CatBoost-ի հետ աշխատել GPU-ի վրա), կապսուլային ցանցեր, հարցում-բանալին-արժեքի ուշադրության մեխանիզմ:
  3. Ոչ թե մենակ քամու միջոցով: Կան բազմաթիվ այլ մրցույթներ, որտեղ ավելի հեշտ է ձեռք բերել գոնե շապիկ, իսկ այլ մրցանակների համար ավելի շատ հնարավորություններ կան:
  4. Շփվեք Արդեն մեծ համայնք կա մեքենայական ուսուցման և տվյալների վերլուծության ոլորտում, կան թեմատիկ խմբեր Telegram-ում, Slack-ում, իսկ Mail.ru-ից, Yandex-ից և այլ ընկերություններից լուրջ մարդիկ պատասխանում են հարցերին և օգնում սկսնակներին և այս ոլորտում իրենց ճանապարհը շարունակողներին։ գիտելիքի։
  5. Բոլորին, ովքեր ոգեշնչվել են նախորդ կետով, խորհուրդ եմ տալիս այցելել տվյալների փառատոն — խոշոր անվճար համաժողով Մոսկվայում, որը տեղի կունենա մայիսի 10-11-ը։

Source: www.habr.com

Добавить комментарий