Պավել Կլեմենկով, NVIDIA. Մենք փորձում ենք նվազեցնել այն բացը, թե ինչ կարող է անել տվյալների գիտնականը և ինչ նա պետք է կարողանա անել:

Տվյալների գիտության և բիզնեսի հետախուզության Ozon Masters-ի մագիստրոսական ծրագրի ուսանողների երկրորդ ընդունելությունը սկսվել է, և որպեսզի ավելի դյուրին լինի դիմում թողնել և առցանց թեստ հանձնել, մենք ծրագրի ուսուցիչներին հարցրինք, թե ինչ սպասել սովորելուց և աշխատելուց: տվյալների հետ։

Պավել Կլեմենկով, NVIDIA. Մենք փորձում ենք նվազեցնել այն բացը, թե ինչ կարող է անել տվյալների գիտնականը և ինչ նա պետք է կարողանա անել: Տվյալների գլխավոր գիտնական NVIDIA և ուսուցիչ Մեծ տվյալների և տվյալների ճարտարագիտության դասընթացներ Պավել Կլեմենկովը խոսեց այն մասին, թե ինչու մաթեմատիկոսները պետք է ծածկագրեր գրեն և երկու տարի սովորեն Ozon Masters-ում։

— Շա՞տ ընկերություններ կան, որոնք օգտագործում են տվյալների գիտության ալգորիթմներ:

-Իրականում բավականին շատ: Բավականին մեծ ընկերություններ, որոնք իսկապես մեծ տվյալներ ունեն, կամ սկսում են արդյունավետ աշխատել դրա հետ, կամ երկար ժամանակ աշխատում են դրա հետ: Հասկանալի է, որ շուկայի կեսն օգտագործում է տվյալներ, որոնք կարող են տեղավորվել Excel աղյուսակի մեջ կամ կարող են հաշվարկվել մեծ սերվերի վրա, բայց չի կարելի ասել, որ կան միայն մի քանի բիզնեսներ, որոնք կարող են աշխատել տվյալների հետ:

— Մի փոքր պատմեք այն նախագծերի մասին, որտեղ օգտագործվում է տվյալների գիտությունը։

— Օրինակ, Rambler-ում աշխատելու ժամանակ մենք ստեղծում էինք գովազդային համակարգ, որն աշխատում էր RTB-ի (Իրական ժամանակում սակարկությունների) սկզբունքների վրա. մեզ անհրաժեշտ էր ստեղծել բազմաթիվ մոդելներ, որոնք կօպտիմալացնեին գովազդի գնումը կամ, օրինակ, կարող էին կանխատեսել հավանականությունը։ մի սեղմում, փոխակերպում և այլն: Միևնույն ժամանակ, գովազդային աճուրդը առաջացնում է շատ տվյալներ՝ կայքի հարցումների տեղեկամատյաններ պոտենցիալ գովազդային գնորդներին, գովազդային տպավորությունների տեղեկամատյաններ, կտտոցների տեղեկամատյաններ. սա օրական տասնյակ տերաբայթ տվյալ է:

Ավելին, այս առաջադրանքների համար մենք նկատեցինք մի հետաքրքիր երևույթ. որքան շատ տվյալներ եք տալիս մոդելը վարժեցնելու համար, այնքան բարձր է դրա որակը։ Սովորաբար, որոշակի քանակությամբ տվյալներից հետո կանխատեսման որակը դադարում է բարելավվել, և ճշգրտությունը հետագայում բարելավելու համար անհրաժեշտ է օգտագործել սկզբունքորեն այլ մոդել, տվյալների, առանձնահատկությունների պատրաստման այլ մոտեցում և այլն: Այստեղ մենք ավելի շատ տվյալներ ենք վերբեռնել, և որակը բարձրացել է:

Սա տիպիկ դեպք է, երբ վերլուծաբանները, առաջին հերթին, պետք է աշխատեին տվյալների մեծ հավաքածուներով, որպեսզի գոնե փորձ կատարեին, և որտեղ անհնար էր յոլա գնալ փոքր նմուշով, որը տեղավորվում է հարմարավետ MacBook-ում: Միաժամանակ, մեզ պետք էին բաշխված մոդելներ, քանի որ հակառակ դեպքում նրանք չէին կարող վերապատրաստվել։ Համակարգչային տեսողության ներմուծմամբ արտադրության մեջ նման օրինակներն ավելի տարածված են դառնում, քանի որ նկարները մեծ քանակությամբ տվյալներ են, և մեծ մոդել պատրաստելու համար անհրաժեշտ են միլիոնավոր նկարներ:

Անմիջապես հարց է ծագում՝ ինչպես պահել այս ամբողջ տեղեկատվությունը, ինչպես արդյունավետ մշակել այն, ինչպես օգտագործել բաշխված ուսուցման ալգորիթմները. ուշադրությունը մաքուր մաթեմատիկայից տեղափոխվում է ճարտարագիտության: Նույնիսկ եթե դուք չեք գրում կոդ արտադրության մեջ, դուք պետք է կարողանաք աշխատել ինժեներական գործիքների հետ՝ փորձ անցկացնելու համար:

— Ինչպե՞ս է փոխվել մոտեցումը տվյալների գիտության թափուր աշխատատեղերի նկատմամբ վերջին տարիներին:

— Մեծ տվյալները դադարել են հիպ լինելուց և իրականություն են դարձել։ Կոշտ սկավառակները բավականին էժան են, ինչը նշանակում է, որ հնարավոր է հավաքել բոլոր տվյալները, որպեսզի ապագայում բավական լինի ցանկացած վարկած ստուգելու համար։ Արդյունքում մեծ ժողովրդականություն է վայելում մեծ տվյալների հետ աշխատելու գործիքների մասին գիտելիքները, և արդյունքում ավելի ու ավելի շատ թափուր աշխատատեղեր են հայտնվում տվյալների ինժեներների համար։

Իմ պատկերացմամբ տվյալների գիտնականի աշխատանքի արդյունքը փորձ չէ, այլ արտադրանք, որը հասել է արտադրության: Եվ հենց այս տեսանկյունից, մինչև մեծ տվյալների շուրջ աղմուկի հայտնվելը, գործընթացն ավելի պարզ էր. ինժեներները զբաղվում էին մեքենայական ուսուցմամբ՝ կոնկրետ խնդիրներ լուծելու համար, և ալգորիթմները արտադրություն բերելու հետ կապված խնդիրներ չկային:

- Ի՞նչ է անհրաժեշտ պահանջված մասնագետ մնալու համար:

— Այժմ շատ մարդիկ են եկել տվյալների գիտության, ովքեր ուսումնասիրել են մաթեմատիկա, մեքենայական ուսուցման տեսություն և մասնակցել տվյալների վերլուծության մրցույթներին, որտեղ ապահովված է պատրաստի ենթակառուցվածք. տվյալները մաքրվում են, չափումները սահմանվում են, և չկան։ լուծման վերարտադրելի և արագ լինելու պահանջները:

Արդյունքում տղաները աշխատանքի են գալիս բիզնեսի իրողություններին վատ պատրաստված, և անջրպետ է առաջանում նորեկների և փորձառու մշակողների միջև։

Գործիքների մշակմամբ, որոնք թույլ են տալիս հավաքել ձեր սեփական մոդելը պատրաստի մոդուլներից, և Microsoft-ը, Google-ը և շատ ուրիշներ արդեն ունեն նման լուծումներ, և մեքենայական ուսուցման ավտոմատացման շնորհիվ այս բացը ավելի ընդգծված կդառնա: Հետագայում մասնագիտությունը պահանջված կլինի լուրջ հետազոտողների համար, ովքեր հանդես կգան նոր ալգորիթմներով, և զարգացած ինժեներական հմտություններով աշխատողներ, ովքեր կիրականացնեն մոդելներ և ավտոմատացնեն գործընթացները։ Տվյալների ճարտարագիտության Ozon Masters դասընթացը նախատեսված է զարգացնելու ինժեներական հմտությունները և մեծ տվյալների վրա բաշխված մեքենայական ուսուցման ալգորիթմներ օգտագործելու կարողությունը: Մենք փորձում ենք նվազեցնել այն բացը, թե ինչ կարող է անել տվյալների գիտնականը և ինչ նա պետք է կարողանա անել գործնականում:

— Ինչո՞ւ պետք է դիպլոմով մաթեմատիկոսը գնա բիզնես սովորելու։

— Ռուսական տվյալների գիտության հանրությունը հասկացել է, որ հմտությունն ու փորձը շատ արագ վերածվում են փողի, հետևաբար, հենց որ մասնագետը գործնական փորձ ունի, նրա արժեքը սկսում է շատ արագ աճել, ամենահմուտ մարդիկ շատ թանկ են. ճիշտ է զարգացման շուկայի ներկա պահին:

Տվյալների գիտնականի աշխատանքի մեծ մասը տվյալների մեջ մտնելն է, հասկանալ, թե ինչ կա այնտեղ, խորհրդակցել այն մարդկանց հետ, ովքեր պատասխանատու են բիզնես գործընթացների համար և ստեղծել այդ տվյալները, և միայն դրանից հետո օգտագործել դրանք մոդելներ ստեղծելու համար: Մեծ տվյալների հետ աշխատելու համար չափազանց կարևոր է ունենալ ինժեներական հմտություններ. սա շատ ավելի հեշտ է դարձնում սուր անկյուններից խուսափելը, որոնցից շատերը տվյալների գիտության մեջ կան:

Տիպիկ պատմություն. դուք հարցում եք գրել SQL-ում, որն իրականացվում է մեծ տվյալների վրա աշխատող Hive շրջանակի միջոցով: Հարցումը մշակվում է տասը րոպեում, վատագույն դեպքում՝ մեկ-երկու ժամում, և հաճախ, երբ ստանում ես այս տվյալների ներբեռնումները, հասկանում ես, որ մոռացել ես հաշվի առնել ինչ-որ գործոն կամ լրացուցիչ տեղեկություն։ Դուք պետք է նորից ուղարկեք հարցումը և սպասեք այս րոպեներին և ժամերին: Եթե ​​դուք արդյունավետության հանճար եք, ապա կզբաղվեք մեկ այլ գործով, բայց, ինչպես ցույց է տալիս պրակտիկան, մեզ մոտ քիչ են արդյունավետության հանճարները, և մարդիկ պարզապես սպասում են: Հետևաբար, դասընթացներում մենք շատ ժամանակ կհատկացնենք աշխատանքի արդյունավետությանը, որպեսզի սկզբում գրենք հարցումներ, որոնք աշխատում են ոչ թե երկու ժամ, այլ մի քանի րոպե։ Այս հմտությունը բազմապատկում է արտադրողականությունը, և դրա հետ մեկտեղ մասնագետի արժեքը:

– Ինչպե՞ս է Ozon Masters-ը տարբերվում այլ դասընթացներից:

— Ozon Masters-ը դասավանդվում է Ozon-ի աշխատակիցների կողմից, և առաջադրանքները հիմնված են իրական բիզնես գործերի վրա, որոնք լուծվում են ընկերություններում: Իրականում, բացի ինժեներական հմտությունների պակասից, համալսարանում տվյալների գիտություն սովորած անձը մեկ այլ խնդիր ունի՝ բիզնեսի խնդիրը ձևակերպված է բիզնեսի լեզվով, և դրա նպատակը բավականին պարզ է՝ ավելի շատ գումար աշխատել։ Եվ մաթեմատիկոսը լավ գիտի, թե ինչպես օպտիմալացնել մաթեմատիկական չափումները, բայց դժվար է գտնել ցուցիչ, որը կկապակցի բիզնեսի չափման հետ: Եվ դուք պետք է հասկանաք, որ լուծում եք բիզնեսի խնդիր, և բիզնեսի հետ միասին ձևակերպեք չափումներ, որոնք կարող են մաթեմատիկորեն օպտիմալացվել: Այս հմտությունը ձեռք է բերվում իրական դեպքերի միջոցով, և դրանք տրվում են Օզոնի կողմից։
Եվ եթե նույնիսկ անտեսենք դեպքերը, դպրոցը դասավանդում են բազմաթիվ պրակտիկանտներ, ովքեր բիզնեսի խնդիրներ են լուծում իրական ընկերություններում: Արդյունքում, ուսուցման մոտեցումն ինքնին դեռ ավելի պրակտիկային է: Առնվազն իմ դասընթացի ընթացքում ես կփորձեմ ուշադրությունը տեղափոխել այն, թե ինչպես օգտագործել գործիքները, ինչ մոտեցումներ կան և այլն: Ուսանողների հետ միասին մենք կհասկանանք, որ յուրաքանչյուր խնդիր ունի իր գործիքը, և յուրաքանչյուր գործիք ունի իր կիրառելիության ոլորտը:

— Տվյալների վերլուծության ուսուցման ամենահայտնի ծրագիրը, իհարկե, ShAD-ն է. կոնկրետ ո՞րն է դրա տարբերությունը:

— Հասկանալի է, որ ՇԱԴ-ն ու Օզոն Մագիստրոսները, բացի կրթական գործառույթից, լուծում են կադրերի պատրաստման տեղական խնդիրը։ SHAD-ի լավագույն շրջանավարտները հիմնականում հավաքագրվում են Yandex-ում, բայց կարևորն այն է, որ Yandex-ը, իր առանձնահատկությունների պատճառով, և այն մեծ է և ստեղծվել է այն ժամանակ, երբ մեծ տվյալների հետ աշխատելու լավ գործիքները քիչ էին, ունի իր ենթակառուցվածքը և տվյալների հետ աշխատելու գործիքները: , ինչը նշանակում է, որ դուք պետք է տիրապետեք դրանց։ Ozon Masters-ը այլ ուղերձ ունի. եթե դուք հաջողությամբ յուրացրել եք ծրագիրը, և Ozon-ը կամ այլ ընկերությունների 99%-ից մեկը հրավիրում է ձեզ աշխատելու, շատ ավելի հեշտ կլինի սկսել օգուտ քաղել բիզնեսից. Ozon Masters-ի շրջանակներում ձեռք բերված հմտությունների հավաքածուն: բավական կլինի պարզապես սկսել աշխատել:

— Դասընթացը տևում է երկու տարի։ Ինչու՞ պետք է այդքան շատ ժամանակ ծախսել դրա վրա:

- Լավ հարց է. Դա երկար ժամանակ է պահանջում, քանի որ բովանդակության և ուսուցիչների մակարդակի առումով սա մագիստրոսական ինտեգրալ ծրագիր է, որը տիրապետելու համար շատ ժամանակ է պահանջում, ներառյալ տնային աշխատանքը:

Իմ դասընթացի տեսանկյունից սովորական է ակնկալել, որ ուսանողը շաբաթական 2-3 ժամ ծախսի առաջադրանքների վրա: Նախ, առաջադրանքները կատարվում են ուսումնական կլաստերի վրա, և ցանկացած ընդհանուր կլաստեր ենթադրում է, որ մի քանի հոգի օգտագործում են այն միաժամանակ: Այսինքն, դուք պետք է սպասեք առաջադրանքի կատարմանը, որոշ ռեսուրսներ կարող են ընտրվել և տեղափոխվել ավելի առաջնահերթ հերթ: Մյուս կողմից, մեծ տվյալների հետ ցանկացած աշխատանք շատ ժամանակ է պահանջում:

Եթե ​​ծրագրի վերաբերյալ այլ հարցեր ունեք, մեծ տվյալների հետ աշխատելու կամ ինժեներական հմտությունների հետ կապված, Ozon Masters-ը առցանց բաց օր է անցկացնում շաբաթ օրը՝ ապրիլի 25-ին, ժամը 12:00-ին: Մենք հանդիպում ենք ուսուցիչների և ուսանողների հետ ուղղաձիգ իսկ YouTube.

Source: www.habr.com

Добавить комментарий