Павел Клеменков, NVIDIA: Біз деректер ғалымының не істей алатыны мен не істей алатыны арасындағы алшақтықты азайтуға тырысамыз.

Ozon Masters деректер ғылымы және іскерлік интеллект бойынша магистратура бағдарламасының студенттерін екінші қабылдау басталды - және өтінім қалдыру және онлайн тестілеуден өту туралы шешім қабылдауды жеңілдету үшін біз бағдарлама оқытушыларынан оқу мен жұмыстан не күтуге болатынын сұрадық. деректермен.

Павел Клеменков, NVIDIA: Біз деректер ғалымының не істей алатыны мен не істей алатыны арасындағы алшақтықты азайтуға тырысамыз. NVIDIA бас деректер ғалымы және оқытушы Үлкен деректер және деректер инженериясы бойынша курстар Павел Клеменков математиктерге неліктен код жазып, екі жыл бойы Ozon Masters-те оқу керектігі туралы айтты.

— Деректер ғылымының алгоритмдерін қолданатын компаниялар көп пе?

- Негізі өте көп. Үлкен деректері бар көптеген ірі компаниялар онымен тиімді жұмыс істей бастайды немесе онымен ұзақ уақыт жұмыс істейді. Нарықтың жартысы Excel электрондық кестесіне сәйкес келетін немесе үлкен серверде есептелетін деректерді пайдаланатыны анық, бірақ деректермен жұмыс істей алатын бірнеше бизнес бар деп айтуға болмайды.

— Деректер ғылымы қолданылатын жобалар туралы аздап айтып берсеңіз.

— Мысалы, Rambler-те жұмыс істеген кезде біз RTB (Real Time Bidding) қағидаттары бойынша жұмыс істейтін жарнамалық жүйені жасадық - бізге жарнаманы сатып алуды оңтайландыратын немесе, мысалы, ықтималдылықты болжай алатын көптеген модельдер жасау керек болды. басу, түрлендіру және т.б. Сонымен қатар, жарнамалық аукцион көптеген деректерді қалыптастырады: әлеуетті жарнаманы сатып алушыларға сайт сұрауларының журналдары, жарнамалық әсерлердің журналдары, басу журналдары - бұл күніне ондаған терабайт деректер.

Сонымен қатар, бұл тапсырмалар үшін біз қызықты құбылысты байқадық: модельді үйрету үшін неғұрлым көп деректер берсеңіз, оның сапасы соғұрлым жоғары болады. Әдетте деректердің белгілі бір көлемінен кейін болжамның сапасы жақсаруды тоқтатады және дәлдікті одан әрі жақсарту үшін түбегейлі басқа модельді, деректерді, мүмкіндіктерді және т.б. дайындауға басқа тәсілді қолдану керек. Мұнда біз көбірек деректерді жүктеп, сапасы артты.

Бұл аналитиктерге, ең болмағанда, эксперимент жүргізу үшін, ең алдымен, үлкен деректер жиынтығымен жұмыс істеуге тура келетін және ыңғайлы MacBook-ке сәйкес келетін шағын үлгімен жұмыс істеу мүмкін болмаған әдеттегі жағдай. Бұл ретте бізге таратылған үлгілер қажет болды, өйткені әйтпесе оларды оқыту мүмкін емес еді. Өндіріске компьютерлік көрудің енгізілуімен мұндай мысалдар жиі кездеседі, өйткені суреттер деректердің үлкен көлемі болып табылады, ал үлкен модельді үйрету үшін миллиондаған суреттер қажет.

Бірден сұрақ туындайды: осы ақпаратты қалай сақтау керек, оны қалай тиімді өңдеу керек, бөлінген оқыту алгоритмдерін қалай пайдалану керек – басты назар таза математикадан инженерияға ауысады. Өндірісте код жазбасаңыз да, эксперимент жүргізу үшін инженерлік құралдармен жұмыс істей білу керек.

— Соңғы жылдары деректану бойынша бос орындарға көзқарас қалай өзгерді?

— Үлкен деректер хайп болуды қойып, шындыққа айналды. Қатты дискілер өте арзан, яғни болашақта кез келген гипотезаны тексеру үшін жеткілікті болатындай барлық деректерді жинауға болады. Нәтижесінде, үлкен деректермен жұмыс істеу құралдары туралы білім өте танымал болып келеді және нәтижесінде деректер инженерлері үшін көбірек бос орындар пайда болады.

Менің түсінігім бойынша, деректанушының жұмысының нәтижесі эксперимент емес, өндіріске жеткен өнім. Дәл осы тұрғыдан алғанда, үлкен деректердің айналасындағы хайп пайда болғанға дейін, процесс оңайырақ болды: инженерлер нақты мәселелерді шешу үшін машиналық оқытумен айналысты және алгоритмдерді өндіріске енгізуде проблемалар болған жоқ.

— Ізденімпаз маман болып қалу үшін не қажет?

— Қазір деректер ғылымына математиканы, машиналық оқыту теориясын зерттеген және деректерді талдау жарыстарына қатысқан көптеген адамдар келді, онда дайын инфрақұрылым қамтамасыз етіледі: деректер тазартылады, метрика анықталды және жоқ. шешімнің қайталанатын және жылдам болуы үшін талаптар.

Нәтижесінде, жігіттер жұмысқа бизнестің шындығына дайын емес келеді және жаңадан бастағандар мен тәжірибелі әзірлеушілер арасында алшақтық пайда болады.

Дайын модульдерден өзіңіздің үлгіңізді жинауға мүмкіндік беретін құралдардың дамуымен - және Microsoft, Google және басқа да көптеген компанияларда мұндай шешімдер бар - және машиналық оқытуды автоматтандыру арқылы бұл олқылық одан да айқын болады. Болашақта бұл мамандық жаңа алгоритмдерді ойлап табатын байыпты зерттеушілерге және модельдерді енгізетін және процестерді автоматтандыратын дамыған инженерлік дағдылары бар қызметкерлерге сұранысқа ие болады. Деректер инженериясындағы Ozon Masters курсы инженерлік дағдыларды және үлкен деректерде бөлінген машиналық оқыту алгоритмдерін пайдалану қабілетін дамытуға арналған. Біз деректер ғалымы не істей алатыны мен іс жүзінде не істей алатыны арасындағы алшақтықты азайтуға тырысамыз.

— Неліктен дипломы бар математик бизнеске баруы керек?

— Ресейлік деректер ғылымының қауымдастығы шеберлік пен тәжірибе тез ақшаға айналатынын түсінді, сондықтан маманның практикалық тәжірибесі болған кезде оның құны өте тез өсе бастайды, ең білікті адамдар өте қымбат - және бұл нарықтың қазіргі даму сәтінде шындық.

Деректер зерттеушісі жұмысының үлкен бөлігі - деректерге кіру, онда не жатқанын түсіну, бизнес-процестерге жауапты адамдармен кеңесу және осы деректерді жасау - содан кейін оны үлгілерді құру үшін пайдалану. Үлкен деректермен жұмыс істеуді бастау үшін инженерлік дағдылардың болуы өте маңызды - бұл деректер ғылымында көп болатын өткір бұрыштардан аулақ болуды жеңілдетеді.

Әдеттегі оқиға: сіз SQL тілінде үлкен деректерде жұмыс істейтін Hive құрылымын пайдаланып орындалатын сұрау жаздыңыз. Сұраныс он минут ішінде өңделеді, ең нашар жағдайда - бір-екі сағатта және жиі осы деректерді жүктеп алған кезде сіз кейбір факторларды немесе қосымша ақпаратты ескеруді ұмытып кеткеніңізді түсінесіз. Сұрауды қайта жіберіп, осы минуттар мен сағаттарды күту керек. Егер сіз тиімділік генийі болсаңыз, сіз басқа тапсырманы орындайсыз, бірақ тәжірибе көрсеткендей, бізде тиімділік данышпандары аз, ал адамдар тек күтуде. Сондықтан курстарда біз бастапқыда екі сағат емес, бірнеше минут жұмыс істейтін сұрауларды жазу үшін жұмыс тиімділігіне көп уақыт бөлеміз. Бұл шеберлік өнімділікті еселейді, онымен бірге маманның құндылығы да артады.

– Ozon Masters басқа курстардан несімен ерекшеленеді?

— Ozon Masters бағдарламасын Ozon қызметкерлері оқытады, ал тапсырмалар компанияларда шешілетін нақты іскерлік жағдайларға негізделген. Шын мәнінде, инженерлік дағдылардың жоқтығынан басқа, университетте деректер ғылымын оқыған адамның тағы бір проблемасы бар: бизнестің міндеті бизнес тілінде тұжырымдалған және оның мақсаты өте қарапайым: көбірек ақша табу. Математик математикалық көрсеткіштерді қалай оңтайландыру керектігін жақсы біледі, бірақ іскери метрикамен сәйкес келетін көрсеткішті табу қиын. Сіз бизнес мәселесін шешіп жатқаныңызды түсінуіңіз керек және бизнеспен бірге математикалық оңтайландыруға болатын көрсеткіштерді тұжырымдауыңыз керек. Бұл дағды нақты жағдайлар арқылы алынады және оларды Озон береді.
Жағдайды елемейтін болсақ та, мектепті нақты компаниялардағы бизнес мәселелерін шешетін көптеген практиктер оқытады. Нәтижесінде, оқытудың өзі бұрынғысынша тәжірибеге бағытталған. Кем дегенде, өз курсымда мен назарды құралдарды қалай пайдалану керек, қандай тәсілдер бар және т.б. Оқушылармен бірлесе отырып, біз әр тапсырманың өз құралы бар екенін және әр құралдың қолданылу аясы бар екенін түсінеміз.

— Деректерді талдау бойынша оқытудың ең танымал бағдарламасы, әрине, ShAD — оның айырмашылығы неде?

— ШАД пен Озон шеберлері білім беру қызметімен қатар, кадрлар даярлаудың жергілікті мәселесін де шешетіні анық. SHAD үздік түлектері ең алдымен Яндекске жұмысқа алынады, бірақ ерекшелігі Яндекстің ерекшелігіне байланысты - және ол үлкен және үлкен деректермен жұмыс істеуге арналған жақсы құралдар аз болған кезде жасалған - деректермен жұмыс істеуге арналған жеке инфрақұрылымы мен құралдары бар. , яғни сіз оларды меңгеруіңіз керек. Ozon Masters-тің басқа хабары бар - егер сіз бағдарламаны сәтті меңгеріп алсаңыз және Ozon немесе басқа компаниялардың 99% сізді жұмысқа шақырса, бизнеске пайда әкелу оңайырақ болады; Ozon Masters бағдарламасының бір бөлігі ретінде алынған дағдылар жиынтығы. жұмысты бастау үшін жеткілікті болады.

— Курс екі жылға созылады. Неліктен бұған көп уақыт жұмсау керек?

- Жақсы сұрақ. Бұл көп уақытты алады, өйткені мазмұны мен мұғалімдердің деңгейі бойынша бұл үй тапсырмасын қоса алғанда, игеруге көп уақытты қажет ететін ажырамас магистрлік бағдарлама.

Менің курстық көзқарасым бойынша, студент аптасына 2-3 сағатты тапсырмаларға жұмсайды деп күту әдеттегідей. Біріншіден, тапсырмалар оқыту кластерінде орындалады және кез келген ортақ кластер оны бір уақытта бірнеше адам пайдалануын білдіреді. Яғни, тапсырманың орындалуын күту керек, кейбір ресурстар таңдалып, жоғарырақ кезекке ауыстырылуы мүмкін. Екінші жағынан, үлкен деректермен кез келген жұмыс көп уақытты алады.

Бағдарлама, үлкен деректермен жұмыс істеу немесе инженерлік дағдылар туралы басқа сұрақтарыңыз болса, Ozon Masters сенбі, 25 сәуірде сағат 12:00-де онлайн ашық есік күнін өткізеді. Біз мұғалімдермен және студенттермен кездесеміз Zoom мен YouTube.

Ақпарат көзі: www.habr.com

пікір қалдыру