Павел Клеменков, НВИДИА: Покушавамо да смањимо јаз између онога што научник података може да уради и онога што би требало да буде у стању да уради

Почео је други пријем студената на мастер програм науке о подацима и пословне интелигенције Озон Мастерс – а да бисмо лакше одлучили да напустимо пријаву и полажемо онлајн тест, питали смо наставнике програма шта да очекују од студирања и рада са подацима.

Павел Клеменков, НВИДИА: Покушавамо да смањимо јаз између онога што научник података може да уради и онога што би требало да буде у стању да уради Главни научник за податке НВИДИА и наставник курсеви Биг Дата и Дата Енгинееринг Павел Клеменков је говорио о томе зашто математичари треба да пишу код и да студирају на Озон Мастерсу две године.

— Има ли много компанија које користе алгоритме за науку о подацима?

- Заправо доста. Доста великих компанија које имају заиста велике податке или почињу да ефикасно раде са њима или већ дуже време раде са њима. Јасно је да половина тржишта користи податке који се могу уклопити у Екцел табелу или се могу израчунати на великом серверу, али се не може рећи да постоји само неколико предузећа која могу да раде са подацима.

— Реците нам нешто о пројектима у којима се користи наука о подацима.

— На пример, док смо радили у Рамблеру, правили смо систем оглашавања који је радио на принципима РТБ (Реал Тиме Биддинг) – требало је да направимо много модела који би оптимизовали куповину реклама или, на пример, могли да предвидимо вероватноћу клика, конверзије и тако даље. Истовремено, рекламна аукција генерише много података: евиденције захтева за сајт потенцијалним купцима оглашавања, евиденције рекламних приказа, евиденције кликова - ово су десетине терабајта података дневно.

Штавише, за ове задатке смо приметили занимљив феномен: што више података дате за обуку модела, то је већи његов квалитет. Обично, након одређене количине података, квалитет прогнозе престаје да се побољшава, а да бисте додатно побољшали тачност, потребно је да користите суштински другачији модел, другачији приступ припреми података, карактеристика и тако даље. Овде смо отпремили више података и квалитет се повећао.

Ово је типичан случај када су аналитичари морали, пре свега, да раде са великим скуповима података да би барем спровели експеримент, и где је било немогуће проћи са малим узорком који стане у удобан МацБоок. У исто време, били су нам потребни дистрибуирани модели, јер иначе не би могли да се обуче. Са увођењем компјутерског вида у производњу, овакви примери су све чешћи, пошто су слике велика количина података, а за обуку великог модела потребни су милиони слика.

Одмах се поставља питање: како ускладиштити све ове информације, како их ефикасно обрадити, како користити дистрибуиране алгоритме учења – фокус се помера са чисте математике на инжењерство. Чак и ако не пишете код у производњи, морате бити у стању да радите са инжењерским алатима да бисте спровели експеримент.

— Како се приступ конкурсима за науку о подацима променио последњих година?

— Велики подаци су престали да буду хипе и постали су стварност. Хард дискови су прилично јефтини, што значи да је могуће прикупити све податке како би их у будућности било довољно за тестирање било које хипотезе. Као резултат, познавање алата за рад са великим подацима постаје веома популарно, а као резултат тога, појављује се све више слободних радних места за инжењере података.

По мом схватању, резултат рада научника података није експеримент, већ производ који је достигао производњу. И управо са ове тачке гледишта, пре појаве помпе око великих података, процес је био једноставнији: инжењери су били ангажовани у машинском учењу да би решили специфичне проблеме, и није било проблема са довођењем алгоритама у производњу.

— Шта је потребно да бисте остали тражени специјалиста?

— Сада су у науку о подацима дошли многи људи који су студирали математику, теорију машинског учења и учествовали на такмичењима за анализу података, где је обезбеђена готова инфраструктура: подаци се чисте, метрика се дефинише, а нема захтеви да решење буде поновљиво и брзо.

Као резултат тога, момци долазе на посао лоше припремљени за реалност пословања, а ствара се јаз између почетника и искусних програмера.

Са развојем алата који вам омогућавају да саставите сопствени модел од готових модула – а Мицрософт, Гугл и многи други већ имају таква решења – и аутоматизацијом машинског учења, овај јаз ће постати још израженији. У будућности ће професија бити тражена за озбиљне истраживаче који смишљају нове алгоритме, и запослене са развијеним инжењерским вештинама који ће имплементирати моделе и аутоматизовати процесе. Озон Мастерс курс из инжењерства података је дизајниран да развије инжењерске вештине и способност коришћења дистрибуираних алгоритама машинског учења на великим подацима. Покушавамо да смањимо јаз између онога што научник података може да уради и онога што би требало да буде у стању да уради у пракси.

— Зашто би математичар са дипломом требало да иде на студије бизниса?

— Руска заједница науке о подацима је схватила да се вештина и искуство веома брзо претварају у новац, па, чим специјалиста има практично искуство, његов трошак почиње да расте веома брзо, најквалификованији људи су веома скупи - а ово је тачно у тренутном тренутку развоја тржишта.

Велики део посла научника података је да уђе у податке, разуме шта се ту налази, консултује се са људима који су одговорни за пословне процесе и генеришу ове податке – и тек онда их користе за изградњу модела. Да бисте почели да радите са великим подацима, изузетно је важно поседовати инжењерске вештине – то знатно олакшава избегавање оштрих углова, којих у науци о подацима има много.

Типична прича: написали сте упит у СКЛ-у који се извршава помоћу оквира Хиве који ради на великим подацима. Захтев се обрађује за десет минута, у најгорем случају - за сат-два, а често, када добијете преузимања ових података, схватите да сте заборавили да узмете у обзир неки фактор или додатну информацију. Морате поново да пошаљете захтев и сачекате ове минуте и сате. Ако сте геније за ефикасност, прихватићете још један задатак, али, као што показује пракса, имамо мало генија ефикасности, а људи само чекају. Због тога ћемо на курсевима посветити много времена ефикасности рада како бисмо у почетку писали упите који раде не два сата, већ неколико минута. Ова вештина умножава продуктивност, а са њом и вредност специјалисте.

– По чему се Озон Мастерс разликује од других курсева?

— Озон Мастерс предају запослени у Озону, а задаци су засновани на стварним пословним случајевима који се решавају у компанијама. У ствари, поред недостатка инжењерских вештина, особа која је студирала науку о подацима на универзитету има још један проблем: задатак предузећа је формулисан на пословном језику, а његов циљ је прилично једноставан: зарадити више новца. А математичар добро зна како да оптимизује математичку метрику - али тешко је пронаћи индикатор који ће корелирати са пословном метриком. И морате да схватите да решавате пословни проблем и да заједно са послом формулишете метрику која се може математички оптимизовати. Ова вештина се стиче кроз стварне случајеве, а даје их Озон.
Чак и ако занемаримо случајеве, школу предају многи практичари који решавају пословне проблеме у правим компанијама. Као резултат тога, сам приступ настави је и даље више оријентисан на праксу. Барем у свом курсу, покушаћу да померим фокус на то како да користим алате, који приступи постоје и тако даље. Заједно са ученицима схватићемо да сваки задатак има свој алат, а сваки алат има своју област примене.

— Најпознатији програм обуке анализе података, наравно, је СхАД — у чему је тачно разлика од њега?

— Јасно је да ШАД и Озон Мастерс, поред образовне функције, решавају локални проблем обуке кадрова. Најбољи дипломци СХАД-а се првенствено регрутују у Иандек, али квака је у томе што Иандек, због својих специфичности – а велики је и настао је када је било мало добрих алата за рад са великим подацима – има своју инфраструктуру и алате за рад са подацима , што значи да ћете морати да их савладате. Озон Мастерс има другачију поруку – ако сте успешно савладали програм и Озон или нека од 99% других компанија вас позове да радите, биће много лакше да почнете да користите послу; скуп вештина стечених у оквиру Озон Мастерс-а биће довољно само да почне да ради.

— Курс траје две године. Зашто треба да трошите толико времена на ово?

- Добро питање. Траје доста времена, јер је по садржају и нивоу наставника, ово интегрални мастер програм који захтева доста времена за савладавање, укључујући и домаће задатке.

Из моје перспективе курса, уобичајено је очекивати да студент проведе 2-3 сата недељно на задацима. Прво, задаци се обављају на кластеру за обуку, а сваки дељени кластер подразумева да га више људи користи истовремено. То јест, мораћете да сачекате да задатак почне да се извршава; неки ресурси могу бити изабрани и пребачени у ред са вишим приоритетом. С друге стране, сваки рад са великим подацима одузима много времена.

Ако имате још питања о програму, раду са великим подацима или инжењерским вештинама, Озон Мастерс има онлајн дан отворених врата у суботу, 25. априла у 12:00. Састајемо се са наставницима и ученицима у зум и ИоуТубе.

Извор: ввв.хабр.цом

Додај коментар