Павел Клямянкоў, NVIDIA: Мы імкнемся паменшыць разрыў паміж тым, што data scientist умее, і тым, што ён павінен умець

Стартаваў другі набор студэнтаў магістарскай праграмы па data science і business intelligence Ozon Masters - а каб вырашыцца пакінуць заяўку і прайсці анлайн-тэставанне было прасцей, мы распыталі выкладчыкаў праграмы аб тым, чаго варта чакаць ад навучання і працы з дадзенымі.

Павел Клямянкоў, NVIDIA: Мы імкнемся паменшыць разрыў паміж тым, што data scientist умее, і тым, што ён павінен умець Chief Data Scientist NVIDIA і выкладчык курса па Big Data і Data Engineering Павел Клямянкоў распавёў пра тое, навошта матэматыкам пісаць код і два гады вучыцца ў Ozon Masters.

- Ці шмат наогул кампаній, якія выкарыстоўваюць алгарытмы data science?

- На самай справе нямала. Даволі шмат буйных кампаній, у якіх ёсць рэальна вялікія дадзеныя, альбо пачынаюць з імі эфектыўна працаваць, альбо ўжо даўно працуюць. Зразумела, што палова рынку выкарыстоўвае дадзеныя, якія змесцяцца ў Excel-таблічку або могуць быць палічаны на вялікім серверы, але казаць аб тым, што бізнэсаў, якія ўмеюць працаваць з дадзенымі, адзінкі - нельга.

- Раскажы крыху аб праектах, дзе ўжываецца data science.

- Напрыклад, падчас працы ў Рамблеры мы рабілі рэкламную сістэму, якая працуе па прынцыпах RTB (Real Time Bidding) - нам трэба было будаваць шмат мадэляў, якія б аптымізавалі закупку рэкламы або, напрыклад, маглі прадказаць верагоднасць кліку, канверсію і гэтак далей. Пры гэтым рэкламны аўкцыён генеруе вельмі шмат дадзеных: логі запытаў пляцоўкі да патэнцыйных пакупнікоў рэкламы, логі паказаў рэкламы, логі клікаў - гэта дзясяткі тэрабайт дадзеных у дзень.

Прычым для гэтых задач мы назіралі цікавую з'яву: чым больш дадзеных даеш для навучання мадэлі, тым вышэйшая яе якасць. Звычайна на вызначанай колькасці дадзеных якасць прагнозу перастае паляпшацца, і для наступнага падвышэння дакладнасці трэба выкарыстоўваць прынцыпова іншую мадэль, іншы падыход да падрыхтоўкі дадзеных, фічаў і гэтак далей. Тут мы залівалі больш дадзеных і якасць расла.

Гэта тыповы кейс, дзе аналітыкам даводзілася, па-першае, працаваць з вялікімі data-сэтамі, каб прынамсі правесці эксперымент, і дзе нельга было абыйсціся невялікім сэмплом, які змяшчаецца ва ўтульным макбуку. Пры гэтым нам патрэбны былі размеркаваныя мадэлі, таму што інакш іх немагчыма было навучыць. З укараненнем кампутарнага зроку ў прадакшэн такія прыклады сустракаюцца ўсё часцей, паколькі карцінкі - гэта вялікі аб'ём дадзеных, а каб навучыць вялікую мадэль, патрэбныя мільёны карцінак.

Тут жа ўзнікае пытанне: як захоўваць усю гэтую інфармацыю, як яе эфектыўна апрацоўваць, як выкарыстоўваць размеркаваныя алгарытмы навучання - фокус з голай матэматыкі ссоўваецца ў бок інжынерыі. Нават калі ты не пішаш код у прадакшэн, трэба ўмець працаваць з інжынернымі прыладамі, каб правесці эксперымент.

- Як змяніўся падыход да вакансіях data science за апошнія гады?

- Вялікія дадзеныя перасталі быць хайпам і сталі рэальнасцю. Жорсткія дыскі каштуюць дастаткова танна, а значыць, з'явілася магчымасць збіраць наогул усе дадзеныя, каб у будучыні іх хапіла для праверкі любых гіпотэз. У выніку веданне прылад для працы з вялікімі дадзенымі становіцца вельмі запатрабаваным, і, як следства, з'яўляецца ўсё больш вакансій менавіта data-інжынераў.

У маім разуменні, вынік працы data scientist'а не эксперымент, а прадукт, які дайшоў да прадакшэна. І якраз з гэтага пункта гледжання, да з'яўлення хайпа вакол вялікіх дадзеных працэс быў прасцей: інжынеры займаліся машынным навучаннем для рашэння пэўных задач, а з давядзеннем алгарытмаў да прадакшэна не ўзнікала праблем.

- Што трэба, каб заставацца запатрабаваным спецыялістам?

- Цяпер у data science прыйшло шмат людзей, якія вывучылі матэматыку, тэорыю машыннага навучання, удзельнічалі ў конкурсах па аналізе дадзеных, дзе прадастаўляецца гатовая інфраструктура: дадзеныя ачышчаны, метрыкі вызначаны, і пры гэтым няма патрабаванняў да таго, каб рашэнне было ўзнаўляюцца і хуткім.

У выніку дрэнна падрыхтаваныя да рэалій бізнесу хлопцы прыходзяць на працу, і ўтвараецца прорва паміж навічкамі і вопытнымі распрацоўшчыкамі.

З развіццём прылад, якія дазваляюць сабраць уласную мадэль з гатовых модуляў – а такія рашэнні ўжо ёсць у Microsoft, Google і шматлікіх іншых – і аўтаматызацыі машыннага навучання, гэты разрыў стане яшчэ больш відавочным. У перспектыве ў прафесіі будуць запатрабаваны сур'ёзныя даследчыкі, якія прыдумляюць новыя алгарытмы, і супрацоўнікі з развітым інжынерным скілам, якія будуць укараняць мадэлі і аўтаматызаваць працэсы. Як раз курс Ozon Masters па data-інжынерыі заменчаны на тое, каб развіваць інжынерныя скілы і ўменне выкарыстоўваць размеркаваныя алгарытмы машыннага навучання на вялікіх дадзеных. Мы імкнемся зменшыць парыў паміж тым, што data scientist умее, і тым, што ён павінен умець на практыцы.

- Навошта матэматыку з дыпломам ісці вучыцца ў бізнэс?

— Расейская супольнасць data science прыйшла да разумення, што скіл і досвед вельмі хутка канвертуюцца ў грошы, таму, як толькі ў адмыслоўца з'яўляецца практычны досвед, яго кошт пачынае вельмі хутка расці, самыя скілавыя людзі каштуюць вельмі дорага — і гэта справядліва на бягучым моманце развіцця рынку.

Вялікая частка працы data scientist'а складаецца ў тым, каб пайсці ў дадзеныя, зразумець, што там ляжыць, пракансультавацца з людзьмі, якія адказваюць за бізнэс-працэсы і генеруюць гэтыя дадзеныя – і толькі потым іх выкарыстоўваць для пабудовы мадэляў. Каб пачаць працаваць з вялікімі дадзенымі, вельмі важна мець інжынерныя скілы - так значна лягчэй абыходзіць вострыя куты, якіх у data science шмат.

Тыповая гісторыя: ты напісаў запыт на SQL, які выконваецца з дапамогай framework Hive, які працуе на вялікіх дадзеных. Запыт апрацоўваецца за дзесяць хвілін, у горшым выпадку - за гадзіну-дзве, і часта, атрымліваючы выгрузкі гэтых дадзеных, ты разумееш, што забыўся ўлічыць нейкі фактар ​​або дадатковую інфармацыю. Табе даводзіцца нанава адпраўляць запыт і чакаць гэтыя хвіліны і гадзіны. Калі ты геній эфектыўнасці, то зоймешся іншай задачай, але, як паказвае практыка, геніяў эфектыўнасці ў нас мала, і людзі проста чакаюць. Таму на курсах мы будзем надаваць шмат часу эфектыўнасці працы, каб першапачаткова пісаць запыты, якія працуюць не дзве гадзіны, а некалькі хвілін. Гэты скіл кратна павялічвае прадукцыйнасць, а разам з ёй і каштоўнасць спецыяліста.

- Чым Ozon Masters адрозніваецца ад іншых курсаў?

- У Ozon Masters выкладаюць супрацоўнікі Ozon, і заданні заснаваныя на рэальных бізнес-кейсах, якія вырашаюцца ў кампаніях. Насамрэч, акрамя недахопу інжынерных скілаў, у чалавека, які вывучыў data science ва ўніверсітэце, ёсць яшчэ адна праблема: задача бізнэсу фармулюецца на мове бізнэсу, а яго мэта досыць простая: зарабляць больш грошай. І матэматык добра ведае, як аптымізаваць матэматычныя метрыкі - але знайсці паказчык, які будзе карэляваць з бізнес-метрыкай, складана. І трэба разумець, што ты вырашаеш бізнес-задачу, разам з бізнесам фармуляваць метрыкі, якія можна матэматычна аптымізаваць. Гэты скіл набываецца за рахунак рэальных кейсаў, і іх дае Ozon.
І нават калі адкінуць кейсы, то ў школе выкладае мноства практыкаў, якія вырашаюць бізнес-задачы ў рэальных кампаніях. У выніку сам падыход да выкладання ўсё ж такі больш практыка арыентаваны. Прынамсі, на сваім курсе я буду імкнуцца ссоўваць фокус на тое, як ужываць прылады, якія існуюць падыходы і гэтак далей. Разам са студэнтамі мы будзем разбірацца ў тым, што для кожнай задачы ёсць свая прылада, а ў кожнай прылады ёсць вобласць дастасавальнасці.

- Самая вядомая праграма навучання аналізу дадзеных, вядома, ШАД - у чым адрозненне канкрэтна ад яе?

- Зразумела, што ШАД і Ozon Masters, апроч адукацыйнай функцыі, вырашаюць лакальную задачу падрыхтоўкі кадраў. Топавыя выпускнікі ШАДа ў першую чаргу рэкрутуюцца ў Яндэкс, але загваздка ў тым, што Яндэкс у сілу сваёй спецыфікі - а ён вялікі і ствараўся, калі добрых прылад працы з вялікімі дадзенымі было мала - мае ўласную інфраструктуру і прылады для працы з дадзенымі, а значыць , прыйдзецца асвойваць іх. У Ozon Masters іншы пасыл - калі ты паспяхова асвоіў праграму і Ozon або адна з 99% іншых кампаній запросіць цябе на працу, пачаць прыносіць карысць бізнэсу будзе істотна лягчэй, набыты ў рамках Ozon Masters скілсэт будзе дастатковым, каб проста пачаць працаваць.

- Курс доўжыцца два гады. Чаму на гэта трэба марнаваць столькі часу?

- Добрае пытанне. Доўга, таму што па зместу і ўзроўню выкладчыкаў гэта суцэльная магістарская праграма, якая патрабуе шмат часу на засваенне, і ў тым ліку на хатнюю працу.

З пункту гледжання майго курса, чакаць, што вучань будзе марнаваць на заданні 2-3 гадзіны ў тыдзень - звычайная справа. Па-першае, заданні выконваюцца на навучальным кластары, а любы агульны кластар мае на ўвазе, што ім карыстаюцца адначасова некалькі людзей. Гэта значыць, давядзецца пачакаць, каб задача пачала выконвацца, нейкія рэсурсы могуць адабраць і перадаць у больш прыярытэтную чаргу. З іншага боку, любая праца з вялікімі дадзенымі забірае шмат часу.

Калі ў цябе ёсць яшчэ пытанні аб праграме, працы з вялікімі дадзенымі або інжынерных скілах – у суботу, 25 красавіка ў 12:00, у Ozon Masters анлайн дзень адчыненых дзвярэй. Сустракаемся з выкладчыкамі і студэнтамі ў павялічыць і на YouTube.

Крыніца: habr.com

Дадаць каментар