Стартаваў другі набор студэнтаў магістарскай праграмы па data science і business intelligence Ozon Masters - а каб вырашыцца пакінуць заяўку і прайсці анлайн-тэставанне было прасцей, мы распыталі выкладчыкаў праграмы аб тым, чаго варта чакаць ад навучання і працы з дадзенымі.
Chief Data Scientist NVIDIA і выкладчык
- Ці шмат наогул кампаній, якія выкарыстоўваюць алгарытмы data science?
- На самай справе нямала. Даволі шмат буйных кампаній, у якіх ёсць рэальна вялікія дадзеныя, альбо пачынаюць з імі эфектыўна працаваць, альбо ўжо даўно працуюць. Зразумела, што палова рынку выкарыстоўвае дадзеныя, якія змесцяцца ў Excel-таблічку або могуць быць палічаны на вялікім серверы, але казаць аб тым, што бізнэсаў, якія ўмеюць працаваць з дадзенымі, адзінкі - нельга.
- Раскажы крыху аб праектах, дзе ўжываецца data science.
- Напрыклад, падчас працы ў Рамблеры мы рабілі рэкламную сістэму, якая працуе па прынцыпах RTB (Real Time Bidding) - нам трэба было будаваць шмат мадэляў, якія б аптымізавалі закупку рэкламы або, напрыклад, маглі прадказаць верагоднасць кліку, канверсію і гэтак далей. Пры гэтым рэкламны аўкцыён генеруе вельмі шмат дадзеных: логі запытаў пляцоўкі да патэнцыйных пакупнікоў рэкламы, логі паказаў рэкламы, логі клікаў - гэта дзясяткі тэрабайт дадзеных у дзень.
Прычым для гэтых задач мы назіралі цікавую з'яву: чым больш дадзеных даеш для навучання мадэлі, тым вышэйшая яе якасць. Звычайна на вызначанай колькасці дадзеных якасць прагнозу перастае паляпшацца, і для наступнага падвышэння дакладнасці трэба выкарыстоўваць прынцыпова іншую мадэль, іншы падыход да падрыхтоўкі дадзеных, фічаў і гэтак далей. Тут мы залівалі больш дадзеных і якасць расла.
Гэта тыповы кейс, дзе аналітыкам даводзілася, па-першае, працаваць з вялікімі data-сэтамі, каб прынамсі правесці эксперымент, і дзе нельга было абыйсціся невялікім сэмплом, які змяшчаецца ва ўтульным макбуку. Пры гэтым нам патрэбны былі размеркаваныя мадэлі, таму што інакш іх немагчыма было навучыць. З укараненнем кампутарнага зроку ў прадакшэн такія прыклады сустракаюцца ўсё часцей, паколькі карцінкі - гэта вялікі аб'ём дадзеных, а каб навучыць вялікую мадэль, патрэбныя мільёны карцінак.
Тут жа ўзнікае пытанне: як захоўваць усю гэтую інфармацыю, як яе эфектыўна апрацоўваць, як выкарыстоўваць размеркаваныя алгарытмы навучання - фокус з голай матэматыкі ссоўваецца ў бок інжынерыі. Нават калі ты не пішаш код у прадакшэн, трэба ўмець працаваць з інжынернымі прыладамі, каб правесці эксперымент.
- Як змяніўся падыход да вакансіях data science за апошнія гады?
- Вялікія дадзеныя перасталі быць хайпам і сталі рэальнасцю. Жорсткія дыскі каштуюць дастаткова танна, а значыць, з'явілася магчымасць збіраць наогул усе дадзеныя, каб у будучыні іх хапіла для праверкі любых гіпотэз. У выніку веданне прылад для працы з вялікімі дадзенымі становіцца вельмі запатрабаваным, і, як следства, з'яўляецца ўсё больш вакансій менавіта data-інжынераў.
У маім разуменні, вынік працы data scientist'а не эксперымент, а прадукт, які дайшоў да прадакшэна. І якраз з гэтага пункта гледжання, да з'яўлення хайпа вакол вялікіх дадзеных працэс быў прасцей: інжынеры займаліся машынным навучаннем для рашэння пэўных задач, а з давядзеннем алгарытмаў да прадакшэна не ўзнікала праблем.
- Што трэба, каб заставацца запатрабаваным спецыялістам?
- Цяпер у data science прыйшло шмат людзей, якія вывучылі матэматыку, тэорыю машыннага навучання, удзельнічалі ў конкурсах па аналізе дадзеных, дзе прадастаўляецца гатовая інфраструктура: дадзеныя ачышчаны, метрыкі вызначаны, і пры гэтым няма патрабаванняў да таго, каб рашэнне было ўзнаўляюцца і хуткім.
У выніку дрэнна падрыхтаваныя да рэалій бізнесу хлопцы прыходзяць на працу, і ўтвараецца прорва паміж навічкамі і вопытнымі распрацоўшчыкамі.
З развіццём прылад, якія дазваляюць сабраць уласную мадэль з гатовых модуляў – а такія рашэнні ўжо ёсць у Microsoft, Google і шматлікіх іншых – і аўтаматызацыі машыннага навучання, гэты разрыў стане яшчэ больш відавочным. У перспектыве ў прафесіі будуць запатрабаваны сур'ёзныя даследчыкі, якія прыдумляюць новыя алгарытмы, і супрацоўнікі з развітым інжынерным скілам, якія будуць укараняць мадэлі і аўтаматызаваць працэсы. Як раз курс Ozon Masters па data-інжынерыі заменчаны на тое, каб развіваць інжынерныя скілы і ўменне выкарыстоўваць размеркаваныя алгарытмы машыннага навучання на вялікіх дадзеных. Мы імкнемся зменшыць парыў паміж тым, што data scientist умее, і тым, што ён павінен умець на практыцы.
- Навошта матэматыку з дыпломам ісці вучыцца ў бізнэс?
— Расейская супольнасць data science прыйшла да разумення, што скіл і досвед вельмі хутка канвертуюцца ў грошы, таму, як толькі ў адмыслоўца з'яўляецца практычны досвед, яго кошт пачынае вельмі хутка расці, самыя скілавыя людзі каштуюць вельмі дорага — і гэта справядліва на бягучым моманце развіцця рынку.
Вялікая частка працы data scientist'а складаецца ў тым, каб пайсці ў дадзеныя, зразумець, што там ляжыць, пракансультавацца з людзьмі, якія адказваюць за бізнэс-працэсы і генеруюць гэтыя дадзеныя – і толькі потым іх выкарыстоўваць для пабудовы мадэляў. Каб пачаць працаваць з вялікімі дадзенымі, вельмі важна мець інжынерныя скілы - так значна лягчэй абыходзіць вострыя куты, якіх у data science шмат.
Тыповая гісторыя: ты напісаў запыт на SQL, які выконваецца з дапамогай framework Hive, які працуе на вялікіх дадзеных. Запыт апрацоўваецца за дзесяць хвілін, у горшым выпадку - за гадзіну-дзве, і часта, атрымліваючы выгрузкі гэтых дадзеных, ты разумееш, што забыўся ўлічыць нейкі фактар або дадатковую інфармацыю. Табе даводзіцца нанава адпраўляць запыт і чакаць гэтыя хвіліны і гадзіны. Калі ты геній эфектыўнасці, то зоймешся іншай задачай, але, як паказвае практыка, геніяў эфектыўнасці ў нас мала, і людзі проста чакаюць. Таму на курсах мы будзем надаваць шмат часу эфектыўнасці працы, каб першапачаткова пісаць запыты, якія працуюць не дзве гадзіны, а некалькі хвілін. Гэты скіл кратна павялічвае прадукцыйнасць, а разам з ёй і каштоўнасць спецыяліста.
- Чым Ozon Masters адрозніваецца ад іншых курсаў?
- У Ozon Masters выкладаюць супрацоўнікі Ozon, і заданні заснаваныя на рэальных бізнес-кейсах, якія вырашаюцца ў кампаніях. Насамрэч, акрамя недахопу інжынерных скілаў, у чалавека, які вывучыў data science ва ўніверсітэце, ёсць яшчэ адна праблема: задача бізнэсу фармулюецца на мове бізнэсу, а яго мэта досыць простая: зарабляць больш грошай. І матэматык добра ведае, як аптымізаваць матэматычныя метрыкі - але знайсці паказчык, які будзе карэляваць з бізнес-метрыкай, складана. І трэба разумець, што ты вырашаеш бізнес-задачу, разам з бізнесам фармуляваць метрыкі, якія можна матэматычна аптымізаваць. Гэты скіл набываецца за рахунак рэальных кейсаў, і іх дае Ozon.
І нават калі адкінуць кейсы, то ў школе выкладае мноства практыкаў, якія вырашаюць бізнес-задачы ў рэальных кампаніях. У выніку сам падыход да выкладання ўсё ж такі больш практыка арыентаваны. Прынамсі, на сваім курсе я буду імкнуцца ссоўваць фокус на тое, як ужываць прылады, якія існуюць падыходы і гэтак далей. Разам са студэнтамі мы будзем разбірацца ў тым, што для кожнай задачы ёсць свая прылада, а ў кожнай прылады ёсць вобласць дастасавальнасці.
- Самая вядомая праграма навучання аналізу дадзеных, вядома, ШАД - у чым адрозненне канкрэтна ад яе?
- Зразумела, што ШАД і Ozon Masters, апроч адукацыйнай функцыі, вырашаюць лакальную задачу падрыхтоўкі кадраў. Топавыя выпускнікі ШАДа ў першую чаргу рэкрутуюцца ў Яндэкс, але загваздка ў тым, што Яндэкс у сілу сваёй спецыфікі - а ён вялікі і ствараўся, калі добрых прылад працы з вялікімі дадзенымі было мала - мае ўласную інфраструктуру і прылады для працы з дадзенымі, а значыць , прыйдзецца асвойваць іх. У Ozon Masters іншы пасыл - калі ты паспяхова асвоіў праграму і Ozon або адна з 99% іншых кампаній запросіць цябе на працу, пачаць прыносіць карысць бізнэсу будзе істотна лягчэй, набыты ў рамках Ozon Masters скілсэт будзе дастатковым, каб проста пачаць працаваць.
- Курс доўжыцца два гады. Чаму на гэта трэба марнаваць столькі часу?
- Добрае пытанне. Доўга, таму што па зместу і ўзроўню выкладчыкаў гэта суцэльная магістарская праграма, якая патрабуе шмат часу на засваенне, і ў тым ліку на хатнюю працу.
З пункту гледжання майго курса, чакаць, што вучань будзе марнаваць на заданні 2-3 гадзіны ў тыдзень - звычайная справа. Па-першае, заданні выконваюцца на навучальным кластары, а любы агульны кластар мае на ўвазе, што ім карыстаюцца адначасова некалькі людзей. Гэта значыць, давядзецца пачакаць, каб задача пачала выконвацца, нейкія рэсурсы могуць адабраць і перадаць у больш прыярытэтную чаргу. З іншага боку, любая праца з вялікімі дадзенымі забірае шмат часу.
Калі ў цябе ёсць яшчэ пытанні аб праграме, працы з вялікімі дадзенымі або інжынерных скілах – у суботу, 25 красавіка ў 12:00, у Ozon Masters анлайн дзень адчыненых дзвярэй. Сустракаемся з выкладчыкамі і студэнтамі ў
Крыніца: habr.com