Павло Клеменков, NVIDIA: Ми намагаємося зменшити розрив між тим, що data scientist вміє, і тим, що він має вміти

Стартував другий набір студентів магістерської програми з data science та business intelligence Ozon Masters – а щоб наважитися залишити заявку та пройти онлайн-тестування було простіше, ми розпитали викладачів програми про те, чого варто очікувати від навчання та роботи з даними.

Павло Клеменков, NVIDIA: Ми намагаємося зменшити розрив між тим, що data scientist вміє, і тим, що він має вміти Chief Data Scientist NVIDIA та викладач курсу з Big Data та Data Engineering Павло Клеменков розповів про те, навіщо математикам писати код і два роки навчатись у Ozon Masters.

— Чи багато компаній, які використовують алгоритми data science?

— Насправді чимало. Досить багато великих компаній, які мають реально великі дані, або починають з ними ефективно працювати, або вже давно працюють. Зрозуміло, що половина ринку використовує дані, які помістяться в Excel-табличку або можуть бути пораховані на великому сервері, але говорити про те, що бізнесів, які вміють працювати з даними, одиниці не можна.

— Розкажи трохи про проекти, де використовується data science.

— Наприклад, під час роботи в Рамблері ми робили рекламну систему, що працює за принципами RTB (Real Time Bidding) — нам потрібно було будувати багато моделей, які оптимізували б закупівлю реклами або, наприклад, могли передбачити ймовірність кліку, конверсію і так далі. У цьому рекламний аукціон генерує дуже багато даних: логи запитів майданчика до потенційним покупцям реклами, логи показів реклами, логи кліків – це десятки терабайт даних щодня.

Причому для цих завдань ми спостерігали цікаве явище: чим більше даних даєш для навчання моделі, тим вища її якість. Зазвичай на певному кількості даних якість прогнозу перестає поліпшуватися, й у подальшого підвищення точності необхідно використовувати принципово іншу модель, інший підхід до підготовки даних, фічів тощо. Тут ми заливали більше даних та якість зростала.

Це типовий кейс, де аналітикам доводилося, по-перше, працювати з великими data-сетами, щоб як мінімум провести експеримент, і де не можна було обійтися невеликим семплом, що міститься у затишному макбуку. При цьому нам були потрібні розподілені моделі, бо інакше їх неможливо було навчити. З використанням комп'ютерного зору продакшен такі приклади зустрічаються дедалі частіше, оскільки картинки – це великий обсяг даних, а щоб навчити велику модель, потрібні мільйони картинок.

Тут виникає питання: як зберігати всю цю інформацію, як її ефективно обробляти, як використовувати розподілені алгоритми навчання – фокус із голою математики зміщується у бік інженерії. Навіть якщо ти не пишеш код у продакшені, потрібно вміти працювати з інженерними інструментами, щоб провести експеримент.

— Як змінився підхід до вакансій data science за останні роки?

— Великі дані перестали бути хайпом та стали реальністю. Жорсткі диски коштують досить дешево, а значить з'явилася можливість збирати взагалі всі дані, щоб у майбутньому їх вистачило для перевірки будь-яких гіпотез. У результаті знання інструментів для роботи з великими даними стає дуже популярним, і, як наслідок, з'являється все більше вакансій саме data-інженерів.

У моєму розумінні результат роботи data scientist'а не експеримент, а продукт, який дійшов до продакшена. І саме з цієї точки зору, до появи хайпа навколо великих даних процес був простішим: інженери займалися машинним навчанням для вирішення конкретних завдань, а з доведенням алгоритмів до продакшену не виникало проблем.

— Що потрібно, щоб залишатися затребуваним фахівцем?

— Зараз у data science прийшло багато людей, які вивчили математику, теорію машинного навчання, брали участь у конкурсах з аналізу даних, де надається готова інфраструктура: дані очищені, визначені метрики, і при цьому немає вимог до того, щоб рішення було відтворюваним та швидким.

В результаті погано підготовлені до реалій бізнесу хлопці приходять на роботу, і утворюється прірва між новачками та досвідченими розробниками.

З розвитком інструментів, що дозволяють зібрати власну модель із готових модулів — а такі рішення вже є у Microsoft, Google та багатьох інших — і автоматизації машинного навчання цей розрив стане ще більш явним. У перспективі в професії будуть потрібні серйозні дослідники, які вигадують нові алгоритми, і співробітники з розвиненим інженерним скілом, які впроваджуватимуть моделі та автоматизуватимуть процеси. Саме курс Ozon Masters з data-інженерії заточений на те, щоб розвивати інженерні скіли та вміння використовувати розподілені алгоритми машинного навчання на великих даних. Ми намагаємося знизити розрив між тим, що data scientist вміє, і тим, що він має вміти практично.

— Навіщо математику з дипломом йти вчитися у бізнес?

— Російська спільнота data science дійшла розуміння, що скілл і досвід дуже швидко конвертуються в гроші, тому, як тільки у фахівця з'являється практичний досвід, його вартість починає дуже швидко зростати, найскиловіші люди коштують дуже дорого — і це справедливо на даний момент розвитку ринку.

Більшість роботи data scientist'а полягає в тому, щоб піти в дані, зрозуміти, що там лежить, проконсультуватися з людьми, які відповідають за бізнес-процеси і генерують ці дані — і лише потім їх використовувати для побудови моделей. Щоб почати працювати з великими даними, дуже важливо мати інженерні скіли - так набагато легше обходити гострі кути, яких у data science багато.

Типова історія: ти написав запит на SQL, який виконується за допомогою framework Hive, який працює на великих даних. Запит обробляється за десять хвилин, у гіршому випадку — за годину-дві, і часто, отримуючи вивантаження цих даних, ти розумієш, що забув врахувати якийсь фактор чи додаткову інформацію. Тобі доводиться заново надсилати запит і чекати на ці хвилини і години. Якщо ти геній ефективності, то займешся іншим завданням, але, як показує практика, геніїв ефективності у нас мало, і люди просто чекають. Тому на курсах ми приділятимемо багато часу ефективності роботи, щоб спочатку писати запити, які працюють не дві години, а кілька хвилин. Цей скілл кратно збільшує продуктивність, а разом із нею і цінність фахівця.

– Чим Ozon Masters відрізняється від інших курсів?

— В Ozon Masters викладають співробітники Ozon, і завдання ґрунтуються на реальних бізнес-кейсах, які вирішуються в компаніях. Насправді, крім нестачі інженерних скіллів, людина, яка вивчила data science в університеті, має ще одну проблему: завдання бізнесу формулюється мовою бізнесу, а його мета досить проста: заробляти більше грошей. І математик добре знає, як оптимізувати математичні метрики — але знайти показник, який корелюватиме з бізнес-метрикою, складно. І треба розуміти, що ти вирішуєш бізнес-завдання, разом із бізнесом формулювати метрики, які можна математично оптимізувати. Цей скілл купується за рахунок реальних кейсів, і їх пропонує Ozon.
І навіть якщо відкинути кейси, то в школі викладає безліч практиків, які вирішують бізнес-завдання в реальних компаніях. У результаті сам підхід до викладання все-таки практико орієнтований. Принаймні на своєму курсі я намагатимуся зміщувати фокус на те, як застосовувати інструменти, які існують підходи і таке інше. Разом зі студентами ми розбиратимемося в тому, що для кожного завдання є свій інструмент, а кожен інструмент має сферу застосування.

— Найвідоміша програма навчання аналізу даних, звичайно, ШАД — у чому відмінність саме від неї?

— Зрозуміло, що ШАД та Ozon Masters, окрім освітньої функції, вирішують локальне завдання підготовки кадрів. Топові випускники ШАДу в першу чергу рекрутуються в Яндекс, але загвоздка в тому, що Яндекс через свою специфіку — а він великий і створювався, коли хороших інструментів роботи з великими даними було мало — має власну інфраструктуру та інструменти для роботи з даними, а значить доведеться освоювати їх. У Ozon Masters інший посил - якщо ти успішно освоїв програму і Ozon або одна з 99% інших компаній запросить тебе на роботу, почати приносити користь бізнесу буде значно легше, придбаний в рамках Ozon Masters скілсет буде достатнім, щоб просто почати працювати.

— Курс триває два роки. Чому на це потрібно витрачати стільки часу?

- Гарне питання. Довго, тому що за змістом та рівнем викладачів це цілісна магістерська програма, що вимагає багато часу на освоєння, і в тому числі на домашню роботу.

З погляду мого курсу, очікувати, що учень витрачатиме на завдання 2-3 години на тиждень – звичайна справа. По-перше, завдання виконуються на навчальному кластері, а будь-який загальний кластер має на увазі, що ним користуються одночасно кілька людей. Тобто, доведеться почекати, щоб завдання почало виконуватися, якісь ресурси можуть відібрати і передати більш пріоритетну чергу. З іншого боку, будь-яка робота з великими даними забирає багато часу.

Якщо у тебе є ще питання про програму, роботу з великими даними або інженерні скіли — у суботу, 25 квітня о 12:00, у Ozon Masters онлайн день відкритих дверей. Зустрічаємося з викладачами та студентами у Zoom і на YouTube.

Джерело: habr.com

Додати коментар або відгук