पावेल क्लेमेनकोव, एनवीआईडीआईए: हम एक डेटा वैज्ञानिक क्या कर सकते हैं और उन्हें क्या करने में सक्षम होना चाहिए, के बीच के अंतर को कम करने की कोशिश कर रहे हैं।

Стартовал второй набор студентов магистерской программы по data science и business intelligence Ozon Masters – а чтобы решиться оставить заявку и пройти онлайн-тестирование было проще, мы расспросили преподавателей программы о том, чего стоит ожидать от обучения и работы с данными.

पावेल क्लेमेनकोव, एनवीआईडीआईए: हम एक डेटा वैज्ञानिक क्या कर सकते हैं और उन्हें क्या करने में सक्षम होना चाहिए, के बीच के अंतर को कम करने की कोशिश कर रहे हैं। Chief Data Scientist NVIDIA и преподаватель курса по Big Data и Data Engineering Павел Клеменков рассказал о том, зачем математикам писать код и два года учиться в Ozon Masters.

— Много ли вообще компаний, которые используют алгоритмы data science?

— На самом деле немало. Довольно много крупных компаний, у которых есть реально большие данные, либо начинают с ними эффективно работать, либо уже давно работают. Понятно, что половина рынка использует данные, которые поместятся в Excel-табличку или могут быть посчитаны на большом сервере, но говорить о том, что бизнесов, умеющих работать с данными, единицы — нельзя.

— Расскажи немного о проектах, где применяется data science.

— Например, во время работы в Рамблере мы делали рекламную систему, работающую по принципам RTB (Real Time Bidding) — нам нужно было строить много моделей, которые бы оптимизировали закупку рекламы или, например, могли предсказать вероятность клика, конверсию и так далее. При этом рекламный аукцион генерирует очень много данных: логи запросов площадки к потенциальным покупателям рекламы, логи показов рекламы, логи кликов – это десятки терабайт данных в день.

Причем для этих задач мы наблюдали интересное явление: чем больше данных даешь для обучения модели, тем выше ее качество. Обычно на определенном количестве данных качество прогноза перестает улучшаться, и для дальнейшего повышения точности нужно использовать принципиально другую модель, другой подход к подготовке данных, фичей и так далее. Здесь мы заливали больше данных и качество росло.

Это типичный кейс, где аналитикам приходилось, во-первых, работать с большими data-сетами, чтобы как минимум провести эксперимент, и где нельзя было обойтись небольшим семплом, который помещается в уютном макбуке. При этом нам нужны были распределенные модели, потому что иначе их невозможно было обучить. С внедрением компьютерного зрения в продакшен такие примеры встречаются все чаще, поскольку картинки – это большой объем данных, а чтобы обучить большую модель, нужны миллионы картинок.

Тут же возникает вопрос: как хранить всю эту информацию, как ее эффективно обрабатывать, как использовать распределенные алгоритмы обучения – фокус с голой математики смещается в сторону инженерии. Даже если ты не пишешь код в продакшен, нужно уметь работать с инженерными инструментами, чтобы провести эксперимент.

— Как изменился подход к вакансиям data science за последние годы?

— Большие данные перестали быть хайпом и стали реальностью. Жесткие диски стоят достаточно дешево, а значит, появилась возможность собирать вообще все данные, чтобы в будущем их хватило для проверки любых гипотез. В итоге знание инструментов для работы с большими данными становится очень востребованным, и, как следствие, появляется все больше вакансий именно data-инженеров.

В моем понимании, результат работы data scientist’а не эксперимент, а продукт, который дошел до продакшена. И как раз с этой точки зрения, до появления хайпа вокруг больших данных процесс был проще: инженеры занимались машинным обучением для решения конкретных задач, а с доведением алгоритмов до продакшена не возникало проблем.

— Что нужно, чтобы оставаться востребованным специалистом?

— Сейчас в data science пришло много людей, которые выучили математику, теорию машинного обучения, участвовали в конкурсах по анализу данных, где предоставляется готовая инфраструктура: данные очищены, метрики определены, и при этом нет требований к тому, чтобы решение было воспроизводимым и быстрым.

В результате плохо подготовленные к реалиям бизнеса ребята приходят на работу, и образуется пропасть между новичками и опытными разработчиками.

С развитием инструментов, позволяющих собрать собственную модель из готовых модулей — а такие решения уже есть у Microsoft, Google и многих других — и автоматизации машинного обучения, этот разрыв станет еще более явным. В перспективе в профессии будут востребованы серьезные исследователи, придумывающие новые алгоритмы, и сотрудники с развитым инженерным скилом, которые будут внедрять модели и автоматизировать процессы. Как раз курс Ozon Masters по data-инженерии заточен на то, чтобы развивать инженерные скиллы и умение использовать распределенные алгоритмы машинного обучения на больших данных. Мы стараемся снизить разрыв между тем, что data scientist умеет, и тем, что он должен уметь на практике.

— Зачем математику с дипломом идти учиться в бизнес?

— Российское сообщество data science пришло к пониманию, что скилл и опыт очень быстро конвертируются в деньги, поэтому, как только у специалиста появляется практический опыт, его стоимость начинает очень быстро расти, самые скиловые люди стоят очень дорого — и это справедливо на текущем моменте развития рынка.

Большая часть работы data scientist’а заключается в том, чтобы пойти в данные, понять, что там лежит, проконсультироваться с людьми, которые отвечают за бизнес-процессы и генерируют эти данные — и только потом их использовать для построения моделей. Чтобы начать работать с большими данными, крайне важно иметь инженерные скиллы — так гораздо легче обходить острые углы, которых в data science много.

Типичная история: ты написал запрос на SQL, который исполняется с помощью framework Hive, работающего на больших данных. Запрос обрабатывается за десять минут, в худшем случае — за час-два, и часто, получая выгрузки этих данных, ты понимаешь, что забыл учесть какой-то фактор или дополнительную информацию. Тебе приходится заново отправлять запрос и ждать эти минуты и часы. Если ты гений эффективности, то займешься другой задачей, но, как показывает практика, гениев эффективности у нас мало, и люди просто ждут. Поэтому на курсах мы будем уделять много времени эффективности работы, чтобы изначально писать запросы, которые работают не два часа, а несколько минут. Этот скилл кратно увеличивает производительность, а вместе с ней и ценность специалиста.

– Чем Ozon Masters отличается от других курсов?

— В Ozon Masters преподают сотрудники Ozon, и задания основаны на реальных бизнес-кейсах, которые решаются в компаниях. На самом деле, кроме недостатка инженерных скиллов, у человека, который выучил data science в университете, есть еще одна проблема: задача бизнеса формулируется на языке бизнеса, а его цель достаточно проста: зарабатывать больше денег. И математик хорошо знает, как оптимизировать математические метрики — но найти показатель, который будет коррелировать с бизнес-метрикой, сложно. И нужно понимать, что ты решаешь бизнес- задачу, вместе с бизнесом формулировать метрики, которые можно математически оптимизировать. Этот скилл приобретается за счет реальных кейсов, и их дает Ozon.
И даже если отбросить кейсы, то в школе преподает множество практиков, которые решают бизнес- задачи в реальных компаниях. В итоге сам подход к преподаванию все-таки более практико ориентированный. По крайней мере, на своем курсе я буду стараться смещать фокус на то, как применять инструменты, какие существуют подходы и так далее. Вместе со студентами мы будем разбираться в том, что для каждой задачи есть свой инструмент, а у каждого инструмента есть область применимости.

— Самая известная программа обучения анализу данных, конечно, ШАД — в чем отличие конкретно от неё?

— Понятно, что ШАД и Ozon Masters, помимо образовательной функции, решают локальную задачу подготовки кадров. Топовые выпускники ШАДа в первую очередь рекрутируются в Яндекс, но загвоздка в том, что Яндекс в силу своей специфики — а он большой и создавался, когда хороших инструментов работы с большими данными было мало — имеет собственную инфраструктуру и инструменты для работы с данными, а значит, придется осваивать их. У Ozon Masters другой посыл – если ты успешно освоил программу и Ozon или одна из 99% других компаний пригласит тебя на работу, начать приносить пользу бизнесу будет существенно легче, приобретенный в рамках Ozon Masters скиллсет будет достаточным, чтобы просто начать работать.

— Курс длится два года. Почему на это нужно тратить столько времени?

— Хороший вопрос. Долго, потому что по содержанию и уровню преподавателей это цельная магистерская программа, требующая много времени на освоение, и в том числе на домашнюю работу.

С точки зрения моего курса, ожидать, что ученик будет тратить на задания 2-3 часа в неделю — обычное дело. Во-первых, задания выполняются на учебном кластере, а любой общий кластер, подразумевает, что им пользуются одновременно несколько людей. То есть, придется подождать, чтобы задачка начала выполняться, какие-то ресурсы могут отобрать и передать в более приоритетную очередь. С другой стороны, любая работа с большими данными отнимает много времени.

Если у тебя есть еще вопросы о программе, работе с большими данными или инженерных скиллах — в субботу, 25 апреля в 12:00, у Ozon Masters онлайн день открытых дверей. Встречаемся c преподавателями и студентами в ज़ूम और यूट्यूब.

स्रोत: www.habr.com

एक टिप्पणी जोड़ें