Pavel Klemenkov, NVIDIA: Staramy się zmniejszyć rozbieżność między tym, co może zrobić analityk danych, a tym, co powinien móc zrobić

Ruszył drugi nabór studentów studiów magisterskich na kierunku data science i business intelligence Ozon Masters – aby ułatwić podjęcie decyzji o opuszczeniu aplikacji i przystąpieniu do testu online, zapytaliśmy nauczycieli programu, czego się spodziewać po nauce i pracy z danymi.

Pavel Klemenkov, NVIDIA: Staramy się zmniejszyć rozbieżność między tym, co może zrobić analityk danych, a tym, co powinien móc zrobić Główny analityk danych NVIDIA i nauczyciel kursy z zakresu Big Data i Inżynierii Danych Pavel Klemenkov opowiedział, dlaczego matematycy muszą pisać kod i studiować w Ozon Masters przez dwa lata.

— Czy wiele firm korzysta z algorytmów analizy danych?

- Właściwie całkiem sporo. Sporo dużych firm dysponujących naprawdę dużymi zbiorami danych albo zaczyna z nimi skutecznie pracować, albo pracuje z nimi już od dłuższego czasu. Wiadomo, że połowa rynku korzysta z danych, które zmieszczą się w arkuszu Excel lub które można przeliczyć na dużym serwerze, ale nie można powiedzieć, że tylko nieliczne firmy potrafią pracować z danymi.

— Opowiedz nam trochę o projektach, w których wykorzystywana jest analityka danych.

— Przykładowo, pracując w Rambler, robiliśmy system reklamowy, który działał na zasadach RTB (Real Time Bidding) – potrzebowaliśmy zbudować wiele modeli, które zoptymalizują zakup reklamy lub np. będą w stanie przewidzieć prawdopodobieństwo kliknięcia, konwersji i tak dalej. Jednocześnie aukcja reklamowa generuje wiele danych: logi zapytań witryny do potencjalnych nabywców reklam, logi wyświetleń reklam, logi kliknięć - to dziesiątki terabajtów danych dziennie.

Co więcej, dla tych zadań zaobserwowaliśmy ciekawe zjawisko: im więcej danych podasz do uczenia modelu, tym wyższa będzie jego jakość. Zwykle po określonej ilości danych jakość prognozy przestaje się poprawiać, a aby jeszcze bardziej poprawić dokładność, trzeba zastosować zasadniczo inny model, inne podejście do przygotowywania danych, funkcji i tak dalej. Tutaj przesłaliśmy więcej danych, a jakość wzrosła.

To typowy przypadek, w którym analitycy musieli najpierw pracować z dużymi zbiorami danych, aby chociaż przeprowadzić eksperyment, a nie dało się obejść się na małej próbce mieszczącej się w wygodnym MacBooku. Jednocześnie potrzebowaliśmy modeli rozproszonych, bo inaczej nie dałoby się ich wytrenować. Wraz z wprowadzeniem do produkcji wizji komputerowej takie przykłady stają się coraz bardziej powszechne, ponieważ obrazy stanowią dużą ilość danych, a do wytrenowania dużego modelu potrzebne są miliony zdjęć.

Od razu pojawia się pytanie: jak przechowywać te wszystkie informacje, jak efektywnie je przetwarzać, jak wykorzystać algorytmy uczenia rozproszonego – uwaga przesuwa się z czystej matematyki na inżynierię. Nawet jeśli nie piszesz kodu w środowisku produkcyjnym, musisz umieć pracować z narzędziami inżynierskimi, aby przeprowadzić eksperyment.

— Jak zmieniło się podejście do wolnych stanowisk w branży data science w ostatnich latach?

— Big data przestało być tylko szumem i stało się rzeczywistością. Dyski twarde są dość tanie, co oznacza, że ​​można zebrać wszystkie dane, aby w przyszłości wystarczyć do sprawdzenia wszelkich hipotez. W rezultacie wiedza na temat narzędzi do pracy z big data staje się bardzo popularna, a co za tym idzie, pojawia się coraz więcej ofert pracy dla inżynierów danych.

W moim rozumieniu efektem pracy data science nie jest eksperyment, ale produkt, który trafił do produkcji. I właśnie z tego punktu widzenia, przed nastaniem szumu wokół big data, proces był prostszy: inżynierowie angażowali się w uczenie maszynowe, aby rozwiązać konkretne problemy i nie było problemów z wprowadzeniem algorytmów do produkcji.

— Co trzeba zrobić, żeby pozostać poszukiwanym specjalistą?

— Obecnie do nauki o danych przyszło wiele osób, które studiowały matematykę, teorię uczenia maszynowego i brały udział w konkursach analizy danych, podczas których zapewniana jest gotowa infrastruktura: dane są czyszczone, definiowane są metryki i nie ma żadnych wymagania, aby rozwiązanie było powtarzalne i szybkie.

W efekcie chłopaki przychodzą do pracy nieprzygotowani do realiów biznesu i powstaje przepaść pomiędzy nowicjuszami a doświadczonymi programistami.

Wraz z rozwojem narzędzi pozwalających na złożenie własnego modelu z gotowych modułów – a Microsoft, Google i wiele innych firm ma już takie rozwiązania – oraz automatyzacją uczenia maszynowego, luka ta jeszcze bardziej się pogłębi. W przyszłości w tym zawodzie będzie zapotrzebowanie na poważnych badaczy tworzących nowe algorytmy oraz pracowników z rozwiniętymi umiejętnościami inżynierskimi, którzy będą wdrażać modele i automatyzować procesy. Kurs Ozon Masters z inżynierii danych ma na celu rozwój umiejętności inżynierskich i umiejętności wykorzystania rozproszonych algorytmów uczenia maszynowego na dużych zbiorach danych. Staramy się zmniejszać rozbieżność między tym, co potrafi analityk danych, a tym, co powinien potrafić w praktyce.

— Dlaczego matematyk z dyplomem miałby iść na studia biznesowe?

— Rosyjska społeczność analityki danych zrozumiała, że ​​umiejętności i doświadczenie bardzo szybko zamieniają się w pieniądze, dlatego gdy tylko specjalista zdobędzie praktyczne doświadczenie, jego koszt zaczyna bardzo szybko rosnąć, najbardziej wykwalifikowani ludzie są bardzo drodzy – i to jest prawdziwe w obecnym momencie rynku deweloperskiego.

Duża część pracy analityka danych polega na wniknięciu w dane, zrozumieniu, co się w nich kryje, konsultowaniu się z osobami odpowiedzialnymi za procesy biznesowe i generowaniu tych danych, a dopiero potem wykorzystywaniu ich do budowania modeli. Aby rozpocząć pracę z big data, niezwykle ważne jest posiadanie umiejętności inżynierskich - dzięki temu znacznie łatwiej jest unikać ostrych zakrętów, których w data science jest wiele.

Typowa historia: napisałeś zapytanie w języku SQL, które jest wykonywane przy użyciu frameworku Hive działającego na dużych zbiorach danych. Żądanie jest przetwarzane w ciągu dziesięciu minut, w najgorszym przypadku - godziny lub dwóch, a często, gdy otrzymujesz pliki do pobrania tych danych, zdajesz sobie sprawę, że zapomniałeś wziąć pod uwagę jakiś czynnik lub dodatkowe informacje. Musisz ponownie wysłać żądanie i poczekać te minuty i godziny. Jeśli jesteś geniuszem efektywności, podejmiesz się innego zadania, ale jak pokazuje praktyka, geniuszy efektywności mamy niewielu, a ludzie tylko czekają. Dlatego na kursach poświęcimy dużo czasu na efektywność pracy, aby początkowo napisać zapytania, które działają nie na dwie godziny, ale na kilka minut. Ta umiejętność zwielokrotnia produktywność, a wraz z nią wartość specjalisty.

– Czym Ozon Masters różni się od innych kursów?

— Ozon Masters prowadzą pracownicy Ozon, a zadania opierają się na rzeczywistych przypadkach biznesowych rozwiązywanych w firmach. Tak naprawdę, oprócz braku umiejętności inżynierskich, osoba, która studiowała analitykę danych na uniwersytecie, ma jeszcze jeden problem: zadanie biznesu jest sformułowane w języku biznesu, a jego cel jest dość prosty: zarobić więcej pieniędzy. A matematyk dobrze wie, jak optymalizować metryki matematyczne – ale znalezienie wskaźnika, który będzie korelował z metryką biznesową, jest trudne. Musisz zrozumieć, że rozwiązujesz problem biznesowy i wspólnie z biznesem sformułować wskaźniki, które można matematycznie zoptymalizować. Umiejętność tę nabywa się poprzez prawdziwe przypadki, a daje je Ozon.
I nawet jeśli pominiemy przypadki, w szkole uczy wielu praktyków, którzy rozwiązują problemy biznesowe w prawdziwych firmach. W rezultacie podejście do samego nauczania jest nadal bardziej zorientowane na praktykę. Przynajmniej w trakcie mojego kursu postaram się skupić uwagę na tym, jak korzystać z narzędzi, jakie istnieją podejścia i tak dalej. Razem z uczniami zrozumiemy, że każde zadanie ma swoje narzędzie i każde narzędzie ma swój obszar zastosowania.

— Najsłynniejszym programem szkoleniowym w zakresie analizy danych jest oczywiście ShAD — jaka dokładnie jest od niego różnica?

— Oczywiste jest, że ShAD i Ozon Masters, oprócz funkcji edukacyjnej, rozwiązują lokalny problem szkolenia personelu. Czołowi absolwenci SHAD rekrutowani są przede wszystkim do Yandexu, jednak haczyk jest taki, że Yandex ze względu na swoją specyfikę – a jest duży i powstał, gdy brakowało dobrych narzędzi do pracy z big data – posiada własną infrastrukturę i narzędzia do pracy z danymi co oznacza, że ​​będziesz musiał je opanować. Ozon Masters ma inny przekaz – jeśli pomyślnie opanowałeś program i Ozon lub jedna z 99% innych firm zaprosi Cię do pracy, znacznie łatwiej będzie zacząć przynosić korzyści biznesowi; zestaw umiejętności zdobyty w ramach Ozon Masters wystarczy, żeby po prostu zacząć pracować.

— Kurs trwa dwa lata. Dlaczego musisz poświęcać na to tyle czasu?

- Dobre pytanie. Zajmuje to dużo czasu, bo pod względem merytorycznym i poziomu nauczycieli jest to integralny program magisterski, którego opanowanie wymaga dużo czasu, łącznie z pracą domową.

Z mojego punktu widzenia, oczekiwanie od studenta, że ​​będzie spędzał 2-3 godziny tygodniowo na zadaniach, jest powszechne. Po pierwsze, zadania realizowane są na klastrze szkoleniowym, a każdy klaster współdzielony oznacza, że ​​korzysta z niego kilka osób jednocześnie. Oznacza to, że będziesz musiał poczekać, aż zadanie zacznie się wykonywać; niektóre zasoby mogą zostać wybrane i przeniesione do kolejki o wyższym priorytecie. Z drugiej strony każda praca z big data zajmuje dużo czasu.

Jeśli masz więcej pytań na temat programu, pracy z dużymi zbiorami danych lub umiejętności inżynieryjnych, Ozon Masters organizuje dzień otwarty online w sobotę, 25 kwietnia o godzinie 12:00. Spotykamy się z nauczycielami i uczniami w kl Powiększenie i YouTube.

Źródło: www.habr.com

Dodaj komentarz