Ruszył drugi nabór studentów studiów magisterskich na kierunku data science i business intelligence Ozon Masters – aby ułatwić podjęcie decyzji o opuszczeniu aplikacji i przystąpieniu do testu online, zapytaliśmy nauczycieli programu, czego się spodziewać po nauce i pracy z danymi.
Główny analityk danych NVIDIA i nauczyciel
— Czy wiele firm korzysta z algorytmów analizy danych?
- Właściwie całkiem sporo. Sporo dużych firm dysponujących naprawdę dużymi zbiorami danych albo zaczyna z nimi skutecznie pracować, albo pracuje z nimi już od dłuższego czasu. Wiadomo, że połowa rynku korzysta z danych, które zmieszczą się w arkuszu Excel lub które można przeliczyć na dużym serwerze, ale nie można powiedzieć, że tylko nieliczne firmy potrafią pracować z danymi.
— Opowiedz nam trochę o projektach, w których wykorzystywana jest analityka danych.
— Przykładowo, pracując w Rambler, robiliśmy system reklamowy, który działał na zasadach RTB (Real Time Bidding) – potrzebowaliśmy zbudować wiele modeli, które zoptymalizują zakup reklamy lub np. będą w stanie przewidzieć prawdopodobieństwo kliknięcia, konwersji i tak dalej. Jednocześnie aukcja reklamowa generuje wiele danych: logi zapytań witryny do potencjalnych nabywców reklam, logi wyświetleń reklam, logi kliknięć - to dziesiątki terabajtów danych dziennie.
Co więcej, dla tych zadań zaobserwowaliśmy ciekawe zjawisko: im więcej danych podasz do uczenia modelu, tym wyższa będzie jego jakość. Zwykle po określonej ilości danych jakość prognozy przestaje się poprawiać, a aby jeszcze bardziej poprawić dokładność, trzeba zastosować zasadniczo inny model, inne podejście do przygotowywania danych, funkcji i tak dalej. Tutaj przesłaliśmy więcej danych, a jakość wzrosła.
To typowy przypadek, w którym analitycy musieli najpierw pracować z dużymi zbiorami danych, aby chociaż przeprowadzić eksperyment, a nie dało się obejść się na małej próbce mieszczącej się w wygodnym MacBooku. Jednocześnie potrzebowaliśmy modeli rozproszonych, bo inaczej nie dałoby się ich wytrenować. Wraz z wprowadzeniem do produkcji wizji komputerowej takie przykłady stają się coraz bardziej powszechne, ponieważ obrazy stanowią dużą ilość danych, a do wytrenowania dużego modelu potrzebne są miliony zdjęć.
Od razu pojawia się pytanie: jak przechowywać te wszystkie informacje, jak efektywnie je przetwarzać, jak wykorzystać algorytmy uczenia rozproszonego – uwaga przesuwa się z czystej matematyki na inżynierię. Nawet jeśli nie piszesz kodu w środowisku produkcyjnym, musisz umieć pracować z narzędziami inżynierskimi, aby przeprowadzić eksperyment.
— Jak zmieniło się podejście do wolnych stanowisk w branży data science w ostatnich latach?
— Big data przestało być tylko szumem i stało się rzeczywistością. Dyski twarde są dość tanie, co oznacza, że można zebrać wszystkie dane, aby w przyszłości wystarczyć do sprawdzenia wszelkich hipotez. W rezultacie wiedza na temat narzędzi do pracy z big data staje się bardzo popularna, a co za tym idzie, pojawia się coraz więcej ofert pracy dla inżynierów danych.
W moim rozumieniu efektem pracy data science nie jest eksperyment, ale produkt, który trafił do produkcji. I właśnie z tego punktu widzenia, przed nastaniem szumu wokół big data, proces był prostszy: inżynierowie angażowali się w uczenie maszynowe, aby rozwiązać konkretne problemy i nie było problemów z wprowadzeniem algorytmów do produkcji.
— Co trzeba zrobić, żeby pozostać poszukiwanym specjalistą?
— Obecnie do nauki o danych przyszło wiele osób, które studiowały matematykę, teorię uczenia maszynowego i brały udział w konkursach analizy danych, podczas których zapewniana jest gotowa infrastruktura: dane są czyszczone, definiowane są metryki i nie ma żadnych wymagania, aby rozwiązanie było powtarzalne i szybkie.
W efekcie chłopaki przychodzą do pracy nieprzygotowani do realiów biznesu i powstaje przepaść pomiędzy nowicjuszami a doświadczonymi programistami.
Wraz z rozwojem narzędzi pozwalających na złożenie własnego modelu z gotowych modułów – a Microsoft, Google i wiele innych firm ma już takie rozwiązania – oraz automatyzacją uczenia maszynowego, luka ta jeszcze bardziej się pogłębi. W przyszłości w tym zawodzie będzie zapotrzebowanie na poważnych badaczy tworzących nowe algorytmy oraz pracowników z rozwiniętymi umiejętnościami inżynierskimi, którzy będą wdrażać modele i automatyzować procesy. Kurs Ozon Masters z inżynierii danych ma na celu rozwój umiejętności inżynierskich i umiejętności wykorzystania rozproszonych algorytmów uczenia maszynowego na dużych zbiorach danych. Staramy się zmniejszać rozbieżność między tym, co potrafi analityk danych, a tym, co powinien potrafić w praktyce.
— Dlaczego matematyk z dyplomem miałby iść na studia biznesowe?
— Rosyjska społeczność analityki danych zrozumiała, że umiejętności i doświadczenie bardzo szybko zamieniają się w pieniądze, dlatego gdy tylko specjalista zdobędzie praktyczne doświadczenie, jego koszt zaczyna bardzo szybko rosnąć, najbardziej wykwalifikowani ludzie są bardzo drodzy – i to jest prawdziwe w obecnym momencie rynku deweloperskiego.
Duża część pracy analityka danych polega na wniknięciu w dane, zrozumieniu, co się w nich kryje, konsultowaniu się z osobami odpowiedzialnymi za procesy biznesowe i generowaniu tych danych, a dopiero potem wykorzystywaniu ich do budowania modeli. Aby rozpocząć pracę z big data, niezwykle ważne jest posiadanie umiejętności inżynierskich - dzięki temu znacznie łatwiej jest unikać ostrych zakrętów, których w data science jest wiele.
Typowa historia: napisałeś zapytanie w języku SQL, które jest wykonywane przy użyciu frameworku Hive działającego na dużych zbiorach danych. Żądanie jest przetwarzane w ciągu dziesięciu minut, w najgorszym przypadku - godziny lub dwóch, a często, gdy otrzymujesz pliki do pobrania tych danych, zdajesz sobie sprawę, że zapomniałeś wziąć pod uwagę jakiś czynnik lub dodatkowe informacje. Musisz ponownie wysłać żądanie i poczekać te minuty i godziny. Jeśli jesteś geniuszem efektywności, podejmiesz się innego zadania, ale jak pokazuje praktyka, geniuszy efektywności mamy niewielu, a ludzie tylko czekają. Dlatego na kursach poświęcimy dużo czasu na efektywność pracy, aby początkowo napisać zapytania, które działają nie na dwie godziny, ale na kilka minut. Ta umiejętność zwielokrotnia produktywność, a wraz z nią wartość specjalisty.
– Czym Ozon Masters różni się od innych kursów?
— Ozon Masters prowadzą pracownicy Ozon, a zadania opierają się na rzeczywistych przypadkach biznesowych rozwiązywanych w firmach. Tak naprawdę, oprócz braku umiejętności inżynierskich, osoba, która studiowała analitykę danych na uniwersytecie, ma jeszcze jeden problem: zadanie biznesu jest sformułowane w języku biznesu, a jego cel jest dość prosty: zarobić więcej pieniędzy. A matematyk dobrze wie, jak optymalizować metryki matematyczne – ale znalezienie wskaźnika, który będzie korelował z metryką biznesową, jest trudne. Musisz zrozumieć, że rozwiązujesz problem biznesowy i wspólnie z biznesem sformułować wskaźniki, które można matematycznie zoptymalizować. Umiejętność tę nabywa się poprzez prawdziwe przypadki, a daje je Ozon.
I nawet jeśli pominiemy przypadki, w szkole uczy wielu praktyków, którzy rozwiązują problemy biznesowe w prawdziwych firmach. W rezultacie podejście do samego nauczania jest nadal bardziej zorientowane na praktykę. Przynajmniej w trakcie mojego kursu postaram się skupić uwagę na tym, jak korzystać z narzędzi, jakie istnieją podejścia i tak dalej. Razem z uczniami zrozumiemy, że każde zadanie ma swoje narzędzie i każde narzędzie ma swój obszar zastosowania.
— Najsłynniejszym programem szkoleniowym w zakresie analizy danych jest oczywiście ShAD — jaka dokładnie jest od niego różnica?
— Oczywiste jest, że ShAD i Ozon Masters, oprócz funkcji edukacyjnej, rozwiązują lokalny problem szkolenia personelu. Czołowi absolwenci SHAD rekrutowani są przede wszystkim do Yandexu, jednak haczyk jest taki, że Yandex ze względu na swoją specyfikę – a jest duży i powstał, gdy brakowało dobrych narzędzi do pracy z big data – posiada własną infrastrukturę i narzędzia do pracy z danymi co oznacza, że będziesz musiał je opanować. Ozon Masters ma inny przekaz – jeśli pomyślnie opanowałeś program i Ozon lub jedna z 99% innych firm zaprosi Cię do pracy, znacznie łatwiej będzie zacząć przynosić korzyści biznesowi; zestaw umiejętności zdobyty w ramach Ozon Masters wystarczy, żeby po prostu zacząć pracować.
— Kurs trwa dwa lata. Dlaczego musisz poświęcać na to tyle czasu?
- Dobre pytanie. Zajmuje to dużo czasu, bo pod względem merytorycznym i poziomu nauczycieli jest to integralny program magisterski, którego opanowanie wymaga dużo czasu, łącznie z pracą domową.
Z mojego punktu widzenia, oczekiwanie od studenta, że będzie spędzał 2-3 godziny tygodniowo na zadaniach, jest powszechne. Po pierwsze, zadania realizowane są na klastrze szkoleniowym, a każdy klaster współdzielony oznacza, że korzysta z niego kilka osób jednocześnie. Oznacza to, że będziesz musiał poczekać, aż zadanie zacznie się wykonywać; niektóre zasoby mogą zostać wybrane i przeniesione do kolejki o wyższym priorytecie. Z drugiej strony każda praca z big data zajmuje dużo czasu.
Jeśli masz więcej pytań na temat programu, pracy z dużymi zbiorami danych lub umiejętności inżynieryjnych, Ozon Masters organizuje dzień otwarty online w sobotę, 25 kwietnia o godzinie 12:00. Spotykamy się z nauczycielami i uczniami w kl
Źródło: www.habr.com