Pavel Klemenkov, NVIDIA: Snažíme se zmenšit propast mezi tím, co datový vědec umí, a tím, co by měl umět

Začal druhý příjem studentů magisterského programu datové vědy a business intelligence Ozon Masters – a abychom usnadnili rozhodování opustit přihlášku a absolvovat online test, zeptali jsme se učitelů programu na to, co očekávat od studia a práce s daty.

Pavel Klemenkov, NVIDIA: Snažíme se zmenšit propast mezi tím, co datový vědec umí, a tím, co by měl umět Hlavní datový vědec NVIDIA a učitel kurzy o velkých datech a datovém inženýrství Pavel Klemenkov hovořil o tom, proč matematici potřebují psát kód a dva roky studovat na Ozon Masters.

— Existuje mnoho společností, které používají algoritmy datové vědy?

- Vlastně docela hodně. Poměrně hodně velkých společností, které mají opravdu velká data, s nimi buď začíná efektivně pracovat, nebo s nimi pracuje již delší dobu. Je jasné, že polovina trhu používá data, která se vejdou do excelové tabulky nebo se dají spočítat na velkém serveru, ale nedá se říci, že je jen málo firem, které umí s daty pracovat.

— Řekněte nám něco o projektech, kde se datová věda používá.

— Například při práci v Rambleru jsme dělali reklamní systém, který fungoval na principech RTB (Real Time Bidding) – potřebovali jsme postavit mnoho modelů, které by optimalizovaly nákup reklamy nebo například uměly předpovídat pravděpodobnost kliknutí, konverze atd. Reklamní aukce zároveň generuje spoustu dat: protokoly požadavků na stránky potenciálním kupujícím reklamy, protokoly zobrazení reklamy, protokoly prokliků – to jsou desítky terabajtů dat za den.

Navíc jsme u těchto úloh pozorovali zajímavý jev: čím více dat pro trénování modelu dáte, tím vyšší je jeho kvalita. Obvykle se po určitém množství dat přestane kvalita prognózy zlepšovat a pro další zlepšení přesnosti je potřeba použít zásadně jiný model, jiný přístup k přípravě dat, funkcí a tak dále. Zde jsme nahráli více dat a kvalita se zvýšila.

Jde o typický případ, kdy analytici museli nejprve pracovat s velkými datovými soubory, aby mohli provést alespoň experiment, a kde nebylo možné vystačit s malým vzorkem, který se vejde do útulného MacBooku. Zároveň jsme potřebovali distribuované modely, protože jinak by se nedaly trénovat. Se zavedením počítačového vidění do výroby jsou takové příklady stále běžnější, protože obrázky představují velké množství dat a k trénování velkého modelu jsou potřeba miliony obrázků.

Okamžitě vyvstává otázka: jak všechny tyto informace uchovávat, jak je efektivně zpracovávat, jak používat algoritmy distribuovaného učení – těžiště se přesouvá od čisté matematiky k inženýrství. I když nepíšete kód ve výrobě, musíte být schopni pracovat s inženýrskými nástroji, abyste mohli provést experiment.

— Jak se v posledních letech změnil přístup k volným místům v oblasti datové vědy?

— Velká data přestala být hype a stala se realitou. Pevné disky jsou poměrně levné, což znamená, že je možné shromáždit všechna data, takže v budoucnu bude dostatek pro testování jakýchkoli hypotéz. Znalost nástrojů pro práci s velkými daty se díky tomu stává velmi populární a v důsledku toho se objevuje stále více volných míst pro datové inženýry.

Podle mého chápání není výsledkem práce datového vědce experiment, ale produkt, který se dostal do výroby. A právě z tohoto pohledu, před příchodem humbuku kolem velkých dat, byl proces jednodušší: inženýři se zabývali strojovým učením, aby řešili konkrétní problémy, a nebyly žádné problémy s uvedením algoritmů do výroby.

— Co je potřeba k tomu, abyste zůstali vyhledávaným specialistou?

— Nyní se k datové vědě dostalo mnoho lidí, kteří studovali matematiku, teorii strojového učení a účastnili se soutěží analýzy dat, kde je poskytována hotová infrastruktura: data jsou vyčištěna, metriky jsou definovány a neexistují žádné požadavky na to, aby řešení bylo reprodukovatelné a rychlé.

Výsledkem je, že kluci přicházejí do práce špatně připraveni na realitu podnikání a mezi nováčky a zkušenými vývojáři se vytváří propast.

S vývojem nástrojů, které vám umožní sestavit si vlastní model z hotových modulů – a Microsoft, Google a mnoho dalších už taková řešení mají – a automatizací strojového učení se tato mezera ještě více zvýrazňuje. V budoucnu bude tato profese žádaná pro seriózní výzkumníky, kteří přijdou s novými algoritmy, a zaměstnance s rozvinutými inženýrskými dovednostmi, kteří budou implementovat modely a automatizovat procesy. Kurz Ozon Masters v datovém inženýrství je navržen tak, aby rozvíjel inženýrské dovednosti a schopnost používat algoritmy distribuovaného strojového učení na velkých datech. Snažíme se zmenšit propast mezi tím, co datový vědec umí a co by měl umět v praxi.

— Proč by měl matematik s diplomem jít studovat obchod?

— Ruská komunita datové vědy pochopila, že dovednosti a zkušenosti se velmi rychle přeměňují na peníze, a proto, jakmile má specialista praktické zkušenosti, jeho náklady začnou velmi rychle růst, nejkvalifikovanější lidé jsou velmi drazí – a to je pravda v současném okamžiku vývoje trhu.

Velká část práce datového vědce je proniknout do dat, pochopit, co se tam skrývá, poradit se s lidmi, kteří jsou zodpovědní za obchodní procesy a tato data generovat – a teprve poté je použít k vytváření modelů. Chcete-li začít pracovat s velkými daty, je nesmírně důležité mít inženýrské dovednosti – díky tomu je mnohem snazší vyhnout se ostrým rohům, kterých je v datové vědě mnoho.

Typický příběh: napsali jste dotaz v SQL, který se provádí pomocí frameworku Hive běžícího na velkých datech. Žádost je zpracována za deset minut, v nejhorším případě za hodinu nebo dvě, a často, když obdržíte stahování těchto dat, zjistíte, že jste zapomněli vzít v úvahu nějaký faktor nebo doplňující informace. Musíte znovu odeslat žádost a počkat tyto minuty a hodiny. Jste-li géniem efektivity, ujmete se jiného úkolu, ale jak ukazuje praxe, máme jen málo géniů efektivity a lidé jen čekají. V kurzech se proto budeme hodně věnovat efektivitě práce, abychom zpočátku psali dotazy, které nefungují dvě hodiny, ale několik minut. Tato dovednost znásobuje produktivitu a s ní i hodnotu specialisty.

– Jak se Ozon Masters liší od ostatních kurzů?

— Ozon Masters vyučují zaměstnanci Ozonu a úkoly vycházejí ze skutečných obchodních případů, které se řeší ve firmách. Ve skutečnosti má člověk, který vystudoval datovou vědu na univerzitě, kromě nedostatku inženýrských dovedností ještě jeden problém: úkol podnikání je formulován v obchodním jazyce a jeho cíl je celkem jednoduchý: vydělat více peněz. A matematik dobře ví, jak optimalizovat matematické metriky – ale najít ukazatel, který bude korelovat s obchodní metrikou, je obtížné. A musíte pochopit, že řešíte obchodní problém, a společně s byznysem formulovat metriky, které lze matematicky optimalizovat. Tato dovednost se získává prostřednictvím skutečných případů a dává je Ozon.
A i když pomineme případy, na škole vyučuje mnoho praktiků, kteří řeší obchodní problémy v reálných firmách. Díky tomu je přístup k samotné výuce stále více orientován na praxi. Alespoň ve svém kurzu se pokusím přesunout pozornost na to, jak používat nástroje, jaké existují přístupy a tak dále. Společně se studenty pochopíme, že každý úkol má svůj vlastní nástroj a každý nástroj má svou oblast použití.

— Nejznámějším tréninkovým programem analýzy dat je samozřejmě ShAD – jaký je přesně rozdíl od něj?

— Je zřejmé, že SHAD a Ozon Masters kromě vzdělávací funkce řeší místní problém školení personálu. Nejlepší absolventi SHAD jsou primárně přijímáni do Yandexu, ale háček je v tom, že Yandex má díky svým specifikům – a je velký a vznikl v době, kdy bylo málo dobrých nástrojů pro práci s velkými daty – vlastní infrastrukturu a nástroje pro práci s daty. , což znamená, že je budete muset zvládnout. Ozon Masters má jiné poselství – pokud jste úspěšně zvládli program a Ozon nebo jedna z 99 % jiných společností vás pozve do práce, bude mnohem snazší začít prospívat podnikání; sada dovedností získaná v rámci Ozon Masters bude stačit začít pracovat.

— Kurz trvá dva roky. Proč tomu musíte věnovat tolik času?

- Dobrá otázka. Trvá to dlouho, protože obsahově i úrovní učitelů se jedná o ucelený magisterský program, jehož zvládnutí vyžaduje spoustu času, včetně domácích úkolů.

Z mého pohledu kurzu je běžné očekávat, že student stráví 2-3 hodiny týdně na úkolech. Za prvé, úkoly se provádějí na tréninkovém clusteru a jakýkoli sdílený cluster znamená, že jej používá několik lidí současně. To znamená, že budete muset počkat, až se úloha začne provádět; některé zdroje mohou být vybrány a převedeny do fronty s vyšší prioritou. Na druhou stranu jakákoliv práce s velkými daty zabere spoustu času.

Pokud máte další dotazy k programu, práci s velkými daty nebo inženýrským dovednostem, Ozon Masters pořádá online den otevřených dveří v sobotu 25. dubna ve 12:00. Setkáváme se s učiteli a studenty v zoom a Youtube.

Zdroj: www.habr.com

Přidat komentář