Pavel Klemenkov, NVIDIA: Snažíme sa zmenšiť priepasť medzi tým, čo dátový vedec dokáže a tým, čo by mal vedieť

Začal sa druhý príjem študentov magisterského programu dátovej vedy a business intelligence Ozon Masters – a aby sme vám uľahčili rozhodovanie o opustení prihlášky a absolvovaní online testu, opýtali sme sa učiteľov programu, čo očakávať od štúdia a práce s údajmi.

Pavel Klemenkov, NVIDIA: Snažíme sa zmenšiť priepasť medzi tým, čo dátový vedec dokáže a tým, čo by mal vedieť Hlavný dátový vedec NVIDIA a učiteľ kurzy o veľkých dátach a dátovom inžinierstve Pavel Klemenkov hovoril o tom, prečo matematici potrebujú písať kód a dva roky študovať na Ozon Masters.

— Existuje veľa spoločností, ktoré používajú algoritmy vedy o údajoch?

- Vlastne dosť veľa. Pomerne veľa veľkých spoločností, ktoré majú skutočne veľké dáta, s nimi buď začína efektívne pracovať, alebo s nimi pracuje už dlhšie. Je jasné, že polovica trhu používa dáta, ktoré sa zmestia do excelovskej tabuľky alebo sa dajú vypočítať na veľkom serveri, no nedá sa povedať, že je len málo firiem, ktoré vedia s dátami pracovať.

— Povedzte nám niečo o projektoch, v ktorých sa využíva veda o údajoch.

— Napríklad počas práce v Rambleri sme robili reklamný systém, ktorý fungoval na princípoch RTB (Real Time Bidding) – potrebovali sme postaviť veľa modelov, ktoré by optimalizovali nákup reklamy alebo napríklad vedeli predpovedať pravdepodobnosť kliknutia, konverzie atď. Reklamná aukcia zároveň generuje množstvo údajov: protokoly žiadostí o stránky potenciálnym kupujúcim reklamy, protokoly zobrazení reklamy, protokoly kliknutí – to sú desiatky terabajtov údajov za deň.

Navyše pri týchto úlohách sme pozorovali zaujímavý jav: čím viac dát na trénovanie modelu dáte, tým je jeho kvalita vyššia. Väčšinou sa po určitom množstve dát kvalita prognózy prestane zlepšovať a na ďalšie zlepšenie presnosti je potrebné použiť zásadne iný model, iný prístup k príprave dát, funkcií a pod. Tu sme nahrali viac dát a kvalita sa zvýšila.

Toto je typický prípad, keď analytici museli najprv pracovať s veľkými súbormi údajov, aby mohli aspoň uskutočniť experiment, a kde nebolo možné vyjsť s malou vzorkou, ktorá sa zmestí do útulného MacBooku. Zároveň sme potrebovali distribuované modely, pretože inak by sa nedali trénovať. So zavedením počítačového videnia do výroby sú takéto príklady čoraz bežnejšie, pretože obrázky predstavujú veľké množstvo údajov a na trénovanie veľkého modelu sú potrebné milióny obrázkov.

Okamžite vyvstáva otázka: ako všetky tieto informácie uchovávať, ako ich efektívne spracovať, ako používať distribuované algoritmy učenia – zameranie sa presúva z čistej matematiky do inžinierstva. Dokonca aj keď nepíšete kód vo výrobe, musíte byť schopní pracovať s inžinierskymi nástrojmi na vykonanie experimentu.

— Ako sa za posledné roky zmenil prístup k voľným pracovným miestam v oblasti dátovej vedy?

— Veľké dáta prestali byť hype a stali sa realitou. Pevné disky sú pomerne lacné, čo znamená, že je možné zhromaždiť všetky údaje, takže v budúcnosti bude dostatok na testovanie akýchkoľvek hypotéz. Znalosti nástrojov na prácu s veľkými dátami sa vďaka tomu stávajú veľmi populárnymi a v dôsledku toho sa objavuje stále viac voľných pracovných miest pre dátových inžinierov.

Podľa môjho názoru nie je výsledkom práce dátového vedca experiment, ale produkt, ktorý sa dostal do výroby. A práve z tohto pohľadu, pred príchodom humbuku okolo veľkých dát, bol proces jednoduchší: inžinieri sa zaoberali strojovým učením, aby vyriešili konkrétne problémy, a neboli žiadne problémy s uvedením algoritmov do výroby.

— Čo je potrebné na to, aby ste zostali vyhľadávaným odborníkom?

— Teraz do vedy o údajoch prišlo veľa ľudí, ktorí študovali matematiku, teóriu strojového učenia a zúčastnili sa súťaží analýzy údajov, kde je k dispozícii hotová infraštruktúra: údaje sú vyčistené, metriky sú definované a neexistujú žiadne požiadavky na to, aby bolo riešenie reprodukovateľné a rýchle.

Výsledkom je, že chlapci prichádzajú do práce nedostatočne pripravení na realitu podnikania a medzi začiatočníkmi a skúsenými vývojármi sa vytvára priepasť.

S vývojom nástrojov, ktoré vám umožnia zostaviť si vlastný model z hotových modulov – a Microsoft, Google a mnohí ďalší už takéto riešenia majú – a automatizáciou strojového učenia sa táto medzera ešte zvýrazní. V budúcnosti bude táto profesia žiadaná pre serióznych výskumníkov, ktorí prídu s novými algoritmami, a zamestnancov s rozvinutými inžinierskymi zručnosťami, ktorí budú implementovať modely a automatizovať procesy. Kurz Ozon Masters v dátovom inžinierstve je navrhnutý tak, aby rozvíjal inžinierske zručnosti a schopnosť používať distribuované algoritmy strojového učenia na veľkých dátach. Snažíme sa zmenšiť priepasť medzi tým, čo dátový vedec dokáže a tým, čo by mal byť schopný robiť v praxi.

— Prečo by matematik s diplomom mal ísť študovať obchod?

— Ruská komunita dátovej vedy pochopila, že zručnosti a skúsenosti sa veľmi rýchlo premieňajú na peniaze, a preto, akonáhle má odborník praktické skúsenosti, jeho náklady začnú veľmi rýchlo rásť, najkvalifikovanejší ľudia sú veľmi drahí – a to je pravda v súčasnom momente rozvoja trhu.

Veľkou časťou práce dátového vedca je ísť do dát, pochopiť, čo sa tam skrýva, poradiť sa s ľuďmi, ktorí sú zodpovední za obchodné procesy a tieto dáta generovať – a až potom ich použiť na vytváranie modelov. Ak chcete začať pracovať s veľkými údajmi, je mimoriadne dôležité mať inžinierske zručnosti – vďaka tomu je oveľa jednoduchšie vyhnúť sa ostrým rohom, ktorých je v dátovej vede veľa.

Typický príbeh: napísali ste dotaz v SQL, ktorý sa vykonáva pomocou rámca Hive spusteného na veľkých údajoch. Žiadosť je spracovaná za desať minút, v najhoršom prípade za hodinu alebo dve a často, keď dostanete sťahovanie týchto údajov, zistíte, že ste zabudli vziať do úvahy nejaký faktor alebo dodatočné informácie. Musíte znova odoslať žiadosť a počkať tieto minúty a hodiny. Ak ste génius efektívnosti, prevezmete ďalšiu úlohu, ale ako ukazuje prax, máme málo géniov efektívnosti a ľudia len čakajú. Preto na kurzoch budeme venovať veľa času efektivite práce, aby sme na začiatku písali dotazy, ktoré nefungujú dve hodiny, ale niekoľko minút. Táto zručnosť znásobuje produktivitu a s ňou aj hodnotu špecialistu.

– Ako sa Ozon Masters líši od iných kurzov?

— Ozon Masters učia zamestnanci Ozonu a úlohy vychádzajú z reálnych obchodných prípadov, ktoré sa riešia vo firmách. V skutočnosti má človek, ktorý vyštudoval dátovú vedu na univerzite, okrem nedostatku inžinierskych zručností aj ďalší problém: úloha podnikania je formulovaná v jazyku biznisu a jej cieľ je celkom jednoduchý: zarobiť viac peňazí. A matematik dobre vie, ako optimalizovať matematické metriky – ale nájsť ukazovateľ, ktorý bude korelovať s obchodnou metrikou, je ťažké. A musíte pochopiť, že riešite biznis problém a spolu s biznisom formulovať metriky, ktoré sa dajú matematicky optimalizovať. Táto zručnosť sa získava prostredníctvom skutočných prípadov a dáva ich Ozon.
A aj keď ignorujeme prípady, na škole vyučuje veľa odborníkov z praxe, ktorí riešia biznis problémy v reálnych firmách. Vďaka tomu je prístup k samotnej výučbe predsa len viac orientovaný na prax. Aspoň na svojom kurze sa pokúsim presunúť pozornosť na to, ako používať nástroje, aké prístupy existujú atď. Spolu so študentmi pochopíme, že každá úloha má svoj vlastný nástroj a každý nástroj má svoju oblasť použitia.

— Najznámejším školiacim programom analýzy údajov je, samozrejme, ShAD – aký je od neho presne rozdiel?

— Je zrejmé, že SHAD a Ozon Masters okrem vzdelávacej funkcie riešia aj lokálny problém školenia personálu. Najlepší absolventi SHAD sú primárne prijímaní do Yandexu, ale háčik je v tom, že Yandex má kvôli svojim špecifikám – a je veľký a bol vytvorený, keď bolo málo dobrých nástrojov na prácu s veľkými údajmi – vlastnú infraštruktúru a nástroje na prácu s údajmi. , čo znamená, že ich budete musieť ovládať. Ozon Masters má iné posolstvo - ak ste úspešne zvládli program a Ozon alebo niektorá z 99% iných spoločností vás pozve do práce, bude oveľa jednoduchšie začať prospievať podnikaniu; súbor zručností nadobudnutých v rámci Ozon Masters bude stačiť začať pracovať.

— Kurz trvá dva roky. Prečo tomu musíte venovať toľko času?

- Dobrá otázka. Trvá to dlho, pretože z hľadiska obsahu a úrovne učiteľov ide o ucelený magisterský program, ktorého zvládnutie si vyžaduje veľa času, vrátane domácich úloh.

Z môjho pohľadu na kurz je bežné očakávať, že študent strávi 2-3 hodiny týždenne na zadaniach. Po prvé, úlohy sa vykonávajú na tréningovom klastri a každý zdieľaný klaster znamená, že ho používa niekoľko ľudí súčasne. To znamená, že budete musieť počkať, kým sa úloha začne vykonávať; niektoré zdroje môžu byť vybraté a prenesené do frontu s vyššou prioritou. Na druhej strane akákoľvek práca s veľkými dátami zaberie veľa času.

Ak máte ďalšie otázky týkajúce sa programu, práce s veľkými dátami alebo inžinierskych zručností, Ozon Masters má v sobotu 25. apríla o 12:00 online deň otvorených dverí. Stretávame sa s učiteľmi a žiakmi v zoom a YouTube.

Zdroj: hab.com

Pridať komentár