Pavel Klemenkov, NVIDIA: Igyekszünk csökkenteni a szakadékot aközött, hogy mit tehet egy adattudós és mit kell tennie

Megkezdődött az Ozon Masters adattudományi és üzleti intelligencia mesterképzés hallgatóinak második felvétele – és hogy megkönnyítsük a jelentkezés elhagyását és az online teszt kitöltését, megkérdeztük a program oktatóit, hogy mire számíthatunk a tanulástól és a munkától. adatokkal.

Pavel Klemenkov, NVIDIA: Igyekszünk csökkenteni a szakadékot aközött, hogy mit tehet egy adattudós és mit kell tennie Az NVIDIA vezető adatkutatója és tanára kurzusok Big Data és Data Engineering témakörben Pavel Klemenkov arról beszélt, hogy a matematikusoknak miért kell kódot írniuk és két évig tanulniuk az Ozon Masters-en.

— Sok cég használ adattudományi algoritmusokat?

- Valójában elég sokat. Nagyon sok olyan nagy cég, amely igazán nagy adatokkal rendelkezik, vagy elkezd hatékonyan dolgozni vele, vagy már régóta dolgozik vele. Jól látható, hogy a piac fele olyan adatokat használ, amelyek elférnek egy Excel-táblázatban, vagy akár egy nagy szerveren is számolhatók, de nem mondható el, hogy csak néhány vállalkozás tud adattal dolgozni.

— Meséljen egy kicsit azokról a projektekről, ahol adattudományt használnak.

— Például, miközben a Ramblernél dolgoztunk, egy olyan hirdetési rendszert készítettünk, amely az RTB (valós idejű licitálás) elvein működött – sok olyan modellt kellett építenünk, amelyek optimalizálják a reklámvásárlást, vagy például megjósolják a valószínűségét. kattintásról, konverzióról stb. Ugyanakkor egy hirdetési aukció sok adatot generál: a potenciális reklámvásárlók webhelykéréseinek naplóit, a hirdetésmegjelenítések naplóit, a kattintások naplóit - ez naponta több tíz terabájt adat.

Ráadásul ezeknél a feladatoknál egy érdekes jelenséget figyeltünk meg: minél több adatot adunk meg a modell betanításához, annál jobb a minősége. Általában egy bizonyos adatmennyiség után az előrejelzés minősége leáll, és a pontosság további javításához alapvetően más modellt, más megközelítést kell alkalmazni az adatok, szolgáltatások stb. előkészítésében. Itt több adatot töltöttünk fel, és javult a minőség.

Ez egy tipikus eset, amikor az elemzőknek először nagy adathalmazokkal kellett dolgozniuk ahhoz, hogy legalább egy kísérletet lehessen végezni, és ahol nem lehetett boldogulni egy kis mintával, amely elfér egy hangulatos MacBookban. Ugyanakkor szükségünk volt elosztott modellekre, mert különben nem lehetett őket kiképezni. A számítógépes látás gyártásba való bevezetésével egyre gyakoribbak az ilyen példák, mivel a képek nagy mennyiségű adatot jelentenek, és egy nagy modell betanításához több millió képre van szükség.

Rögtön felmerül a kérdés: hogyan tároljuk ezeket az információkat, hogyan dolgozzuk fel hatékonyan, hogyan használjuk az elosztott tanulási algoritmusokat – a hangsúly a tiszta matematikáról a mérnöki tudományra tolódik. Még ha nem is ír kódot éles környezetben, képesnek kell lennie arra, hogy mérnöki eszközökkel dolgozzon egy kísérlet elvégzéséhez.

— Hogyan változott az adattudományi állások megközelítése az elmúlt években?

— A big data megszűnt hype lenni, és valósággá vált. A merevlemezek meglehetősen olcsók, ami azt jelenti, hogy minden adatot össze lehet gyűjteni, hogy a jövőben elegendő legyen bármilyen hipotézis teszteléséhez. Emiatt egyre népszerűbb a big data kezeléséhez szükséges eszközök ismerete, és ennek eredményeként egyre több adatmérnöki állás jelenik meg.

Értelmezésem szerint egy adattudós munkájának eredménye nem egy kísérlet, hanem egy termék, amely elérte a gyártást. Ebből a szempontból pedig a big data körüli hype megjelenése előtt a folyamat egyszerűbb volt: a mérnökök gépi tanulással foglalkoztak, hogy konkrét problémákat oldjanak meg, és nem volt probléma az algoritmusok gyártásba hozásával.

— Mi kell ahhoz, hogy keresett szakember maradjon?

— Mostanra sokan jöttek az adattudományhoz, akik matematikát, gépi tanulás elméletét tanulták, és adatelemző versenyeken vettek részt, ahol kész infrastruktúra biztosított: az adatok megtisztulnak, a mérőszámok definiálva vannak, és nincs. követelmény, hogy a megoldás reprodukálható és gyors legyen.

Ennek eredményeként a srácok az üzleti élet realitásaira rosszul felkészülve jönnek dolgozni, és szakadék képződik az újoncok és a tapasztalt fejlesztők között.

Az olyan eszközök fejlesztésével, amelyek lehetővé teszik, hogy kész modulokból saját modellt állítsunk össze – és a Microsoftnak, a Google-nak és még sokan másoknak is vannak már ilyen megoldásai –, valamint a gépi tanulás automatizálása, ez a hiányosság még inkább szembetűnővé válik. A jövőben komoly, új algoritmusokat kitaláló kutatókra, fejlett mérnöki képességekkel rendelkező munkavállalókra lesz kereslet a szakmára, akik modelleket implementálnak, folyamatokat automatizálnak. Az Ozon Masters adatmérnöki kurzus célja a mérnöki készségek fejlesztése, valamint az elosztott gépi tanulási algoritmusok nagy adatokon való használatának képessége. Igyekszünk csökkenteni a szakadékot aközött, hogy egy adattudós mire képes, és mit kell tudnia a gyakorlatban.

— Miért menjen egy diplomás matematikus üzletet tanulni?

- Az orosz adattudományi közösség megértette, hogy a szakértelem és a tapasztalat nagyon gyorsan pénzzé vált, ezért amint egy szakember gyakorlati tapasztalattal rendelkezik, a költségek nagyon gyorsan növekedni kezdenek, a legképzettebb emberek nagyon drágák - és ez igaz a fejlesztési piac jelenlegi pillanatában.

Az adattudósok munkájának nagy része az, hogy belemenjen az adatokba, megértse, mi rejlik ott, konzultáljon az üzleti folyamatokért felelős emberekkel, és előállítsa ezeket az adatokat – és csak azután használja fel modellek felépítésére. A nagy adatokkal való munka megkezdéséhez rendkívül fontos a mérnöki ismeretek birtoklása – így sokkal könnyebb elkerülni az éles sarkokat, amelyekből sok van az adattudományban.

Egy tipikus történet: írt egy lekérdezést SQL-ben, amely a nagy adatokon futó Hive-keretrendszerrel fut le. A kérést tíz percen belül feldolgozzák, legrosszabb esetben egy-két óra alatt, és gyakran, amikor ezeket az adatokat letölti, észreveszi, hogy elfelejtett figyelembe venni néhány tényezőt vagy további információt. Újra el kell küldenie a kérelmet, és várnia kell ezeket a perceket és órákat. Ha Ön egy hatékonysági zseni, más feladatot vállal, de ahogy a gyakorlat azt mutatja, nálunk kevés a hatékonysági zseni, és az emberek csak várnak. Ezért a tanfolyamokon sok időt fordítunk a munka hatékonyságára, hogy kezdetben olyan lekérdezéseket írhassunk, amelyek nem két órán keresztül, hanem több percig működnek. Ez a készség megsokszorozza a termelékenységet, és ezzel együtt a szakember értékét.

– Miben különbözik az Ozon Masters a többi tanfolyamtól?

— Az Ozon Masters-t az Ozon munkatársai oktatják, a feladatok valós üzleti esetekre épülnek, amelyeket cégekben oldanak meg. Valójában a mérnöki ismeretek hiánya mellett egy másik probléma is van annak, aki az egyetemen adattudományt tanult: egy vállalkozás feladata az üzleti élet nyelvén van megfogalmazva, célja pedig meglehetősen egyszerű: több pénzt keresni. És egy matematikus jól tudja, hogyan kell optimalizálni a matematikai mutatókat – de nehéz olyan mutatót találni, amely korrelál az üzleti mutatókkal. És meg kell értened, hogy üzleti problémát oldasz meg, és a vállalkozással együtt matematikailag optimalizálható mérőszámokat kell megfogalmaznod. Ezt a készséget valós eseteken keresztül sajátítjuk el, és azokat Ozon adja.
És még ha figyelmen kívül hagyjuk is az eseteket, az iskolában sok olyan gyakorló tanít, akik valódi cégekben oldják meg az üzleti problémákat. Ennek eredményeként maga a tanítás megközelítése még inkább gyakorlatorientált. Legalábbis a kurzusom során megpróbálom áthelyezni a hangsúlyt az eszközök használatára, milyen megközelítések léteznek, és így tovább. A tanulókkal együtt megértjük, hogy minden feladatnak megvan a maga eszköze, és minden eszköznek megvan a maga alkalmazási területe.

— A leghíresebb adatelemző képzési program természetesen a ShaD – mi a különbség ettől?

— Egyértelmű, hogy a ShaD és az Ozon Masters az oktatási funkció mellett megoldja a személyzetképzés helyi problémáját. A legjobb SHAD végzettségűeket elsősorban a Yandexhez toborozzák, de a bökkenő az, hogy a Yandex sajátosságaiból adódóan - és nagy, és akkor jött létre, amikor még kevés jó eszköz volt a big data kezeléséhez - saját infrastruktúrával és eszközökkel rendelkezik az adatokkal való munkavégzéshez. , ami azt jelenti, hogy el kell sajátítania őket. Az Ozon Mastersnek más üzenete van: ha sikeresen elsajátította a programot, és az Ozon vagy a többi vállalat 99%-a meghívja Önt dolgozni, sokkal könnyebb lesz az üzlet hasznára válni; az Ozon Masters keretében megszerzett készségkészlet elég lesz csak elkezdeni dolgozni.

– A tanfolyam két évig tart. Miért kell ennyi időt tölteni ezzel?

- Jó kérdés. Sok időt vesz igénybe, mert tartalmilag és tanári szintjeit tekintve ez egy szerves mesterképzés, melynek elsajátítása sok időt igényel, beleértve a házi feladatokat is.

Az én kurzusom szempontjából általános elvárás, hogy egy hallgató heti 2-3 órát töltsön feladatokkal. Először is, a feladatokat egy oktatási fürtön hajtják végre, és minden megosztott fürt azt jelenti, hogy több ember használja egyidejűleg. Ez azt jelenti, hogy meg kell várnia a feladat végrehajtásának megkezdését; előfordulhat, hogy egyes erőforrások kiválasztásra kerülnek, és átkerülnek egy magasabb prioritású sorba. Másrészt minden nagy adattal végzett munka sok időt vesz igénybe.

Ha további kérdései vannak a programmal, a big data munkával vagy a mérnöki ismeretekkel kapcsolatban, az Ozon Masters online nyílt napot tart április 25-én, szombaton 12:00-kor. Tanárokkal és diákokkal találkozunk Zoomolás és tovább Youtube.

Forrás: will.com

Hozzászólás