Pavel Klemenkov, NVIDIA: Við erum að reyna að minnka bilið á milli þess sem gagnafræðingur getur gert og þess sem hann ætti að geta gert

Önnur inntaka nemenda á meistaranámi í gagnafræði og viðskiptagreind Ozon Masters er hafin - og til að auðvelda þér að ákveða að skilja eftir umsókn og taka netprófið spurðum við kennara námsins um hvers megi búast við af námi og starfi með gögnum.

Pavel Klemenkov, NVIDIA: Við erum að reyna að minnka bilið á milli þess sem gagnafræðingur getur gert og þess sem hann ætti að geta gert Aðalgagnafræðingur NVIDIA og kennari námskeið um Big Data og Data Engineering Pavel Klemenkov talaði um hvers vegna stærðfræðingar þurfa að skrifa kóða og læra við Ozon Masters í tvö ár.

— Eru mörg fyrirtæki sem nota reiknirit í gagnafræði?

- Reyndar frekar mikið. Nokkuð mörg stór fyrirtæki sem hafa mjög stór gögn eru annað hvort farin að vinna með þau á áhrifaríkan hátt eða hafa verið að vinna með þau í langan tíma. Ljóst er að helmingur markaðarins notar gögn sem passa inn í Excel töflureikni eða hægt er að reikna út á stórum netþjóni, en ekki er hægt að segja að það séu örfá fyrirtæki sem geta unnið með gögn.

— Segðu okkur aðeins frá verkefnum þar sem gagnafræði er notuð.

— Til dæmis, meðan við störfuðum hjá Rambler, vorum við að búa til auglýsingakerfi sem virkaði á meginreglum RTB (Real Time Bidding) - við þurftum að smíða mörg líkön sem myndu hagræða kaup á auglýsingum eða til dæmis gætu sagt fyrir um líkurnar af smelli, umbreytingu og svo framvegis. Á sama tíma myndar auglýsingauppboð mikið af gögnum: skrár yfir vefbeiðnir til hugsanlegra auglýsingakaupenda, skrár yfir auglýsingabirtingar, skrár yfir smelli - þetta eru tugir terabæta af gögnum á dag.

Þar að auki, fyrir þessi verkefni, sáum við áhugavert fyrirbæri: því meiri gögn sem þú gefur til að þjálfa líkanið, því meiri gæði þess. Venjulega, eftir ákveðið magn af gögnum, hætta gæði spárinnar að batna og til að bæta nákvæmnina enn frekar þarftu að nota í grundvallaratriðum annað líkan, aðra nálgun til að útbúa gögn, eiginleika og svo framvegis. Hér hlóðum við inn fleiri gögnum og gæðin jukust.

Þetta er dæmigert tilfelli þar sem greiningaraðilar þurftu í fyrsta lagi að vinna með stór gagnasöfn til að gera tilraun að minnsta kosti og þar sem ómögulegt var að komast af með lítið sýnishorn sem passar í notalega MacBook. Á sama tíma þurftum við dreifð módel, því annars var ekki hægt að þjálfa þau. Með innleiðingu tölvusjónar í framleiðslu eru slík dæmi að verða algengari þar sem myndir eru mikið magn af gögnum og til að þjálfa stórt líkan þarf milljónir mynda.

Spurningin vaknar strax: hvernig á að geyma allar þessar upplýsingar, hvernig á að vinna úr þeim á áhrifaríkan hátt, hvernig á að nota dreifða námsalgrím - áherslan er að færast frá hreinni stærðfræði yfir í verkfræði. Jafnvel ef þú skrifar ekki kóða í framleiðslu þarftu að geta unnið með verkfræðiverkfæri til að framkvæma tilraun.

— Hvernig hefur nálgun á laus störf í gagnafræði breyst á undanförnum árum?

— Stór gögn eru hætt að vera efla og orðin að veruleika. Harðir diskar eru frekar ódýrir, sem þýðir að það er hægt að safna öllum gögnum þannig að í framtíðinni verði nóg til að prófa allar tilgátur. Fyrir vikið er þekking á verkfærum til að vinna með stór gögn að verða mjög vinsæl og fyrir vikið birtast sífellt fleiri laus störf fyrir gagnafræðinga.

Í mínum skilningi er niðurstaða vinnu gagnafræðings ekki tilraun, heldur vara sem er komin í framleiðslu. Og bara frá þessu sjónarhorni, fyrir tilkomu efla um stór gögn, var ferlið einfaldara: verkfræðingar tóku þátt í vélanámi til að leysa ákveðin vandamál og það voru engin vandamál með að koma reikniritunum í framleiðslu.

— Hvað þarf til að vera áfram eftirsóttur sérfræðingur?

— Nú hafa margir komið til gagnafræðinnar sem hafa kynnt sér stærðfræði, vélanámsfræði og tekið þátt í gagnagreiningarkeppnum, þar sem tilbúinn innviði er til staðar: gögnin eru hreinsuð, mælikvarðar skilgreindir og engin kröfur um að lausnin sé endurgerð og hröð.

Fyrir vikið koma krakkar til vinnu illa undirbúnir fyrir raunveruleika viðskiptanna og bil myndast á milli nýliða og reyndra forritara.

Með þróun tækja sem gera þér kleift að setja saman þitt eigið líkan úr tilbúnum einingum - og Microsoft, Google og margir aðrir hafa nú þegar slíkar lausnir - og sjálfvirkni vélanáms verður þetta bil enn meira áberandi. Í framtíðinni mun fagið vera eftirsótt eftir alvarlegum rannsakendum sem koma með ný reiknirit og starfsmenn með þróaða verkfræðikunnáttu sem munu innleiða líkön og sjálfvirka ferla. Ozon Masters námskeiðið í gagnaverkfræði er hannað til að þróa verkfræðikunnáttu og getu til að nota dreifða vélanámsreiknirit á stórum gögnum. Við erum að reyna að minnka bilið á milli þess sem gagnafræðingur getur og þess sem hann ætti að geta gert í reynd.

— Hvers vegna ætti stærðfræðingur með diplómu að fara í viðskiptafræði?

— Rússneska gagnavísindasamfélagið hefur skilið að færni og reynsla er mjög fljótt breytt í peninga, þess vegna, um leið og sérfræðingur hefur hagnýta reynslu, byrjar kostnaður hans að vaxa mjög hratt, hæfasta fólkið er mjög dýrt - og þetta er satt á núverandi augnabliki þróunarmarkaðarins.

Stór hluti af starfi gagnafræðings er að fara ofan í gögnin, skilja hvað þar liggur, ráðfæra sig við fólkið sem ber ábyrgð á viðskiptaferlum og búa til þessi gögn - og aðeins þá nota þau til að búa til líkön. Til að byrja að vinna með stór gögn er gríðarlega mikilvægt að hafa verkfræðikunnáttu - það gerir það mun auðveldara að forðast kröpp horn, sem eru mörg í gagnafræði.

Dæmigerð saga: þú skrifaðir fyrirspurn í SQL sem er keyrð með Hive ramma sem keyrir á stórum gögnum. Beiðnin er afgreidd á tíu mínútum, í versta falli - eftir klukkutíma eða tvo, og oft, þegar þú færð niðurhal af þessum gögnum, áttarðu þig á því að þú gleymdir að taka tillit til einhverra þátta eða viðbótarupplýsinga. Þú verður að senda beiðnina aftur og bíða þessar mínútur og klukkustundir. Ef þú ert hagræðingarsnillingur muntu takast á við annað verkefni, en eins og æfingin sýnir höfum við fáa hagkvæmnissnillinga og fólk bíður bara. Þess vegna munum við á námskeiðunum verja miklum tíma í vinnuhagkvæmni til að skrifa fyrirspurnir sem virka ekki í tvær klukkustundir, heldur í nokkrar mínútur. Þessi kunnátta margfaldar framleiðni og þar með verðmæti sérfræðings.

– Hvernig er Ozon Masters frábrugðið öðrum námskeiðum?

— Ozon Masters er kennt af starfsmönnum Ozon og eru verkefnin byggð á raunverulegum viðskiptatilfellum sem eru leyst í fyrirtækjum. Reyndar, auk skorts á verkfræðikunnáttu, hefur einstaklingur sem lærði gagnafræði við háskóla annað vandamál: verkefni fyrirtækis er mótað á tungumáli viðskipta og markmið þess er frekar einfalt: að vinna sér inn meiri peninga. Og stærðfræðingur veit vel hvernig á að hagræða stærðfræðilegum mælingum - en erfitt er að finna vísbendingu sem mun tengjast viðskiptamælingu. Og þú þarft að skilja að þú ert að leysa viðskiptavandamál og ásamt fyrirtækinu að móta mælikvarða sem hægt er að hagræða stærðfræðilega. Þessi færni er aflað með raunverulegum tilfellum og þær eru gefnar af Ozon.
Og jafnvel þótt við horfum fram hjá tilfellunum, þá er skólinn kennt af mörgum iðkendum sem leysa viðskiptavandamál í raunverulegum fyrirtækjum. Fyrir vikið er nálgunin að kennslunni sjálfri enn frekar verkefnamiðuð. Að minnsta kosti á námskeiðinu mínu mun ég reyna að færa fókusinn að því hvernig á að nota tækin, hvaða aðferðir eru til o.s.frv. Ásamt nemendum munum við skilja að hvert verkefni hefur sitt eigið verkfæri og hvert verkfæri hefur sitt nothæfissvið.

— Frægasta gagnagreiningarþjálfunaráætlunin er auðvitað ShAD — hver er nákvæmlega munurinn á því?

— Það er ljóst að ShAD og Ozon Masters, auk fræðsluhlutverksins, leysa staðbundið vandamál við þjálfun starfsfólks. Helstu SHAD útskriftarnemar eru fyrst og fremst ráðnir til Yandex, en aflinn er sá að Yandex, vegna sérstakra sinna - og það er stórt og varð til þegar fátt var um góð verkfæri til að vinna með stór gögn - hefur sína eigin innviði og verkfæri til að vinna með gögn , sem þýðir að þú verður að ná góðum tökum á þeim. Ozon Masters hefur önnur skilaboð - ef þú hefur náð góðum tökum á náminu og Ozon eða eitt af 99% annarra fyrirtækja býður þér að vinna, þá verður miklu auðveldara að byrja að gagnast fyrirtækinu; hæfileikinn sem þú hefur aflað þér sem hluti af Ozon Masters verður nóg til að byrja bara að vinna.

— Námið tekur tvö ár. Af hverju þarftu að eyða svona miklum tíma í þetta?

- Góð spurning. Það tekur langan tíma því hvað varðar innihald og kennarastig er þetta samþætt meistaranám sem krefst mikillar tíma til að ná tökum á, þar á meðal heimanám.

Frá mínu sjónarhorni námskeiðsins er algengt að ætlast til að nemandi eyði 2-3 klukkustundum á viku í verkefni. Í fyrsta lagi eru verkefni unnin á þjálfunarklasa og allir sameiginlegir klasar fela í sér að nokkrir nota hann samtímis. Það er, þú verður að bíða eftir að verkefnið byrji að keyra; sum tilföng gætu verið valin og flutt í biðröð með hærri forgang. Á hinn bóginn tekur öll vinna með stór gögn mikinn tíma.

Ef þú hefur einhverjar fleiri spurningar um námið, vinnu með stór gögn eða verkfræðikunnáttu, þá er Ozon Masters með opinn dag á netinu laugardaginn 25. apríl klukkan 12:00. Við hittum kennara og nemendur í Zoom og Youtube.

Heimild: www.habr.com

Bæta við athugasemd