Pavel Klemenkov, NVIDIA: Rydym yn ceisio lleihau'r bwlch rhwng yr hyn y gall gwyddonydd data ei wneud a'r hyn y dylai allu ei wneud

Mae ail dderbyniad myfyrwyr y rhaglen meistr mewn gwyddor data a deallusrwydd busnes Ozon Masters wedi dechrau - ac i'w gwneud hi'n haws penderfynu gadael cais a sefyll y prawf ar-lein, fe wnaethom ofyn i athrawon y rhaglen beth i'w ddisgwyl o astudio a gweithio gyda data.

Pavel Klemenkov, NVIDIA: Rydym yn ceisio lleihau'r bwlch rhwng yr hyn y gall gwyddonydd data ei wneud a'r hyn y dylai allu ei wneud Prif Wyddonydd Data NVIDIA ac athro cyrsiau ar Ddata Mawr a Pheirianneg Data Soniodd Pavel Klemenkov pam mae angen i fathemategwyr ysgrifennu cod ac astudio yn Ozon Masters am ddwy flynedd.

— A oes yna lawer o gwmnïau sy'n defnyddio algorithmau gwyddor data?

- Mewn gwirionedd cryn dipyn. Mae cryn dipyn o gwmnïau mawr sydd â data mawr iawn naill ai'n dechrau gweithio gydag ef yn effeithiol neu wedi bod yn gweithio gydag ef ers amser maith. Mae'n amlwg bod hanner y farchnad yn defnyddio data a all ffitio i mewn i daenlen Excel neu y gellir ei gyfrifo ar weinydd mawr, ond ni ellir dweud mai dim ond ychydig o fusnesau sy'n gallu gweithio gyda data.

— Dywedwch ychydig wrthym am y prosiectau lle defnyddir gwyddor data.

— Er enghraifft, tra’n gweithio yn Rambler, roeddem yn gwneud system hysbysebu a oedd yn gweithio ar egwyddorion RTB (Cynnig Amser Real) - roedd angen i ni adeiladu llawer o fodelau a fyddai’n gwneud y gorau o brynu hysbysebion neu, er enghraifft, a allai ragweld y tebygolrwydd o cliciwch, trosi, ac ati. Ar yr un pryd, mae arwerthiant hysbysebu yn cynhyrchu llawer o ddata: logiau o geisiadau safle i brynwyr hysbysebu posibl, logiau o argraffiadau hysbysebu, logiau o gliciau - mae hyn yn ddegau o terabytes o ddata y dydd.

Ar ben hynny, ar gyfer y tasgau hyn gwelsom ffenomen ddiddorol: po fwyaf o ddata a roddwch i hyfforddi'r model, yr uchaf yw ei ansawdd. Fel arfer, ar ôl swm penodol o ddata, mae ansawdd y rhagolwg yn stopio gwella, ac i wella cywirdeb ymhellach, mae angen i chi ddefnyddio model sylfaenol wahanol, dull gwahanol o baratoi data, nodweddion, ac ati. Yma fe wnaethom uwchlwytho mwy o ddata a chynyddodd yr ansawdd.

Mae hwn yn achos nodweddiadol lle bu'n rhaid i ddadansoddwyr, yn gyntaf, weithio gyda setiau data mawr er mwyn cynnal arbrawf o leiaf, a lle'r oedd yn amhosibl dod heibio gyda sampl fach sy'n ffitio mewn MacBook clyd. Ar yr un pryd, roedd angen modelau dosbarthedig arnom, oherwydd fel arall ni ellid eu hyfforddi. Gyda chyflwyniad gweledigaeth gyfrifiadurol i gynhyrchu, mae enghreifftiau o'r fath yn dod yn fwy cyffredin, gan fod lluniau yn llawer iawn o ddata, ac i hyfforddi model mawr, mae angen miliynau o luniau.

Mae'r cwestiwn yn codi ar unwaith: sut i storio'r holl wybodaeth hon, sut i'w phrosesu'n effeithiol, sut i ddefnyddio algorithmau dysgu gwasgaredig - mae'r ffocws yn symud o fathemateg bur i beirianneg. Hyd yn oed os nad ydych chi'n ysgrifennu cod wrth gynhyrchu, mae angen i chi allu gweithio gydag offer peirianneg i gynnal arbrawf.

— Sut mae’r agwedd at swyddi gweigion gwyddor data wedi newid yn y blynyddoedd diwethaf?

— Mae data mawr wedi peidio â bod yn hype ac wedi dod yn realiti. Mae gyriannau caled yn eithaf rhad, sy'n golygu ei bod hi'n bosibl casglu'r holl ddata fel y bydd digon yn y dyfodol i brofi unrhyw ddamcaniaethau. O ganlyniad, mae gwybodaeth am offer ar gyfer gweithio gyda data mawr yn dod yn boblogaidd iawn, ac, o ganlyniad, mae mwy a mwy o swyddi gwag ar gyfer peirianwyr data yn ymddangos.

Yn fy nealltwriaeth i, nid arbrawf yw canlyniad gwaith gwyddonydd data, ond cynnyrch sydd wedi cyrraedd cynhyrchiant. Ac yn union o'r safbwynt hwn, cyn dyfodiad y hype o amgylch data mawr, roedd y broses yn symlach: roedd peirianwyr yn cymryd rhan mewn dysgu peiriannau i ddatrys problemau penodol, ac nid oedd unrhyw broblemau gyda dod â'r algorithmau i gynhyrchu.

— Beth sydd ei angen i barhau i fod yn arbenigwr y mae galw mawr amdano?

- Nawr mae llawer o bobl wedi dod at wyddor data sydd wedi astudio mathemateg, theori dysgu peiriannau, ac wedi cymryd rhan mewn cystadlaethau dadansoddi data, lle darperir seilwaith parod: mae'r data'n cael ei lanhau, mae'r metrigau'n cael eu diffinio, ac nid oes gofynion i'r datrysiad fod yn atgynhyrchadwy ac yn gyflym.

O ganlyniad, mae dynion yn dod i weithio heb baratoi'n dda ar gyfer realiti busnes, ac mae bwlch yn cael ei ffurfio rhwng newydd-ddyfodiaid a datblygwyr profiadol.

Gyda datblygiad offer sy'n eich galluogi i gydosod eich model eich hun o fodiwlau parod - ac mae gan Microsoft, Google a llawer o rai eraill atebion o'r fath eisoes - ac awtomeiddio dysgu peirianyddol, bydd y bwlch hwn yn dod yn fwy amlwg fyth. Yn y dyfodol, bydd galw mawr ar y proffesiwn am ymchwilwyr difrifol sy'n meddwl am algorithmau newydd, a gweithwyr â sgiliau peirianneg datblygedig a fydd yn gweithredu modelau ac yn awtomeiddio prosesau. Mae'r cwrs Meistr Ozon mewn peirianneg data wedi'i gynllunio i ddatblygu sgiliau peirianneg a'r gallu i ddefnyddio algorithmau dysgu peiriant gwasgaredig ar ddata mawr. Rydym yn ceisio lleihau’r bwlch rhwng yr hyn y gall gwyddonydd data ei wneud a’r hyn y dylai allu ei wneud yn ymarferol.

— Pam ddylai mathemategydd â diploma fynd i astudio busnes?

- Mae cymuned gwyddoniaeth data Rwsia wedi dod i ddeall bod sgil a phrofiad yn cael eu trosi'n arian yn gyflym iawn, felly, cyn gynted ag y bydd gan arbenigwr brofiad ymarferol, mae ei gost yn dechrau tyfu'n gyflym iawn, mae'r bobl fwyaf medrus yn ddrud iawn - a hyn yn wir ar hyn o bryd o farchnad datblygu.

Rhan fawr o waith gwyddonydd data yw mynd i mewn i'r data, deall beth sydd yno, ymgynghori â'r bobl sy'n gyfrifol am brosesau busnes a chynhyrchu'r data hwn - a dim ond wedyn ei ddefnyddio i adeiladu modelau. I ddechrau gweithio gyda data mawr, mae'n hynod bwysig cael sgiliau peirianneg - mae hyn yn ei gwneud hi'n llawer haws osgoi corneli miniog, y mae llawer ohonynt mewn gwyddor data.

Stori nodweddiadol: fe wnaethoch chi ysgrifennu ymholiad yn SQL sy'n cael ei weithredu gan ddefnyddio fframwaith Hive sy'n rhedeg ar ddata mawr. Mae'r cais yn cael ei brosesu mewn deg munud, yn yr achos gwaethaf - mewn awr neu ddwy, ac yn aml, pan fyddwch chi'n derbyn lawrlwythiadau o'r data hwn, rydych chi'n sylweddoli eich bod wedi anghofio ystyried rhywfaint o ffactor neu wybodaeth ychwanegol. Mae'n rhaid i chi ailanfon y cais ac aros y munudau a'r oriau hyn. Os ydych yn athrylith effeithlonrwydd, byddwch yn ymgymryd â thasg arall, ond, fel y dengys arfer, ychydig o athrylithwyr effeithlonrwydd sydd gennym, a dim ond aros y mae pobl. Felly, yn y cyrsiau byddwn yn neilltuo llawer o amser i weithio effeithlonrwydd er mwyn ysgrifennu ymholiadau sy'n gweithio nid am ddwy awr, ond am sawl munud i ddechrau. Mae'r sgil hwn yn lluosi cynhyrchiant, a chyda hynny gwerth arbenigwr.

- Sut mae Ozon Masters yn wahanol i gyrsiau eraill?

- Mae Ozon Masters yn cael ei ddysgu gan weithwyr Ozon, ac mae'r tasgau'n seiliedig ar achosion busnes go iawn sy'n cael eu datrys mewn cwmnïau. Mewn gwirionedd, yn ychwanegol at y diffyg sgiliau peirianneg, mae gan berson a astudiodd wyddor data yn y brifysgol broblem arall: mae tasg busnes yn cael ei llunio yn iaith busnes, ac mae ei nod yn eithaf syml: ennill mwy o arian. Ac mae mathemategydd yn gwybod yn iawn sut i wneud y gorau o fetrigau mathemategol - ond mae'n anodd dod o hyd i ddangosydd a fydd yn cyfateb â metrig busnes. Ac mae angen i chi ddeall eich bod yn datrys problem fusnes, ac ynghyd â'r busnes, yn llunio metrigau y gellir eu hoptimeiddio'n fathemategol. Mae'r sgil hwn yn cael ei gaffael trwy achosion gwirioneddol, ac fe'u rhoddir gan Ozon.
A hyd yn oed os ydym yn anwybyddu'r achosion, mae'r ysgol yn cael ei haddysgu gan lawer o ymarferwyr sy'n datrys problemau busnes mewn cwmnïau go iawn. O ganlyniad, mae'r dull addysgu ei hun yn dal i ganolbwyntio mwy ar ymarfer. O leiaf yn fy nghwrs, byddaf yn ceisio symud y ffocws i sut i ddefnyddio'r offer, pa ddulliau sy'n bodoli, ac ati. Ynghyd â'r myfyrwyr, byddwn yn deall bod gan bob tasg ei theclyn ei hun, a bod gan bob offeryn ei faes cymhwysedd.

- Y rhaglen hyfforddi dadansoddi data enwocaf, wrth gwrs, yw ShAD - beth yn union yw'r gwahaniaeth ohoni?

- Mae'n amlwg bod ShAD ac Ozon Masters, yn ogystal â'r swyddogaeth addysgol, yn datrys y broblem leol o hyfforddi personél. Mae graddedigion SHAD gorau yn cael eu recriwtio'n bennaf i Yandex, ond y daliad yw bod gan Yandex, oherwydd ei fanylion - ac mae'n fawr ac wedi'i greu pan nad oedd llawer o offer da ar gyfer gweithio gyda data mawr - ei seilwaith a'i offer ei hun ar gyfer gweithio gyda data. , sy'n golygu , bydd yn rhaid i chi eu meistroli. Mae gan Ozon Masters neges wahanol - os ydych wedi meistroli’r rhaglen yn llwyddiannus a bod Ozon neu un o’r 99% o gwmnïau eraill yn eich gwahodd i weithio, bydd yn llawer haws dechrau bod o fudd i’r busnes; y set sgiliau a gafwyd fel rhan o Ozon Masters bydd yn ddigon i ddechrau gweithio.

—Mae'r cwrs yn para dwy flynedd. Pam mae angen i chi dreulio cymaint o amser ar hyn?

- Cwestiwn da. Mae'n cymryd amser hir, oherwydd o ran cynnwys a lefel yr athrawon, mae hon yn rhaglen meistr annatod sy'n gofyn am lawer o amser i'w meistroli, gan gynnwys gwaith cartref.

O safbwynt fy nghwrs, mae disgwyl i fyfyriwr dreulio 2-3 awr yr wythnos ar aseiniadau yn gyffredin. Yn gyntaf, cyflawnir tasgau ar glwstwr hyfforddi, ac mae unrhyw glwstwr a rennir yn awgrymu bod nifer o bobl yn ei ddefnyddio ar yr un pryd. Hynny yw, bydd yn rhaid i chi aros i'r dasg ddechrau gweithredu; efallai y bydd rhai adnoddau'n cael eu dewis a'u trosglwyddo i giw blaenoriaeth uwch. Ar y llaw arall, mae unrhyw waith gyda data mawr yn cymryd llawer o amser.

Os oes gennych chi ragor o gwestiynau am y rhaglen, gweithio gyda data mawr neu sgiliau peirianneg, mae Ozon Masters yn cynnal diwrnod agored ar-lein ddydd Sadwrn, Ebrill 25 am 12:00. Rydym yn cyfarfod ag athrawon a myfyrwyr yn Zoom ac ymlaen YouTube.

Ffynhonnell: hab.com

Ychwanegu sylw