Pavel Klemenkov, NVIDIA: Ni provas redukti la interspacon inter tio, kion datumsciencisto povas fari kaj kion li devus povi fari

La dua konsumado de studentoj de la magistro-programo pri datuma scienco kaj komerca inteligenteco Ozon Masters komenciĝis - kaj por faciligi decidi lasi kandidatiĝon kaj fari la interretan teston, ni demandis la programinstruistojn pri kio atendi de studado kaj laboro. kun datumoj.

Pavel Klemenkov, NVIDIA: Ni provas redukti la interspacon inter tio, kion datumsciencisto povas fari kaj kion li devus povi fari Ĉefa Datumsciencisto NVIDIA kaj instruisto kursoj pri Big Data kaj Datuma Inĝenierado Pavel Klemenkov parolis pri kial matematikistoj bezonas skribi kodon kaj studi ĉe Ozon Masters dum du jaroj.

— Ĉu ekzistas multaj kompanioj, kiuj uzas datumajn algoritmojn?

- Efektive sufiĉe multe. Sufiĉe multaj grandaj kompanioj, kiuj havas vere grandajn datumojn, aŭ komencas labori kun ĝi efike aŭ jam delonge laboras kun ĝi. Estas klare, ke duono de la merkato uzas datumojn, kiuj povas konveni en Excel-kalkultabelo aŭ povas esti kalkulitaj sur granda servilo, sed oni ne povas diri, ke ekzistas nur kelkaj entreprenoj, kiuj povas labori kun datumoj.

— Rakontu al ni iomete pri la projektoj, kie oni uzas datumojn.

— Ekzemple, laborante ĉe Rambler, ni faris reklaman sistemon kiu funkciis laŭ la principoj de RTB (Real Time Bidding) - ni bezonis konstrui multajn modelojn kiuj optimumigus la aĉeton de reklamado aŭ, ekzemple, povus antaŭdiri la probablecon. de klako, konvertiĝo, ktp. Samtempe, reklama aŭkcio generas multajn datumojn: protokolojn de retejo-petoj al eblaj reklam-aĉetantoj, protokolojn de reklamaj impresoj, protokolojn de klakoj - ĉi tio estas dekoj da terabajtoj da datumoj ĉiutage.

Krome, por ĉi tiuj taskoj ni observis interesan fenomenon: ju pli da datumoj vi donas por trejni la modelon, des pli alta ĝia kvalito. Kutime, post certa kvanto da datumoj, la kvalito de la prognozo ĉesas pliboniĝi, kaj por plu plibonigi la precizecon, vi devas uzi fundamente malsaman modelon, malsaman aliron por prepari datumojn, funkciojn, ktp. Ĉi tie ni alŝutis pli da datumoj kaj la kvalito pliiĝis.

Ĉi tio estas tipa kazo, kie analizistoj devis unue labori kun grandaj datumaj aroj por almenaŭ fari eksperimenton, kaj kie estis neeble sukcesi per malgranda specimeno, kiu taŭgas en komforta MacBook. Samtempe ni bezonis distribuitajn modelojn, ĉar alie ili ne povus esti trejnitaj. Kun la enkonduko de komputila vizio en produktadon, tiaj ekzemploj iĝas pli oftaj, ĉar bildoj estas granda kvanto da datumoj, kaj por trejni grandan modelon, milionoj da bildoj estas bezonataj.

Tuj aperas la demando: kiel konservi ĉiujn ĉi tiujn informojn, kiel efike prilabori ĝin, kiel uzi distribuitajn lernalgoritmojn - la fokuso ŝanĝas de pura matematiko al inĝenierado. Eĉ se vi ne skribas kodon en produktado, vi devas povi labori kun inĝenieraj iloj por fari eksperimenton.

— Kiel ŝanĝiĝis la aliro al datumaj vakantaĵoj en la lastaj jaroj?

— Grandaj datumoj ĉesis esti hype kaj fariĝis realaĵo. Malmolaj diskoj estas sufiĉe malmultekostaj, kio signifas, ke eblas kolekti ĉiujn datumojn, por ke estonte estos sufiĉe por testi ajnajn hipotezojn. Kiel rezulto, scio pri iloj por labori kun grandaj datumoj fariĝas tre populara, kaj, kiel rezulto, pli kaj pli da vakantaĵoj por datumaj inĝenieroj aperas.

Laŭ mia kompreno, la rezulto de laboro de datuma sciencisto ne estas eksperimento, sed produkto kiu atingis produktadon. Kaj ĝuste de ĉi tiu vidpunkto, antaŭ la apero de la hype ĉirkaŭ grandaj datumoj, la procezo estis pli simpla: inĝenieroj okupiĝis pri maŝinlernado por solvi specifajn problemojn, kaj ne estis problemoj kun alportado de la algoritmoj al produktado.

— Kion necesas por resti serĉata specialisto?

— Nun multaj homoj venis al datumscienco, kiuj studis matematikon, la teorion de maŝinlernado, kaj partoprenis en datenanalizaj konkursoj, kie estas disponigita preta infrastrukturo: la datumoj estas purigitaj, la metrikoj estas difinitaj, kaj ne ekzistas. postuloj por ke la solvo estu reproduktebla kaj rapida.

Kiel rezulto, uloj venas labori malbone pretaj por la realaĵoj de komerco, kaj interspaco formiĝas inter novuloj kaj spertaj programistoj.

Kun la disvolviĝo de iloj, kiuj permesas vin kunmeti vian propran modelon el pretaj moduloj - kaj Microsoft, Google kaj multaj aliaj jam havas tiajn solvojn - kaj la aŭtomatigo de maŝina lernado, ĉi tiu breĉo fariĝos eĉ pli prononcita. En la estonteco, la profesio estos postulata de seriozaj esploristoj, kiuj elpensas novajn algoritmojn, kaj dungitojn kun evoluintaj inĝenieraj kapabloj, kiuj efektivigos modelojn kaj aŭtomatigos procezojn. La Ozon Masters-kurso pri datuma inĝenierado estas dizajnita por evoluigi inĝenierajn kapablojn kaj la kapablon uzi distribuitajn maŝinlernajn algoritmojn pri grandaj datumoj. Ni provas redukti la interspacon inter tio, kion datumsciencisto povas fari kaj kion li devus povi fari praktike.

— Kial matematikisto kun diplomo iru studi komercon?

— La rusa datumscienco-komunumo komprenis, ke lerteco kaj sperto estas tre rapide konvertitaj en monon, tial, tuj kiam specialisto havas praktikan sperton, lia kosto komencas kreski tre rapide, la plej lertaj homoj estas tre multekostaj - kaj ĉi tio. estas vera en la nuna momento de evolua merkato.

Granda parto de la tasko de datumsciencisto estas eniri la datumojn, kompreni kio kuŝas tie, konsulti kun la homoj, kiuj respondecas pri komercaj procezoj kaj generi ĉi tiujn datumojn - kaj nur tiam uzi ĝin por konstrui modelojn. Por komenci labori kun grandaj datumoj, estas ege grave havi inĝenierajn kapablojn - ĉi tio multe pli facilas eviti akrajn angulojn, el kiuj estas multaj en datumscienco.

Tipa rakonto: vi skribis demandon en SQL, kiu estas efektivigita per la Hive-kadro funkcianta per grandaj datumoj. La peto estas procesita en dek minutoj, en la plej malbona kazo - en unu aŭ du horoj, kaj ofte, kiam vi ricevas elŝutojn de ĉi tiuj datumoj, vi rimarkas, ke vi forgesis konsideri iun faktoron aŭ aldonan informon. Vi devas resendi la peton kaj atendi ĉi tiujn minutojn kaj horojn. Se vi estas efikeca geniulo, vi okupos alian taskon, sed, kiel praktiko montras, ni havas malmultajn efikecgeniulojn, kaj homoj nur atendas. Tial en la kursoj ni dediĉos multe da tempo al laborefikeco por komence verki demandojn, kiuj funkcias ne dum du horoj, sed dum kelkaj minutoj. Ĉi tiu kapablo multobligas produktivecon, kaj kun ĝi la valoron de specialisto.

– Kiel Ozon Masters diferencas de aliaj kursoj?

— Ozon Masters estas instruata de Ozon-dungitoj, kaj la taskoj baziĝas sur realaj komercaj kazoj, kiuj estas solvitaj en kompanioj. Fakte, krom la manko de inĝenieraj kapabloj, homo, kiu studis datuman sciencon en universitato, havas alian problemon: la tasko de komerco estas formulita en la lingvo de komerco, kaj ĝia celo estas sufiĉe simpla: gajni pli da mono. Kaj matematikisto bone scias kiel optimumigi matematikajn metrikojn - sed trovi indikilon kiu korelacios kun komerca metriko estas malfacile. Kaj vi devas kompreni, ke vi solvas komercan problemon, kaj kune kun la komerco, formulu metrikojn, kiuj povas esti matematike optimumigitaj. Tiu kapablo estas akirita per realaj kazoj, kaj ili ricevas fare de Ozono.
Kaj eĉ se ni ignoras la kazojn, la lernejo estas instruata de multaj praktikistoj, kiuj solvas komercajn problemojn en realaj kompanioj. Kiel rezulto, la aliro al instruado mem estas ankoraŭ pli praktik-orientita. Almenaŭ en mia kurso, mi provos ŝanĝi la fokuson al kiel uzi la ilojn, kiaj aliroj ekzistas, ktp. Kune kun la studentoj, ni komprenos, ke ĉiu tasko havas sian propran ilon, kaj ĉiu ilo havas sian aplikeblan areon.

— La plej fama trejnadprogramo pri datuma analizo, kompreneble, estas ShAD — kio precize estas la diferenco de ĝi?

— Estas klare, ke ŜAD kaj Ozonaj Majstroj, krom la eduka funkcio, solvas la lokan problemon de persona trejnado. Plej bonaj diplomiĝintoj de SHAD estas ĉefe rekrutitaj al Yandex, sed la kapto estas, ke Yandex, pro siaj specifaĵoj - kaj ĝi estas granda kaj estis kreita kiam estis malmultaj bonaj iloj por labori kun grandaj datumoj - havas sian propran infrastrukturon kaj ilojn por labori kun datumoj. , kio signifas , vi devos regi ilin. Ozon Masters havas malsaman mesaĝon - se vi sukcese majstris la programon kaj Ozon aŭ unu el la 99% de aliaj kompanioj invitas vin labori, estos multe pli facile komenci profiti la komercon; la lerteco akirita kiel parto de Ozon Masters. sufiĉos por nur komenci labori.

— La kurso daŭras du jarojn. Kial vi bezonas pasigi tiom da tempo pri tio?

- Bona demando. Ĝi bezonas longan tempon, ĉar laŭ enhavo kaj nivelo de instruistoj, ĉi tio estas integra majstra programo, kiu postulas multan tempon por majstri, inkluzive de hejmtasko.

De mia kursperspektivo, atendi studenton pasigi 2-3 horojn semajne por taskoj estas ofta. Unue, taskoj estas plenumitaj sur trejna areto, kaj ĉiu komuna areto implicas, ke pluraj homoj uzas ĝin samtempe. Tio estas, vi devos atendi ke la tasko komenciĝu; iuj rimedoj povas esti elektitaj kaj transdonitaj al pli alta prioritata atendovico. Aliflanke, ajna laboro kun grandaj datumoj prenas multan tempon.

Se vi havas pliajn demandojn pri la programo, laborante kun grandaj datumoj aŭ inĝenieraj kapabloj, Ozon Masters havas interretan malferman tagon sabate la 25-an de aprilo je 12:00. Ni renkontiĝas kun instruistoj kaj studentoj en Zoom kaj plu YouTube.

fonto: www.habr.com

Aldoni komenton