Pavel Klemenkov, NVIDIA: Kami nyobian ngirangan jurang antara naon anu tiasa dilakukeun ku élmuwan data sareng naon anu kedah anjeunna laksanakeun

Asupan kadua mahasiswa program master dina élmu data sareng intelijen bisnis Ozon Masters parantos ngamimitian - sareng pikeun ngagampangkeun mutuskeun ninggalkeun aplikasi sareng nyandak tés online, kami naroskeun ka guru program ngeunaan naon anu bakal diarepkeun tina diajar sareng damel. kalawan data.

Pavel Klemenkov, NVIDIA: Kami nyobian ngirangan jurang antara naon anu tiasa dilakukeun ku élmuwan data sareng naon anu kedah anjeunna laksanakeun Kapala Élmuwan Data NVIDIA sareng guru kursus ngeunaan Big Data sareng Téknik Data Pavel Klemenkov ngobrol ngeunaan naha matematikawan kedah nyerat kode sareng diajar di Ozon Masters salami dua taun.

- Naha aya seueur perusahaan anu nganggo algoritma élmu data?

- Sabenerna rada loba. Seueur perusahaan ageung anu gaduh data anu saé pisan anu mimiti dianggo sacara efektif atanapi parantos lami damel sareng éta. Ieu jelas yén satengah tina pasar ngagunakeun data nu bisa cocog kana hiji spreadsheet Excel atawa bisa diitung dina server badag, tapi teu bisa disebutkeun yen aya ngan sababaraha usaha nu bisa digawekeun ku data.

- Ngabejaan urang saeutik ngeunaan proyék dimana elmu data dipaké.

- Salaku conto, nalika damel di Rambler, kami ngadamel sistem pariwara anu dianggo dina prinsip RTB (Penawaran Waktu Nyata) - urang kedah ngawangun seueur modél anu bakal ngaoptimalkeun pameseran pariwara atanapi, contona, tiasa ngaduga kamungkinan tina hiji klik, konversi, jeung saterusna. Dina waktos anu sami, lelang pariwara ngahasilkeun seueur data: log pamundut situs ka pembeli pariwara poténsial, log tayangan iklan, log klik - ieu mangrupikeun puluhan terabytes data per dinten.

Leuwih ti éta, pikeun pancén ieu kami niténan fenomena metot: beuki data anjeun masihan ka ngalatih model, nu leuwih luhur kualitas na. Biasana, sanggeus jumlah data nu tangtu, kualitas ramalan eureun ngaronjatkeun, sarta jang meberkeun ngaronjatkeun akurasi, Anjeun kudu make model fundamentally béda, pendekatan béda pikeun Nyiapkeun data, fitur, jeung saterusna. Di dieu kami unggah langkung seueur data sareng kualitasna ningkat.

Ieu mangrupikeun pasualan anu biasa dimana analis kedah, mimitina, damel sareng set data ageung supados sahenteuna ngalaksanakeun percobaan, sareng dimana éta teu mungkin pikeun nyandak sampel leutik anu pas dina MacBook anu nyaman. Dina waktos anu sami, urang peryogi modél anu disebarkeun, sabab upami henteu aranjeunna henteu tiasa dilatih. Kalayan ngenalkeun visi komputer kana produksi, conto sapertos kitu janten langkung umum, sabab gambar mangrupikeun jumlah data anu ageung, sareng pikeun ngalatih modél ageung, jutaan gambar diperyogikeun.

Patarosan langsung timbul: kumaha nyimpen sadaya inpormasi ieu, kumaha cara ngolahna sacara efektif, kumaha ngagunakeun algoritma diajar anu disebarkeun - fokusna ngalih tina matematika murni ka rékayasa. Sanaos anjeun henteu nyerat kode dina produksi, anjeun kedah tiasa damel sareng alat rékayasa pikeun ngalaksanakeun ékspérimén.

— Kumaha pendekatan kana lowongan élmu data parantos robih dina taun-taun ayeuna?

- data badag geus ceased janten hype sarta geus jadi kanyataan. Hard drive cukup mirah, nu hartina kasebut nyaéta dimungkinkeun pikeun ngumpulkeun sakabeh data ku kituna dina mangsa nu bakal datang bakal cukup pikeun nguji hipotesis nanaon. Hasilna, pangaweruh ngeunaan parabot pikeun gawé bareng data badag jadi pohara populér, sarta salaku hasilna, beuki loba lowongan pikeun insinyur data anu muncul.

Dina pamahaman kuring, hasil karya élmuwan data urang téh lain ékspérimén, tapi produk nu geus ngahontal produksi. Sarta ngan ti sudut pandang ieu, saméméh mecenghulna hype sabudeureun data badag, prosés éta basajan: insinyur anu kalibet dina mesin learning pikeun ngajawab masalah husus, sarta teu aya masalah jeung mawa algoritma pikeun produksi.

- Naon anu diperlukeun pikeun tetep spesialis ditéang-sanggeus?

- Ayeuna seueur jalma anu sumping ka élmu data anu diajar matematika, téori pembelajaran mesin, sareng ngiringan kompetisi analisis data, dimana infrastruktur siap-siap disayogikeun: data dibersihkeun, métrik ditetepkeun, sareng henteu aya syarat pikeun solusi janten reproducible tur gancang.

Hasilna, guys datang ka dianggo gering-disiapkeun pikeun realities bisnis, sarta gap kabentuk antara newbies sarta pamekar ngalaman.

Kalayan pamekaran alat anu ngamungkinkeun anjeun ngumpul modél anjeun nyalira tina modul anu siap - sareng Microsoft, Google sareng seueur anu sanésna parantos gaduh solusi sapertos kitu - sareng otomatisasi pembelajaran mesin, jurang ieu bakal langkung jelas. Dina mangsa nu bakal datang, profési bakal di paménta pikeun peneliti serius anu datang nepi ka algoritma anyar, sarta pagawé kalawan kaahlian rékayasa dimekarkeun anu bakal nerapkeun model jeung ngajadikeun otomatis prosés. Kursus Ozon Masters dina rékayasa data dirancang pikeun ngembangkeun kaahlian rékayasa sareng kamampuan ngagunakeun algoritma diajar mesin anu disebarkeun dina data gedé. Kami nyobian ngirangan jurang antara naon anu tiasa dilakukeun ku élmuwan data sareng naon anu kedah anjeunna laksanakeun dina prakna.

- Naha ahli matematika sareng diploma kedah diajar bisnis?

— Komunitas élmu data Rusia parantos ngartos yén kaahlian sareng pangalaman gancang pisan dirobih janten artos, janten, pas spesialis ngagaduhan pangalaman praktis, biayana mimiti tumbuh gancang pisan, jalma anu paling terampil pisan mahal - sareng ieu. leres dina momen pasar pangwangunan ayeuna.

Bagian gedé tina tugas élmuwan data nyaéta pikeun asup kana data, ngartos naon anu aya di dinya, konsultasi sareng jalma anu tanggung jawab prosés bisnis sareng ngahasilkeun data ieu - teras ngan ukur dianggo pikeun ngawangun modél. Pikeun ngamimitian damel sareng data ageung, penting pisan pikeun gaduh kaahlian rékayasa - ieu ngagampangkeun pikeun ngahindarkeun sudut anu seukeut, anu seueur dina élmu data.

Carita anu biasa: anjeun nyerat patarosan dina SQL anu dieksekusi nganggo kerangka Hive anu dijalankeun dina data ageung. Paménta diolah dina sapuluh menit, dina kasus anu paling parah - dina sajam atanapi dua, sareng sering, nalika anjeun nampi undeuran data ieu, anjeun sadar yén anjeun hilap ngémutan sababaraha faktor atanapi inpormasi tambahan. Anjeun kedah ngirim deui pamundut sareng ngantosan menit sareng jam ieu. Upami anjeun genius efisiensi, anjeun bakal nyandak tugas anu sanés, tapi, sakumaha prakték nunjukkeun, urang gaduh sababaraha jenius efisiensi, sareng jalma-jalma ngan ngantosan. Ku alatan éta, dina kursus-kursus urang bakal bakti loba waktu pikeun efisiensi gawé dina urutan mimitina nulis queries nu teu dianggo pikeun dua jam, tapi pikeun sababaraha menit. Kaahlian ieu ngalikeun produktivitas, sareng éta nilai spesialis.

- Kumaha Ozon Masters béda ti kursus anu sanés?

- Ozon Masters diajarkeun ku karyawan Ozon, sareng tugasna dumasar kana kasus bisnis nyata anu direngsekeun di perusahaan. Kanyataanna, salian kurangna kaahlian rékayasa, jalma anu diajar élmu data di universitas boga masalah sejen: tugas bisnis dirumuskeun dina basa bisnis, sarta tujuanana cukup basajan: earn leuwih duit. Sareng ahli matematika terang kumaha ngaoptimalkeun métrik matematika - tapi milarian indikator anu bakal pakait sareng métrik bisnis sesah. Sareng anjeun kedah ngartos yén anjeun ngarengsekeun masalah bisnis, sareng sareng usaha, ngarumuskeun métrik anu tiasa dioptimalkeun sacara matematis. skill ieu kaala ngaliwatan kasus nyata, sarta aranjeunna dibikeun ku Ozon.
Sareng upami urang teu malire kasus, sakola diajarkeun ku seueur praktisi anu ngarengsekeun masalah bisnis di perusahaan nyata. Hasilna, pendekatan kana pangajaran sorangan masih leuwih berorientasi prakték. Sahenteuna dina kursus kuring, kuring bakal nyobian ngalihkeun fokus kana kumaha ngagunakeun alat, pendekatan naon anu aya, sareng saterasna. Babarengan sareng murid, urang bakal ngartos yén unggal tugas ngagaduhan alat sorangan, sareng unggal alat ngagaduhan daérah anu tiasa dianggo.

- Program latihan analisis data anu paling kasohor, tangtosna, nyaéta ShAD - naon bédana sareng éta?

- Ieu jelas yén ShAD na Ozon Masters, sajaba fungsi atikan, ngajawab masalah lokal latihan tanaga. Lulusan SHAD Top utamana direkrut ka Yandex, tapi nyekel éta Yandex, alatan spésifikna - sarta éta badag sarta dijieun nalika aya sababaraha parabot alus pikeun gawé bareng data badag - boga infrastruktur sorangan jeung parabot pikeun gawé bareng data. , anu hartosna, anjeun kedah ngawasaan aranjeunna. Ozon Masters gaduh pesen anu béda - upami anjeun parantos suksés ngawasa program sareng Ozon atanapi salah sahiji 99% perusahaan anu sanés ngajak anjeun damel, éta bakal langkung gampang pikeun ngamimitian nguntungkeun usaha; set kaahlian anu kaala salaku bagian tina Ozon Masters bakal cukup pikeun ngamimitian digawé.

- Tangtu lasts dua taun. Naha anjeun kedah nyéépkeun waktos kanggo ieu?

- Patarosan alus. Butuh waktu anu lami, sabab tina segi eusi sareng tingkat guru, ieu mangrupikeun program master integral anu peryogi seueur waktos pikeun ngawasaan, kalebet PR.

Tina sudut pandang kuring, ngarepkeun murid nyéépkeun 2-3 jam saminggu pikeun ngerjakeun tugas anu biasa. Anu mimiti, tugas dilaksanakeun dina klaster latihan, sareng klaster anu dibagikeun nunjukkeun yén sababaraha jalma nganggo sakaligus. Nyaéta, anjeun kedah ngantosan tugas pikeun ngamimitian ngalaksanakeun; sababaraha sumber tiasa dipilih sareng ditransfer ka antrian prioritas anu langkung luhur. Di sisi anu sanésna, naon waé padamelan anu nganggo data ageung peryogi seueur waktos.

Upami anjeun gaduh patarosan langkung seueur ngeunaan program éta, damel sareng data ageung atanapi kaahlian rékayasa, Ozon Masters gaduh dinten kabuka online dinten Saptu, 25 April jam 12:00. Urang papanggih jeung guru jeung murid di zum jeung YouTube.

sumber: www.habr.com

Tambahkeun komentar