Pavel Klemenkov, NVIDIA: Kami mencoba mengurangi kesenjangan antara apa yang dapat dilakukan oleh data scientist dan apa yang seharusnya dapat dilakukannya

Penerimaan kedua siswa program master dalam ilmu data dan intelijen bisnis Ozon Masters telah dimulai - dan untuk mempermudah memutuskan meninggalkan lamaran dan mengikuti tes online, kami bertanya kepada guru program tentang apa yang diharapkan dari belajar dan bekerja dengan data.

Pavel Klemenkov, NVIDIA: Kami mencoba mengurangi kesenjangan antara apa yang dapat dilakukan oleh data scientist dan apa yang seharusnya dapat dilakukannya Kepala Ilmuwan Data NVIDIA dan guru kursus tentang Big Data dan Rekayasa Data Pavel Klemenkov berbicara tentang mengapa matematikawan perlu menulis kode dan belajar di Ozon Masters selama dua tahun.

β€” Apakah ada banyak perusahaan yang menggunakan algoritma ilmu data?

- Sebenarnya cukup banyak. Cukup banyak perusahaan besar yang memiliki data yang sangat besar mulai menggunakannya secara efektif atau sudah lama menggunakannya. Jelas bahwa separuh pasar menggunakan data yang dapat dimasukkan ke dalam spreadsheet Excel atau dapat dihitung di server besar, namun tidak dapat dikatakan bahwa hanya ada sedikit bisnis yang dapat bekerja dengan data.

β€” Ceritakan sedikit tentang proyek yang menggunakan ilmu data.

β€” Misalnya, saat bekerja di Rambler, kami membuat sistem periklanan yang bekerja berdasarkan prinsip RTB (Real Time Bidding) - kami perlu membuat banyak model yang akan mengoptimalkan pembelian iklan atau, misalnya, dapat memprediksi probabilitas klik, konversi, dan sebagainya. Pada saat yang sama, lelang periklanan menghasilkan banyak data: log permintaan situs ke calon pembeli iklan, log tayangan iklan, log klik - ini adalah puluhan terabyte data per hari.

Selain itu, untuk tugas-tugas ini kami mengamati fenomena menarik: semakin banyak data yang Anda berikan untuk melatih model, semakin tinggi kualitasnya. Biasanya, setelah sejumlah data tertentu, kualitas perkiraan berhenti meningkat, dan untuk lebih meningkatkan akurasi, Anda perlu menggunakan model yang berbeda secara mendasar, pendekatan yang berbeda dalam menyiapkan data, fitur, dan sebagainya. Di sini kami mengunggah lebih banyak data dan kualitasnya meningkat.

Ini adalah kasus umum di mana analis harus, pertama, bekerja dengan kumpulan data yang besar untuk setidaknya melakukan eksperimen, dan tidak mungkin bertahan dengan sampel kecil yang muat di MacBook yang nyaman. Pada saat yang sama, kami memerlukan model terdistribusi, karena jika tidak, model tersebut tidak dapat dilatih. Dengan diperkenalkannya visi komputer ke dalam produksi, contoh seperti itu menjadi lebih umum, karena gambar adalah data dalam jumlah besar, dan untuk melatih model yang besar, diperlukan jutaan gambar.

Pertanyaan yang segera muncul: bagaimana cara menyimpan semua informasi ini, bagaimana memprosesnya secara efektif, bagaimana menggunakan algoritma pembelajaran terdistribusi - fokusnya beralih dari matematika murni ke teknik. Meskipun Anda tidak menulis kode dalam produksi, Anda harus dapat bekerja dengan alat teknik untuk melakukan eksperimen.

β€” Bagaimana pendekatan terhadap lowongan ilmu data berubah dalam beberapa tahun terakhir?

β€” Big data tidak lagi menjadi hype dan menjadi kenyataan. Harga hard drive cukup murah, artinya semua data dapat dikumpulkan sehingga di masa mendatang tersedia cukup data untuk menguji hipotesis apa pun. Akibatnya, pengetahuan tentang alat untuk bekerja dengan data besar menjadi sangat populer, dan akibatnya, semakin banyak lowongan untuk insinyur data yang bermunculan.

Dalam pemahaman saya, hasil kerja seorang data scientist bukanlah sebuah eksperimen, melainkan sebuah produk yang sudah mencapai tahap produksi. Dan dari sudut pandang ini, sebelum munculnya hype seputar big data, prosesnya lebih sederhana: para insinyur terlibat dalam pembelajaran mesin untuk memecahkan masalah tertentu, dan tidak ada masalah dalam membawa algoritme ke produksi.

β€” Apa yang diperlukan untuk tetap menjadi spesialis yang dicari?

β€” Sekarang banyak orang yang datang ke ilmu data yang telah mempelajari matematika, teori pembelajaran mesin, dan berpartisipasi dalam kompetisi analisis data, di mana infrastruktur siap pakai disediakan: data dibersihkan, metrik ditentukan, dan tidak ada persyaratan agar solusi dapat direproduksi dan cepat.

Akibatnya, orang-orang datang bekerja tanpa persiapan menghadapi realitas bisnis, dan terbentuklah kesenjangan antara pemula dan pengembang berpengalaman.

Dengan berkembangnya alat yang memungkinkan Anda merakit model Anda sendiri dari modul yang sudah jadi - dan Microsoft, Google, dan banyak lainnya sudah memiliki solusi seperti itu - dan otomatisasi pembelajaran mesin, kesenjangan ini akan menjadi semakin nyata. Di masa depan, profesi ini akan diminati oleh para peneliti serius yang menghasilkan algoritma baru, dan karyawan dengan keterampilan teknik tingkat lanjut yang akan mengimplementasikan model dan mengotomatisasi proses. Kursus Master Ozon dalam rekayasa data dirancang untuk mengembangkan keterampilan teknik dan kemampuan menggunakan algoritma pembelajaran mesin terdistribusi pada data besar. Kami mencoba mengurangi kesenjangan antara apa yang dapat dilakukan oleh data scientist dan apa yang seharusnya dapat dilakukannya dalam praktik.

β€” Mengapa seorang ahli matematika dengan ijazah harus belajar bisnis?

β€” Komunitas ilmu data Rusia telah memahami bahwa keterampilan dan pengalaman dengan cepat diubah menjadi uang, oleh karena itu, segera setelah seorang spesialis memiliki pengalaman praktis, biayanya mulai meningkat dengan sangat cepat, orang yang paling terampil menjadi sangat mahal - dan ini benar pada saat pasar pengembangan saat ini.

Sebagian besar tugas data scientist adalah menyelidiki data, memahami apa yang ada di sana, berkonsultasi dengan orang-orang yang bertanggung jawab atas proses bisnis dan menghasilkan data tersebut - dan baru kemudian menggunakannya untuk membangun model. Untuk mulai bekerja dengan data besar, sangatlah penting untuk memiliki keterampilan teknik - ini akan mempermudah menghindari sudut tajam, yang banyak terdapat dalam ilmu data.

Kisah umum: Anda menulis kueri dalam SQL yang dieksekusi menggunakan kerangka Hive yang berjalan pada data besar. Permintaan diproses dalam sepuluh menit, dalam kasus terburuk - dalam satu atau dua jam, dan seringkali, ketika Anda menerima unduhan data ini, Anda menyadari bahwa Anda lupa memperhitungkan beberapa faktor atau informasi tambahan. Anda harus mengirim ulang permintaan dan menunggu menit dan jam tersebut. Jika Anda seorang yang jenius dalam efisiensi, Anda akan mengambil tugas lain, namun, seperti yang ditunjukkan oleh praktik, kita hanya mempunyai sedikit orang yang jenius dalam efisiensi, dan orang-orang hanya menunggu. Oleh karena itu, dalam kursus kami akan mencurahkan banyak waktu untuk efisiensi kerja untuk menulis pertanyaan awal yang tidak berfungsi selama dua jam, tetapi selama beberapa menit. Keterampilan ini melipatgandakan produktivitas, dan dengan itu nilai seorang spesialis.

– Apa perbedaan Ozon Masters dengan kursus lainnya?

β€” Ozon Masters diajarkan oleh karyawan Ozon, dan tugasnya didasarkan pada kasus bisnis nyata yang diselesaikan di perusahaan. Faktanya, selain kurangnya keterampilan teknik, seseorang yang mempelajari ilmu data di universitas memiliki masalah lain: tugas bisnis dirumuskan dalam bahasa bisnis, dan tujuannya cukup sederhana: menghasilkan lebih banyak uang. Dan seorang ahli matematika tahu betul cara mengoptimalkan metrik matematika - tetapi sulit menemukan indikator yang berkorelasi dengan metrik bisnis. Dan Anda perlu memahami bahwa Anda sedang memecahkan masalah bisnis, dan bersama dengan bisnis tersebut, merumuskan metrik yang dapat dioptimalkan secara matematis. Keterampilan ini diperoleh melalui kasus nyata, dan diberikan oleh Ozon.
Dan bahkan jika kita mengabaikan kasusnya, sekolah tersebut diajar oleh banyak praktisi yang memecahkan masalah bisnis di perusahaan nyata. Akibatnya, pendekatan pengajarannya sendiri masih lebih berorientasi pada praktik. Setidaknya dalam kursus saya, saya akan mencoba mengalihkan fokus ke cara menggunakan alat, pendekatan apa yang ada, dan sebagainya. Bersama siswa, kita akan memahami bahwa setiap tugas memiliki alatnya sendiri, dan setiap alat memiliki cakupan penerapannya sendiri.

β€” Program pelatihan analisis data yang paling terkenal tentu saja adalah ShAD β€” apa sebenarnya perbedaannya?

β€” Jelas bahwa ShAD dan Ozon Masters, selain fungsi pendidikan, memecahkan masalah lokal dalam pelatihan personel. Lulusan SHAD terbaik terutama direkrut ke Yandex, namun yang menarik adalah bahwa Yandex, karena kekhususannya - dan ukurannya besar dan diciptakan ketika hanya ada sedikit alat bagus untuk bekerja dengan data besar - memiliki infrastruktur dan alat sendiri untuk bekerja dengan data , yang artinya, Anda harus menguasainya. Ozon Masters memiliki pesan yang berbeda - jika Anda telah berhasil menguasai programnya dan Ozon atau salah satu dari 99% perusahaan lain mengundang Anda untuk bekerja, akan lebih mudah untuk mulai mendapatkan keuntungan dari bisnis; keahlian yang diperoleh sebagai bagian dari Ozon Masters akan cukup untuk mulai bekerja.

β€” Kursus ini berlangsung selama dua tahun. Mengapa Anda perlu menghabiskan begitu banyak waktu untuk hal ini?

- Pertanyaan bagus. Membutuhkan waktu yang lama, karena dari segi isi dan jenjang guru, ini merupakan program magister integral yang memerlukan banyak waktu untuk menguasainya, termasuk pekerjaan rumah.

Dari sudut pandang mata kuliah saya, mengharapkan siswa menghabiskan 2-3 jam seminggu untuk mengerjakan tugas adalah hal biasa. Pertama, tugas dilakukan pada cluster pelatihan, dan setiap cluster bersama menyiratkan bahwa beberapa orang menggunakannya secara bersamaan. Artinya, Anda harus menunggu tugas mulai dijalankan; beberapa sumber daya mungkin dipilih dan ditransfer ke antrian dengan prioritas lebih tinggi. Di sisi lain, pekerjaan apa pun dengan data besar membutuhkan banyak waktu.

Jika Anda memiliki pertanyaan lebih lanjut tentang program ini, bekerja dengan data besar atau keterampilan teknik, Ozon Masters mengadakan hari terbuka online pada hari Sabtu, 25 April pukul 12:00. Kami bertemu dengan guru dan siswa di zoom dan Youtube.

Sumber: www.habr.com

Tambah komentar