Pavel Klemenkov, NVIDIA: Kami cuba mengurangkan jurang antara perkara yang boleh dilakukan oleh saintis data dan perkara yang sepatutnya boleh dia lakukan

Pengambilan kedua pelajar program sarjana dalam sains data dan kecerdasan perniagaan Ozon Masters telah bermula - dan untuk memudahkan anda membuat keputusan untuk meninggalkan permohonan dan mengambil ujian dalam talian, kami bertanya kepada guru program tentang apa yang diharapkan daripada belajar dan bekerja dengan data.

Pavel Klemenkov, NVIDIA: Kami cuba mengurangkan jurang antara perkara yang boleh dilakukan oleh saintis data dan perkara yang sepatutnya boleh dia lakukan Ketua Saintis Data NVIDIA dan guru kursus mengenai Data Besar dan Kejuruteraan Data Pavel Klemenkov bercakap tentang mengapa ahli matematik perlu menulis kod dan belajar di Ozon Masters selama dua tahun.

β€” Adakah terdapat banyak syarikat yang menggunakan algoritma sains data?

- Sebenarnya agak banyak. Banyak syarikat besar yang mempunyai data yang sangat besar sama ada mula bekerja dengannya dengan berkesan atau telah lama bekerja dengannya. Jelas bahawa separuh daripada pasaran menggunakan data yang boleh dimuatkan ke dalam hamparan Excel atau boleh dikira pada pelayan yang besar, tetapi tidak boleh dikatakan bahawa terdapat hanya beberapa perniagaan yang boleh bekerja dengan data.

β€” Beritahu kami sedikit tentang projek di mana sains data digunakan.

β€” Sebagai contoh, semasa bekerja di Rambler, kami membuat sistem pengiklanan yang berfungsi berdasarkan prinsip RTB (Pembidaan Masa Nyata) - kami perlu membina banyak model yang akan mengoptimumkan pembelian pengiklanan atau, sebagai contoh, boleh meramalkan kebarangkalian daripada satu klik, penukaran dan sebagainya. Pada masa yang sama, lelongan pengiklanan menjana banyak data: log permintaan tapak kepada bakal pembeli pengiklanan, log tera pengiklanan, log klik - ini adalah berpuluh-puluh terabait data setiap hari.

Lebih-lebih lagi, untuk tugasan ini kami melihat fenomena yang menarik: lebih banyak data yang anda berikan untuk melatih model, lebih tinggi kualitinya. Biasanya, selepas jumlah data tertentu, kualiti ramalan berhenti bertambah baik, dan untuk meningkatkan lagi ketepatan, anda perlu menggunakan model yang berbeza secara asas, pendekatan yang berbeza untuk menyediakan data, ciri dan sebagainya. Di sini kami memuat naik lebih banyak data dan kualiti meningkat.

Ini adalah kes biasa di mana penganalisis terpaksa, pertama sekali, bekerja dengan set data yang besar untuk sekurang-kurangnya menjalankan percubaan, dan di mana ia adalah mustahil untuk bertahan dengan sampel kecil yang sesuai dengan MacBook yang selesa. Pada masa yang sama, kami memerlukan model yang diedarkan, kerana jika tidak, mereka tidak boleh dilatih. Dengan pengenalan penglihatan komputer ke dalam pengeluaran, contoh sedemikian menjadi lebih biasa, kerana gambar adalah sejumlah besar data, dan untuk melatih model besar, berjuta-juta gambar diperlukan.

Persoalannya segera timbul: bagaimana untuk menyimpan semua maklumat ini, cara memprosesnya dengan berkesan, cara menggunakan algoritma pembelajaran teragih - tumpuan beralih daripada matematik tulen kepada kejuruteraan. Walaupun anda tidak menulis kod dalam pengeluaran, anda perlu berupaya menggunakan alatan kejuruteraan untuk menjalankan percubaan.

β€” Bagaimanakah pendekatan kepada kekosongan sains data berubah dalam beberapa tahun kebelakangan ini?

β€” Data besar telah tidak lagi menjadi gembar-gembur dan telah menjadi kenyataan. Pemacu keras agak murah, yang bermaksud adalah mungkin untuk mengumpul semua data supaya pada masa akan datang akan ada cukup untuk menguji sebarang hipotesis. Akibatnya, pengetahuan tentang alat untuk bekerja dengan data besar menjadi sangat popular, dan, akibatnya, semakin banyak kekosongan untuk jurutera data muncul.

Pada pemahaman saya, hasil kerja saintis data bukanlah percubaan, tetapi produk yang telah mencapai pengeluaran. Dan hanya dari sudut pandangan ini, sebelum kemunculan gembar-gembur mengenai data besar, prosesnya lebih mudah: jurutera terlibat dalam pembelajaran mesin untuk menyelesaikan masalah tertentu, dan tidak ada masalah dengan membawa algoritma ke pengeluaran.

β€” Apakah yang diperlukan untuk kekal sebagai pakar yang dicari?

β€” Kini ramai orang telah datang ke sains data yang telah mempelajari matematik, teori pembelajaran mesin, dan mengambil bahagian dalam pertandingan analisis data, di mana infrastruktur siap sedia disediakan: data dibersihkan, metrik ditakrifkan, dan tidak ada keperluan untuk penyelesaian boleh dihasilkan semula dan cepat.

Akibatnya, lelaki datang bekerja dengan tidak bersedia untuk realiti perniagaan, dan jurang terbentuk antara pemula dan pemaju berpengalaman.

Dengan pembangunan alatan yang membolehkan anda memasang model anda sendiri daripada modul siap sedia - dan Microsoft, Google dan ramai lagi telah mempunyai penyelesaian sedemikian - dan automasi pembelajaran mesin, jurang ini akan menjadi lebih ketara. Pada masa hadapan, profesion ini akan mendapat permintaan untuk penyelidik serius yang menghasilkan algoritma baharu, dan pekerja yang mempunyai kemahiran kejuruteraan yang dibangunkan yang akan melaksanakan model dan proses mengautomasikan. Kursus Sarjana Ozon dalam kejuruteraan data direka untuk membangunkan kemahiran kejuruteraan dan keupayaan untuk menggunakan algoritma pembelajaran mesin teragih pada data besar. Kami cuba mengurangkan jurang antara perkara yang boleh dilakukan oleh saintis data dan perkara yang sepatutnya dapat dia lakukan dalam amalan.

β€” Mengapakah seorang ahli matematik yang mempunyai diploma perlu belajar perniagaan?

β€” Komuniti sains data Rusia telah memahami bahawa kemahiran dan pengalaman sangat cepat ditukar kepada wang, oleh itu, sebaik sahaja pakar mempunyai pengalaman praktikal, kosnya mula berkembang dengan cepat, orang yang paling mahir adalah sangat mahal - dan ini adalah benar pada saat pasaran pembangunan semasa.

Sebilangan besar tugas saintis data ialah memasukkan data, memahami perkara yang ada, berunding dengan orang yang bertanggungjawab untuk proses perniagaan dan menjana data ini - dan kemudian menggunakannya untuk membina model. Untuk mula bekerja dengan data besar, adalah sangat penting untuk mempunyai kemahiran kejuruteraan - ini menjadikannya lebih mudah untuk mengelakkan sudut tajam, yang terdapat banyak dalam sains data.

Cerita biasa: anda menulis pertanyaan dalam SQL yang dilaksanakan menggunakan rangka kerja Hive yang dijalankan pada data besar. Permintaan diproses dalam sepuluh minit, dalam kes yang paling teruk - dalam satu atau dua jam, dan selalunya, apabila anda menerima muat turun data ini, anda menyedari bahawa anda terlupa untuk mengambil kira beberapa faktor atau maklumat tambahan. Anda perlu menghantar semula permintaan dan tunggu minit dan jam ini. Jika anda seorang genius kecekapan, anda akan mengambil tugas lain, tetapi, seperti yang ditunjukkan oleh amalan, kami mempunyai beberapa orang jenius kecekapan, dan orang hanya menunggu. Oleh itu, dalam kursus kami akan menumpukan banyak masa untuk kecekapan bekerja untuk mula menulis pertanyaan yang berfungsi bukan selama dua jam, tetapi selama beberapa minit. Kemahiran ini menggandakan produktiviti, dan dengannya nilai seorang pakar.

– Bagaimanakah Ozon Masters berbeza daripada kursus lain?

β€” Sarjana Ozon diajar oleh pekerja Ozon, dan tugasan adalah berdasarkan kes perniagaan sebenar yang diselesaikan dalam syarikat. Malah, sebagai tambahan kepada kekurangan kemahiran kejuruteraan, seseorang yang mempelajari sains data di universiti mempunyai masalah lain: tugas perniagaan dirumuskan dalam bahasa perniagaan, dan matlamatnya agak mudah: untuk mendapatkan lebih banyak wang. Dan seorang ahli matematik tahu betul cara mengoptimumkan metrik matematik - tetapi mencari penunjuk yang akan dikaitkan dengan metrik perniagaan adalah sukar. Dan anda perlu memahami bahawa anda sedang menyelesaikan masalah perniagaan, dan bersama-sama perniagaan, rumuskan metrik yang boleh dioptimumkan secara matematik. Kemahiran ini diperoleh melalui kes sebenar, dan ia diberikan oleh Ozon.
Dan walaupun kita mengabaikan kes itu, sekolah itu diajar oleh ramai pengamal yang menyelesaikan masalah perniagaan di syarikat sebenar. Akibatnya, pendekatan pengajaran itu sendiri masih lebih berorientasikan amalan. Sekurang-kurangnya dalam kursus saya, saya akan cuba mengalihkan fokus kepada cara menggunakan alatan, pendekatan yang wujud, dan sebagainya. Bersama-sama dengan pelajar, kami akan memahami bahawa setiap tugas mempunyai alatnya sendiri, dan setiap alat mempunyai kawasan kebolehgunaannya.

β€” Program latihan analisis data yang paling terkenal, sudah tentu, adalah ShAD β€” apakah sebenarnya perbezaannya?

β€” Jelas sekali bahawa ShAD dan Ozon Masters, sebagai tambahan kepada fungsi pendidikan, menyelesaikan masalah tempatan latihan kakitangan. Graduan SHAD teratas terutamanya direkrut ke Yandex, tetapi tangkapannya ialah Yandex, kerana kekhususannya - dan ia besar dan dicipta apabila terdapat beberapa alat yang baik untuk bekerja dengan data besar - mempunyai infrastruktur dan alatnya sendiri untuk bekerja dengan data , yang bermaksud , anda perlu menguasainya. Ozon Masters mempunyai mesej yang berbeza - jika anda telah berjaya menguasai program ini dan Ozon atau salah satu daripada 99% syarikat lain menjemput anda untuk bekerja, lebih mudah untuk mula memanfaatkan perniagaan; set kemahiran yang diperoleh sebagai sebahagian daripada Ozon Masters akan cukup untuk mula bekerja.

- Kursus ini berlangsung selama dua tahun. Mengapa anda perlu menghabiskan banyak masa untuk ini?

- Soalan yang baik. Ia mengambil masa yang lama, kerana dari segi kandungan dan tahap guru, ini adalah program master integral yang memerlukan banyak masa untuk menguasai, termasuk kerja rumah.

Dari perspektif kursus saya, mengharapkan pelajar menghabiskan 2-3 jam seminggu untuk tugasan adalah perkara biasa. Pertama, tugasan dilakukan pada kluster latihan, dan mana-mana kluster kongsi membayangkan bahawa beberapa orang menggunakannya secara serentak. Iaitu, anda perlu menunggu tugas untuk mula melaksanakan; beberapa sumber mungkin dipilih dan dipindahkan ke baris gilir keutamaan yang lebih tinggi. Sebaliknya, sebarang kerja dengan data besar memerlukan banyak masa.

Jika anda mempunyai sebarang soalan lagi tentang program ini, bekerja dengan data besar atau kemahiran kejuruteraan, Ozon Masters mengadakan hari terbuka dalam talian pada hari Sabtu, 25 April jam 12:00. Kami berjumpa dengan guru dan pelajar di Zoom dan Youtube.

Sumber: www.habr.com

Tambah komen