Pavel Klemenkov, NVIDIA: Biz ma'lumot olimi nima qila olishi va nima qilishi kerakligi o'rtasidagi tafovutni kamaytirishga harakat qilmoqdamiz.

Ozon Masters ma'lumotlar fani va biznes razvedkasi bo'yicha magistratura talabalarining ikkinchi qabuli boshlandi - va ariza qoldirish va onlayn testdan o'tishni osonlashtirish uchun biz dastur o'qituvchilaridan o'qish va ishlashdan nimani kutish kerakligini so'radik. ma'lumotlar bilan.

Pavel Klemenkov, NVIDIA: Biz ma'lumot olimi nima qila olishi va nima qilishi kerakligi o'rtasidagi tafovutni kamaytirishga harakat qilmoqdamiz. NVIDIA bosh ma'lumot olimi va o'qituvchi Katta ma'lumotlar va ma'lumotlar muhandisligi bo'yicha kurslar Pavel Klemenkov nima uchun matematiklar kod yozishlari va Ozon Masters-da ikki yil davomida o'qishlari kerakligi haqida gapirdi.

— Maʼlumotlar fanining algoritmlaridan foydalanadigan kompaniyalar koʻpmi?

- Aslida juda ko'p. Haqiqatan ham katta ma'lumotlarga ega bo'lgan juda ko'p yirik kompaniyalar u bilan samarali ishlashni boshlaydilar yoki ular bilan uzoq vaqt davomida ishlamoqdalar. Ko'rinib turibdiki, bozorning yarmi Excel elektron jadvaliga sig'adigan yoki katta serverda hisoblanishi mumkin bo'lgan ma'lumotlardan foydalanadi, ammo ma'lumotlar bilan ishlay oladigan bir nechta korxonalar mavjud deb aytish mumkin emas.

— Data fanidan foydalaniladigan loyihalar haqida bir oz gapirib bersangiz.

— Masalan, Rambler’da ishlaganimizda, biz RTB (Real Time Bidding) tamoyillari asosida ishlaydigan reklama tizimini yaratgan edik – biz reklamani xarid qilishni optimallashtiradigan yoki, masalan, ehtimollikni bashorat qila oladigan ko‘plab modellarni yaratishimiz kerak edi. bosish, konvertatsiya qilish va boshqalar. Shu bilan birga, reklama auktsioni juda ko'p ma'lumotlarni hosil qiladi: potentsial reklama xaridorlariga sayt so'rovlari jurnallari, reklama taassurotlari jurnallari, bosish jurnallari - bu kuniga o'nlab terabayt ma'lumotlar.

Bundan tashqari, ushbu vazifalar uchun biz qiziqarli hodisani kuzatdik: modelni o'rgatish uchun qancha ko'p ma'lumot bersangiz, uning sifati shunchalik yuqori bo'ladi. Odatda, ma'lum miqdordagi ma'lumotlardan so'ng, prognoz sifati yaxshilanishni to'xtatadi va aniqlikni yanada yaxshilash uchun siz tubdan boshqacha modeldan, ma'lumotlarni, xususiyatlarni va boshqalarni tayyorlashda boshqacha yondashuvdan foydalanishingiz kerak. Bu erda biz ko'proq ma'lumotlarni yukladik va sifat oshdi.

Bu odatiy hol bo'lib, tahlilchilar, birinchi navbatda, hech bo'lmaganda tajriba o'tkazish uchun katta ma'lumotlar to'plamlari bilan ishlashlari kerak edi va bu erda qulay MacBook-ga mos keladigan kichik namunani olish mumkin emas edi. Shu bilan birga, bizga tarqatilgan modellar kerak edi, chunki aks holda ularni o'qitish mumkin emas edi. Kompyuterda ko'rishning ishlab chiqarishga kiritilishi bilan bunday misollar ko'payib bormoqda, chunki rasmlar katta hajmdagi ma'lumotlardir va katta modelni o'rgatish uchun millionlab rasmlar kerak bo'ladi.

Darhol savol tug'iladi: bu barcha ma'lumotlarni qanday saqlash kerak, uni qanday samarali qayta ishlash, taqsimlangan o'rganish algoritmlaridan qanday foydalanish - asosiy e'tibor sof matematikadan muhandislikka o'tmoqda. Agar siz ishlab chiqarishda kod yozmasangiz ham, tajriba o'tkazish uchun muhandislik vositalari bilan ishlashingiz kerak.

— So‘nggi yillarda ma’lumotlar fanlari bo‘yicha bo‘sh ish o‘rinlariga yondashuv qanday o‘zgardi?

— Katta maʼlumotlar shov-shuvli boʻlishni toʻxtatdi va haqiqatga aylandi. Qattiq disklar ancha arzon, ya'ni kelajakda har qanday farazlarni sinab ko'rish uchun etarli bo'lishi uchun barcha ma'lumotlarni to'plash mumkin. Natijada, katta ma'lumotlar bilan ishlash vositalarini bilish juda mashhur bo'lib bormoqda va natijada ma'lumotlar muhandislari uchun tobora ko'proq bo'sh ish o'rinlari paydo bo'lmoqda.

Mening tushunishimga ko'ra, ma'lumot olimining natijasi tajriba emas, balki ishlab chiqarishga yetgan mahsulotdir. Va aynan shu nuqtai nazardan qaraganda, katta ma'lumotlar atrofida shov-shuv paydo bo'lishidan oldin, jarayon oddiyroq edi: muhandislar aniq muammolarni hal qilish uchun mashinani o'rganish bilan shug'ullanishgan va algoritmlarni ishlab chiqarishga olib kelishda hech qanday muammo yo'q edi.

— Qidirilayotgan mutaxassis bo'lib qolish uchun nima qilish kerak?

— Endi maʼlumotlar faniga matematikani, mashinani oʻrganish nazariyasini oʻrgangan va maʼlumotlarni tahlil qilish musobaqalarida qatnashgan koʻp odamlar keldi, bu yerda tayyor infratuzilma taqdim etiladi: maʼlumotlar tozalanadi, koʻrsatkichlar aniqlanadi va yoʻq. yechimning takrorlanuvchan va tez bo'lishi uchun talablar.

Natijada, yigitlar ishlashga biznesning voqeliklariga yomon tayyorgarlik ko'rishadi va yangi boshlanuvchilar va tajribali ishlab chiquvchilar o'rtasida bo'shliq paydo bo'ladi.

O'z modelingizni tayyor modullardan yig'ishga imkon beruvchi vositalarni ishlab chiqish bilan - Microsoft, Google va boshqa ko'plab kompaniyalarda bunday echimlar allaqachon mavjud - va mashinani o'rganishni avtomatlashtirish bilan bu bo'shliq yanada aniqroq bo'ladi. Kelajakda ushbu kasb yangi algoritmlarni o'ylab topadigan jiddiy tadqiqotchilar va modellarni amalga oshiradigan va jarayonlarni avtomatlashtiradigan muhandislik ko'nikmalariga ega bo'lgan xodimlar uchun talabga ega bo'ladi. Ma'lumotlar muhandisligi bo'yicha Ozon Masters kursi muhandislik ko'nikmalarini va katta ma'lumotlarda taqsimlangan mashinani o'rganish algoritmlaridan foydalanish qobiliyatini rivojlantirish uchun mo'ljallangan. Biz ma'lumot olimi nima qila olishi va amalda nima qilishi kerakligi o'rtasidagi tafovutni kamaytirishga harakat qilmoqdamiz.

— Nega diplomli matematik biznesga borishi kerak?

— Rossiyaning maʼlumotlar fanlari hamjamiyati mahorat va tajriba juda tez pulga aylanishini tushundi, shuning uchun mutaxassis amaliy tajribaga ega bo'lishi bilanoq uning narxi juda tez o'sishni boshlaydi, eng malakali odamlar juda qimmat - va bu hozirgi rivojlanish bozorida to'g'ri.

Ma'lumotlar bo'yicha olim ishining katta qismi ma'lumotlarga kirish, u erda nima borligini tushunish, biznes jarayonlari uchun mas'ul bo'lgan odamlar bilan maslahatlashish va ushbu ma'lumotlarni yaratish va shundan keyingina modellarni yaratish uchun foydalanishdir. Katta ma'lumotlar bilan ishlashni boshlash uchun muhandislik ko'nikmalariga ega bo'lish juda muhim - bu ma'lumotlar fanida juda ko'p bo'lgan o'tkir burchaklardan qochishni ancha osonlashtiradi.

Oddiy hikoya: siz SQL-da katta ma'lumotlarda ishlaydigan Hive ramkasi yordamida bajariladigan so'rovni yozdingiz. So'rov o'n daqiqada, eng yomon holatda - bir yoki ikki soat ichida ko'rib chiqiladi va ko'pincha ushbu ma'lumotlarning yuklanishini olganingizda, siz ba'zi omillar yoki qo'shimcha ma'lumotlarni hisobga olishni unutganingizni tushunasiz. Siz so'rovni qayta yuborishingiz va shu daqiqalar va soatlarni kutishingiz kerak. Agar siz samaradorlik dahosi bo'lsangiz, siz boshqa vazifani bajarasiz, ammo amaliyot shuni ko'rsatadiki, bizda samaradorlik daholari kam va odamlar shunchaki kutishmoqda. Shuning uchun, kurslarda biz dastlab ikki soat emas, balki bir necha daqiqa ishlaydigan so'rovlarni yozish uchun ish samaradorligiga ko'p vaqt ajratamiz. Bu mahorat mahsuldorlikni oshiradi va u bilan birga mutaxassisning qiymatini oshiradi.

– Ozon Masters boshqa kurslardan nimasi bilan farq qiladi?

— Ozon Masters dasturini Ozon xodimlari o‘rgatadilar va topshiriqlar kompaniyalarda hal qilinadigan real biznes holatlariga asoslanadi. Aslida, muhandislik ko'nikmalarining etishmasligidan tashqari, universitetda ma'lumotlar fanini o'rgangan odamning yana bir muammosi bor: biznesning vazifasi biznes tilida tuzilgan va uning maqsadi juda oddiy: ko'proq pul topish. Va matematik matematik ko'rsatkichlarni qanday optimallashtirishni yaxshi biladi - lekin biznes ko'rsatkichiga mos keladigan ko'rsatkichni topish qiyin. Va siz biznes muammosini hal qilayotganingizni tushunishingiz kerak va biznes bilan birgalikda matematik jihatdan optimallashtirilishi mumkin bo'lgan ko'rsatkichlarni shakllantirishingiz kerak. Bu ko'nikma real holatlar orqali erishiladi va ular Ozon tomonidan beriladi.
Va biz holatlarni e'tiborsiz qoldirsak ham, maktabni haqiqiy kompaniyalarda biznes muammolarini hal qiladigan ko'plab amaliyotchilar o'rgatadi. Natijada, o'qitishga yondashuvning o'zi hali ham ko'proq amaliyotga yo'naltirilgan. Hech bo'lmaganda o'z kursimda e'tiborni vositalardan qanday foydalanish, qanday yondashuvlar mavjudligi va hokazolarga o'tkazishga harakat qilaman. Talabalar bilan birgalikda biz har bir topshiriqning o'z vositasi borligini va har bir vositaning o'z qo'llanish sohasi borligini tushunamiz.

— Maʼlumotlarni tahlil qilish boʻyicha eng mashhur oʻquv dasturi, albatta, ShAD boʻlib, undan nimasi bilan farq qiladi?

— Shubhasiz, ShAD va Ozon ustalari ta’lim funksiyasidan tashqari, mahalliy kadrlar tayyorlash muammosini ham hal qiladi. SHADning eng yaxshi bitiruvchilari birinchi navbatda Yandex-ga ishga olinadi, ammo diqqatga sazovor tomoni shundaki, Yandex o'zining o'ziga xos xususiyatlaridan kelib chiqqan holda - va u katta va katta ma'lumotlar bilan ishlash uchun yaxshi vositalar kam bo'lganda yaratilgan - o'z infratuzilmasi va ma'lumotlar bilan ishlash vositalariga ega. , demak, siz ularni o'zlashtirishingiz kerak bo'ladi. Ozon Masters boshqa xabarga ega - agar siz dasturni muvaffaqiyatli o'zlashtirgan bo'lsangiz va Ozon yoki 99% boshqa kompaniyalardan biri sizni ishlashga taklif qilsa, biznesga foyda keltirishni boshlash ancha oson bo'ladi; Ozon Masters doirasida olingan ko'nikmalar to'plami faqat ish boshlash uchun etarli bo'ladi.

- Kurs ikki yil davom etadi. Nega bunga ko'p vaqt sarflashingiz kerak?

- Yaxshi savol. Bu ko'p vaqt talab etadi, chunki mazmuni va o'qituvchilar darajasi nuqtai nazaridan, bu ajralmas magistrlik dasturi bo'lib, uni o'zlashtirish uchun ko'p vaqt talab etiladi, shu jumladan uy vazifalari.

Mening kursim nuqtai nazaridan, talaba topshiriqlarga haftasiga 2-3 soat sarflashini kutish odatiy holdir. Birinchidan, vazifalar o'quv klasterida bajariladi va har qanday umumiy klaster uni bir vaqtning o'zida bir nechta odam ishlatishini anglatadi. Ya'ni, vazifani bajarish boshlanishini kutishingiz kerak bo'ladi, ba'zi resurslar tanlanishi va yuqoriroq navbatga o'tkazilishi mumkin. Boshqa tomondan, katta ma'lumotlar bilan har qanday ish ko'p vaqtni oladi.

Dastur, katta ma'lumotlar yoki muhandislik ko'nikmalari bilan ishlash bo'yicha boshqa savollaringiz bo'lsa, Ozon Masters 25 aprel, shanba kuni soat 12:00 da onlayn ochiq eshiklar kunini o'tkazadi. Biz o'qituvchilar va talabalar bilan uchrashamiz zoom va YouTube.

Manba: www.habr.com

a Izoh qo'shish