Pavel Klemenkov, NVIDIA: Biz məlumat aliminin edə bildikləri ilə nəyi bacarmalı olduğu arasındakı fərqi azaltmağa çalışırıq

Məlumat elmləri və biznes kəşfiyyatı Ozon Masters magistr proqramı tələbələrinin ikinci qəbulu başladı - və ərizəni tərk etmək və onlayn testdən keçmək qərarına gəlməyi asanlaşdırmaq üçün proqram müəllimlərindən oxumaqdan və işləməkdən nə gözlədiyini soruşduq. data ilə.

Pavel Klemenkov, NVIDIA: Biz məlumat aliminin edə bildikləri ilə nəyi bacarmalı olduğu arasındakı fərqi azaltmağa çalışırıq Baş Data Scient NVIDIA və müəllim Big Data və Data Engineering kursları Pavel Klemenkov riyaziyyatçıların niyə kod yazması və Ozon Masters-da iki il təhsil almaları lazım olduğundan danışıb.

— Məlumat elmi alqoritmlərindən istifadə edən şirkətlər çoxdurmu?

- Əslində çox. Həqiqətən böyük məlumatlara sahib olan bir çox böyük şirkətlər ya onunla effektiv işləməyə başlayır, ya da uzun müddətdir ki, işləyir. Aydındır ki, bazarın yarısı Excel cədvəlinə uyğunlaşa bilən və ya böyük bir serverdə hesablana bilən verilənlərdən istifadə edir, lakin məlumatlarla işləyə bilən yalnız bir neçə müəssisə olduğunu söyləmək olmaz.

— Data elminin istifadə olunduğu layihələr haqqında bir az danışın.

— Məsələn, Rambler-də işləyərkən biz RTB (Real Time Bidding) prinsipləri əsasında işləyən reklam sistemi yaradırdıq – bizə reklamın alınmasını optimallaşdıran və ya məsələn, ehtimalı proqnozlaşdıra bilən çoxlu modellər qurmalı idik. klik, konvertasiya və s. Eyni zamanda, bir reklam auksionu çoxlu məlumat yaradır: potensial reklam alıcılarına sayt sorğularının qeydləri, reklam təəssüratlarının qeydləri, kliklərin qeydləri - bu, gündə onlarla terabayt məlumatdır.

Üstəlik, bu tapşırıqlar üçün maraqlı bir fenomen müşahidə etdik: modeli öyrətmək üçün nə qədər çox məlumat versəniz, keyfiyyəti bir o qədər yüksəkdir. Adətən, müəyyən miqdarda məlumatdan sonra proqnozun keyfiyyəti yaxşılaşmağı dayandırır və dəqiqliyi daha da yüksəltmək üçün əsaslı şəkildə fərqli modeldən, məlumatların, funksiyaların hazırlanmasında fərqli yanaşmadan və s. istifadə etmək lazımdır. Burada daha çox məlumat yüklədik və keyfiyyət artdı.

Bu tipik bir haldır ki, analitiklər heç olmasa eksperiment aparmaq üçün ilk növbədə böyük məlumat dəstləri ilə işləməli oldular və rahat MacBook-a uyğun kiçik bir nümunə ilə işləmək mümkün deyildi. Eyni zamanda, paylanmış modellərə ehtiyacımız var idi, çünki əks halda onları öyrətmək mümkün deyildi. İstehsalda kompüter görməsinin tətbiqi ilə bu cür nümunələr daha çox yayılır, çünki şəkillər böyük miqdarda məlumatdır və böyük bir modeli hazırlamaq üçün milyonlarla şəkil lazımdır.

Dərhal sual yaranır: bütün bu məlumatları necə saxlamaq, onu necə effektiv emal etmək, paylanmış öyrənmə alqoritmlərindən necə istifadə etmək – diqqət saf riyaziyyatdan mühəndisliyə keçir. İstehsalatda kod yazmasanız belə, təcrübə aparmaq üçün mühəndis alətləri ilə işləməyi bacarmalısınız.

— Son illərdə data elmləri vakansiyalarına yanaşma necə dəyişdi?

— Big data şırınga olmaqdan çıxdı və reallığa çevrildi. Sərt disklər kifayət qədər ucuzdur, bu o deməkdir ki, bütün məlumatları toplamaq mümkündür ki, gələcəkdə hər hansı fərziyyələri yoxlamaq üçün kifayət qədər olsun. Nəticədə, böyük verilənlərlə işləmək üçün alətlər haqqında biliklər çox populyarlaşır və nəticədə məlumat mühəndisləri üçün getdikcə daha çox vakansiya yaranır.

Məncə, məlumat aliminin işinin nəticəsi təcrübə deyil, istehsala çatmış məhsuldur. Və məhz bu nöqteyi-nəzərdən, böyük verilənlər ətrafında şırınga yaranmazdan əvvəl proses daha sadə idi: mühəndislər konkret problemlərin həlli üçün maşın öyrənməsi ilə məşğul olurdular və alqoritmlərin istehsala gətirilməsi ilə bağlı heç bir problem yox idi.

- Axtarılan mütəxəssis kimi qalmaq üçün nə lazımdır?

— İndi riyaziyyatı, maşın öyrənməsi nəzəriyyəsini öyrənmiş və hazır infrastrukturun təmin olunduğu verilənlərin təhlili müsabiqələrində iştirak edən bir çox insan məlumat elminə gəlib: məlumatlar təmizlənir, ölçülər müəyyən edilir və heç bir məlumat yoxdur. həllin təkrarlana bilən və sürətli olması tələbləri.

Nəticədə, uşaqlar işin reallıqlarına pis hazırlıqlı işə gəlirlər və yeni başlayanlarla təcrübəli tərtibatçılar arasında boşluq yaranır.

Hazır modullardan öz modelinizi toplamağa imkan verən alətlərin inkişafı - Microsoft, Google və bir çox başqalarının artıq belə həlləri var - və maşın öyrənməsinin avtomatlaşdırılması ilə bu boşluq daha da qabarıq olacaq. Gələcəkdə bu peşəyə yeni alqoritmlər hazırlayan ciddi tədqiqatçılar və modelləri həyata keçirəcək və prosesləri avtomatlaşdıracaq inkişaf etmiş mühəndislik bacarıqlarına malik işçilər tələb olunacaq. Məlumat mühəndisliyi üzrə Ozon Masters kursu mühəndislik bacarıqlarını və böyük verilənlər üzərində paylanmış maşın öyrənmə alqoritmlərindən istifadə etmək bacarığını inkişaf etdirmək üçün nəzərdə tutulmuşdur. Biz data aliminin edə bildikləri ilə praktikada nəyi bacarmalı olduğu arasındakı fərqi azaltmağa çalışırıq.

— Diplomu olan riyaziyyatçı niyə biznes təhsilinə getməlidir?

— Rusiyanın məlumat elmi ictimaiyyəti başa düşdü ki, bacarıq və təcrübə çox tez pula çevrilir, buna görə də mütəxəssis praktik təcrübəyə malik olan kimi onun dəyəri çox sürətlə artmağa başlayır, ən bacarıqlı insanlar çox bahadır - və bu inkişaf bazarının hazırkı məqamında doğrudur.

Data aliminin işinin böyük bir hissəsi verilənlərə daxil olmaq, orada nə olduğunu anlamaq, biznes proseslərinə cavabdeh olan insanlarla məsləhətləşmək və bu məlumatları yaratmaq və yalnız bundan sonra modellər yaratmaq üçün istifadə etməkdir. Böyük verilənlərlə işləməyə başlamaq üçün mühəndislik bacarıqlarına sahib olmaq son dərəcə vacibdir - bu, məlumat elmində çox olan kəskin künclərdən qaçmağı asanlaşdırır.

Tipik bir hekayə: siz SQL-də böyük verilənlər üzərində işləyən Hive çərçivəsi ilə icra edilən sorğu yazdınız. Sorğu on dəqiqə, ən pis halda - bir və ya iki saat ərzində işlənir və tez-tez bu məlumatların endirilməsini aldığınız zaman bəzi faktoru və ya əlavə məlumatları nəzərə almağı unutduğunuzu başa düşürsünüz. Sorğunu yenidən göndərməli və bu dəqiqələri və saatları gözləməlisiniz. Əgər siz səmərəlilik dahisisinizsə, başqa bir işin öhdəsindən gələcəksiniz, amma təcrübənin göstərdiyi kimi, bizdə səmərəlilik dahiləri azdır və insanlar sadəcə gözləyirlər. Buna görə də, kurslarda ilkin olaraq iki saat deyil, bir neçə dəqiqə işləyən sorğuları yazmaq üçün işin səmərəliliyinə çox vaxt ayıracağıq. Bu bacarıq məhsuldarlığı artırır və bununla da mütəxəssisin dəyərini artırır.

– Ozon Masters digər kurslardan nə ilə fərqlənir?

— Ozon Masters-ı Ozon əməkdaşları öyrədir və tapşırıqlar şirkətlərdə həll olunan real biznes hadisələrinə əsaslanır. Əslində, mühəndislik bacarıqlarının olmaması ilə yanaşı, universitetdə məlumat elmini öyrənən şəxsin başqa bir problemi var: biznesin tapşırığı biznesin dilində tərtib edilir və məqsədi olduqca sadədir: daha çox pul qazanmaq. Riyaziyyatçı riyazi göstəriciləri necə optimallaşdırmağı yaxşı bilir - lakin biznes metrikası ilə uyğunlaşacaq göstərici tapmaq çətindir. Və bir iş problemini həll etdiyinizi başa düşməlisiniz və bizneslə birlikdə riyazi olaraq optimallaşdırıla bilən ölçüləri formalaşdırmalısınız. Bu bacarıq real hallar vasitəsilə əldə edilir və onlar Ozon tərəfindən verilir.
Və hallara məhəl qoymasaq belə, məktəbi real şirkətlərdə biznes problemlərini həll edən bir çox praktikant öyrədir. Nəticədə, tədrisə yanaşmanın özü hələ də daha çox təcrübə yönümlüdür. Ən azından kursumda diqqəti alətlərdən necə istifadə etmək, hansı yanaşmaların mövcud olması və s.-yə yönəltməyə çalışacağam. Şagirdlərlə birlikdə başa düşəcəyik ki, hər tapşırığın öz aləti var və hər bir alətin öz tətbiq sahəsi var.

— Ən məşhur məlumat təhlili təlim proqramı, əlbəttə ki, ŞAD-dır — ondan fərqi nədir?

— Aydındır ki, ŞAD və Ozon Masters təhsil funksiyası ilə yanaşı, yerli kadr hazırlığı problemini də həll edir. Ən yaxşı SHAD məzunları ilk növbədə Yandex-də işə götürülürlər, lakin diqqət çəkən məqam ondan ibarətdir ki, Yandex öz xüsusiyyətlərinə görə - və o, böyükdür və böyük məlumatlarla işləmək üçün yaxşı alətlər az olanda yaradılmışdır - məlumatlarla işləmək üçün öz infrastrukturuna və alətlərinə malikdir. , bu o deməkdir ki, siz onları mənimsəməli olacaqsınız. Ozon Masters-ın fərqli mesajı var - proqramı uğurla mənimsəmisinizsə və Ozon və ya digər şirkətlərin 99%-dən biri sizi işə dəvət etsə, biznesdən faydalanmağa başlamaq çox asan olacaq; Ozon Masters proqramının bir hissəsi kimi əldə edilmiş bacarıqlar dəsti. yalnız işə başlamaq üçün kifayət edəcəkdir.

- Kurs iki il davam edir. Buna niyə bu qədər vaxt sərf etməlisən?

- Yaxşı sual. Bu, uzun müddət tələb edir, çünki məzmun və müəllimlərin səviyyəsi baxımından bu, ev tapşırıqları da daxil olmaqla, mənimsəmək üçün çox vaxt tələb edən ayrılmaz bir magistr proqramıdır.

Mənim kurs baxımından, bir tələbənin həftədə 2-3 saatını tapşırıqlara sərf etməsini gözləmək adi haldır. Birincisi, tapşırıqlar təlim klasterində yerinə yetirilir və hər hansı paylaşılan klaster ondan eyni vaxtda bir neçə insanın istifadə etməsini nəzərdə tutur. Yəni, tapşırığın icrasına başlamasını gözləməli olacaqsınız, bəzi resurslar seçilə və daha yüksək prioritet növbəyə köçürülə bilər. Digər tərəfdən, böyük verilənlərlə istənilən iş çox vaxt aparır.

Proqram, böyük data ilə işləmək və ya mühəndislik bacarıqları ilə bağlı əlavə suallarınız varsa, Ozon Masters 25 Aprel Şənbə günü saat 12:00-da onlayn açıq qapı günü keçirir. Müəllim və tələbələrlə görüşürük ZoomYouTube.

Mənbə: www.habr.com

Добавить комментарий