Павел Клеменков, NVIDIA: Бид өгөгдөл судлаачийн хийж чадах зүйл болон түүний хийх ёстой зүйлийн хоорондын ялгааг багасгахыг хичээж байна.

Өгөгдлийн шинжлэх ухаан, бизнесийн тагнуулын чиглэлээр магистрын хөтөлбөрийн оюутнуудын хоёр дахь элсэлт эхэлсэн Ozon Masters - анкет үлдээх, онлайн шалгалт өгөх шийдвэр гаргахад хялбар болгох үүднээс бид хөтөлбөрийн багш нараас сурч, ажиллахад юу хүлээж болох талаар асуув. өгөгдөлтэй.

Павел Клеменков, NVIDIA: Бид өгөгдөл судлаачийн хийж чадах зүйл болон түүний хийх ёстой зүйлийн хоорондын ялгааг багасгахыг хичээж байна. NVIDIA-ийн ахлах өгөгдөл судлаач, багш Big Data болон Data Engineering хичээлүүд Павел Клеменков математикчид яагаад код бичиж, Озон Мастерт хоёр жил суралцах шаардлагатай байгаа талаар ярилаа.

— Мэдээллийн шинжлэх ухааны алгоритмыг ашигладаг олон компани байдаг уу?

-Үнэндээ маш их. Үнэхээр том өгөгдөлтэй маш олон томоохон компаниуд үүнтэй үр дүнтэй ажиллаж эхэлж байгаа эсвэл үүнтэй удаан хугацаанд хамтран ажиллаж байна. Зах зээлийн тал хувь нь Excel-ийн хүснэгтэд багтах эсвэл том сервер дээр тооцоолох боломжтой өгөгдөл ашигладаг нь тодорхой боловч өгөгдөлтэй ажиллах боломжтой хэдхэн бизнес байдаг гэж хэлж болохгүй.

- Өгөгдлийн шинжлэх ухааныг ашигладаг төслүүдийн талаар бага зэрэг ярина уу.

— Жишээлбэл, Rambler-д ажиллаж байхдаа бид RTB (Real Time Bidding) зарчмаар ажилладаг зар сурталчилгааны системийг бүтээж байсан - бид зар сурталчилгааны худалдан авалтыг оновчтой болгох эсвэл жишээлбэл, магадлалыг урьдчилан таамаглах олон загвар бүтээх шаардлагатай болсон. товшилт, хөрвүүлэлт гэх мэт. Үүний зэрэгцээ зар сурталчилгааны дуудлага худалдаа нь маш их мэдээлэл үүсгэдэг: зар сурталчилгааны боломжит худалдан авагчдад зориулсан сайтын хүсэлтийн бүртгэл, зар сурталчилгааны сэтгэгдлийн бүртгэл, товшилтын бүртгэл - энэ нь өдөрт хэдэн арван терабайт өгөгдөл юм.

Түүнчлэн, эдгээр даалгаврын хувьд бид нэгэн сонирхолтой үзэгдлийг ажиглав: загварыг сургахад илүү их мэдээлэл өгөх тусам чанар нь өндөр болно. Ихэвчлэн тодорхой хэмжээний өгөгдлийн дараа прогнозын чанар сайжрахаа больдог бөгөөд нарийвчлалыг сайжруулахын тулд та үндсээр нь өөр загвар, өгөгдөл, функцийг бэлтгэхэд өөр арга барил ашиглах хэрэгтэй. Энд бид илүү их мэдээлэл байршуулж, чанар нь нэмэгдсэн.

Энэ бол шинжээчид ядаж туршилт явуулахын тулд эхлээд том өгөгдлийн багцтай ажиллах шаардлагатай болсон, мөн тухтай MacBook-д багтах жижиг дээжийг ашиглах боломжгүй байсан ердийн тохиолдол юм. Үүний зэрэгцээ бидэнд тараасан загвар хэрэгтэй байсан, учир нь өөрөөр бол тэднийг сургах боломжгүй байсан. Компьютерийн алсын харааг үйлдвэрлэлд нэвтрүүлснээр зураг нь асар их хэмжээний өгөгдөл бөгөөд том загварыг сургахад сая сая зураг шаардлагатай байдаг тул ийм жишээнүүд түгээмэл болж байна.

Энэ бүх мэдээллийг хэрхэн хадгалах, хэрхэн үр дүнтэй боловсруулах, хуваарилагдсан сургалтын алгоритмыг хэрхэн ашиглах вэ гэсэн асуулт тэр даруй гарч ирнэ - гол анхаарал цэвэр математикаас инженерчлэл рүү шилжиж байна. Үйлдвэрлэлд код бичдэггүй байсан ч туршилт явуулахын тулд инженерийн хэрэгсэлтэй ажиллах чадвартай байх хэрэгтэй.

- Сүүлийн жилүүдэд мэдээллийн шинжлэх ухааны сул орон тоонд хандах хандлага хэрхэн өөрчлөгдсөн бэ?

— Биг дата шуугихаа больж, бодит байдал болсон. Хатуу диск нь нэлээд хямд бөгөөд энэ нь бүх өгөгдлийг цуглуулах боломжтой бөгөөд ингэснээр ирээдүйд аливаа таамаглалыг шалгахад хангалттай байх болно. Үүний үр дүнд том өгөгдөлтэй ажиллах хэрэгслүүдийн талаархи мэдлэг маш их алдартай болж, үүний үр дүнд мэдээллийн инженерүүдийн сул орон тоо улам бүр нэмэгдэж байна.

Миний ойлгож байгаагаар өгөгдөл судлаачийн ажлын үр дүн нь туршилт биш, харин үйлдвэрлэлд хүрсэн бүтээгдэхүүн юм. Яг энэ үүднээс авч үзвэл, том өгөгдлийн талаар шуугиан дэгдээхээс өмнө үйл явц нь илүү хялбар байсан: инженерүүд тодорхой асуудлуудыг шийдвэрлэхийн тулд машин сурах ажилд оролцдог байсан бөгөөд алгоритмыг үйлдвэрлэлд нэвтрүүлэхэд ямар ч асуудал гардаггүй байв.

- Эрэлттэй мэргэжилтэн хэвээр үлдэхийн тулд юу хэрэгтэй вэ?

- Одоо олон хүн өгөгдлийн шинжлэх ухаанд математик, машин сургалтын онолыг судалж, өгөгдөлд дүн шинжилгээ хийх тэмцээнд оролцсон бөгөөд үүнд бэлэн дэд бүтэц бий болсон: өгөгдлийг цэвэрлэж, хэмжүүрүүдийг тодорхойлсон, ямар ч мэдээлэл байхгүй байна. шийдэлд тавигдах шаардлага нь давтагдах, хурдан байх.

Үүний үр дүнд залуус бизнесийн бодит байдалд бэлтгэл муутай ирж, шинэхэн болон туршлагатай хөгжүүлэгчдийн хооронд цоорхой үүсдэг.

Бэлэн модулиудаас өөрийн загварыг угсрах боломжийг олгодог хэрэгслүүдийг хөгжүүлснээр - мөн Microsoft, Google болон бусад олон компаниуд ийм шийдлүүдийг аль хэдийн гаргасан - машин сургалтын автоматжуулалтыг хийснээр энэ ялгаа улам бүр тодрох болно. Ирээдүйд энэ мэргэжил нь шинэ алгоритмуудыг гаргаж ирдэг нухацтай судлаачид, загваруудыг хэрэгжүүлэх, процессыг автоматжуулах инженерийн ур чадвартай ажилтнуудад эрэлт хэрэгцээтэй байх болно. Өгөгдлийн инженерийн чиглэлээр Ozon Masters курс нь инженерийн ур чадвар, том өгөгдөл дээр тархсан машин сургалтын алгоритмуудыг ашиглах чадварыг хөгжүүлэх зорилготой юм. Бид өгөгдөл судлаачийн хийж чадах зүйл, практик дээр юу хийх ёстой гэсэн ялгааг багасгахыг хичээж байна.

— Дипломтой математикч яагаад бизнесийн чиглэлээр суралцах ёстой гэж?

- Оросын мэдээллийн шинжлэх ухааны нийгэмлэг ур чадвар, туршлага маш хурдан мөнгө болж хувирдаг гэдгийг ойлгосон тул мэргэжилтэн практик туршлагатай болмогц түүний өртөг маш хурдан өсч эхэлдэг, хамгийн чадварлаг хүмүүс маш үнэтэй байдаг - энэ нь зах зээлийн хөгжлийн өнөөгийн мөчид үнэн юм.

Өгөгдөл судлаачийн ажлын томоохон хэсэг нь өгөгдөлд нэвтэрч, тэнд юу байгааг ойлгох, бизнесийн үйл явцыг хариуцдаг хүмүүстэй зөвлөлдөж, энэ өгөгдлийг бий болгох, дараа нь загвар бүтээхэд ашиглах явдал юм. Том өгөгдөлтэй ажиллахын тулд инженерийн ур чадвартай байх нь маш чухал бөгөөд энэ нь мэдээллийн шинжлэх ухаанд олон байдаг хурц өнцөгөөс зайлсхийхэд хялбар болгодог.

Ердийн түүх: та том өгөгдөл дээр ажилладаг Hive хүрээг ашиглан SQL дээр асуулга бичсэн. Хүсэлтийг арван минутын дотор, хамгийн муу тохиолдолд нэг эсвэл хоёр цагийн дотор боловсруулдаг бөгөөд ихэнхдээ та энэ өгөгдлийг татаж авахдаа зарим хүчин зүйл эсвэл нэмэлт мэдээллийг анхаарч үзэхээ мартсан гэдгээ ойлгодог. Та хүсэлтээ дахин илгээж, эдгээр минут, цагийг хүлээх хэрэгтэй. Хэрэв та үр ашгийн суут ухаантан бол өөр ажил хийх болно, гэхдээ практикээс харахад бидэнд үр ашигтай суут ухаантнууд цөөхөн байгаа бөгөөд хүмүүс зүгээр л хүлээж байна. Тиймээс бид курсуудад хоёр цаг биш, хэдэн минутын турш ажилладаг асуултуудыг бичихийн тулд ажлын үр ашгийг дээшлүүлэхэд маш их цаг зарцуулах болно. Энэ ур чадвар нь бүтээмжийг нэмэгдүүлж, мэргэжилтний үнэ цэнийг нэмэгдүүлдэг.

– Ozon Masters бусад сургалтуудаас юугаараа ялгаатай вэ?

— Ozon Masters-ийг Озоны ажилчид заадаг бөгөөд даалгаврууд нь компаниудад шийдэгддэг бодит бизнесийн хэргүүд дээр суурилдаг. Үнэн хэрэгтээ, инженерийн ур чадвар дутмаг байгаагаас гадна их сургуульд өгөгдөл судлалын чиглэлээр суралцсан хүнд өөр нэг асуудал тулгардаг: бизнесийн даалгаврыг бизнесийн хэлээр томъёолсон бөгөөд зорилго нь маш энгийн: илүү их мөнгө олох. Математикч хүн математикийн хэмжүүрийг хэрхэн оновчтой болгохыг сайн мэддэг боловч бизнесийн хэмжигдэхүүнтэй тохирох үзүүлэлтийг олоход хэцүү байдаг. Мөн та бизнесийн асуудлыг шийдэж байгаагаа ойлгож, бизнесийнхээ хамт математикийн хувьд оновчтой болгох хэмжүүрийг томъёолох хэрэгтэй. Энэ ур чадварыг бодит тохиолдлоор олж авдаг бөгөөд тэдгээрийг Озон өгдөг.
Хэдийгээр бид тохиолдлыг үл тоомсорлож байсан ч тус сургуулийг жинхэнэ компаниудад бизнесийн асуудлыг шийддэг олон дадлагажигч нар заадаг. Үүний үр дүнд заах арга нь өөрөө практикт илүү чиглэгдсэн хэвээр байна. Наад зах нь би хичээл дээрээ багаж хэрэгслийг хэрхэн ашиглах, ямар арга барилууд байдаг гэх мэт зүйлд анхаарлаа хандуулахыг хичээх болно. Даалгавар бүр өөрийн гэсэн хэрэгсэлтэй, хэрэгсэл бүр өөрийн хэрэглээний талбартай гэдгийг оюутнуудтай хамт ойлгох болно.

- Мэдээллийн шинжилгээний хамгийн алдартай сургалтын хөтөлбөр бол мэдээж ShAD бөгөөд үүнээс яг юугаараа ялгаатай вэ?

— ШАД, озон мастерууд боловсролын чиг үүргээс гадна орон нутгийн боловсон хүчин бэлтгэх асуудлыг шийдэж байгаа нь ойлгомжтой. SHAD-ийн шилдэг төгсөгчдийг Yandex-д голчлон элсүүлдэг боловч Yandex нь өөрийн онцлогоос шалтгаалан том хэмжээтэй бөгөөд том өгөгдөлтэй ажиллах сайн хэрэгсэл цөөн байсан үед бүтээгдсэн - өөрийн гэсэн дэд бүтэц, өгөгдөлтэй ажиллах хэрэгсэлтэй байдаг. , энэ нь та тэдгээрийг эзэмших хэрэгтэй болно гэсэн үг юм. Ozon Masters өөр мессеж байна - хэрэв та хөтөлбөрийг амжилттай эзэмшсэн бол Ozon эсвэл бусад компаниудын 99% -ийн аль нэг нь таныг ажилд урьвал бизнест ашиг тусаа өгөх нь илүү хялбар байх болно; Ozon Masters-ийн нэг хэсэг болгон олж авсан ур чадвар. дөнгөж ажиллаж эхлэхэд хангалттай байх болно.

-Хичээл хоёр жил үргэлжилнэ. Та яагаад үүнд их цаг зарцуулах хэрэгтэй байна вэ?

- Сайн асуулт. Агуулга, багш нарын түвшний хувьд энэ бол гэрийн даалгаврыг багтаахад маш их цаг хугацаа шаарддаг салшгүй магистрын хөтөлбөр юм.

Миний курсын үүднээс авч үзвэл оюутан долоо хоногт 2-3 цагийг даалгаврын ажилд зарцуулна гэж хүлээх нь түгээмэл байдаг. Нэгдүгээрт, даалгавруудыг сургалтын кластер дээр гүйцэтгэдэг бөгөөд аливаа хуваалцсан кластер нь үүнийг хэд хэдэн хүн нэгэн зэрэг ашигладаг гэсэн үг юм. Өөрөөр хэлбэл, та даалгаврыг гүйцэтгэж эхлэхийг хүлээх хэрэгтэй болно; зарим нөөцийг сонгож, илүү өндөр ач холбогдолтой дараалалд шилжүүлж болно. Нөгөө талаар том өгөгдөлтэй аливаа ажил маш их цаг зарцуулдаг.

Танд хөтөлбөр, том өгөгдөлтэй ажиллах, инженерчлэлийн ур чадварын талаар асуух зүйл байвал 25-р сарын 12-ны Бямба гарагт 00:XNUMX цагаас Ozon Masters онлайн нээлттэй өдөрлөгийг зохион байгуулах гэж байна. Бид багш, оюутнуудтай уулздаг Zoom мөн дээр YouTube-ийн.

Эх сурвалж: www.habr.com

сэтгэгдэл нэмэх