Pavel Klemenkov, NVIDIA: අපි උත්සාහ කරන්නේ දත්ත විද්‍යාඥයෙකුට කළ හැකි දේ සහ ඔහුට කළ හැකි දේ අතර පරතරය අඩු කිරීමටයි.

දත්ත විද්‍යාව සහ ව්‍යාපාර බුද්ධි Ozon Masters පිළිබඳ ශාස්ත්‍රපති වැඩසටහනේ දෙවන සිසුන් බඳවා ගැනීම ආරම්භ කර ඇත - සහ අයදුම්පතක් තබා මාර්ගගත පරීක්ෂණයක් කිරීමට තීරණය කිරීම පහසු කිරීම සඳහා, අපි පාඩම් කිරීමෙන් සහ වැඩ කිරීමෙන් අපේක්ෂා කළ යුත්තේ කුමක්ද යන්න පිළිබඳව වැඩසටහන් ගුරුවරුන්ගෙන් විමසුවෙමු. දත්ත සමඟ.

Pavel Klemenkov, NVIDIA: අපි උත්සාහ කරන්නේ දත්ත විද්‍යාඥයෙකුට කළ හැකි දේ සහ ඔහුට කළ හැකි දේ අතර පරතරය අඩු කිරීමටයි. ප්රධාන දත්ත විද්යාඥ NVIDIA සහ ගුරුවරයා Big Data සහ Data Engineering පිළිබඳ පාඨමාලා Pavel Klemenkov ගණිතඥයින්ට කේතය ලිවීමට සහ වසර දෙකක් Ozon Masters හි ඉගෙනීමට අවශ්ය වන්නේ මන්දැයි කතා කළේය.

— දත්ත විද්‍යා ඇල්ගොරිතම භාවිතා කරන බොහෝ සමාගම් තිබේද?

- ඇත්තටම ගොඩක්. ඇත්ත වශයෙන්ම විශාල දත්ත ඇති විශාල සමාගම් විශාල ප්‍රමාණයක් එක්කෝ එය සමඟ ඵලදායි ලෙස වැඩ කිරීමට පටන් ගෙන හෝ දීර්ඝ කාලයක් තිස්සේ එය සමඟ වැඩ කර ඇත. Excel පැතුරුම්පතකට ගැළපෙන හෝ විශාල සේවාදායකයක් මත ගණනය කළ හැකි දත්ත වෙළෙඳපොළෙන් අඩක් භාවිතා කරන බව පැහැදිලිය, නමුත් දත්ත සමඟ වැඩ කළ හැකි ව්‍යාපාර කිහිපයක් පමණක් තිබේ යැයි පැවසිය නොහැක.

— දත්ත විද්‍යාව භාවිතා කරන ව්‍යාපෘති ගැන ටිකක් කියන්න.

— උදාහරණයක් ලෙස, රැම්බ්ලර් හි සේවය කරන අතරතුර, අපි RTB (Real Time Bidding) හි මූලධර්ම මත ක්‍රියා කරන වෙළඳ ප්‍රචාරණ පද්ධතියක් සකස් කරමින් සිටියෙමු - අපට වෙළඳ ප්‍රචාරණ මිල දී ගැනීම ප්‍රශස්ත කරන හෝ, උදාහරණයක් ලෙස, සම්භාවිතාව පුරෝකථනය කළ හැකි බොහෝ මාදිලි තැනීමට අවශ්‍ය විය. ක්ලික් කිරීම, පරිවර්තනය, සහ යනාදිය. ඒ අතරම, වෙළඳ ප්‍රචාරණ වෙන්දේසියක් දත්ත විශාල ප්‍රමාණයක් ජනනය කරයි: විභව ප්‍රචාරණ ගැනුම්කරුවන්ට අඩවි ඉල්ලීම් ලොග්, වෙළඳ ප්‍රචාරණ හැඟීම් ලොග්, ක්ලික් කිරීම් - මෙය දිනකට ටෙරාබයිට් දස ගණනක දත්ත වේ.

එපමණක් නොව, මෙම කාර්යයන් සඳහා අපි සිත්ගන්නා සංසිද්ධියක් නිරීක්ෂණය කළෙමු: ඔබ ආකෘතිය පුහුණු කිරීම සඳහා වැඩි දත්ත ලබා දෙයි, එහි ගුණාත්මක භාවය වැඩි වේ. සාමාන්‍යයෙන්, යම් දත්ත ප්‍රමාණයකට පසුව, පුරෝකථනයේ ගුණාත්මක භාවය වැඩිදියුණු වීම නතර වන අතර, නිරවද්‍යතාවය තවදුරටත් වැඩිදියුණු කිරීම සඳහා, ඔබ මූලික වශයෙන් වෙනස් ආකෘතියක්, දත්ත සැකසීමට වෙනස් ප්‍රවේශයක්, විශේෂාංග සහ යනාදිය භාවිතා කළ යුතුය. ඔන්න අපි වැඩිපුර ඩේටා අප්ලෝඩ් කරලා කොලිටි එක වැඩි උනා.

මෙය සාමාන්‍ය අවස්ථාවකි, පළමුව, අවම වශයෙන් අත්හදා බැලීමක් සිදු කිරීම සඳහා විශ්ලේෂකයින්ට විශාල දත්ත කට්ටල සමඟ වැඩ කිරීමට සිදු වූ අතර, සුවපහසු MacBook එකකට ගැලපෙන කුඩා නියැදියක් ලබා ගැනීමට නොහැකි විය. ඒ අතරම, අපට බෙදා හරින ලද ආකෘති අවශ්‍ය විය, එසේ නොමැති නම් ඒවා පුහුණු කළ නොහැකි බැවිනි. පරිගණක දර්ශනය නිෂ්පාදනයට හඳුන්වා දීමත් සමඟ, එවැනි උදාහරණ වඩාත් සුලභ වෙමින් පවතී, මන්ද පින්තූර විශාල දත්ත ප්‍රමාණයක් වන අතර විශාල ආකෘතියක් පුහුණු කිරීමට පින්තූර මිලියන ගණනක් අවශ්‍ය වේ.

ප්‍රශ්නය වහාම පැන නගී: මෙම සියලු තොරතුරු ගබඩා කරන්නේ කෙසේද, එය ඵලදායි ලෙස සකසන්නේ කෙසේද, බෙදා හරින ලද ඉගෙනුම් ඇල්ගොරිතම භාවිතා කරන්නේ කෙසේද - අවධානය පිරිසිදු ගණිතයෙන් ඉංජිනේරු විද්‍යාවට මාරු වේ. ඔබ නිෂ්පාදනයේදී කේතයක් නොලියුවද, අත්හදා බැලීමක් කිරීමට ඉංජිනේරු මෙවලම් සමඟ වැඩ කිරීමට ඔබට හැකි විය යුතුය.

— මෑත වසරවලදී දත්ත විද්‍යා පුරප්පාඩු සඳහා ප්‍රවේශය වෙනස් වී ඇත්තේ කෙසේද?

— විශාල දත්ත උද්දීපනය වීම නතර වී යථාර්ථයක් වී ඇත. දෘඪ තැටි තරමක් ලාභදායී වේ, එයින් අදහස් වන්නේ අනාගතයේ දී ඕනෑම උපකල්පනයක් පරීක්ෂා කිරීමට ප්රමාණවත් වනු ඇති පරිදි සියලු දත්ත එකතු කිරීමට හැකි බවයි. එහි ප්රතිඵලයක් වශයෙන්, විශාල දත්ත සමඟ වැඩ කිරීම සඳහා මෙවලම් පිළිබඳ දැනුම ඉතා ජනප්රිය වෙමින් පවතින අතර, ප්රතිඵලයක් වශයෙන්, දත්ත ඉංජිනේරුවන් සඳහා වැඩි වැඩියෙන් පුරප්පාඩු දක්නට ලැබේ.

මගේ අවබෝධය අනුව, දත්ත විද්යාඥයෙකුගේ කාර්යයේ ප්රතිඵලය අත්හදා බැලීමක් නොව, නිෂ්පාදනයට ළඟා වූ නිෂ්පාදනයක්. මෙම දෘෂ්ටි කෝණයෙන්, විශාල දත්ත වටා ඇති උද්දීපනය පැමිණීමට පෙර, ක්‍රියාවලිය සරල විය: ඉංජිනේරුවන් නිශ්චිත ගැටළු විසඳීම සඳහා යන්ත්‍ර ඉගෙනීමේ නිරත වූ අතර ඇල්ගොරිතම නිෂ්පාදනයට ගෙන ඒමේ ගැටළු නොමැත.

- අපේක්ෂා කරන විශේෂඥයෙකු ලෙස සිටීමට කුමක් කළ යුතුද?

— දැන් බොහෝ අය ගණිතය, යන්ත්‍ර ඉගෙනීමේ න්‍යාය හැදෑරූ සහ දත්ත විශ්ලේෂණ තරඟවලට සහභාගී වූ දත්ත විද්‍යාවට පැමිණ ඇත, එහිදී සූදානම් කළ යටිතල පහසුකම් සපයනු ලැබේ: දත්ත පිරිසිදු කර ඇත, ප්‍රමිතික නිර්වචනය කර ඇත, සහ නැත. විසඳුම ප්‍රතිනිෂ්පාදනය කළ හැකි සහ වේගවත් වීමට අවශ්‍යතා.

එහි ප්‍රතිඵලයක් වශයෙන්, පිරිමි ළමයින් ව්‍යාපාරයේ යථාර්ථයන් සඳහා හොඳින් සූදානම් නොවී වැඩට පැමිණෙන අතර නවකයන් සහ පළපුරුදු සංවර්ධකයින් අතර පරතරයක් ඇති වේ.

සූදානම් කළ මොඩියුල වලින් ඔබේම ආකෘතිය එකලස් කිරීමට ඔබට ඉඩ සලසන මෙවලම් සංවර්ධනය කිරීමත් සමඟ - සහ මයික්‍රොසොෆ්ට්, ගූගල් සහ තවත් බොහෝ දෙනෙකුට දැනටමත් එවැනි විසඳුම් ඇත - සහ යන්ත්‍ර ඉගෙනීමේ ස්වයංක්‍රීයකරණය, මෙම පරතරය වඩාත් කැපී පෙනේ. අනාගතයේදී, නව ඇල්ගොරිතම ඉදිරිපත් කරන බැරෑරුම් පර්යේෂකයන් සහ ආකෘති ක්රියාත්මක කරන සහ ස්වයංක්රීය ක්රියාවලීන් ක්රියාත්මක කරන සංවර්ධිත ඉංජිනේරු කුසලතා ඇති සේවකයින් සඳහා වෘත්තිය ඉල්ලුමක් වනු ඇත. දත්ත ඉංජිනේරු විද්‍යාව පිළිබඳ Ozon Masters පාඨමාලාව සැලසුම් කර ඇත්තේ ඉංජිනේරු කුසලතා සහ විශාල දත්ත මත බෙදා හරින ලද යන්ත්‍ර ඉගෙනුම් ඇල්ගොරිතම භාවිතා කිරීමේ හැකියාව වර්ධනය කිරීම සඳහා ය. දත්ත විද්‍යාඥයෙකුට කළ හැකි දේ සහ ප්‍රායෝගිකව ඔහුට කළ හැකි දේ අතර පරතරය අඩු කිරීමට අපි උත්සාහ කරමු.

— ඩිප්ලෝමාවක් ඇති ගණිතඥයකු ව්‍යාපාර හැදෑරීමට යා යුත්තේ ඇයි?

— රුසියානු දත්ත විද්‍යා ප්‍රජාව දක්ෂතාවය සහ පළපුරුද්ද ඉතා ඉක්මනින් මුදල් බවට පරිවර්තනය වන බව වටහාගෙන ඇත, එබැවින් විශේෂඥයෙකුට ප්‍රායෝගික අත්දැකීම් ඇති විගසම ඔහුගේ පිරිවැය ඉතා ඉක්මනින් වර්ධනය වීමට පටන් ගනී, වඩාත්ම දක්ෂ පුද්ගලයින් ඉතා මිල අධික වේ - සහ මෙය සංවර්ධන වෙළඳපොලේ වත්මන් මොහොතේ සත්‍ය වේ.

දත්ත විද්‍යාඥයෙකුගේ කාර්යයේ විශාල කොටසක් වන්නේ දත්ත තුළට ගොස් එහි ඇති දේ තේරුම් ගැනීම, ව්‍යාපාර ක්‍රියාවලීන් සඳහා වගකිව යුතු පුද්ගලයින් සමඟ සාකච්ඡා කර මෙම දත්ත උත්පාදනය කිරීමයි - ඉන්පසු පමණක් එය ආකෘති ගොඩනැගීමට භාවිතා කරයි. විශාල දත්ත සමඟ වැඩ කිරීම ආරම්භ කිරීම සඳහා, ඉංජිනේරු කුසලතා තිබීම අතිශයින්ම වැදගත් වේ - මෙය තියුණු කොන වළක්වා ගැනීම වඩාත් පහසු කරයි, දත්ත විද්‍යාවේ බොහෝ ඒවා ඇත.

සාමාන්‍ය කථාවක්: ඔබ SQL හි විමසුමක් ලියා ඇති අතර එය විශාල දත්ත මත ධාවනය වන Hive රාමුව භාවිතයෙන් ක්‍රියාත්මක වේ. ඉල්ලීම විනාඩි දහයකින්, නරකම අවස්ථාවක - පැයකින් හෝ දෙකකින්, සහ බොහෝ විට, ඔබට මෙම දත්ත බාගත කිරීම් ලැබුණු විට, ඔබට යම් සාධකයක් හෝ අමතර තොරතුරු සැලකිල්ලට ගැනීමට අමතක වූ බව ඔබට වැටහේ. ඔබට ඉල්ලීම නැවත යවා මෙම මිනිත්තු සහ පැය බලා සිටිය යුතුය. ඔබ කාර්යක්ෂමතා දක්ෂයෙක් නම්, ඔබ වෙනත් කාර්යයක් භාර ගනු ඇත, නමුත්, ප්රායෝගිකව පෙන්නුම් කරන පරිදි, අපට කාර්යක්ෂමතා දක්ෂයින් ස්වල්පයක් සිටින අතර, මිනිසුන් බලා සිටියි. එමනිසා, පාඨමාලා වලදී අපි පැය දෙකක් නොව මිනිත්තු කිහිපයක් සඳහා වැඩ කරන විමසුම් මුලින් ලිවීම සඳහා වැඩ කාර්යක්ෂමතාව සඳහා බොහෝ කාලයක් කැප කරන්නෙමු. මෙම කුසලතාව ඵලදායිතාව ගුණ කරයි, සහ එය සමඟ විශේෂඥයෙකුගේ වටිනාකම.

- Ozon Masters අනෙකුත් පාඨමාලා වලින් වෙනස් වන්නේ කෙසේද?

— Ozon Masters උගන්වනු ලබන්නේ Ozon සේවකයින් විසිනි, සහ කාර්යයන් සමාගම්වල විසඳන සැබෑ ව්‍යාපාරික සිද්ධීන් මත පදනම් වේ. ඇත්ත වශයෙන්ම, ඉංජිනේරු කුසලතා නොමැතිකමට අමතරව, විශ්ව විද්‍යාලයේ දත්ත විද්‍යාව හැදෑරූ පුද්ගලයෙකුට තවත් ගැටළුවක් තිබේ: ව්‍යාපාරයක කාර්යය ව්‍යාපාර භාෂාවෙන් සකස් කර ඇති අතර එහි ඉලක්කය තරමක් සරල ය: වැඩි මුදලක් උපයා ගැනීම. තවද ගණිතඥයෙකු ගණිතමය ප්‍රමිතික ප්‍රශස්ත කරන්නේ කෙසේදැයි හොඳින් දනී - නමුත් ව්‍යාපාරික මෙට්‍රික් එකක් සමඟ සහසම්බන්ධ වන දර්ශකයක් සොයා ගැනීම අපහසුය. ඔබ ව්‍යාපාර ගැටලුවක් විසඳන බව ඔබ තේරුම් ගත යුතු අතර, ව්‍යාපාරය සමඟ එක්ව ගණිතමය වශයෙන් ප්‍රශස්ත කළ හැකි ප්‍රමිතික සකස් කරන්න. මෙම කුසලතාව සැබෑ අවස්ථා හරහා අත්පත් කර ගන්නා අතර, ඒවා Ozon විසින් ලබා දෙනු ලැබේ.
අපි නඩු නොසලකා හැරියත්, සැබෑ සමාගම්වල ව්‍යාපාරික ගැටලු විසඳන බොහෝ වෘත්තිකයන් විසින් පාසලට උගන්වනු ලැබේ. එහි ප්‍රතිඵලයක් වශයෙන්, ඉගැන්වීමේ ප්‍රවේශය තවමත් ප්‍රායෝගිකව නැඹුරු වී ඇත. අවම වශයෙන් මගේ පාඨමාලාවේදී, මෙවලම් භාවිතා කරන ආකාරය, පවතින ප්රවේශයන් සහ යනාදිය වෙත අවධානය යොමු කිරීමට මම උත්සාහ කරමි. සිසුන් සමඟ එක්ව, සෑම කාර්යයකටම තමන්ගේම මෙවලමක් ඇති බවත්, සෑම මෙවලමකටම එහි අදාළ ප්‍රදේශය ඇති බවත් අපි තේරුම් ගනිමු.

— වඩාත්ම ප්රසිද්ධ දත්ත විශ්ලේෂණ පුහුණු වැඩසටහන, ඇත්ත වශයෙන්ම, ShAD වේ - එය හරියටම වෙනස කුමක්ද?

- ShAD සහ Ozon Masters, අධ්යාපනික කාර්යයට අමතරව, පිරිස් පුහුණුව පිළිබඳ දේශීය ගැටළුව විසඳන බව පැහැදිලිය. ඉහළම SHAD උපාධිධාරීන් මූලික වශයෙන් Yandex වෙත බඳවා ගනු ලැබේ, නමුත් අල්ලා ගැනීම නම් Yandex එහි විශේෂතා නිසා - එය විශාල වන අතර විශාල දත්ත සමඟ වැඩ කිරීමට හොඳ මෙවලම් කිහිපයක් තිබූ විට නිර්මාණය කරන ලද්දකි - එහිම යටිතල පහසුකම් සහ දත්ත සමඟ වැඩ කිරීම සඳහා මෙවලම් ඇත. , එනම්, ඔබට ඒවා ප්‍රගුණ කිරීමට සිදුවනු ඇත. Ozon Masters සතුව වෙනස් පණිවිඩයක් ඇත - ඔබ වැඩසටහන සාර්ථකව ප්‍රගුණ කර ඇත්නම් සහ Ozon හෝ වෙනත් සමාගම් 99% න් එකක් ඔබට වැඩ කිරීමට ආරාධනා කරන්නේ නම්, ව්‍යාපාරයට ප්‍රතිලාභ ලබා ගැනීම ආරම්භ කිරීම වඩාත් පහසු වනු ඇත; Ozon Master හි කොටසක් ලෙස ලබාගත් කුසලතා කට්ටලය වැඩ ආරම්භ කිරීමට පමණක් ප්රමාණවත් වනු ඇත.

- පාඨමාලාව වසර දෙකක් පවතී. ඔබ මේ සඳහා මෙතරම් කාලයක් ගත කිරීමට අවශ්ය වන්නේ ඇයි?

- හොඳ ප්රශ්නයක්. එය බොහෝ කාලයක් ගත වේ, මන්ද අන්තර්ගතය සහ ගුරුවරුන්ගේ මට්ටම අනුව, මෙය සමෝධානික මාස්ටර් වැඩසටහනක් වන අතර එය ගෙදර වැඩ ඇතුළුව ප්‍රගුණ කිරීමට බොහෝ කාලයක් අවශ්‍ය වේ.

මගේ පාඨමාලා දෘෂ්ටිකෝණයෙන්, ශිෂ්‍යයෙකු පැවරුම් සඳහා සතියකට පැය 2-3ක් ගත කිරීමට අපේක්ෂා කිරීම සාමාන්‍ය දෙයකි. පළමුව, පුහුණු පොකුරක් මත කාර්යයන් සිදු කරනු ලබන අතර, ඕනෑම හවුල් පොකුරක් අදහස් කරන්නේ කිහිප දෙනෙකු එය එකවර භාවිතා කරන බවයි. එනම්, කාර්යය ක්‍රියාත්මක කිරීම ආරම්භ කිරීමට ඔබට බලා සිටීමට සිදුවනු ඇත; සමහර සම්පත් තෝරාගෙන ඉහළ ප්‍රමුඛතා පෝලිමකට මාරු කළ හැකිය. අනෙක් අතට, විශාල දත්ත සහිත ඕනෑම කාර්යයක් සඳහා බොහෝ කාලයක් ගත වේ.

ඔබට වැඩසටහන පිළිබඳව තවත් ප්‍රශ්න ඇත්නම්, විශාල දත්ත හෝ ඉංජිනේරු කුසලතා සමඟ වැඩ කිරීම, Ozon Masters අප්‍රේල් 25 සෙනසුරාදා 12:00 ට සබැඳි විවෘත දිනයක් පවත්වයි. අපි ගුරුවරුන් සහ සිසුන් හමුවෙමු Zoom සහ මත යූ ටියුබ්.

මූලාශ්රය: www.habr.com

අදහස් එක් කරන්න