பாவெல் க்ளெமென்கோவ், என்விடியா: ஒரு தரவு விஞ்ஞானி என்ன செய்ய முடியும் என்பதற்கும் அவர் என்ன செய்ய முடியும் என்பதற்கும் இடையே உள்ள இடைவெளியைக் குறைக்க முயற்சிக்கிறோம்

தரவு அறிவியல் மற்றும் வணிக நுண்ணறிவு Ozon மாஸ்டர்ஸ் முதுகலை திட்டத்தின் மாணவர்களின் இரண்டாவது சேர்க்கை தொடங்கப்பட்டுள்ளது - மேலும் விண்ணப்பத்தை விட்டுவிட்டு ஆன்லைன் தேர்வை எடுப்பதை எளிதாக்க, நாங்கள் படிப்பதிலும் வேலை செய்வதிலும் என்ன எதிர்பார்க்கலாம் என்று திட்ட ஆசிரியர்களிடம் கேட்டோம். தரவுகளுடன்.

பாவெல் க்ளெமென்கோவ், என்விடியா: ஒரு தரவு விஞ்ஞானி என்ன செய்ய முடியும் என்பதற்கும் அவர் என்ன செய்ய முடியும் என்பதற்கும் இடையே உள்ள இடைவெளியைக் குறைக்க முயற்சிக்கிறோம் தலைமை தரவு விஞ்ஞானி என்விடியா மற்றும் ஆசிரியர் பிக் டேட்டா மற்றும் டேட்டா இன்ஜினியரிங் படிப்புகள் பாவெல் க்ளெமென்கோவ், கணிதவியலாளர்கள் ஓசோன் மாஸ்டர்ஸில் குறியீட்டை எழுத வேண்டும் மற்றும் இரண்டு ஆண்டுகள் படிக்க வேண்டும் என்று பேசினார்.

— தரவு அறிவியல் அல்காரிதம்களைப் பயன்படுத்தும் பல நிறுவனங்கள் உள்ளனவா?

- உண்மையில் நிறைய. உண்மையில் பெரிய தரவைக் கொண்ட பல பெரிய நிறுவனங்கள் அதனுடன் திறம்பட செயல்படத் தொடங்குகின்றன அல்லது நீண்ட காலமாக அதனுடன் வேலை செய்கின்றன. சந்தையின் பாதியானது எக்செல் விரிதாளில் பொருந்தக்கூடிய அல்லது பெரிய சர்வரில் கணக்கிடக்கூடிய தரவைப் பயன்படுத்துகிறது என்பது தெளிவாகிறது, ஆனால் தரவுகளுடன் வேலை செய்யக்கூடிய சில வணிகங்கள் மட்டுமே உள்ளன என்று கூற முடியாது.

— தரவு அறிவியல் பயன்படுத்தப்படும் திட்டங்களைப் பற்றி கொஞ்சம் சொல்லுங்கள்.

— எடுத்துக்காட்டாக, ராம்ப்லரில் பணிபுரியும் போது, ​​RTB (Real Time Bidding) கொள்கைகளின்படி செயல்படும் ஒரு விளம்பர அமைப்பை நாங்கள் உருவாக்கிக் கொண்டிருந்தோம் - விளம்பரங்களை வாங்குவதை மேம்படுத்தும் அல்லது எடுத்துக்காட்டாக, நிகழ்தகவைக் கணிக்கக்கூடிய பல மாதிரிகளை நாங்கள் உருவாக்க வேண்டியிருந்தது. ஒரு கிளிக், மாற்றம் மற்றும் பல. அதே நேரத்தில், ஒரு விளம்பர ஏலம் நிறைய தரவை உருவாக்குகிறது: சாத்தியமான விளம்பர வாங்குபவர்களுக்கான தள கோரிக்கைகளின் பதிவுகள், விளம்பர பதிவுகளின் பதிவுகள், கிளிக்குகளின் பதிவுகள் - இது ஒரு நாளைக்கு பல்லாயிரக்கணக்கான டெராபைட் தரவு.

மேலும், இந்த பணிகளுக்காக நாங்கள் ஒரு சுவாரஸ்யமான நிகழ்வைக் கவனித்தோம்: மாதிரியைப் பயிற்றுவிக்க நீங்கள் அதிக தரவு கொடுக்கிறீர்கள், அதன் தரம் அதிகமாகும். வழக்கமாக, ஒரு குறிப்பிட்ட அளவு தரவுக்குப் பிறகு, முன்னறிவிப்பின் தரம் மேம்படுவதை நிறுத்துகிறது, மேலும் துல்லியத்தை மேலும் மேம்படுத்த, நீங்கள் அடிப்படையில் வேறுபட்ட மாதிரியைப் பயன்படுத்த வேண்டும், தரவு, அம்சங்கள் மற்றும் பலவற்றைத் தயாரிப்பதில் வேறுபட்ட அணுகுமுறை. இங்கே நாங்கள் அதிக தரவைப் பதிவேற்றியுள்ளோம், மேலும் தரம் அதிகரித்தது.

ஆய்வாளர்கள், முதலில், குறைந்தபட்சம் ஒரு பரிசோதனையை நடத்த பெரிய தரவுத் தொகுப்புகளுடன் பணிபுரிய வேண்டிய ஒரு பொதுவான நிகழ்வு இதுவாகும், மேலும் வசதியான மேக்புக்கில் பொருந்தக்கூடிய சிறிய மாதிரியைப் பெறுவது சாத்தியமில்லை. அதே நேரத்தில், எங்களுக்கு விநியோகிக்கப்பட்ட மாதிரிகள் தேவைப்பட்டன, இல்லையெனில் அவர்களுக்கு பயிற்சி அளிக்க முடியாது. உற்பத்தியில் கணினி பார்வை அறிமுகப்படுத்தப்பட்டவுடன், இதுபோன்ற எடுத்துக்காட்டுகள் மிகவும் பொதுவானதாகி வருகின்றன, ஏனெனில் படங்கள் ஒரு பெரிய அளவிலான தரவு, மற்றும் ஒரு பெரிய மாதிரியைப் பயிற்றுவிக்க, மில்லியன் கணக்கான படங்கள் தேவைப்படுகின்றன.

கேள்வி உடனடியாக எழுகிறது: இந்த தகவலை எவ்வாறு சேமிப்பது, அதை எவ்வாறு திறம்பட செயலாக்குவது, விநியோகிக்கப்பட்ட கற்றல் வழிமுறைகளை எவ்வாறு பயன்படுத்துவது - கவனம் தூய கணிதத்திலிருந்து பொறியியலுக்கு மாறுகிறது. நீங்கள் தயாரிப்பில் குறியீட்டை எழுதாவிட்டாலும், ஒரு பரிசோதனையை மேற்கொள்ள நீங்கள் பொறியியல் கருவிகளுடன் வேலை செய்ய வேண்டும்.

— சமீபத்திய ஆண்டுகளில் தரவு அறிவியல் காலியிடங்களுக்கான அணுகுமுறை எவ்வாறு மாறியுள்ளது?

— பெரிய தரவு மிகைப்படுத்தப்படுவதை நிறுத்தியது மற்றும் உண்மையாகிவிட்டது. ஹார்ட் டிரைவ்கள் மிகவும் மலிவானவை, அதாவது எல்லா தரவையும் சேகரிக்க முடியும், இதனால் எதிர்காலத்தில் எந்த கருதுகோள்களையும் சோதிக்க போதுமானதாக இருக்கும். இதன் விளைவாக, பெரிய தரவுகளுடன் பணிபுரியும் கருவிகள் பற்றிய அறிவு மிகவும் பிரபலமாகி வருகிறது, இதன் விளைவாக, தரவு பொறியாளர்களுக்கான அதிக காலியிடங்கள் தோன்றும்.

எனது புரிதலில், தரவு விஞ்ஞானியின் பணியின் முடிவு ஒரு சோதனை அல்ல, ஆனால் உற்பத்தியை அடைந்த ஒரு தயாரிப்பு. இந்தக் கண்ணோட்டத்தில், பெரிய தரவுகளைச் சுற்றி மிகைப்படுத்தல் வருவதற்கு முன்பு, செயல்முறை எளிமையானது: பொறியாளர்கள் குறிப்பிட்ட சிக்கல்களைத் தீர்க்க இயந்திரக் கற்றலில் ஈடுபட்டிருந்தனர், மேலும் வழிமுறைகளை உற்பத்திக்கு கொண்டு வருவதில் எந்தப் பிரச்சினையும் இல்லை.

— தேடப்படும் நிபுணராக இருக்க என்ன செய்ய வேண்டும்?

— இப்போது பலர் தரவு அறிவியலுக்கு வந்துள்ளனர், அவர்கள் கணிதம், இயந்திர கற்றல் கோட்பாடு மற்றும் தரவு பகுப்பாய்வு போட்டிகளில் பங்கேற்றுள்ளனர், அங்கு ஒரு ஆயத்த உள்கட்டமைப்பு வழங்கப்படுகிறது: தரவு சுத்தம் செய்யப்படுகிறது, அளவீடுகள் வரையறுக்கப்படுகின்றன, மேலும் எதுவும் இல்லை. தீர்வு மறுஉருவாக்கம் மற்றும் வேகமாக இருக்க வேண்டும்.

இதன் விளைவாக, தோழர்கள் வணிகத்தின் உண்மைகளுக்குத் தயாராக இல்லாமல் வேலைக்கு வருகிறார்கள், மேலும் புதியவர்களுக்கும் அனுபவம் வாய்ந்த டெவலப்பர்களுக்கும் இடையில் ஒரு இடைவெளி உருவாகிறது.

ஆயத்த தொகுதிகள் - மற்றும் மைக்ரோசாப்ட், கூகிள் மற்றும் பலர் ஏற்கனவே அத்தகைய தீர்வுகளைக் கொண்டுள்ளனர் - மற்றும் இயந்திர கற்றலின் ஆட்டோமேஷன் மூலம் உங்கள் சொந்த மாதிரியை இணைக்க அனுமதிக்கும் கருவிகளின் வளர்ச்சியுடன், இந்த இடைவெளி இன்னும் அதிகமாகும். எதிர்காலத்தில், புதிய வழிமுறைகளைக் கொண்டு வரும் தீவிர ஆராய்ச்சியாளர்களுக்கும், மாதிரிகள் மற்றும் செயல்முறைகளை தானியங்குபடுத்தும் வளர்ந்த பொறியியல் திறன்களைக் கொண்ட பணியாளர்களுக்கும் இந்தத் தொழில் தேவையாக இருக்கும். தரவுப் பொறியியலில் ஓசோன் முதுநிலைப் பாடநெறி பொறியியல் திறன்கள் மற்றும் பெரிய தரவுகளில் விநியோகிக்கப்பட்ட இயந்திர கற்றல் வழிமுறைகளைப் பயன்படுத்தும் திறனை மேம்படுத்த வடிவமைக்கப்பட்டுள்ளது. ஒரு தரவு விஞ்ஞானி என்ன செய்ய முடியும் என்பதற்கும் நடைமுறையில் அவர் என்ன செய்ய முடியும் என்பதற்கும் இடையிலான இடைவெளியைக் குறைக்க முயற்சிக்கிறோம்.

— டிப்ளமோ படித்த கணிதமேதை ஏன் வணிகம் படிக்கச் செல்ல வேண்டும்?

- திறமையும் அனுபவமும் மிக விரைவாக பணமாக மாற்றப்படுகின்றன என்பதை ரஷ்ய தரவு அறிவியல் சமூகம் புரிந்துகொண்டது, எனவே, ஒரு நிபுணருக்கு நடைமுறை அனுபவம் கிடைத்தவுடன், அவரது செலவு மிக விரைவாக வளரத் தொடங்குகிறது, மிகவும் திறமையானவர்கள் மிகவும் விலை உயர்ந்தவர்கள் - இது வளர்ச்சி சந்தையின் தற்போதைய தருணத்தில் உண்மை.

தரவு விஞ்ஞானியின் வேலையின் பெரும்பகுதி, தரவுகளுக்குள் சென்று, அங்கு என்ன இருக்கிறது என்பதைப் புரிந்துகொள்வது, வணிகச் செயல்முறைகளுக்குப் பொறுப்பான நபர்களுடன் கலந்தாலோசித்து இந்தத் தரவை உருவாக்குவது - பின்னர் மட்டுமே மாதிரிகளை உருவாக்க அதைப் பயன்படுத்த வேண்டும். பெரிய தரவுகளுடன் பணிபுரியத் தொடங்க, பொறியியல் திறன்களைக் கொண்டிருப்பது மிகவும் முக்கியம் - இது கூர்மையான மூலைகளைத் தவிர்ப்பதை மிகவும் எளிதாக்குகிறது, அவற்றில் பல தரவு அறிவியலில் உள்ளன.

ஒரு பொதுவான கதை: பெரிய தரவுகளில் இயங்கும் ஹைவ் கட்டமைப்பைப் பயன்படுத்தி செயல்படுத்தப்படும் SQL இல் வினவலை எழுதியுள்ளீர்கள். கோரிக்கை பத்து நிமிடங்களில் செயலாக்கப்படும், மிக மோசமான நிலையில் - ஒரு மணிநேரம் அல்லது இரண்டு மணிநேரங்களில், மேலும், இந்தத் தரவின் பதிவிறக்கங்களைப் பெறும்போது, ​​நீங்கள் சில காரணிகள் அல்லது கூடுதல் தகவலை கணக்கில் எடுத்துக்கொள்ள மறந்துவிட்டீர்கள் என்பதை நீங்கள் உணர்கிறீர்கள். நீங்கள் கோரிக்கையை மீண்டும் அனுப்ப வேண்டும் மற்றும் இந்த நிமிடங்கள் மற்றும் மணிநேரம் காத்திருக்க வேண்டும். நீங்கள் ஒரு திறமையான மேதையாக இருந்தால், நீங்கள் மற்றொரு பணியை மேற்கொள்வீர்கள், ஆனால், நடைமுறையில் காண்பிக்கிறபடி, எங்களிடம் சில திறமையான மேதைகள் உள்ளனர், மேலும் மக்கள் காத்திருக்கிறார்கள். எனவே, படிப்புகளில், இரண்டு மணிநேரங்களுக்கு அல்ல, ஆனால் பல நிமிடங்களுக்கு வேலை செய்யும் வினவல்களை ஆரம்பத்தில் எழுதுவதற்காக, வேலை செயல்திறனுக்காக நிறைய நேரம் ஒதுக்குவோம். இந்த திறன் உற்பத்தித்திறனைப் பெருக்குகிறது, மேலும் ஒரு நிபுணரின் மதிப்பையும் அதிகரிக்கிறது.

- ஓசோன் மாஸ்டர்ஸ் மற்ற படிப்புகளிலிருந்து எவ்வாறு வேறுபடுகிறது?

- ஓசோன் மாஸ்டர்ஸ் ஓசோன் ஊழியர்களால் கற்பிக்கப்படுகிறது, மேலும் பணிகள் நிறுவனங்களில் தீர்க்கப்படும் உண்மையான வணிக நிகழ்வுகளை அடிப்படையாகக் கொண்டவை. உண்மையில், பொறியியல் திறன்களின் பற்றாக்குறைக்கு கூடுதலாக, பல்கலைக்கழகத்தில் தரவு அறிவியலைப் படித்த ஒருவருக்கு மற்றொரு சிக்கல் உள்ளது: வணிகத்தின் பணி வணிக மொழியில் வடிவமைக்கப்பட்டுள்ளது, மேலும் அதன் குறிக்கோள் மிகவும் எளிதானது: அதிக பணம் சம்பாதிப்பது. கணித அளவீடுகளை எவ்வாறு மேம்படுத்துவது என்பது ஒரு கணிதவியலாளருக்கு நன்றாகத் தெரியும் - ஆனால் வணிக அளவீடுகளுடன் தொடர்புபடுத்தும் ஒரு குறிகாட்டியைக் கண்டுபிடிப்பது கடினம். நீங்கள் ஒரு வணிகச் சிக்கலைத் தீர்க்கிறீர்கள் என்பதை நீங்கள் புரிந்து கொள்ள வேண்டும், மேலும் வணிகத்துடன் சேர்ந்து, கணித ரீதியாக உகந்ததாக இருக்கும் அளவீடுகளை உருவாக்கவும். இந்த திறன் உண்மையான வழக்குகள் மூலம் பெறப்படுகிறது, மேலும் அவை ஓசோனால் வழங்கப்படுகின்றன.
நாங்கள் வழக்குகளை புறக்கணித்தாலும், உண்மையான நிறுவனங்களில் வணிக சிக்கல்களை தீர்க்கும் பல பயிற்சியாளர்களால் பள்ளி கற்பிக்கப்படுகிறது. இதன் விளைவாக, கற்பித்தலுக்கான அணுகுமுறை இன்னும் நடைமுறை சார்ந்ததாகவே உள்ளது. குறைந்தபட்சம் எனது பாடத்திட்டத்தில், கருவிகளை எவ்வாறு பயன்படுத்துவது, என்ன அணுகுமுறைகள் உள்ளன மற்றும் பலவற்றில் கவனம் செலுத்த முயற்சிப்பேன். மாணவர்களுடன் சேர்ந்து, ஒவ்வொரு பணிக்கும் அதன் சொந்த கருவி இருப்பதையும், ஒவ்வொரு கருவிக்கும் அதன் பொருந்தக்கூடிய பகுதி இருப்பதையும் புரிந்துகொள்வோம்.

- மிகவும் பிரபலமான தரவு பகுப்பாய்வு பயிற்சித் திட்டம், நிச்சயமாக, ShAD - அதிலிருந்து சரியாக என்ன வித்தியாசம்?

- ShAD மற்றும் Ozon மாஸ்டர்கள், கல்விச் செயல்பாட்டிற்கு கூடுதலாக, பணியாளர் பயிற்சியின் உள்ளூர் சிக்கலை தீர்க்கிறார்கள் என்பது தெளிவாகிறது. சிறந்த SHAD பட்டதாரிகள் முதன்மையாக Yandex க்கு ஆட்சேர்ப்பு செய்யப்படுகிறார்கள், ஆனால் பிடிப்பு என்னவென்றால், Yandex, அதன் பிரத்தியேகங்களின் காரணமாக - அது பெரியது மற்றும் பெரிய தரவுகளுடன் பணிபுரிய சில நல்ல கருவிகள் இருந்தபோது உருவாக்கப்பட்டது - அதன் சொந்த உள்கட்டமைப்பு மற்றும் தரவுகளுடன் பணிபுரியும் கருவிகள் உள்ளன. , அதாவது , நீங்கள் அவர்களை மாஸ்டர் செய்ய வேண்டும். ஓசோன் மாஸ்டர்ஸ் ஒரு வித்தியாசமான செய்தியைக் கொண்டுள்ளது - நீங்கள் திட்டத்தில் தேர்ச்சி பெற்றிருந்தால், ஓசோன் அல்லது 99% மற்ற நிறுவனங்களில் ஒன்று உங்களை வேலைக்கு அழைத்தால், வணிகத்தில் பயனடைவது மிகவும் எளிதாக இருக்கும்; ஓசோன் மாஸ்டர்களின் ஒரு பகுதியாக பெற்ற திறன் தொகுப்பு வேலை செய்யத் தொடங்கினால் போதும்.

- பாடநெறி இரண்டு ஆண்டுகள் நீடிக்கும். இதற்கு ஏன் இவ்வளவு நேரம் செலவிட வேண்டும்?

- நல்ல கேள்வி. இது நீண்ட நேரம் எடுக்கும், ஏனென்றால் உள்ளடக்கம் மற்றும் ஆசிரியர்களின் நிலை ஆகியவற்றின் அடிப்படையில், இது ஒரு ஒருங்கிணைந்த முதுகலை திட்டமாகும், இது வீட்டுப்பாடம் உட்பட மாஸ்டர் செய்ய நிறைய நேரம் தேவைப்படுகிறது.

எனது பாடத்தின் கண்ணோட்டத்தில், ஒரு மாணவர் ஒரு வாரத்திற்கு 2-3 மணிநேரம் பணிகளில் செலவிட வேண்டும் என்று எதிர்பார்ப்பது பொதுவானது. முதலாவதாக, ஒரு பயிற்சி கிளஸ்டரில் பணிகள் செய்யப்படுகின்றன, மேலும் எந்தவொரு பகிரப்பட்ட கிளஸ்டரும் ஒரே நேரத்தில் பலர் அதைப் பயன்படுத்துவதைக் குறிக்கிறது. அதாவது, பணியை செயல்படுத்தத் தொடங்குவதற்கு நீங்கள் காத்திருக்க வேண்டும்; சில ஆதாரங்கள் தேர்ந்தெடுக்கப்பட்டு அதிக முன்னுரிமை வரிசையில் மாற்றப்படலாம். மறுபுறம், பெரிய தரவுகளுடன் எந்த வேலையும் நிறைய நேரம் எடுக்கும்.

திட்டத்தைப் பற்றி மேலும் ஏதேனும் கேள்விகள் இருந்தால், பெரிய தரவு அல்லது பொறியியல் திறன்களுடன் பணிபுரியும், ஓசோன் மாஸ்டர்ஸ் ஏப்ரல் 25 சனிக்கிழமையன்று 12:00 மணிக்கு ஆன்லைனில் திறந்திருக்கும் நாள். நாங்கள் ஆசிரியர்களையும் மாணவர்களையும் சந்திக்கிறோம் பெரிதாக்கு மற்றும் YouTube.

ஆதாரம்: www.habr.com

கருத்தைச் சேர்