படி
2020 ஜனவரியில் உள்ள டேட்டா இன்ஜினியர் பதவிக்கான காலியிடங்களை ஆராய்ந்து, எந்த தொழில்நுட்பத் திறன்கள் மிகவும் பிரபலமாக உள்ளன என்பதைப் புரிந்துகொண்டேன். தரவு விஞ்ஞானி பதவிக்கான காலியிடங்கள் குறித்த புள்ளிவிவரங்களுடன் முடிவுகளை ஒப்பிட்டுப் பார்த்தேன் - மேலும் சில சுவாரஸ்யமான வேறுபாடுகள் வெளிப்பட்டன.
அதிக முன்னுரை இல்லாமல், வேலை இடுகைகளில் அடிக்கடி குறிப்பிடப்படும் முதல் பத்து தொழில்நுட்பங்கள் இங்கே:
2020 இல் டேட்டா இன்ஜினியர் பதவிக்கான காலியிடங்களில் உள்ள தொழில்நுட்பங்களைப் பற்றி குறிப்பிடுதல்
தரவு பொறியாளரின் பொறுப்புகள்
இன்று, தரவு பொறியாளர்கள் செய்யும் பணி நிறுவனங்களுக்கு மிகவும் முக்கியத்துவம் வாய்ந்தது - இவர்கள்தான் தகவல்களைச் சேமிப்பதற்கும் மற்ற ஊழியர்களுடன் இணைந்து பணியாற்றக்கூடிய வடிவத்தில் அதைக் கொண்டுவருவதற்கும் பொறுப்பானவர்கள். டேட்டா இன்ஜினியர்கள் பல ஆதாரங்களில் இருந்து தரவை ஸ்ட்ரீம் செய்ய அல்லது பேட்ச் செய்ய பைப்லைன்களை உருவாக்குகிறார்கள். பைப்லைன்கள் பின்னர் பிரித்தெடுத்தல், உருமாற்றம் மற்றும் ஏற்றுதல் செயல்பாடுகளைச் செய்கின்றன (வேறுவிதமாகக் கூறினால், ETL செயல்முறைகள்), தரவை மேலும் பயன்படுத்துவதற்கு மிகவும் பொருத்தமானதாக ஆக்குகிறது. இதற்குப் பிறகு, தரவு ஆழமான செயலாக்கத்திற்காக ஆய்வாளர்கள் மற்றும் தரவு விஞ்ஞானிகளுக்கு சமர்ப்பிக்கப்படுகிறது. இறுதியாக, தரவு அதன் பயணத்தை டாஷ்போர்டுகள், அறிக்கைகள் மற்றும் இயந்திர கற்றல் மாதிரிகளில் முடிக்கிறது.
தற்போது தரவுப் பொறியாளரின் பணியில் எந்தத் தொழில்நுட்பங்கள் அதிகம் தேவைப்படுகின்றன என்பதைப் பற்றி ஒரு முடிவுக்கு வர அனுமதிக்கும் தகவலைத் தேடிக்கொண்டிருந்தேன்.
முறைகள்
நான் மூன்று வேலை தேடல் தளங்களில் இருந்து தகவல்களை சேகரித்தேன் -
ஒவ்வொரு முக்கிய சொல்லுக்கும், ஒவ்வொரு தளத்திலும் உள்ள மொத்த நூல்களின் எண்ணிக்கையிலிருந்து வெற்றிகளின் சதவீதத்தை தனித்தனியாகக் கணக்கிட்டு, மூன்று ஆதாரங்களுக்கான சராசரியைக் கணக்கிட்டேன்.
Результаты
மூன்று வேலைத் தளங்களிலும் அதிக மதிப்பெண்களைப் பெற்ற முப்பது தொழில்நுட்ப தரவு பொறியியல் விதிமுறைகள் கீழே உள்ளன.
இங்கே அதே எண்கள் உள்ளன, ஆனால் அட்டவணை வடிவத்தில் வழங்கப்படுகின்றன:
ஒழுங்கா போகலாம்.
முடிவுகளின் மதிப்பாய்வு
SQL மற்றும் Python இரண்டும் மதிப்பாய்வு செய்யப்பட்ட வேலை வாய்ப்புகளில் மூன்றில் இரண்டு பங்கிற்கு மேல் தோன்றும். இந்த இரண்டு தொழில்நுட்பங்களும்தான் முதலில் படிப்பதில் அர்த்தமுள்ளது.
சுமார் பாதி காலியிடங்களில் ஸ்பார்க் குறிப்பிடப்பட்டுள்ளது.
ஏறத்தாழ 45% வேலை இடுகைகளில் AWS தோன்றுகிறது. இது அமேசான் தயாரித்த கிளவுட் கம்ப்யூட்டிங் தளமாகும்; அனைத்து கிளவுட் இயங்குதளங்களிலும் இது மிகப்பெரிய சந்தைப் பங்கைக் கொண்டுள்ளது.
அடுத்து ஜாவா மற்றும் ஹடூப் வரும் - அவர்களின் சகோதரருக்கு 40% க்கும் சற்று அதிகம்.
இது ஒரு கால இயந்திரத்தில் சவாரி செய்வது போன்றது
பின்னர் ஹைவ், ஸ்கலா, காஃப்கா மற்றும் NoSQL ஆகியவற்றைப் பார்க்கிறோம் - இந்த தொழில்நுட்பங்கள் ஒவ்வொன்றும் சமர்ப்பிக்கப்பட்ட காலியிடங்களில் கால்பகுதியில் குறிப்பிடப்பட்டுள்ளன. அப்பாச்சி ஹைவ் ஒரு தரவுக் கிடங்கு மென்பொருளாகும், இது "SQL ஐப் பயன்படுத்தி விநியோகிக்கப்பட்ட கடைகளில் வசிக்கும் பெரிய தரவுத்தொகுப்புகளைப் படிக்க, எழுத மற்றும் நிர்வகிக்க எளிதாக்குகிறது."
தரவு விஞ்ஞானி காலியிடங்களில் உள்ள விதிமுறைகளுடன் ஒப்பீடு
தரவு அறிவியல் நிறுவனங்களில் மிகவும் பொதுவான முப்பது தொழில்நுட்ப சொற்கள் இங்கே உள்ளன. தரவுப் பொறியியலுக்கு மேலே விவரிக்கப்பட்டதைப் போலவே இந்தப் பட்டியலைப் பெற்றேன்.
2020 இல் தரவு விஞ்ஞானி பதவிக்கான காலியிடங்களில் தொழில்நுட்பம் பற்றிய குறிப்புகள்
மொத்த எண்ணிக்கையைப் பற்றி நாம் பேசினால், முன்னர் கருதப்பட்ட ஆட்சேர்ப்புடன் ஒப்பிடுகையில், 28% அதிக காலியிடங்கள் இருந்தன (12 மற்றும் 013). தரவு பொறியாளர்களை விட தரவு விஞ்ஞானிகளுக்கான காலியிடங்களில் எந்த தொழில்நுட்பங்கள் குறைவாக உள்ளன என்பதைப் பார்ப்போம்.
தரவுப் பொறியியலில் மிகவும் பிரபலமானது
கீழே உள்ள வரைபடம் 10% க்கும் அதிகமான அல்லது -10% க்கும் குறைவான சராசரி வேறுபாடுகளுடன் முக்கிய வார்த்தைகளைக் காட்டுகிறது.
தரவு பொறியாளர் மற்றும் தரவு விஞ்ஞானி இடையே முக்கிய அதிர்வெண்ணில் மிகப்பெரிய வேறுபாடுகள்
AWS மிகவும் குறிப்பிடத்தக்க அதிகரிப்பைக் காட்டுகிறது: தரவுப் பொறியியலில் இது தரவு அறிவியலை விட 25% அதிகமாகத் தோன்றுகிறது (மொத்த காலியிடங்களின் எண்ணிக்கையில் முறையே 45% மற்றும் 20%). வித்தியாசம் கவனிக்கத்தக்கது!
சற்று வித்தியாசமான விளக்கக்காட்சியில் அதே தரவு இங்கே உள்ளது - வரைபடத்தில், தரவு பொறியாளர் மற்றும் தரவு விஞ்ஞானி பதவிக்கான காலியிடங்களில் ஒரே முக்கிய வார்த்தைக்கான முடிவுகள் அருகருகே அமைந்துள்ளன.
தரவு பொறியாளர் மற்றும் தரவு விஞ்ஞானி இடையே முக்கிய அதிர்வெண்ணில் மிகப்பெரிய வேறுபாடுகள்
நான் குறிப்பிட்டுள்ள அடுத்த மிகப்பெரிய ஜம்ப் ஸ்பார்க்கில் இருந்தது - ஒரு தரவு பொறியாளர் பெரும்பாலும் பெரிய தரவுகளுடன் வேலை செய்ய வேண்டும்.
தரவுப் பொறியியலில் குறைவான பிரபலம்
டேட்டா இன்ஜினியர் காலியிடங்களில் எந்தெந்த தொழில்நுட்பங்கள் குறைவாக பிரபலமாக உள்ளன என்பதை இப்போது பார்க்கலாம்.
தரவு அறிவியல் துறையுடன் ஒப்பிடும்போது கடுமையான சரிவு ஏற்பட்டது
தரவு பொறியியல் மற்றும் தரவு அறிவியல் இரண்டிலும் தேவை
இரண்டு செட்களிலும் முதல் பத்து நிலைகளில் எட்டு ஒரே மாதிரியானவை என்பதை கவனத்தில் கொள்ள வேண்டும். SQL, Python, Spark, AWS, Java, Hadoop, Hive மற்றும் Scala ஆகியவை டேட்டா இன்ஜினியரிங் மற்றும் டேட்டா சயின்ஸ் ஆகிய இரண்டு துறைகளிலும் முதல் பத்து இடங்களுக்குள் நுழைந்தன. கீழேயுள்ள வரைபடத்தில், தரவு பொறியாளர் முதலாளிகள் மத்தியில் மிகவும் பிரபலமான பதினைந்து தொழில்நுட்பங்களைக் காணலாம், மேலும் அவர்களுக்கு அடுத்ததாக தரவு விஞ்ஞானிகளுக்கான அவர்களின் காலியிட விகிதம் உள்ளது.
பரிந்துரைகளை
நீங்கள் தரவுப் பொறியியலில் ஈடுபட விரும்பினால், பின்வரும் தொழில்நுட்பங்களில் தேர்ச்சி பெறுமாறு நான் உங்களுக்கு அறிவுறுத்துகிறேன் - தோராயமான முன்னுரிமையின் வரிசையில் அவற்றை பட்டியலிடுகிறேன்.
SQL கற்றுக்கொள்ளுங்கள். நான் PostgreSQL ஐ நோக்கிச் சாய்கிறேன், ஏனெனில் இது திறந்த மூலமாகவும், சமூகத்தில் மிகவும் பிரபலமாகவும், வளர்ச்சி கட்டத்தில் உள்ளது. எனது மறக்கமுடியாத SQL புத்தகத்திலிருந்து மொழியை எவ்வாறு பயன்படுத்துவது என்பதை நீங்கள் கற்றுக் கொள்ளலாம் - அதன் பைலட் பதிப்பு கிடைக்கிறது
மாஸ்டர் பைதான், மிகவும் ஹார்ட்கோர் அளவில் இல்லாவிட்டாலும். எனது மறக்கமுடியாத பைதான் ஆரம்பநிலைக்கு குறிப்பாக வடிவமைக்கப்பட்டுள்ளது. அதை வாங்க முடியும்
நீங்கள் பைத்தானைப் பற்றி நன்கு அறிந்தவுடன், தரவுச் சுத்தம் மற்றும் செயலாக்கத்திற்காகப் பயன்படுத்தப்படும் பைதான் நூலகமான பாண்டாக்களுக்குச் செல்லவும். பைத்தானில் எழுதும் திறன் தேவைப்படும் நிறுவனத்தில் நீங்கள் பணிபுரிய விரும்பினால் (அவற்றில் பெரும்பாலானவை இதுவே), பாண்டாக்கள் பற்றிய அறிவு இயல்பாகவே கருதப்படும் என்பதை நீங்கள் உறுதியாக நம்பலாம். நான் தற்போது பாண்டாக்களுடன் பணிபுரிவதற்கான ஒரு அறிமுக வழிகாட்டியை முடித்து வருகிறேன் - உங்களால் முடியும்
மாஸ்டர் AWS. நீங்கள் டேட்டா இன்ஜினியர் ஆக விரும்பினால், ஸ்டாஷில் கிளவுட் பிளாட்ஃபார்ம் இல்லாமல் செய்ய முடியாது, மேலும் AWS தான் அவற்றில் மிகவும் பிரபலமானது. படிப்புகள் எனக்கு மிகவும் உதவியது
நீங்கள் ஏற்கனவே இந்த முழுப் பட்டியலையும் முடித்துவிட்டு, ஒரு டேட்டா இன்ஜினியராக முதலாளிகளின் பார்வையில் மேலும் வளர விரும்பினால், பெரிய டேட்டாவுடன் பணிபுரிய அப்பாச்சி ஸ்பார்க்கைச் சேர்க்க பரிந்துரைக்கிறேன். தரவு விஞ்ஞானி காலியிடங்கள் பற்றிய எனது ஆராய்ச்சி ஆர்வத்தில் சரிவைக் காட்டிய போதிலும், தரவுப் பொறியாளர்கள் மத்தியில் இது கிட்டத்தட்ட ஒவ்வொரு இரண்டாவது காலியிடத்திலும் தோன்றும்.
கடைசியாக
தரவுப் பொறியாளர்களுக்கு மிகவும் தேவைப்படும் தொழில்நுட்பங்களைப் பற்றிய இந்தக் கண்ணோட்டம் உங்களுக்கு பயனுள்ளதாக இருக்கும் என்று நம்புகிறேன். பகுப்பாய்வாளர் வேலைகள் எப்படி இருக்கிறது என்று நீங்கள் யோசிக்கிறீர்கள் என்றால், படிக்கவும்
ஆதாரம்: www.habr.com