தரவு பொறியாளர் தொழிலில் மிகவும் தேவைப்படும் திறன்கள்

படி புள்ளிவிவரங்கள் 2019, தரவு பொறியாளர் தற்போது ஒரு தொழிலாக உள்ளது, அதன் தேவை மற்றதை விட வேகமாக வளர்ந்து வருகிறது. ஒரு நிறுவனத்தில் தரவுப் பொறியாளர் முக்கியப் பங்கு வகிக்கிறார் - தரவை செயலாக்க, மாற்ற மற்றும் சேமிக்கப் பயன்படும் பைப்லைன்கள் மற்றும் தரவுத்தளங்களை உருவாக்குதல் மற்றும் பராமரித்தல். இந்த தொழிலின் பிரதிநிதிகளுக்கு முதலில் என்ன திறன்கள் தேவை? தரவு விஞ்ஞானிகளுக்குத் தேவையானவற்றிலிருந்து பட்டியல் வேறுபட்டதா? எனது கட்டுரையிலிருந்து இதைப் பற்றி நீங்கள் அறிந்து கொள்வீர்கள்.

2020 ஜனவரியில் உள்ள டேட்டா இன்ஜினியர் பதவிக்கான காலியிடங்களை ஆராய்ந்து, எந்த தொழில்நுட்பத் திறன்கள் மிகவும் பிரபலமாக உள்ளன என்பதைப் புரிந்துகொண்டேன். தரவு விஞ்ஞானி பதவிக்கான காலியிடங்கள் குறித்த புள்ளிவிவரங்களுடன் முடிவுகளை ஒப்பிட்டுப் பார்த்தேன் - மேலும் சில சுவாரஸ்யமான வேறுபாடுகள் வெளிப்பட்டன.

அதிக முன்னுரை இல்லாமல், வேலை இடுகைகளில் அடிக்கடி குறிப்பிடப்படும் முதல் பத்து தொழில்நுட்பங்கள் இங்கே:

தரவு பொறியாளர் தொழிலில் மிகவும் தேவைப்படும் திறன்கள்

2020 இல் டேட்டா இன்ஜினியர் பதவிக்கான காலியிடங்களில் உள்ள தொழில்நுட்பங்களைப் பற்றி குறிப்பிடுதல்

அதை கண்டுபிடிப்போம்.

தரவு பொறியாளரின் பொறுப்புகள்

இன்று, தரவு பொறியாளர்கள் செய்யும் பணி நிறுவனங்களுக்கு மிகவும் முக்கியத்துவம் வாய்ந்தது - இவர்கள்தான் தகவல்களைச் சேமிப்பதற்கும் மற்ற ஊழியர்களுடன் இணைந்து பணியாற்றக்கூடிய வடிவத்தில் அதைக் கொண்டுவருவதற்கும் பொறுப்பானவர்கள். டேட்டா இன்ஜினியர்கள் பல ஆதாரங்களில் இருந்து தரவை ஸ்ட்ரீம் செய்ய அல்லது பேட்ச் செய்ய பைப்லைன்களை உருவாக்குகிறார்கள். பைப்லைன்கள் பின்னர் பிரித்தெடுத்தல், உருமாற்றம் மற்றும் ஏற்றுதல் செயல்பாடுகளைச் செய்கின்றன (வேறுவிதமாகக் கூறினால், ETL செயல்முறைகள்), தரவை மேலும் பயன்படுத்துவதற்கு மிகவும் பொருத்தமானதாக ஆக்குகிறது. இதற்குப் பிறகு, தரவு ஆழமான செயலாக்கத்திற்காக ஆய்வாளர்கள் மற்றும் தரவு விஞ்ஞானிகளுக்கு சமர்ப்பிக்கப்படுகிறது. இறுதியாக, தரவு அதன் பயணத்தை டாஷ்போர்டுகள், அறிக்கைகள் மற்றும் இயந்திர கற்றல் மாதிரிகளில் முடிக்கிறது.

தற்போது தரவுப் பொறியாளரின் பணியில் எந்தத் தொழில்நுட்பங்கள் அதிகம் தேவைப்படுகின்றன என்பதைப் பற்றி ஒரு முடிவுக்கு வர அனுமதிக்கும் தகவலைத் தேடிக்கொண்டிருந்தேன்.

முறைகள்

நான் மூன்று வேலை தேடல் தளங்களில் இருந்து தகவல்களை சேகரித்தேன் - SimplyHired, உண்மையில் и மான்ஸ்டர் மற்றும் அமெரிக்க குடியிருப்பாளர்களை இலக்காகக் கொண்ட காலியிடங்களின் உரைகளில் "டேட்டா இன்ஜினியர்" உடன் இணைந்து என்ன முக்கிய வார்த்தைகள் வந்தன என்பதைப் பார்த்தோம். இந்த பணிக்காக நான் இரண்டு பைதான் நூலகங்களைப் பயன்படுத்தினேன் - கோரிக்கைகளை и அழகான சூப். முக்கிய வார்த்தைகளில், தரவு விஞ்ஞானி பதவிக்கான காலியிடங்களை பகுப்பாய்வு செய்வதற்காக முந்தைய பட்டியலில் சேர்க்கப்பட்டவை மற்றும் தரவு பொறியாளர்களுக்கான வேலை வாய்ப்புகளைப் படிக்கும்போது நான் கைமுறையாகத் தேர்ந்தெடுத்தவை இரண்டையும் சேர்த்துள்ளேன். லிங்க்ட்இன் ஆதாரங்களின் பட்டியலில் சேர்க்கப்படவில்லை, ஏனெனில் நான் தரவைச் சேகரிக்கும் கடைசி முயற்சிக்குப் பிறகு நான் தடை செய்யப்பட்டேன்.

ஒவ்வொரு முக்கிய சொல்லுக்கும், ஒவ்வொரு தளத்திலும் உள்ள மொத்த நூல்களின் எண்ணிக்கையிலிருந்து வெற்றிகளின் சதவீதத்தை தனித்தனியாகக் கணக்கிட்டு, மூன்று ஆதாரங்களுக்கான சராசரியைக் கணக்கிட்டேன்.

Результаты

மூன்று வேலைத் தளங்களிலும் அதிக மதிப்பெண்களைப் பெற்ற முப்பது தொழில்நுட்ப தரவு பொறியியல் விதிமுறைகள் கீழே உள்ளன.

தரவு பொறியாளர் தொழிலில் மிகவும் தேவைப்படும் திறன்கள்

இங்கே அதே எண்கள் உள்ளன, ஆனால் அட்டவணை வடிவத்தில் வழங்கப்படுகின்றன:

தரவு பொறியாளர் தொழிலில் மிகவும் தேவைப்படும் திறன்கள்

ஒழுங்கா போகலாம்.

முடிவுகளின் மதிப்பாய்வு

SQL மற்றும் Python இரண்டும் மதிப்பாய்வு செய்யப்பட்ட வேலை வாய்ப்புகளில் மூன்றில் இரண்டு பங்கிற்கு மேல் தோன்றும். இந்த இரண்டு தொழில்நுட்பங்களும்தான் முதலில் படிப்பதில் அர்த்தமுள்ளது. பைதான் தரவுகளுடன் பணிபுரிவதற்கும், இணையதளங்களை உருவாக்குவதற்கும், ஸ்கிரிப்ட்களை எழுதுவதற்கும் பயன்படுத்தப்படும் மிகவும் பிரபலமான நிரலாக்க மொழியாகும். எஸ்கியூஎல் கட்டமைக்கப்பட்ட வினவல் மொழியைக் குறிக்கிறது; இது மொழிகளின் குழுவால் செயல்படுத்தப்பட்ட ஒரு தரநிலையை உள்ளடக்கியது மற்றும் தொடர்புடைய தரவுத்தளங்களிலிருந்து தரவை மீட்டெடுக்கப் பயன்படுகிறது. இது நீண்ட காலத்திற்கு முன்பு தோன்றியது மற்றும் தன்னை மிகவும் எதிர்க்கும் தன்மையை நிரூபித்துள்ளது.

சுமார் பாதி காலியிடங்களில் ஸ்பார்க் குறிப்பிடப்பட்டுள்ளது. அப்பாச்சி ஸ்பார்க் "ஸ்ட்ரீமிங், SQL, இயந்திர கற்றல் மற்றும் வரைபட செயலாக்கத்திற்கான உள்ளமைக்கப்பட்ட தொகுதிகள் கொண்ட ஒருங்கிணைக்கப்பட்ட பெரிய தரவு பகுப்பாய்வு இயந்திரம்." பெரிய தரவுத்தளங்களுடன் பணிபுரிபவர்களிடையே இது மிகவும் பிரபலமானது.

ஏறத்தாழ 45% வேலை இடுகைகளில் AWS தோன்றுகிறது. இது அமேசான் தயாரித்த கிளவுட் கம்ப்யூட்டிங் தளமாகும்; அனைத்து கிளவுட் இயங்குதளங்களிலும் இது மிகப்பெரிய சந்தைப் பங்கைக் கொண்டுள்ளது.
அடுத்து ஜாவா மற்றும் ஹடூப் வரும் - அவர்களின் சகோதரருக்கு 40% க்கும் சற்று அதிகம். ஜாவா பரவலாக பேசப்படும், போர்-சோதனை செய்யப்பட்ட மொழி 2019 ஸ்டாக் ஓவர்ஃப்ளோ டெவலப்பர் சர்வே புரோகிராமர்களிடையே திகிலை ஏற்படுத்தும் மொழிகளில் பத்தாவது இடம் வழங்கப்பட்டது. மாறாக, பைதான் இரண்டாவது மிகவும் விரும்பப்படும் மொழியாகும். ஜாவா மொழி ஆரக்கிளால் இயக்கப்படுகிறது, அதைப் பற்றி நீங்கள் தெரிந்து கொள்ள வேண்டிய அனைத்தையும் ஜனவரி 2020 முதல் அதிகாரப்பூர்வ பக்கத்தின் இந்த ஸ்கிரீன்ஷாட்டில் இருந்து புரிந்து கொள்ளலாம்.

தரவு பொறியாளர் தொழிலில் மிகவும் தேவைப்படும் திறன்கள்

இது ஒரு கால இயந்திரத்தில் சவாரி செய்வது போன்றது
அப்பாச்சி ஹடூப் பெரிய தரவுகளுக்கு சர்வர் கிளஸ்டர்களுடன் MapReduce நிரலாக்க மாதிரியைப் பயன்படுத்துகிறது. இப்போது இந்த மாதிரி பெருகிய முறையில் கைவிடப்படுகிறது.

பின்னர் ஹைவ், ஸ்கலா, காஃப்கா மற்றும் NoSQL ஆகியவற்றைப் பார்க்கிறோம் - இந்த தொழில்நுட்பங்கள் ஒவ்வொன்றும் சமர்ப்பிக்கப்பட்ட காலியிடங்களில் கால்பகுதியில் குறிப்பிடப்பட்டுள்ளன. அப்பாச்சி ஹைவ் ஒரு தரவுக் கிடங்கு மென்பொருளாகும், இது "SQL ஐப் பயன்படுத்தி விநியோகிக்கப்பட்ட கடைகளில் வசிக்கும் பெரிய தரவுத்தொகுப்புகளைப் படிக்க, எழுத மற்றும் நிர்வகிக்க எளிதாக்குகிறது." ஸ்காலா - பெரிய தரவுகளுடன் பணிபுரியும் போது தீவிரமாகப் பயன்படுத்தப்படும் ஒரு நிரலாக்க மொழி. குறிப்பாக, ஸ்காலாவில் ஸ்பார்க் உருவாக்கப்பட்டது. அஞ்சப்படும் மொழிகளின் ஏற்கனவே குறிப்பிடப்பட்ட தரவரிசையில், ஸ்கலா பதினொன்றாவது இடத்தைப் பிடித்துள்ளது. அப்பாச்சி காஃப்கா - ஸ்ட்ரீமிங் செய்திகளைச் செயலாக்குவதற்கான விநியோகிக்கப்பட்ட தளம். தரவை ஸ்ட்ரீமிங் செய்வதற்கான வழிமுறையாக மிகவும் பிரபலமானது.

NoSQL தரவுத்தளங்கள் SQL உடன் தங்களை வேறுபடுத்திக் கொள்ளுங்கள். அவை தொடர்பில்லாத, கட்டமைக்கப்படாத மற்றும் கிடைமட்டமாக அளவிடக்கூடியவை என்பதில் வேறுபடுகின்றன. NoSQL சில பிரபலங்களைப் பெற்றுள்ளது, ஆனால் SQL ஐ மேலாதிக்க சேமிப்பக முன்னுதாரணமாக மாற்றும் என்று தீர்க்கதரிசனங்கள் வரை கூட அணுகுமுறைக்கான மோகம் முடிந்துவிட்டது.

தரவு விஞ்ஞானி காலியிடங்களில் உள்ள விதிமுறைகளுடன் ஒப்பீடு

தரவு அறிவியல் நிறுவனங்களில் மிகவும் பொதுவான முப்பது தொழில்நுட்ப சொற்கள் இங்கே உள்ளன. தரவுப் பொறியியலுக்கு மேலே விவரிக்கப்பட்டதைப் போலவே இந்தப் பட்டியலைப் பெற்றேன்.

தரவு பொறியாளர் தொழிலில் மிகவும் தேவைப்படும் திறன்கள்

2020 இல் தரவு விஞ்ஞானி பதவிக்கான காலியிடங்களில் தொழில்நுட்பம் பற்றிய குறிப்புகள்

மொத்த எண்ணிக்கையைப் பற்றி நாம் பேசினால், முன்னர் கருதப்பட்ட ஆட்சேர்ப்புடன் ஒப்பிடுகையில், 28% அதிக காலியிடங்கள் இருந்தன (12 மற்றும் 013). தரவு பொறியாளர்களை விட தரவு விஞ்ஞானிகளுக்கான காலியிடங்களில் எந்த தொழில்நுட்பங்கள் குறைவாக உள்ளன என்பதைப் பார்ப்போம்.

தரவுப் பொறியியலில் மிகவும் பிரபலமானது

கீழே உள்ள வரைபடம் 10% க்கும் அதிகமான அல்லது -10% க்கும் குறைவான சராசரி வேறுபாடுகளுடன் முக்கிய வார்த்தைகளைக் காட்டுகிறது.

தரவு பொறியாளர் தொழிலில் மிகவும் தேவைப்படும் திறன்கள்

தரவு பொறியாளர் மற்றும் தரவு விஞ்ஞானி இடையே முக்கிய அதிர்வெண்ணில் மிகப்பெரிய வேறுபாடுகள்

AWS மிகவும் குறிப்பிடத்தக்க அதிகரிப்பைக் காட்டுகிறது: தரவுப் பொறியியலில் இது தரவு அறிவியலை விட 25% அதிகமாகத் தோன்றுகிறது (மொத்த காலியிடங்களின் எண்ணிக்கையில் முறையே 45% மற்றும் 20%). வித்தியாசம் கவனிக்கத்தக்கது!

சற்று வித்தியாசமான விளக்கக்காட்சியில் அதே தரவு இங்கே உள்ளது - வரைபடத்தில், தரவு பொறியாளர் மற்றும் தரவு விஞ்ஞானி பதவிக்கான காலியிடங்களில் ஒரே முக்கிய வார்த்தைக்கான முடிவுகள் அருகருகே அமைந்துள்ளன.

தரவு பொறியாளர் தொழிலில் மிகவும் தேவைப்படும் திறன்கள்

தரவு பொறியாளர் மற்றும் தரவு விஞ்ஞானி இடையே முக்கிய அதிர்வெண்ணில் மிகப்பெரிய வேறுபாடுகள்

நான் குறிப்பிட்டுள்ள அடுத்த மிகப்பெரிய ஜம்ப் ஸ்பார்க்கில் இருந்தது - ஒரு தரவு பொறியாளர் பெரும்பாலும் பெரிய தரவுகளுடன் வேலை செய்ய வேண்டும். காஃப்கா 20% அதிகரித்துள்ளது, அதாவது தரவு விஞ்ஞானி காலியிடங்களுக்கான முடிவுகளுடன் ஒப்பிடுகையில் கிட்டத்தட்ட நான்கு மடங்கு அதிகரித்துள்ளது. தரவு பரிமாற்றம் என்பது தரவு பொறியாளரின் முக்கிய பொறுப்புகளில் ஒன்றாகும். இறுதியாக, ஜாவா, NoSQL, Redshift, SQL மற்றும் Hadoop ஆகியவற்றிற்கான தரவு பொறியியல் துறையில் குறிப்புகளின் எண்ணிக்கை 15% அதிகமாக இருந்தது.

தரவுப் பொறியியலில் குறைவான பிரபலம்

டேட்டா இன்ஜினியர் காலியிடங்களில் எந்தெந்த தொழில்நுட்பங்கள் குறைவாக பிரபலமாக உள்ளன என்பதை இப்போது பார்க்கலாம்.
தரவு அறிவியல் துறையுடன் ஒப்பிடும்போது கடுமையான சரிவு ஏற்பட்டது R: அங்கு அவர் தோராயமாக 56% காலியிடங்களில் தோன்றினார், இங்கே - 17% மட்டுமே. ஈர்க்கக்கூடியது. R என்பது ஒரு நிரலாக்க மொழியாகும், இது விஞ்ஞானிகள் மற்றும் புள்ளியியல் வல்லுநர்களால் விரும்பப்படுகிறது, மேலும் இது உலகின் எட்டாவது மிகவும் அஞ்சும் மொழியாகும்.

SAS தரவு பொறியாளர் பதவிக்கான காலியிடங்களில் குறிப்பிடத்தக்க அளவு குறைவாகவே காணப்படுகிறது - வேறுபாடு 14% ஆகும். SAS என்பது புள்ளிவிவரங்கள் மற்றும் தரவுகளுடன் பணிபுரிய வடிவமைக்கப்பட்ட தனியுரிம மொழியாகும். சுவாரசியமான புள்ளி: முடிவுகளின் மூலம் மதிப்பீடு தரவு விஞ்ஞானிகளுக்கான வேலை வாய்ப்புகள் பற்றிய எனது ஆராய்ச்சி, இது மற்ற எந்த தொழில்நுட்பத்தையும் விட சமீபத்தில் நிறைய தளத்தை இழந்துள்ளது.

தரவு பொறியியல் மற்றும் தரவு அறிவியல் இரண்டிலும் தேவை

இரண்டு செட்களிலும் முதல் பத்து நிலைகளில் எட்டு ஒரே மாதிரியானவை என்பதை கவனத்தில் கொள்ள வேண்டும். SQL, Python, Spark, AWS, Java, Hadoop, Hive மற்றும் Scala ஆகியவை டேட்டா இன்ஜினியரிங் மற்றும் டேட்டா சயின்ஸ் ஆகிய இரண்டு துறைகளிலும் முதல் பத்து இடங்களுக்குள் நுழைந்தன. கீழேயுள்ள வரைபடத்தில், தரவு பொறியாளர் முதலாளிகள் மத்தியில் மிகவும் பிரபலமான பதினைந்து தொழில்நுட்பங்களைக் காணலாம், மேலும் அவர்களுக்கு அடுத்ததாக தரவு விஞ்ஞானிகளுக்கான அவர்களின் காலியிட விகிதம் உள்ளது.

தரவு பொறியாளர் தொழிலில் மிகவும் தேவைப்படும் திறன்கள்

பரிந்துரைகளை

நீங்கள் தரவுப் பொறியியலில் ஈடுபட விரும்பினால், பின்வரும் தொழில்நுட்பங்களில் தேர்ச்சி பெறுமாறு நான் உங்களுக்கு அறிவுறுத்துகிறேன் - தோராயமான முன்னுரிமையின் வரிசையில் அவற்றை பட்டியலிடுகிறேன்.

SQL கற்றுக்கொள்ளுங்கள். நான் PostgreSQL ஐ நோக்கிச் சாய்கிறேன், ஏனெனில் இது திறந்த மூலமாகவும், சமூகத்தில் மிகவும் பிரபலமாகவும், வளர்ச்சி கட்டத்தில் உள்ளது. எனது மறக்கமுடியாத SQL புத்தகத்திலிருந்து மொழியை எவ்வாறு பயன்படுத்துவது என்பதை நீங்கள் கற்றுக் கொள்ளலாம் - அதன் பைலட் பதிப்பு கிடைக்கிறது இங்கே.

மாஸ்டர் பைதான், மிகவும் ஹார்ட்கோர் அளவில் இல்லாவிட்டாலும். எனது மறக்கமுடியாத பைதான் ஆரம்பநிலைக்கு குறிப்பாக வடிவமைக்கப்பட்டுள்ளது. அதை வாங்க முடியும் அமேசான், மின்னணு அல்லது இயற்பியல் நகல், உங்கள் விருப்பம் அல்லது pdf அல்லது epub வடிவத்தில் பதிவிறக்கவும் இந்த தளத்தில்.

நீங்கள் பைத்தானைப் பற்றி நன்கு அறிந்தவுடன், தரவுச் சுத்தம் மற்றும் செயலாக்கத்திற்காகப் பயன்படுத்தப்படும் பைதான் நூலகமான பாண்டாக்களுக்குச் செல்லவும். பைத்தானில் எழுதும் திறன் தேவைப்படும் நிறுவனத்தில் நீங்கள் பணிபுரிய விரும்பினால் (அவற்றில் பெரும்பாலானவை இதுவே), பாண்டாக்கள் பற்றிய அறிவு இயல்பாகவே கருதப்படும் என்பதை நீங்கள் உறுதியாக நம்பலாம். நான் தற்போது பாண்டாக்களுடன் பணிபுரிவதற்கான ஒரு அறிமுக வழிகாட்டியை முடித்து வருகிறேன் - உங்களால் முடியும் பதிவுஅதனால் விடுதலையின் தருணத்தை தவறவிடக்கூடாது.

மாஸ்டர் AWS. நீங்கள் டேட்டா இன்ஜினியர் ஆக விரும்பினால், ஸ்டாஷில் கிளவுட் பிளாட்ஃபார்ம் இல்லாமல் செய்ய முடியாது, மேலும் AWS தான் அவற்றில் மிகவும் பிரபலமானது. படிப்புகள் எனக்கு மிகவும் உதவியது லினக்ஸ் அகாடமிநான் படிக்கும் போது Google Cloud இல் தரவு பொறியியல், அவர்கள் AWS இல் நல்ல பொருட்களையும் வைத்திருப்பார்கள் என்று நினைக்கிறேன்.

நீங்கள் ஏற்கனவே இந்த முழுப் பட்டியலையும் முடித்துவிட்டு, ஒரு டேட்டா இன்ஜினியராக முதலாளிகளின் பார்வையில் மேலும் வளர விரும்பினால், பெரிய டேட்டாவுடன் பணிபுரிய அப்பாச்சி ஸ்பார்க்கைச் சேர்க்க பரிந்துரைக்கிறேன். தரவு விஞ்ஞானி காலியிடங்கள் பற்றிய எனது ஆராய்ச்சி ஆர்வத்தில் சரிவைக் காட்டிய போதிலும், தரவுப் பொறியாளர்கள் மத்தியில் இது கிட்டத்தட்ட ஒவ்வொரு இரண்டாவது காலியிடத்திலும் தோன்றும்.

கடைசியாக

தரவுப் பொறியாளர்களுக்கு மிகவும் தேவைப்படும் தொழில்நுட்பங்களைப் பற்றிய இந்தக் கண்ணோட்டம் உங்களுக்கு பயனுள்ளதாக இருக்கும் என்று நம்புகிறேன். பகுப்பாய்வாளர் வேலைகள் எப்படி இருக்கிறது என்று நீங்கள் யோசிக்கிறீர்கள் என்றால், படிக்கவும் என் மற்ற கட்டுரை. மகிழ்ச்சியான பொறியியல்!

ஆதாரம்: www.habr.com

கருத்தைச் சேர்