අනුව
මම 2020 ජනවාරි මාසයේදී දත්ත ඉංජිනේරු තනතුර සඳහා පුරප්පාඩු විශ්ලේෂණය කළේ කුමන තාක්ෂණික කුසලතා වඩාත් ජනප්රියද යන්න තේරුම් ගැනීමටය. පසුව මම දත්ත විද්යාඥ තනතුර සඳහා පුරප්පාඩු පිළිබඳ සංඛ්යාලේඛන සමඟ ප්රතිඵල සංසන්දනය කළ අතර සිත්ගන්නා වෙනස්කම් කිහිපයක් මතු විය.
වැඩි පෙරවදනකින් තොරව, රැකියා පළ කිරීම් වලදී බොහෝ විට සඳහන් වන ඉහළම තාක්ෂණයන් දහය මෙන්න:
2020 දී දත්ත ඉංජිනේරු තනතුර සඳහා පුරප්පාඩුවල තාක්ෂණයන් සඳහන් කිරීම
දත්ත ඉංජිනේරුවෙකුගේ වගකීම්
අද, දත්ත ඉංජිනේරුවන් කරන කාර්යය සංවිධාන සඳහා ඉතා වැදගත් වේ - තොරතුරු ගබඩා කිරීම සහ අනෙකුත් සේවකයින්ට එය සමඟ වැඩ කළ හැකි ආකාරයේ ආකෘතියකට ගෙන ඒම සඳහා වගකිව යුතු පුද්ගලයින් වේ. දත්ත ඉංජිනේරුවන් බහු මූලාශ්රවලින් දත්ත ප්රවාහ කිරීමට හෝ කාණ්ඩගත කිරීමට නල මාර්ග ගොඩනඟයි. නල මාර්ග පසුව නිස්සාරණය, පරිවර්තනය සහ පැටවීමේ මෙහෙයුම් සිදු කරයි (වෙනත් වචන වලින් කිවහොත්, ETL ක්රියාවලි), දත්ත වැඩිදුර භාවිතය සඳහා වඩාත් සුදුසු කරයි. මෙයින් පසු, දත්ත ගැඹුරු සැකසුම් සඳහා විශ්ලේෂකයින් සහ දත්ත විද්යාඥයින් වෙත ඉදිරිපත් කරනු ලැබේ. අවසාන වශයෙන්, දත්ත එහි ගමන අවසන් කරන්නේ උපකරණ පුවරු, වාර්තා සහ යන්ත්ර ඉගෙනුම් ආකෘති වලින්.
මම මේ මොහොතේ දත්ත ඉංජිනේරුවෙකුගේ කාර්යයේ වඩාත්ම ඉල්ලුම ඇති තාක්ෂණයන් පිළිබඳව නිගමනයකට එළඹීමට ඉඩ සලසන තොරතුරු සොයමින් සිටියෙමි.
ක්රම
මම රැකියා සෙවුම් අඩවි තුනකින් තොරතුරු රැස් කළෙමි -
සෑම මූල පදයක් සඳහාම, මම එක් එක් වෙබ් අඩවියේ ඇති මුළු පෙළ සංඛ්යාවෙන් පහර ප්රතිශතය වෙන වෙනම ගණනය කළ අතර, පසුව මූලාශ්ර තුන සඳහා සාමාන්යය ගණනය කළෙමි.
ප්රතිඵල
රැකියා ස්ථාන තුනම හරහා ඉහළම ලකුණු සහිත තාක්ෂණික දත්ත ඉංජිනේරු නියමයන් තිහ පහත දැක්වේ.
මෙන්න එකම ඉලක්කම්, නමුත් වගු ආකාරයෙන් ඉදිරිපත් කර ඇත:
අපි පිළිවෙලට යමු.
ප්රතිඵල සමාලෝචනය
SQL සහ Python යන දෙකම සමාලෝචනය කරන ලද රැකියා අවස්ථා තුනෙන් දෙකකට වඩා වැඩි ප්රමාණයක පෙනී සිටියි. මුලින්ම අධ්යයනය කිරීම අර්ථවත් වන්නේ මෙම තාක්ෂණයන් දෙකයි.
පුරප්පාඩුවලින් අඩක් පමණ ස්පාර්ක් සඳහන් කර ඇත.
AWS රැකියා පළ කිරීම් වලින් ආසන්න වශයෙන් 45% ක් තුළ දිස්වේ. එය Amazon විසින් නිෂ්පාදනය කරන ලද වලාකුළු පරිගණක වේදිකාවකි; එය සියලුම ක්ලවුඩ් වේදිකා අතර විශාලතම වෙළඳපල කොටස ඇත.
ඊළඟට එන්නේ Java සහ Hadoop - ඔවුන්ගේ සහෝදරයාට 40% කට වඩා ටිකක් වැඩියි.
හරියට කාල යන්ත්රයක පදිනව වගේ
එවිට අපි Hive, Scala, Kafka සහ NoSQL දකිනවා - මෙම සෑම තාක්ෂණයක්ම ඉදිරිපත් කර ඇති පුරප්පාඩු වලින් හතරෙන් එකක සඳහන් වේ. Apache Hive යනු දත්ත ගබඩා මෘදුකාංගයක් වන අතර එය "SQL භාවිතයෙන් බෙදා හරින ලද වෙළඳසැල්වල විශාල දත්ත කට්ටල කියවීමට, ලිවීමට සහ කළමනාකරණය කිරීමට පහසු කරයි."
දත්ත විද්යා පුරප්පාඩුවල නියමයන් සමඟ සැසඳීම
දත්ත විද්යා සේවා යෝජකයින් අතර බහුලව දක්නට ලැබෙන තාක්ෂණික පද තිහක් මෙහි දැක්වේ. දත්ත ඉංජිනේරු විද්යාව සඳහා ඉහත විස්තර කර ඇති ආකාරයටම මම මෙම ලැයිස්තුව ලබා ගත්තෙමි.
2020 දී දත්ත විද්යාඥ තනතුර සඳහා පුරප්පාඩුවල තාක්ෂණය ගැන සඳහන් කිරීම
අපි මුළු සංඛ්යාව ගැන කතා කරන්නේ නම්, කලින් සලකා බැලූ බඳවා ගැනීම්වලට සාපේක්ෂව, 28% වැඩි පුරප්පාඩු (12 සහ 013) විය. දත්ත ඉංජිනේරුවන්ට වඩා දත්ත විද්යාඥයින් සඳහා පුරප්පාඩු තුළ අඩු පොදු තාක්ෂණයන් මොනවාදැයි බලමු.
දත්ත ඉංජිනේරු විද්යාවේ වඩාත් ජනප්රියයි
පහත ප්රස්ථාරය 10% ට වඩා වැඩි හෝ -10% ට අඩු සාමාන්ය වෙනසක් සහිත මූල පද පෙන්වයි.
දත්ත ඉංජිනේරු සහ දත්ත විද්යාඥයන් අතර ඇති මූල පද සංඛ්යාතයේ විශාලතම වෙනස්කම්
AWS වඩාත්ම සැලකිය යුතු වැඩි වීමක් පෙන්නුම් කරයි: දත්ත ඉංජිනේරු විද්යාවේදී එය දත්ත විද්යාවට වඩා 25% ක් නිතිපතා පෙනේ (පිළිවෙලින් සම්පූර්ණ පුරප්පාඩු සංඛ්යාවෙන් 45% සහ 20%). වෙනස කැපී පෙනේ!
මෙන්න තරමක් වෙනස් ඉදිරිපත් කිරීමක එකම දත්ත - ප්රස්ථාරයේ, දත්ත ඉංජිනේරු සහ දත්ත විද්යාඥ යන තනතුරු සඳහා වන පුරප්පාඩුවල එකම මූල පදය සඳහා ප්රතිඵල එක පැත්තකින් පිහිටා ඇත.
දත්ත ඉංජිනේරු සහ දත්ත විද්යාඥයන් අතර ඇති මූල පද සංඛ්යාතයේ විශාලතම වෙනස්කම්
මීළඟට මා සටහන් කළ විශාලතම පිම්ම ස්පාර්ක් හි - දත්ත ඉංජිනේරුවෙකුට බොහෝ විට විශාල දත්ත සමඟ වැඩ කිරීමට සිදුවේ.
දත්ත ඉංජිනේරු විද්යාවේ අඩු ජනප්රියයි
දැන් අපි බලමු Data engineer පුරප්පාඩු වල ජනප්රිය අඩු තාක්ෂණයන් මොනවද කියලා.
දත්ත විද්යා අංශයට සාපේක්ෂව තියුනුම පරිහානිය සිදුවී ඇත
දත්ත ඉංජිනේරු විද්යාව සහ දත්ත විද්යාව යන දෙකෙහිම ඉල්ලුමේ
කට්ටල දෙකෙහිම පළමු ස්ථාන දහයෙන් අටක් සමාන බව සැලකිය යුතුය. SQL, Python, Spark, AWS, Java, Hadoop, Hive සහ Scala දත්ත ඉංජිනේරු සහ දත්ත විද්යා කර්මාන්ත යන දෙඅංශයෙන්ම පළමු දහය අතරට පැමිණ ඇත. පහත ප්රස්ථාරයෙන් ඔබට දත්ත ඉංජිනේරු සේවා යෝජකයින් අතර වඩාත් ජනප්රිය තාක්ෂණයන් පහළොවක් දැක ගත හැකි අතර, ඒවායින් ඊළඟට දත්ත විද්යාඥයින් සඳහා ඔවුන්ගේ පුරප්පාඩු අනුපාතය වේ.
නිර්දේශ
ඔබට දත්ත ඉංජිනේරු විද්යාවට පිවිසීමට අවශ්ය නම්, පහත සඳහන් තාක්ෂණයන් ප්රගුණ කිරීමට මම ඔබට උපදෙස් දෙමි - මම ඒවා ආසන්න වශයෙන් ප්රමුඛතාවය අනුව ලැයිස්තුගත කරමි.
SQL ඉගෙන ගන්න. මම PostgreSQL වෙත නැඹුරු වන්නේ එය විවෘත මූලාශ්රයක්, ප්රජාව තුළ ඉතා ජනප්රිය සහ වර්ධන අවධියක පවතින බැවිනි. My Memorable SQL පොතෙන් ඔබට භාෂාව භාවිතා කරන ආකාරය ඉගෙන ගත හැකිය - එහි නියමු අනුවාදය තිබේ
Master Python, වඩාත්ම Hardcore මට්ටමේ නැතත්. My Memorable Python ආරම්භකයින් සඳහා විශේෂයෙන් නිර්මාණය කර ඇත. එය මිලදී ගත හැක
ඔබ Python ගැන හුරුපුරුදු වූ පසු, දත්ත පිරිසිදු කිරීම සහ සැකසීම සඳහා භාවිතා කරන Python පුස්තකාලයක් වන pandas වෙත යන්න. ඔබ පයිතන් හි ලිවීමේ හැකියාව අවශ්ය සමාගමක වැඩ කිරීමට ඉලක්ක කරන්නේ නම් (මෙය ඒවායින් බහුතරයකි), පැන්ඩා පිළිබඳ දැනුම පෙරනිමියෙන් උපකල්පනය කරනු ඇති බවට ඔබට සහතික විය හැකිය. මම දැනට පැන්ඩා සමඟ වැඩ කිරීම සඳහා හඳුන්වාදීමේ මාර්ගෝපදේශයක් අවසන් කරමි - ඔබට පුළුවන්
මාස්ටර් AWS. ඔබට දත්ත ඉංජිනේරුවෙකු වීමට අවශ්ය නම්, ඔබට ස්ටෑෂ් හි වලාකුළු වේදිකාවක් නොමැතිව කළ නොහැකි අතර AWS ඔවුන්ගෙන් වඩාත් ජනප්රිය වේ. පාඨමාලා මට ගොඩක් උදව් කළා
ඔබ දැනටමත් මෙම සම්පූර්ණ ලැයිස්තුව සම්පූර්ණ කර ඇත්නම් සහ දත්ත ඉංජිනේරුවෙකු ලෙස සේවා යෝජකයන්ගේ ඇස් හමුවේ තවදුරටත් වර්ධනය වීමට අවශ්ය නම්, විශාල දත්ත සමඟ වැඩ කිරීම සඳහා Apache Spark එක් කිරීමට මම යෝජනා කරමි. දත්ත විද්යා පුරප්පාඩු පිළිබඳ මගේ පර්යේෂණය උනන්දුව අඩුවීමක් පෙන්නුම් කළද, දත්ත ඉංජිනේරුවන් අතර එය තවමත් සෑම තත්පර පුරප්පාඩුවකම පාහේ දක්නට ලැබේ.
අන්තිමට
දත්ත ඉංජිනේරුවන් සඳහා වඩාත්ම ඉල්ලුමේ තාක්ෂණයන් පිළිබඳ මෙම දළ විශ්ලේෂණය ඔබට ප්රයෝජනවත් වනු ඇතැයි මම බලාපොරොත්තු වෙමි. විශ්ලේෂක රැකියා කෙබඳුදැයි ඔබ කල්පනා කරන්නේ නම්, කියවන්න
මූලාශ්රය: www.habr.com