දත්ත ඉංජිනේරු වෘත්තියේ වඩාත්ම ඉල්ලුමේ කුසලතා

අනුව සංඛ්යා ලේඛන 2019, ඩේටා ඉන්ජිනියර් යනු දැනට ඉල්ලුම වෙනත් ඕනෑම දෙයකට වඩා වේගයෙන් වර්ධනය වන වෘත්තියකි. දත්ත ඉංජිනේරුවෙකු සංවිධානයක තීරණාත්මක කාර්යභාරයක් ඉටු කරයි - දත්ත සැකසීමට, පරිවර්තනය කිරීමට සහ ගබඩා කිරීමට භාවිතා කරන නල මාර්ග සහ දත්ත සමුදායන් නිර්මාණය කිරීම සහ නඩත්තු කිරීම. මෙම වෘත්තියේ නියෝජිතයින්ට පළමුව අවශ්‍ය කුසලතා මොනවාද? ලැයිස්තුව දත්ත විද්‍යාඥයින්ට අවශ්‍ය දේට වඩා වෙනස්ද? මේ සියල්ල ගැන ඔබ මගේ ලිපියෙන් ඉගෙන ගනු ඇත.

මම 2020 ජනවාරි මාසයේදී දත්ත ඉංජිනේරු තනතුර සඳහා පුරප්පාඩු විශ්ලේෂණය කළේ කුමන තාක්‍ෂණික කුසලතා වඩාත් ජනප්‍රියද යන්න තේරුම් ගැනීමටය. පසුව මම දත්ත විද්‍යාඥ තනතුර සඳහා පුරප්පාඩු පිළිබඳ සංඛ්‍යාලේඛන සමඟ ප්‍රතිඵල සංසන්දනය කළ අතර සිත්ගන්නා වෙනස්කම් කිහිපයක් මතු විය.

වැඩි පෙරවදනකින් තොරව, රැකියා පළ කිරීම් වලදී බොහෝ විට සඳහන් වන ඉහළම තාක්ෂණයන් දහය මෙන්න:

දත්ත ඉංජිනේරු වෘත්තියේ වඩාත්ම ඉල්ලුමේ කුසලතා

2020 දී දත්ත ඉංජිනේරු තනතුර සඳහා පුරප්පාඩුවල තාක්ෂණයන් සඳහන් කිරීම

අපි එය තේරුම් ගනිමු.

දත්ත ඉංජිනේරුවෙකුගේ වගකීම්

අද, දත්ත ඉංජිනේරුවන් කරන කාර්යය සංවිධාන සඳහා ඉතා වැදගත් වේ - තොරතුරු ගබඩා කිරීම සහ අනෙකුත් සේවකයින්ට එය සමඟ වැඩ කළ හැකි ආකාරයේ ආකෘතියකට ගෙන ඒම සඳහා වගකිව යුතු පුද්ගලයින් වේ. දත්ත ඉංජිනේරුවන් බහු මූලාශ්‍රවලින් දත්ත ප්‍රවාහ කිරීමට හෝ කාණ්ඩගත කිරීමට නල මාර්ග ගොඩනඟයි. නල මාර්ග පසුව නිස්සාරණය, පරිවර්තනය සහ පැටවීමේ මෙහෙයුම් සිදු කරයි (වෙනත් වචන වලින් කිවහොත්, ETL ක්‍රියාවලි), දත්ත වැඩිදුර භාවිතය සඳහා වඩාත් සුදුසු කරයි. මෙයින් පසු, දත්ත ගැඹුරු සැකසුම් සඳහා විශ්ලේෂකයින් සහ දත්ත විද්යාඥයින් වෙත ඉදිරිපත් කරනු ලැබේ. අවසාන වශයෙන්, දත්ත එහි ගමන අවසන් කරන්නේ උපකරණ පුවරු, වාර්තා සහ යන්ත්‍ර ඉගෙනුම් ආකෘති වලින්.

මම මේ මොහොතේ දත්ත ඉංජිනේරුවෙකුගේ කාර්යයේ වඩාත්ම ඉල්ලුම ඇති තාක්ෂණයන් පිළිබඳව නිගමනයකට එළඹීමට ඉඩ සලසන තොරතුරු සොයමින් සිටියෙමි.

ක්‍රම

මම රැකියා සෙවුම් අඩවි තුනකින් තොරතුරු රැස් කළෙමි - සරලයි, ඇත්ත වශයෙන්ම и රාක්ෂයා සහ එක්සත් ජනපදයේ පදිංචිකරුවන් ඉලක්ක කරගත් පුරප්පාඩුවල පාඨවල "දත්ත ඉංජිනේරු" සමඟ සම්බන්ධ වී ඇති මූල පද මොනවාදැයි සොයා බැලීය. මෙම කාර්යය සඳහා මම Python පුස්තකාල දෙකක් භාවිතා කළෙමි - ඉල්ලීම් и ලස්සන සුප්. මූල පද අතර, දත්ත විද්‍යාඥ තනතුර සඳහා පුරප්පාඩු විශ්ලේෂණය කිරීම සඳහා පෙර ලැයිස්තුවේ ඇතුළත් කර ඇති සහ දත්ත ඉංජිනේරුවන් සඳහා රැකියා දීමනා කියවන විට මා අතින් තෝරාගත් ඒවා දෙකම මම ඇතුළත් කළෙමි. LinkedIn මූලාශ්‍ර ලැයිස්තුවට ඇතුළත් කර නොතිබුණි, මන්ද මම දත්ත රැස් කිරීමට මා අවසන් උත්සාහයෙන් පසුව එහි තහනම් කළ බැවිනි.

සෑම මූල පදයක් සඳහාම, මම එක් එක් වෙබ් අඩවියේ ඇති මුළු පෙළ සංඛ්‍යාවෙන් පහර ප්‍රතිශතය වෙන වෙනම ගණනය කළ අතර, පසුව මූලාශ්‍ර තුන සඳහා සාමාන්‍යය ගණනය කළෙමි.

ප්රතිඵල

රැකියා ස්ථාන තුනම හරහා ඉහළම ලකුණු සහිත තාක්ෂණික දත්ත ඉංජිනේරු නියමයන් තිහ පහත දැක්වේ.

දත්ත ඉංජිනේරු වෘත්තියේ වඩාත්ම ඉල්ලුමේ කුසලතා

මෙන්න එකම ඉලක්කම්, නමුත් වගු ආකාරයෙන් ඉදිරිපත් කර ඇත:

දත්ත ඉංජිනේරු වෘත්තියේ වඩාත්ම ඉල්ලුමේ කුසලතා

අපි පිළිවෙලට යමු.

ප්රතිඵල සමාලෝචනය

SQL සහ Python යන දෙකම සමාලෝචනය කරන ලද රැකියා අවස්ථා තුනෙන් දෙකකට වඩා වැඩි ප්‍රමාණයක පෙනී සිටියි. මුලින්ම අධ්යයනය කිරීම අර්ථවත් වන්නේ මෙම තාක්ෂණයන් දෙකයි. Python මීට උදාහරණ දත්ත සමඟ වැඩ කිරීම, වෙබ් අඩවි නිර්මාණය කිරීම සහ ස්ක්‍රිප්ට් ලිවීම සඳහා භාවිතා කරන ඉතා ජනප්‍රිය ක්‍රමලේඛන භාෂාවකි. SQL ව්‍යුහගත විමසුම් භාෂාව යන්නෙන් අදහස් කෙරේ; එයට භාෂා සමූහයක් විසින් ක්‍රියාත්මක කරන ලද ප්‍රමිතියක් ඇතුළත් වන අතර එය සම්බන්ධතා දත්ත සමුදායන්ගෙන් දත්ත ලබා ගැනීමට භාවිතා කරයි. එය බොහෝ කලකට පෙර පෙනී සිටි අතර එය ඉතා ප්රතිරෝධී බව ඔප්පු වී ඇත.

පුරප්පාඩුවලින් අඩක් පමණ ස්පාර්ක් සඳහන් කර ඇත. අපාචේ ස්පාර්ක් යනු "ප්‍රවාහය, SQL, යන්ත්‍ර ඉගෙනීම සහ ප්‍රස්තාර සැකසීම සඳහා බිල්ට් මොඩියුල සහිත ඒකාබද්ධ විශාල දත්ත විශ්ලේෂණ එන්ජිමකි." විශාල දත්ත සමුදායන් සමඟ වැඩ කරන අය අතර එය විශේෂයෙන් ජනප්රියයි.

AWS රැකියා පළ කිරීම් වලින් ආසන්න වශයෙන් 45% ක් තුළ දිස්වේ. එය Amazon විසින් නිෂ්පාදනය කරන ලද වලාකුළු පරිගණක වේදිකාවකි; එය සියලුම ක්ලවුඩ් වේදිකා අතර විශාලතම වෙළඳපල කොටස ඇත.
ඊළඟට එන්නේ Java සහ Hadoop - ඔවුන්ගේ සහෝදරයාට 40% කට වඩා ටිකක් වැඩියි. ජාවා යනු බහුලව කතා කරන, සටන්-පරීක්ෂා කරන ලද භාෂාවකි 2019 තොග පිටාර ගැලීමේ සංවර්ධක සමීක්ෂණය ක්‍රමලේඛකයින් අතර භීතිය ඇති කරන භාෂා අතර දහවන ස්ථානය පිරිනමන ලදී. ඊට වෙනස්ව, පයිතන් දෙවන වඩාත් ආදරය කරන භාෂාව විය. ජාවා භාෂාව Oracle විසින් මෙහෙයවනු ලබන අතර, ඒ පිළිබඳව ඔබට දැන ගැනීමට අවශ්‍ය සියල්ල 2020 ජනවාරි සිට නිල පිටුවේ මෙම තිර පිටපතෙන් තේරුම් ගත හැක.

දත්ත ඉංජිනේරු වෘත්තියේ වඩාත්ම ඉල්ලුමේ කුසලතා

හරියට කාල යන්ත්‍රයක පදිනව වගේ
අපාචි හදූප් විශාල දත්ත සඳහා සේවාදායක පොකුරු සහිත MapReduce ක්‍රමලේඛන ආකෘතිය භාවිතා කරයි. දැන් මෙම ආකෘතිය වැඩි වැඩියෙන් අත්හැර දමා ඇත.

එවිට අපි Hive, Scala, Kafka සහ NoSQL දකිනවා - මෙම සෑම තාක්ෂණයක්ම ඉදිරිපත් කර ඇති පුරප්පාඩු වලින් හතරෙන් එකක සඳහන් වේ. Apache Hive යනු දත්ත ගබඩා මෘදුකාංගයක් වන අතර එය "SQL භාවිතයෙන් බෙදා හරින ලද වෙළඳසැල්වල විශාල දත්ත කට්ටල කියවීමට, ලිවීමට සහ කළමනාකරණය කිරීමට පහසු කරයි." පරිමාණය - විශාල දත්ත සමඟ වැඩ කිරීමේදී ක්රියාකාරීව භාවිතා කරන ක්රමලේඛන භාෂාවකි. විශේෂයෙන්ම, Spark Scala හි නිර්මාණය කරන ලදී. බියට පත් භාෂා පිළිබඳ දැනටමත් සඳහන් කර ඇති ශ්රේණිගත කිරීමෙහි, Scala එකොළොස්වන ස්ථානයට පත්වේ. Apache Kafka - ප්‍රවාහ පණිවිඩ සැකසීම සඳහා බෙදා හරින ලද වේදිකාවක්. දත්ත ප්‍රවාහ කිරීමේ මාධ්‍යයක් ලෙස ඉතා ජනප්‍රියයි.

NoSQL දත්ත සමුදායන් SQL සමඟ සංසන්දනය කරන්න. ඒවා එකිනෙකට සම්බන්ධ නොවන, ව්‍යුහගත නොවන සහ තිරස් ලෙස පරිමාණය කළ හැකි නිසා වෙනස් වේ. NoSQL යම් ජනප්‍රියත්වයක් ලබා ඇත, නමුත් ප්‍රවේශය සඳහා වූ උන්මාදය, එය ප්‍රමුඛ ගබඩා ආදර්ශය ලෙස SQL ප්‍රතිස්ථාපනය කරන බවට අනාවැකි දක්වා පවා, අවසන් වී ඇති බව පෙනේ.

දත්ත විද්‍යා පුරප්පාඩුවල නියමයන් සමඟ සැසඳීම

දත්ත විද්‍යා සේවා යෝජකයින් අතර බහුලව දක්නට ලැබෙන තාක්ෂණික පද තිහක් මෙහි දැක්වේ. දත්ත ඉංජිනේරු විද්‍යාව සඳහා ඉහත විස්තර කර ඇති ආකාරයටම මම මෙම ලැයිස්තුව ලබා ගත්තෙමි.

දත්ත ඉංජිනේරු වෘත්තියේ වඩාත්ම ඉල්ලුමේ කුසලතා

2020 දී දත්ත විද්‍යාඥ තනතුර සඳහා පුරප්පාඩුවල තාක්‍ෂණය ගැන සඳහන් කිරීම

අපි මුළු සංඛ්‍යාව ගැන කතා කරන්නේ නම්, කලින් සලකා බැලූ බඳවා ගැනීම්වලට සාපේක්ෂව, 28% වැඩි පුරප්පාඩු (12 සහ 013) විය. දත්ත ඉංජිනේරුවන්ට වඩා දත්ත විද්‍යාඥයින් සඳහා පුරප්පාඩු තුළ අඩු පොදු තාක්ෂණයන් මොනවාදැයි බලමු.

දත්ත ඉංජිනේරු විද්‍යාවේ වඩාත් ජනප්‍රියයි

පහත ප්‍රස්ථාරය 10% ට වඩා වැඩි හෝ -10% ට අඩු සාමාන්‍ය වෙනසක් සහිත මූල පද පෙන්වයි.

දත්ත ඉංජිනේරු වෘත්තියේ වඩාත්ම ඉල්ලුමේ කුසලතා

දත්ත ඉංජිනේරු සහ දත්ත විද්‍යාඥයන් අතර ඇති මූල පද සංඛ්‍යාතයේ විශාලතම වෙනස්කම්

AWS වඩාත්ම සැලකිය යුතු වැඩි වීමක් පෙන්නුම් කරයි: දත්ත ඉංජිනේරු විද්‍යාවේදී එය දත්ත විද්‍යාවට වඩා 25% ක් නිතිපතා පෙනේ (පිළිවෙලින් සම්පූර්ණ පුරප්පාඩු සංඛ්‍යාවෙන් 45% සහ 20%). වෙනස කැපී පෙනේ!

මෙන්න තරමක් වෙනස් ඉදිරිපත් කිරීමක එකම දත්ත - ප්‍රස්ථාරයේ, දත්ත ඉංජිනේරු සහ දත්ත විද්‍යාඥ යන තනතුරු සඳහා වන පුරප්පාඩුවල එකම මූල පදය සඳහා ප්‍රතිඵල එක පැත්තකින් පිහිටා ඇත.

දත්ත ඉංජිනේරු වෘත්තියේ වඩාත්ම ඉල්ලුමේ කුසලතා

දත්ත ඉංජිනේරු සහ දත්ත විද්‍යාඥයන් අතර ඇති මූල පද සංඛ්‍යාතයේ විශාලතම වෙනස්කම්

මීළඟට මා සටහන් කළ විශාලතම පිම්ම ස්පාර්ක් හි - දත්ත ඉංජිනේරුවෙකුට බොහෝ විට විශාල දත්ත සමඟ වැඩ කිරීමට සිදුවේ. කාෆ්කා දත්ත විද්‍යා පුරප්පාඩු සඳහා වූ ප්‍රතිඵලයට සාපේක්ෂව 20% කින්, එනම් හතර ගුණයකින් පමණ වැඩි වී ඇත. දත්ත හුවමාරුව යනු දත්ත ඉංජිනේරුවෙකුගේ ප්‍රධාන වගකීමකි. අවසාන වශයෙන්, Java, NoSQL, Redshift, SQL සහ Hadoop සඳහා දත්ත ඉංජිනේරු ක්ෂේත්‍රයේ සඳහන් කිරීම් සංඛ්‍යාව 15% වැඩි විය.

දත්ත ඉංජිනේරු විද්‍යාවේ අඩු ජනප්‍රියයි

දැන් අපි බලමු Data engineer පුරප්පාඩු වල ජනප්‍රිය අඩු තාක්ෂණයන් මොනවද කියලා.
දත්ත විද්‍යා අංශයට සාපේක්ෂව තියුනුම පරිහානිය සිදුවී ඇත R: එහිදී ඔහු පුරප්පාඩු වලින් 56% ක් පමණ පෙනී සිටියේය, මෙන්න - 17% කින් පමණි. සිත් ඇදගන්නා සුළුය. R යනු ක්‍රමලේඛන භාෂාවක් වන අතර එය විද්‍යාඥයින් සහ සංඛ්‍යාලේඛනඥයින් විසින් අනුග්‍රහය දක්වන අතර එය ලෝකයේ අටවන වඩාත්ම බිය උපදවන භාෂාව වේ.

SAS දත්ත ඉංජිනේරු තනතුර සඳහා පුරප්පාඩු වල ද සැලකිය යුතු ලෙස අඩු වාර ගණනක් දක්නට ලැබේ - වෙනස 14% කි. SAS යනු සංඛ්‍යාලේඛන සහ දත්ත සමඟ වැඩ කිරීම සඳහා නිර්මාණය කර ඇති හිමිකාර භාෂාවකි. සිත්ගන්නා කරුණ: ප්රතිඵල අනුව විනිශ්චය කිරීම දත්ත විද්‍යාඥයින් සඳහා රැකියා අවස්ථා පිළිබඳ මගේ පර්යේෂණ, එය වෙනත් ඕනෑම තාක්ෂණයකට වඩා මෑතකදී බොහෝ බිම් අහිමි වී ඇත.

දත්ත ඉංජිනේරු විද්‍යාව සහ දත්ත විද්‍යාව යන දෙකෙහිම ඉල්ලුමේ

කට්ටල දෙකෙහිම පළමු ස්ථාන දහයෙන් අටක් සමාන බව සැලකිය යුතුය. SQL, Python, Spark, AWS, Java, Hadoop, Hive සහ Scala දත්ත ඉංජිනේරු සහ දත්ත විද්‍යා කර්මාන්ත යන දෙඅංශයෙන්ම පළමු දහය අතරට පැමිණ ඇත. පහත ප්‍රස්ථාරයෙන් ඔබට දත්ත ඉංජිනේරු සේවා යෝජකයින් අතර වඩාත් ජනප්‍රිය තාක්ෂණයන් පහළොවක් දැක ගත හැකි අතර, ඒවායින් ඊළඟට දත්ත විද්‍යාඥයින් සඳහා ඔවුන්ගේ පුරප්පාඩු අනුපාතය වේ.

දත්ත ඉංජිනේරු වෘත්තියේ වඩාත්ම ඉල්ලුමේ කුසලතා

නිර්දේශ

ඔබට දත්ත ඉංජිනේරු විද්‍යාවට පිවිසීමට අවශ්‍ය නම්, පහත සඳහන් තාක්ෂණයන් ප්‍රගුණ කිරීමට මම ඔබට උපදෙස් දෙමි - මම ඒවා ආසන්න වශයෙන් ප්‍රමුඛතාවය අනුව ලැයිස්තුගත කරමි.

SQL ඉගෙන ගන්න. මම PostgreSQL වෙත නැඹුරු වන්නේ එය විවෘත මූලාශ්‍රයක්, ප්‍රජාව තුළ ඉතා ජනප්‍රිය සහ වර්ධන අවධියක පවතින බැවිනි. My Memorable SQL පොතෙන් ඔබට භාෂාව භාවිතා කරන ආකාරය ඉගෙන ගත හැකිය - එහි නියමු අනුවාදය තිබේ මෙහි.

Master Python, වඩාත්ම Hardcore මට්ටමේ නැතත්. My Memorable Python ආරම්භකයින් සඳහා විශේෂයෙන් නිර්මාණය කර ඇත. එය මිලදී ගත හැක ඇමේසන්, විද්‍යුත් හෝ භෞතික පිටපත, ඔබේ තේරීම, හෝ pdf හෝ epub ආකෘතියෙන් බාගන්න මෙම වෙබ් අඩවිය.

ඔබ Python ගැන හුරුපුරුදු වූ පසු, දත්ත පිරිසිදු කිරීම සහ සැකසීම සඳහා භාවිතා කරන Python පුස්තකාලයක් වන pandas වෙත යන්න. ඔබ පයිතන් හි ලිවීමේ හැකියාව අවශ්‍ය සමාගමක වැඩ කිරීමට ඉලක්ක කරන්නේ නම් (මෙය ඒවායින් බහුතරයකි), පැන්ඩා පිළිබඳ දැනුම පෙරනිමියෙන් උපකල්පනය කරනු ඇති බවට ඔබට සහතික විය හැකිය. මම දැනට පැන්ඩා සමඟ වැඩ කිරීම සඳහා හඳුන්වාදීමේ මාර්ගෝපදේශයක් අවසන් කරමි - ඔබට පුළුවන් දායක වන්නමුදා හැරීමේ මොහොත අතපසු නොකිරීමට.

මාස්ටර් AWS. ඔබට දත්ත ඉංජිනේරුවෙකු වීමට අවශ්‍ය නම්, ඔබට ස්ටෑෂ් හි වලාකුළු වේදිකාවක් නොමැතිව කළ නොහැකි අතර AWS ඔවුන්ගෙන් වඩාත් ජනප්‍රිය වේ. පාඨමාලා මට ගොඩක් උදව් කළා ලිනක්ස් ඇකඩමියමම ඉගෙන ගන්න කාලේ Google Cloud මත දත්ත ඉංජිනේරු, මම හිතන්නේ ඔවුන් AWS මත හොඳ ද්‍රව්‍ය ද ඇති බවයි.

ඔබ දැනටමත් මෙම සම්පූර්ණ ලැයිස්තුව සම්පූර්ණ කර ඇත්නම් සහ දත්ත ඉංජිනේරුවෙකු ලෙස සේවා යෝජකයන්ගේ ඇස් හමුවේ තවදුරටත් වර්ධනය වීමට අවශ්‍ය නම්, විශාල දත්ත සමඟ වැඩ කිරීම සඳහා Apache Spark එක් කිරීමට මම යෝජනා කරමි. දත්ත විද්‍යා පුරප්පාඩු පිළිබඳ මගේ පර්යේෂණය උනන්දුව අඩුවීමක් පෙන්නුම් කළද, දත්ත ඉංජිනේරුවන් අතර එය තවමත් සෑම තත්පර පුරප්පාඩුවකම පාහේ දක්නට ලැබේ.

අන්තිමට

දත්ත ඉංජිනේරුවන් සඳහා වඩාත්ම ඉල්ලුමේ තාක්ෂණයන් පිළිබඳ මෙම දළ විශ්ලේෂණය ඔබට ප්‍රයෝජනවත් වනු ඇතැයි මම බලාපොරොත්තු වෙමි. විශ්ලේෂක රැකියා කෙබඳුදැයි ඔබ කල්පනා කරන්නේ නම්, කියවන්න මගේ අනෙක් ලිපිය. සුභ ඉංජිනේරු!

මූලාශ්රය: www.habr.com

අදහස් එක් කරන්න