දත්ත ඉංජිනේරු සහ දත්ත විද්යාඥ: වෙනස කුමක්ද?

Data Scientist සහ Data Engineer යන වෘත්තීන් බොහෝ විට ව්‍යාකූල වේ. සෑම සමාගමකටම දත්ත සමඟ වැඩ කිරීමේ තමන්ගේම විශේෂතා ඇත, ඒවායේ විශ්ලේෂණය සඳහා විවිධ අරමුණු සහ කාර්යයේ කුමන කොටස සමඟ කටයුතු කළ යුතු විශේෂ ist යෙකු ද යන්න පිළිබඳ වෙනස් අදහසක් ඇත, එබැවින් සෑම කෙනෙකුටම තමන්ගේම අවශ්‍යතා ඇත. 

මෙම විශේෂඥයින් අතර ඇති වෙනස කුමක්ද, ඔවුන් විසඳන ව්යාපාරික ගැටළු මොනවාද, ඔවුන් සතුව ඇති කුසලතා මොනවාද සහ ඔවුන් කොපමණ මුදලක් උපයන්නේදැයි සොයා බලමු. ද්රව්ය විශාල විය, එබැවින් අපි එය ප්රකාශන දෙකකට බෙදා ඇත.

පළමු ලිපියේ, පීඨයේ ප්රධානී එලේනා ජෙරසිමෝවා "දත්ත විද්‍යාව සහ විශ්ලේෂණ"ජාල විද්‍යාවේදී, දත්ත විද්‍යාඥයෙකු සහ දත්ත ඉංජිනේරුවෙකු අතර වෙනස කුමක්ද සහ ඔවුන් වැඩ කරන මෙවලම් මොනවාදැයි කියයි.

ඉංජිනේරුවන්ගේ සහ විද්‍යාඥයින්ගේ භූමිකාවන් වෙනස් වන ආකාරය

දත්ත ඉංජිනේරුවෙකු යනු එක් අතකින් දත්ත යටිතල පහසුකම් සංවර්ධනය කරන, පරීක්ෂා කරන සහ නඩත්තු කරන විශේෂඥයෙකි: දත්ත සමුදායන්, ගබඩා කිරීම සහ මහා සැකසුම් පද්ධති. අනෙක් අතට, මෙය විශ්ලේෂකයින් සහ දත්ත විද්‍යාඥයින් විසින් භාවිතා කිරීම සඳහා දත්ත පිරිසිදු කර “පනා” කරන්නේ, එනම් දත්ත සැකසුම් නල මාර්ග නිර්මාණය කරයි.

දත්ත විද්‍යාඥයා යන්ත්‍ර ඉගෙනුම් ඇල්ගොරිතම සහ ස්නායු ජාල භාවිතා කරමින් පුරෝකථන (සහ වෙනත්) ආකෘති නිර්මාණය කර පුහුණු කරයි, ව්‍යාපාරවලට සැඟවුණු රටා සොයා ගැනීමට, වර්ධනයන් පුරෝකථනය කිරීමට සහ ප්‍රධාන ව්‍යාපාර ක්‍රියාවලීන් ප්‍රශස්ත කිරීමට උදවු කරයි.

දත්ත විද්‍යාඥයෙකු සහ දත්ත ඉංජිනේරුවෙකු අතර ඇති ප්‍රධාන වෙනස වන්නේ ඔවුන්ට සාමාන්‍යයෙන් විවිධ ඉලක්ක තිබීමයි. දත්ත ප්‍රවේශ විය හැකි සහ උසස් තත්ත්වයේ බව සහතික කිරීමට දෙකම ක්‍රියා කරයි. නමුත් දත්ත විද්‍යාඥයෙක් ඔහුගේ ප්‍රශ්නවලට පිළිතුරු සොයා ගන්නා අතර දත්ත පරිසර පද්ධතියක උපකල්පන පරීක්ෂා කරයි (උදාහරණයක් ලෙස, Hadoop මත පදනම්ව), සහ දත්ත ඉංජිනේරුවෙකු විසින් Spark පොකුරක් තුළ දත්ත විද්‍යාඥයෙකු විසින් ලියන ලද යන්ත්‍ර ඉගෙනුම් ඇල්ගොරිතමයකට සේවා සැපයීම සඳහා නල මාර්ගයක් නිර්මාණය කරයි. පරිසර පද්ධතිය. 

දත්ත ඉංජිනේරුවෙකු කණ්ඩායමක කොටසක් ලෙස වැඩ කිරීමෙන් ව්‍යාපාරයකට වටිනාකමක් ගෙන එයි. එහි කර්තව්‍යය වන්නේ විවිධ සහභාගිවන්නන් අතර වැදගත් සම්බන්ධකයක් ලෙස ක්‍රියා කිරීමයි: සංවර්ධකයින්ගේ සිට වාර්තා කිරීමේ ව්‍යාපාරික පාරිභෝගිකයින් දක්වා සහ විශ්ලේෂකයින්ගේ ඵලදායිතාව, අලෙවිකරණය සහ නිෂ්පාදනයේ සිට BI දක්වා වැඩි කිරීම. 

දත්ත විද්‍යාඥයෙකු, ඊට ප්‍රතිවිරුද්ධව, සමාගමේ උපාය මාර්ගවල ක්‍රියාකාරී කොටසක් ගන්නා අතර තීක්ෂ්ණ බුද්ධිය ලබා ගැනීම, තීරණ ගැනීම, ස්වයංක්‍රීය ඇල්ගොරිතම ක්‍රියාත්මක කිරීම, ආකෘති නිර්මාණය සහ දත්ත වලින් වටිනාකමක් ජනනය කරයි.
දත්ත ඉංජිනේරු සහ දත්ත විද්යාඥ: වෙනස කුමක්ද?

දත්ත සමඟ වැඩ කිරීම GIGO (කසළ ඇතුලේ - කුණු පිටතට) මූලධර්මයට යටත් වේ: විශ්ලේෂකයින් සහ දත්ත විද්‍යාඥයින් සූදානම් නොකළ සහ විභව වැරදි දත්ත සමඟ කටයුතු කරන්නේ නම්, වඩාත් සංකීර්ණ විශ්ලේෂණ ඇල්ගොරිතම භාවිතයෙන් පවා ප්‍රතිඵල වැරදි වනු ඇත. 

දත්ත සැකසීම, පිරිසිදු කිරීම සහ පරිවර්තනය කිරීම සඳහා නල මාර්ග තැනීමෙන් සහ දත්ත විද්‍යාඥයින්ට උසස් තත්ත්වයේ දත්ත සමඟ වැඩ කිරීමට ඉඩ දීමෙන් දත්ත ඉංජිනේරුවන් මෙම ගැටලුව විසඳයි. 

සෑම අදියරක්ම ආවරණය වන දත්ත සමඟ වැඩ කිරීම සඳහා වෙළඳපොලේ බොහෝ මෙවලම් තිබේ: දත්තවල පෙනුමේ සිට ප්රතිදානය දක්වා අධ්යක්ෂ මණ්ඩලය සඳහා උපකරණ පුවරුව දක්වා. ඒවා භාවිතා කිරීමට තීරණය කිරීම ඉංජිනේරුවෙකු විසින් ගැනීම වැදගත්ය - එය විලාසිතාවක් නිසා නොව, ක්‍රියාවලියේ අනෙකුත් සහභාගිවන්නන්ගේ කාර්යයට ඔහු සැබවින්ම උදව් කරන බැවිනි. 

සාම්ප්‍රදායිකව: සමාගමකට BI සහ ETL අතර සම්බන්ධතා ඇති කර ගැනීමට අවශ්‍ය නම් - දත්ත පැටවීම සහ වාර්තා යාවත්කාලීන කිරීම, දත්ත ඉංජිනේරුවෙකුට ගනුදෙනු කිරීමට සිදුවන සාමාන්‍ය උරුම පදනමක් මෙන්න (කණ්ඩායමේ ගෘහ නිර්මාණ ශිල්පියෙකු ද සිටී නම් එය හොඳයි).

දත්ත ඉංජිනේරුවෙකුගේ වගකීම්

  • දත්ත සැකසුම් යටිතල පහසුකම් සංවර්ධනය, ඉදිකිරීම් සහ නඩත්තු කිරීම.
  • දෝෂ හැසිරවීම සහ විශ්වසනීය දත්ත සැකසුම් නල මාර්ග නිර්මාණය කිරීම.
  • විවිධ ගතික මූලාශ්‍රවලින් ව්‍යුහගත නොවන දත්ත විශ්ලේෂකයන්ගේ කාර්යය සඳහා අවශ්‍ය පෝරමයට ගෙන ඒම.
  • දත්ත අනුකූලතාව සහ ගුණාත්මකභාවය වැඩි දියුණු කිරීම සඳහා නිර්දේශ ලබා දීම.
  • දත්ත විද්‍යාඥයින් සහ දත්ත විශ්ලේෂකයින් විසින් භාවිතා කරන දත්ත ගෘහ නිර්මාණ ශිල්පය සැපයීම සහ නඩත්තු කිරීම.
  • දස හෝ සිය ගණනක සේවාදායක බෙදා හරින ලද පොකුරක් තුළ දත්ත ස්ථාවරව හා කාර්යක්ෂමව සැකසීම සහ ගබඩා කිරීම.
  • බාධාවකින් බේරීමට හැකි සරල නමුත් ශක්තිමත් ගෘහනිර්මාණ නිර්මාණය කිරීමට මෙවලම්වල තාක්ෂණික වෙළඳාම ඇගයීම.
  • දත්ත ප්‍රවාහ සහ අදාළ පද්ධති පාලනය සහ සහාය (අධීක්‍ෂණය සහ ඇඟවීම් සැකසීම).

දත්ත ඉංජිනේරු ගමන් පථය තුළ තවත් විශේෂත්වයක් ඇත - ML ඉංජිනේරු. කෙටියෙන් කිවහොත්, මෙම ඉංජිනේරුවන් කාර්මික ක්‍රියාවට නැංවීමට සහ භාවිතයට යන්ත්‍ර ඉගෙනීමේ ආකෘති ගෙන ඒම සඳහා විශේෂීකරණය කරයි. බොහෝ විට, දත්ත විද්‍යාඥයෙකුගෙන් ලැබුණු ආකෘතියක් අධ්‍යයනයක කොටසක් වන අතර සටන් තත්වයන් තුළ ක්‍රියා නොකරනු ඇත.

දත්ත විද්‍යාඥයෙකුගේ වගකීම්

  • යන්ත්‍ර ඉගෙනීමේ ඇල්ගොරිතම යෙදීම සඳහා දත්ත වලින් විශේෂාංග උපුටා ගැනීම.
  • දත්තවල රටා පුරෝකථනය කිරීමට සහ වර්ග කිරීමට විවිධ යන්ත්‍ර ඉගෙනුම් මෙවලම් භාවිතා කිරීම.
  • යන්ත්‍ර ඉගෙනීමේ ඇල්ගොරිතමවල ක්‍රියාකාරීත්වය සහ නිරවද්‍යතාවය වැඩිදියුණු කිරීම මගින් ඇල්ගොරිතම මනාව සකස් කිරීම සහ ප්‍රශස්ත කිරීම.
  • පරීක්ෂා කළ යුතු සමාගමේ උපාය මාර්ගයට අනුකූලව "ශක්තිමත්" උපකල්පන සැකසීම.

Data Engineer සහ Data Scientist යන දෙදෙනාම දත්ත සංස්කෘතියක් වර්ධනය කිරීම සඳහා ප්‍රත්‍යක්ෂ දායකත්වයක් ලබා දෙන අතර එමඟින් සමාගමකට අමතර ලාභ උපයා ගැනීමට හෝ පිරිවැය අඩු කිරීමට හැකිය.

ඉංජිනේරුවන් සහ විද්‍යාඥයින් වැඩ කරන්නේ කුමන භාෂා සහ මෙවලම් සමඟද?

අද වන විට දත්ත විද්‍යාඥයින්ගේ අපේක්ෂාවන් වෙනස් වී ඇත. මීට පෙර, ඉංජිනේරුවන් විශාල SQL විමසුම් එකතු කර, MapReduce අතින් ලියා Informatica ETL, Pentaho ETL, Talend වැනි මෙවලම් භාවිතයෙන් දත්ත සැකසූහ. 

2020 දී, විශේෂඥයෙකුට Python සහ නවීන ගණනය කිරීමේ මෙවලම් (උදාහරණයක් ලෙස, Airflow), වලාකුළු වේදිකා සමඟ වැඩ කිරීමේ මූලධර්ම පිළිබඳ අවබෝධය (ආරක්ෂක මූලධර්ම නිරීක්ෂණය කරමින් දෘඩාංග මත ඉතිරි කිරීමට ඒවා භාවිතා කිරීම) පිළිබඳ දැනුමක් නොමැතිව කළ නොහැකිය.

SAP, Oracle, MySQL, Redis යනු විශාල සමාගම්වල දත්ත ඉංජිනේරුවන් සඳහා සාම්ප්රදායික මෙවලම් වේ. ඒවා හොඳයි, නමුත් බලපත්‍රවල පිරිවැය ඉතා ඉහළ බැවින් ඔවුන් සමඟ වැඩ කිරීමට ඉගෙනීම අර්ථවත් වන්නේ කාර්මික ව්‍යාපෘතිවල පමණි. ඒ සමගම, Postgres ආකාරයෙන් නොමිලේ විකල්පයක් ඇත - එය නොමිලේ සහ පුහුණුව සඳහා පමණක් සුදුසු නොවේ. 

දත්ත ඉංජිනේරු සහ දත්ත විද්යාඥ: වෙනස කුමක්ද?
ඓතිහාසික වශයෙන්, Java සහ Scala සඳහා ඉල්ලීම් බොහෝ විට දක්නට ලැබේ, නමුත් තාක්ෂණයන් සහ ප්රවේශයන් වර්ධනය වන විට, මෙම භාෂා පසුබිමට මැකී යයි.

කෙසේ වෙතත්, Hardcore BigData: Hadoop, Spark සහ සෙසු සත්වෝද්‍යාන තවදුරටත් දත්ත ඉංජිනේරුවෙකු සඳහා පූර්ව අවශ්‍යතාවයක් නොවේ, නමුත් සම්ප්‍රදායික ETL මගින් විසඳිය නොහැකි ගැටළු විසඳීම සඳහා මෙවලම් වර්ගයකි. 

ප්‍රවණතාවය වන්නේ ඒවා ලියා ඇති භාෂාව පිළිබඳ දැනුමකින් තොරව මෙවලම් භාවිතා කිරීමේ සේවාවන් (උදාහරණයක් ලෙස, ජාවා පිළිබඳ දැනුමක් නොමැතිව Hadoop), මෙන්ම ප්‍රවාහ දත්ත සැකසීම සඳහා සූදානම් කළ සේවාවන් සැපයීම (වීඩියෝවේ හඬ හඳුනාගැනීම හෝ රූප හඳුනාගැනීම). )

SAS සහ SPSS වෙතින් කාර්මික විසඳුම් ජනප්‍රිය වන අතර Tableau, Rapidminer, Stata සහ Julia ද දත්ත විද්‍යාඥයින් විසින් දේශීය කාර්යයන් සඳහා බහුලව භාවිතා කරයි.

දත්ත ඉංජිනේරු සහ දත්ත විද්යාඥ: වෙනස කුමක්ද?
නල මාර්ග සෑදීමේ හැකියාව විශ්ලේෂකයින්ට සහ දත්ත විද්‍යාඥයින්ට පෙනී ගියේ මීට වසර කිහිපයකට පෙර ය: උදාහරණයක් ලෙස, සාපේක්ෂව සරල ස්ක්‍රිප්ට් භාවිතයෙන් PostgreSQL මත පදනම් වූ ගබඩාවකට දත්ත යැවීමට දැනටමත් හැකියාව ඇත. 

සාමාන්‍යයෙන්, නල මාර්ග සහ ඒකාබද්ධ දත්ත ව්‍යුහයන් භාවිතය දත්ත ඉංජිනේරුවන්ගේ වගකීම වේ. නමුත් අද වන විට, මෙවලම් නිරන්තරයෙන් සරල කර ඇති බැවින්, අදාළ ක්ෂේත්‍රවල පුළුල් නිපුණතා ඇති T-හැඩැති විශේෂඥයින් සඳහා වන ප්‍රවණතාවය වෙන කවරදාටත් වඩා ශක්තිමත් ය.

ඇයි Data Engineer සහ Data Scientist එකට වැඩ කරන්නේ

ඉංජිනේරුවන් සමඟ සමීපව කටයුතු කිරීමෙන්, දත්ත විද්‍යාඥයින්ට පර්යේෂණ පැත්තට අවධානය යොමු කළ හැකි අතර, නිෂ්පාදන-සූදානම් යන්ත්‍ර ඉගෙනීමේ ඇල්ගොරිතම නිර්මාණය කරයි.
ඉංජිනේරුවන් විසින් පරිමාණය, දත්ත නැවත භාවිතය සහ එක් එක් ව්‍යාපෘතියේ දත්ත ආදානය සහ ප්‍රතිදාන නල මාර්ග ගෝලීය ගෘහ නිර්මාණ ශිල්පයට අනුකූල වන බව සහතික කිරීම කෙරෙහි අවධානය යොමු කළ යුතුය.

මෙම වගකීම් වෙන් කිරීම විවිධ යන්ත්‍ර ඉගෙනුම් ව්‍යාපෘතිවල වැඩ කරන කණ්ඩායම් හරහා අනුකූලතාව සහතික කරයි. 

සහයෝගීතාවය නව නිෂ්පාදන කාර්යක්ෂමව නිර්මාණය කිරීමට උපකාරී වේ. සෑම කෙනෙකුටම සේවාවක් නිර්මාණය කිරීම (ගෝලීය ගබඩා කිරීම හෝ උපකරණ පුවරු ඒකාබද්ධ කිරීම) සහ එක් එක් විශේෂිත අවශ්‍යතා හෝ ව්‍යාපෘතිය ක්‍රියාත්මක කිරීම (ඉතා විශේෂිත වූ නල මාර්ගය, බාහිර ප්‍රභවයන් සම්බන්ධ කිරීම) අතර සමතුලිතතාවයක් හරහා වේගය සහ ගුණාත්මකභාවය ලබා ගත හැකිය. 

දත්ත විද්‍යාඥයින් සහ විශ්ලේෂකයින් සමඟ සමීපව කටයුතු කිරීම ඉංජිනේරුවන්ට වඩා හොඳ කේතයක් ලිවීමට විශ්ලේෂණාත්මක සහ පර්යේෂණ කුසලතා වර්ධනය කිරීමට උපකාරී වේ. ගබඩා සහ දත්ත විල් භාවිතා කරන්නන් අතර දැනුම බෙදාගැනීම වැඩිදියුණු වන අතර, ව්‍යාපෘති වඩාත් කඩිසර කිරීම සහ වඩා තිරසාර දිගුකාලීන ප්‍රතිඵල ලබා දීම.

දත්ත සමඟ වැඩ කිරීමේ සංස්කෘතියක් වර්ධනය කිරීම සහ ඒවා මත පදනම් වූ ව්‍යාපාර ක්‍රියාවලීන් ගොඩනැගීම අරමුණු කරගත් සමාගම්වල, දත්ත විද්‍යාඥයා සහ දත්ත ඉංජිනේරුවන් එකිනෙකාට අනුපූරක වන අතර සම්පූර්ණ දත්ත විශ්ලේෂණ පද්ධතියක් නිර්මාණය කරයි. 

Data Engineer කෙනෙක්ට සහ Data Scientist කෙනෙක්ට මොන වගේ අධ්‍යාපනයක් ලැබිය යුතුද, ඔවුන් වර්ධනය කර ගත යුතු කුසලතා මොනවාද සහ වෙළඳපල ක්‍රියාත්මක වන ආකාරය ගැන අපි මීළඟ ලිපියෙන් කතා කරමු.

Netology සංස්කාරකවරුන්ගෙන්

ඔබ Data Engineer හෝ Data Scientist ගේ වෘත්තිය දෙස බලන්නේ නම්, අපගේ පාඨමාලා වැඩසටහන් හැදෑරීමට අපි ඔබට ආරාධනා කරමු:

මූලාශ්රය: www.habr.com

අදහස් එක් කරන්න