දත්ත ඉංජිනේරුවන් යනු කවුරුන්ද, ඔබ එක් අයෙකු වන්නේ කෙසේද?

නැවතත් ආයුබෝවන්! ලිපියේ මාතෘකාවම කතා කරයි. පාඨමාලාවේ ආරම්භය අපේක්ෂාවෙන් දත්ත ඉංජිනේරු දත්ත ඉංජිනේරුවන් කවුරුන්ද යන්න තේරුම් ගැනීමට අපි ඔබට යෝජනා කරමු. ලිපියේ ප්‍රයෝජනවත් සබැඳි රාශියක් ඇත. සතුටු කියවීම.

දත්ත ඉංජිනේරුවන් යනු කවුරුන්ද, ඔබ එක් අයෙකු වන්නේ කෙසේද?

Data Engineering තරංගය අල්ලා එය ඔබව අගාධයට ඇද දැමීමට ඉඩ නොදෙන ආකාරය පිළිබඳ සරල මාර්ගෝපදේශයකි.

මේ දවස්වල හැමෝම වගේ Data Scientist කෙනෙක් වෙන්න කැමතියි වගේ. නමුත් දත්ත ඉංජිනේරු විද්‍යාව ගැන කුමක් කිව හැකිද? අත්යවශ්යයෙන්ම, මෙය දත්ත විශ්ලේෂකයෙකුගේ සහ දත්ත විද්යාඥයෙකුගේ දෙමුහුන් වර්ගයකි; දත්ත ඉංජිනේරුවෙකු සාමාන්‍යයෙන් කාර්ය ප්‍රවාහ කළමනාකරණය, නල මාර්ග සැකසීම සහ ETL ක්‍රියාවලීන් සඳහා වගකිව යුතුය. මෙම කාර්යයන් වල වැදගත්කම නිසා, මෙය දැනට සක්‍රීයව වේගවත් වෙමින් පවතින තවත් ජනප්‍රිය වෘත්තීය ප්‍රකාශයකි.

ඉහළ වැටුප් සහ විශාල ඉල්ලුම මෙම රැකියාව අතිශයින්ම ආකර්ශනීය කරවන සුළු කොටසක් පමණි! ඔබට වීරයන් අතරට එක්වීමට අවශ්‍ය නම්, ඉගෙනීම ආරම්භ කිරීමට කිසි විටෙකත් ප්‍රමාද නැත. මෙම සටහනෙහි, ඔබගේ පළමු පියවර ගැනීමට ඔබට උපකාර කිරීමට අවශ්‍ය සියලු තොරතුරු මම රැස් කර ඇත.

එබැවින් අපි ආරම්භ කරමු!

Data Engineering යනු කුමක්ද?

අවංකවම, මෙයට වඩා හොඳ පැහැදිලි කිරීමක් නොමැත:

“විද්‍යාඥයෙකුට නව තාරකාවක් සොයා ගත හැකි නමුත් ඔහුට එය නිර්මාණය කළ නොහැක. ඔහුට එය කිරීමට ඉංජිනේරුවෙකුගෙන් ඉල්ලා සිටීමට සිදුවනු ඇත."

- ගෝර්ඩන් ලින්ඩ්සේ ග්ලෙග්

මේ අනුව, දත්ත ඉංජිනේරුවෙකුගේ කාර්යභාරය බෙහෙවින් වැදගත් ය.

නමට අනුව, දත්ත ඉංජිනේරු විද්‍යාව දත්ත, එනම් එහි බෙදා හැරීම, ගබඩා කිරීම සහ සැකසීම ගැන සැලකිලිමත් වේ. ඒ අනුව, ඉංජිනේරුවන්ගේ ප්‍රධාන කාර්යය වන්නේ දත්ත සඳහා විශ්වාසදායක යටිතල පහසුකම් සැපයීමයි. අපි අවශ්‍යතා පිළිබඳ AI ධුරාවලිය දෙස බැලුවහොත්, දත්ත ඉංජිනේරු විද්‍යාව පළමු අදියර 2-3 ක් ගනී: එකතු කිරීම, චලනය සහ ගබඩා කිරීම, දත්ත සැකසීම.

දත්ත ඉංජිනේරුවන් යනු කවුරුන්ද, ඔබ එක් අයෙකු වන්නේ කෙසේද?

දත්ත ඉංජිනේරුවෙකු කරන්නේ කුමක්ද?

විශාල දත්ත පැමිණීමත් සමඟ වගකීමේ විෂය පථය නාටකාකාර ලෙස වෙනස් වී ඇත. මීට පෙර මෙම විශේෂඥයින් Informatica ETL, Pentaho ETL, Talend වැනි මෙවලම් භාවිතයෙන් විශාල SQL විමසුම් සහ ආසවනය කළ දත්ත ලිව්වේ නම්, දැන් දත්ත ඉංජිනේරුවන්ගේ අවශ්‍යතා වැඩි වී ඇත.

දත්ත ඉංජිනේරු තනතුර සඳහා විවෘත පුරප්පාඩු ඇති බොහෝ සමාගම්වලට පහත අවශ්‍යතා ඇත:

  • SQL සහ Python පිළිබඳ විශිෂ්ට දැනුමක්.
  • වලාකුළු වේදිකා සමඟ අත්දැකීම්, විශේෂයෙන්ම Amazon වෙබ් සේවා.
  • Java/Scala දැනුම වඩාත් කැමති වේ.
  • SQL සහ NoSQL දත්ත සමුදායන් (දත්ත ආකෘතිකරණය, දත්ත ගබඩා කිරීම) පිළිබඳ හොඳ අවබෝධයක්.

මතක තබා ගන්න, මේවා අත්‍යවශ්‍ය දේ පමණි. මෙම ලැයිස්තුවෙන්, දත්ත ඉංජිනේරුවන් මෘදුකාංග සංවර්ධන සහ පසුබිම් ක්ෂේත්රයේ විශේෂඥයන් බව උපකල්පනය කළ හැකිය.
උදාහරණයක් ලෙස, සමාගමක් විවිධ මූලාශ්රවලින් දත්ත විශාල ප්රමාණයක් උත්පාදනය කිරීමට පටන් ගනී නම්, දත්ත ඉංජිනේරුවෙකු ලෙස ඔබේ කාර්යය වන්නේ තොරතුරු එකතු කිරීම, එහි සැකසීම සහ ගබඩා කිරීම සංවිධානය කිරීමයි.

මෙම නඩුවේ භාවිතා කරන මෙවලම් ලැයිස්තුව වෙනස් විය හැකිය, ඒ සියල්ල මෙම දත්ත පරිමාව, එහි රිසිට්පතේ වේගය සහ විෂමජාතීත්වය මත රඳා පවතී. බොහෝ සමාගම් විශාල දත්ත සමඟ කිසිසේත් ගනුදෙනු නොකරයි, එබැවින් මධ්‍යගත ගබඩාවක්, ඊනියා දත්ත ගබඩාවක් ලෙස, ඔබට දත්ත පෝෂණය කරන කුඩා ස්ක්‍රිප්ට් කට්ටලයක් සහිත SQL දත්ත ගබඩාවක් (PostgreSQL, MySQL, ආදිය) භාවිතා කළ හැකිය. ගබඩාව.

Google, Amazon, Facebook හෝ Dropbox වැනි තොරතුරු තාක්ෂණ දැවැන්තයින්ට ඉහල අවශ්‍යතා ඇත: Python, Java හෝ Scala පිළිබඳ දැනුම.

  • විශාල දත්ත සමඟ පළපුරුද්ද: Hadoop, Spark, Kafka.
  • ඇල්ගොරිතම සහ දත්ත ව්‍යුහයන් පිළිබඳ දැනුම.
  • බෙදා හරින ලද පද්ධතිවල මූලික කරුණු අවබෝධ කර ගැනීම.
  • Tableau හෝ ElasticSearch වැනි දත්ත දෘශ්‍යකරණ මෙවලම් සමඟ පළපුරුද්ද අමතර දෙයක් වනු ඇත.

එනම්, විශාල දත්ත වෙත පැහැදිලි මාරුවක් ඇත, එනම් ඉහළ බරක් යටතේ එය සැකසීමේදී. මෙම සමාගම් පද්ධතියේ වැරදි ඉවසීමේ අවශ්‍යතා වැඩි කර ඇත.

දත්ත ඉංජිනේරුවන් Vs. දත්ත විද්යාඥයන්

දත්ත ඉංජිනේරුවන් යනු කවුරුන්ද, ඔබ එක් අයෙකු වන්නේ කෙසේද?
හරි, එය සරල හා හාස්‍යජනක සංසන්දනයක් විය (පුද්ගලික කිසිවක් නැත), නමුත් යථාර්ථයේ දී එය වඩාත් සංකීර්ණ ය.

පළමුව, දත්ත විද්‍යාඥයෙකුගේ සහ දත්ත ඉංජිනේරුවෙකුගේ භූමිකාවන් සහ කුසලතා නිරූපණය කිරීමේදී බොහෝ අපැහැදිලි බවක් ඇති බව ඔබ දැනගත යුතුය. එනම්, සාර්ථක දත්ත ඉංජිනේරුවෙකු වීමට අවශ්‍ය කුසලතා මොනවාද යන්න පිළිබඳව ඔබට පහසුවෙන් ව්‍යාකූල විය හැකිය. ඇත්ත වශයෙන්ම, භූමිකාවන් දෙකම සමඟ අතිච්ඡාදනය වන ඇතැම් කුසලතා තිබේ. නමුත් එකිනෙකට වෙනස් කුසලතා ගණනාවක් ද තිබේ.

දත්ත විද්‍යාව බැරෑරුම් ව්‍යාපාරයකි, නමුත් අපි වෘත්තිකයන්ට තමන්ගේම විශ්ලේෂණ කළ හැකි ක්‍රියාකාරී දත්ත විද්‍යාවේ ලෝකයක් කරා ගමන් කරමින් සිටිමු. දත්ත නල මාර්ග සහ ඒකාබද්ධ දත්ත ව්‍යුහයන් සක්‍රීය කිරීමට, ඔබට අවශ්‍ය වන්නේ දත්ත විද්‍යාඥයන් නොව දත්ත ඉංජිනේරුවන්ය.

දත්ත විද්‍යාඥයෙකුට වඩා දත්ත ඉංජිනේරුවෙකුට වැඩි ඉල්ලුමක් තිබේද?

- ඔව්, ඔබ කැරට් කේක් සෑදීමට පෙර, ඔබ මුලින්ම කැරට් එකතු කිරීමට, පීල් කිරීමට සහ කොටස් කිරීමට අවශ්ය නිසා!

දත්ත ඉංජිනේරුවෙකු ඕනෑම දත්ත විද්‍යාඥයෙකුට වඩා හොඳින් ක්‍රමලේඛනය තේරුම් ගනී, නමුත් සංඛ්‍යාලේඛන සම්බන්ධයෙන් ගත් කල, ප්‍රතිවිරුද්ධ දෙය සත්‍ය වේ.

නමුත් දත්ත ඉංජිනේරුවෙකුගේ වාසිය මෙන්න:

ඔහු/ඇය නොමැතිව, දත්ත විද්‍යාඥයෙකුගෙන් ලබාගෙන කෙසේ හෝ ප්‍රතිඵලයක් නිපදවන Python ගොනුවක ඇති බිහිසුණු ගුණාත්මක කේත කැබැල්ලකින් සමන්විත බොහෝ විට මූලාකෘති ආකෘතියේ අගය බිංදුවට නැඹුරු වේ.

දත්ත ඉංජිනේරුවෙකු නොමැතිව, මෙම කේතය කිසි විටෙකත් ව්‍යාපෘතියක් බවට පත් නොවන අතර කිසිදු ව්‍යාපාරික ගැටලුවක් ඵලදායී ලෙස විසඳනු නොලැබේ. දත්ත ඉංජිනේරුවරයා මේ සියල්ල නිෂ්පාදනයක් බවට පත් කිරීමට උත්සාහ කරයි.

දත්ත ඉංජිනේරුවෙකු දැනගත යුතු මූලික තොරතුරු

දත්ත ඉංජිනේරුවන් යනු කවුරුන්ද, ඔබ එක් අයෙකු වන්නේ කෙසේද?

එබැවින්, මෙම කාර්යය ඔබ තුළ ආලෝකය ගෙන එන්නේ නම් සහ ඔබ උද්යෝගිමත් නම් - ඔබට එය ඉගෙන ගත හැකිය, ඔබට අවශ්ය සියලු කුසලතා ප්රගුණ කර දත්ත ඉංජිනේරු ක්ෂේත්රයේ සැබෑ රොක් ස්ටාර් බවට පත් විය හැකිය. තවද, ඔව්, ඔබට ක්‍රමලේඛන කුසලතා හෝ වෙනත් තාක්ෂණික දැනුමක් නොමැතිව වුවද මෙය ඉවත් කළ හැක. එය දුෂ්කර නමුත් හැකි ය!

පළමු පියවර මොනවාද?

කුමක්ද යන්න පිළිබඳ සාමාන්‍ය අදහසක් ඔබට තිබිය යුතුය.

මුලින්ම Data Engineering කියන්නේ පරිගණක විද්‍යාවට. වඩාත් නිශ්චිතව, ඔබ කාර්යක්ෂම ඇල්ගොරිතම සහ දත්ත ව්‍යුහයන් තේරුම් ගත යුතුය. දෙවනුව, දත්ත ඉංජිනේරුවන් දත්ත සමඟ වැඩ කරන බැවින්, දත්ත සමුදායේ මූලධර්ම සහ ඒවාට යටින් පවතින ව්යුහයන් අවබෝධ කර ගැනීම අවශ්ය වේ.

උදාහරණයක් ලෙස, සාම්ප්‍රදායික B-tree SQL දත්ත සමුදායන් B-Tree දත්ත ව්‍යුහය මත මෙන්ම, නවීන බෙදා හරින ලද ගබඩාවල, LSM-Tree සහ හැෂ් වගු වල වෙනත් වෙනස් කිරීම් මත පදනම් වේ.

*මෙම පියවර ශ්රේෂ්ඨ ලිපියක් මත පදනම් වේ Adilya Khashtamova. එබැවින්, ඔබ රුසියානු භාෂාව දන්නේ නම්, මෙම කතුවරයාට සහාය දී කියවන්න ඔහුගේ තනතුර.

1. ඇල්ගොරිතම සහ දත්ත ව්යුහයන්

නිවැරදි දත්ත ව්‍යුහය භාවිතා කිරීමෙන් ඇල්ගොරිතමයක ක්‍රියාකාරිත්වය සැලකිය යුතු ලෙස වැඩිදියුණු කළ හැකිය. ඉතා මැනවින්, අප සියලු දෙනා අපගේ පාසල්වල දත්ත ව්‍යුහයන් සහ ඇල්ගොරිතම ගැන ඉගෙන ගත යුතුය, නමුත් මෙය කලාතුරකින් ආවරණය වේ. ඕනෑම අවස්ථාවක, එය දැන හඳුනා ගැනීමට ප්රමාද වැඩියි.
එබැවින් දත්ත ව්‍යුහයන් සහ ඇල්ගොරිතම ඉගෙනීම සඳහා මගේ ප්‍රියතම නොමිලේ පාඨමාලා මෙන්න:

ඇල්ගොරිතම පිළිබඳ තෝමස් කෝමන්ගේ සම්භාව්‍ය වැඩ ගැන අමතක නොකරන්න - ඇල්ගොරිතම සඳහා හැඳින්වීම. ඔබට ඔබේ මතකය අලුත් කිරීමට අවශ්‍ය වූ විට මෙය පරිපූර්ණ යොමුවයි.

  • ඔබේ කුසලතා වැඩි දියුණු කිරීමට, භාවිතා කරන්න ලීට්කෝඩ්.

Youtube හි Carnegie Mellon විශ්ව විද්‍යාලයේ විස්මිත වීඩියෝ සමඟින් ඔබට දත්ත සමුදා ලෝකයට කිමිදිය හැක:

2. SQL ඉගෙන ගන්න

අපේ මුළු ජීවිතයම දත්ත වේ. මෙම දත්ත දත්ත සමුදායෙන් උපුටා ගැනීම සඳහා, ඔබ එය සමඟ එකම භාෂාව "කතා" කළ යුතුය.

SQL (ව්‍යුහගත විමසුම් භාෂාව) යනු දත්ත වසමේ සන්නිවේදන භාෂාවයි. කවුරු මොනවා කිව්වත් SQL ජීවත් වෙලා තියෙනවා, ජිවත් වෙනවා, ගොඩක් කල් ජීවත් වෙනවා.

ඔබ දිගු කලක් තිස්සේ වර්ධනය වී ඇත්නම්, SQL හි ආසන්න මරණය පිළිබඳ කටකතා වරින් වර මතු වන බව ඔබ දැක ඇති. මෙම භාෂාව 70 දශකයේ මුල් භාගයේදී වර්ධනය වූ අතර තවමත් විශ්ලේෂකයින්, සංවර්ධකයින් සහ හුදෙක් උද්යෝගිමත් අය අතර ඉතා ජනප්රියයි.
SQL පිළිබඳ දැනුමක් නොමැතිව දත්ත ඉංජිනේරු විද්‍යාවේදී කිරීමට කිසිවක් නැත, මන්ද ඔබට අනිවාර්යයෙන්ම දත්ත ලබා ගැනීමට විමසුම් නිර්මාණය කිරීමට සිදුවනු ඇත. සියලුම නවීන විශාල දත්ත ගබඩා SQL සඳහා සහය දක්වයි:

  • ඇමසන් රෙඩ්ෂිෆ්ට්
  • HP වර්ටිකා
  • ඔරකල්
  • SQL සේවාදායකය

... හා තවත් බොහෝ අය.

HDFS වැනි බෙදා හරින ලද පද්ධතිවල ගබඩා කර ඇති විශාල දත්ත ස්ථරයක් විශ්ලේෂණය කිරීම සඳහා, SQL එන්ජින් සොයා ගන්නා ලදී: Apache Hive, Impala, ආදිය. බලන්න, එය කොහේවත් යන්නේ නැත.

SQL ඉගෙන ගන්නේ කෙසේද? එය ප්රායෝගිකව කරන්න.

මෙය සිදු කිරීම සඳහා, විශිෂ්ට නිබන්ධනයක් පරීක්ෂා කිරීමට මම නිර්දේශ කරමි, එය මාර්ගයෙන් නොමිලේ මාදිලි විශ්ලේෂණ.

  1. අතරමැදි SQL
  2. SQL හි දත්ත සම්බන්ධ කිරීම

මෙම පාඨමාලා විශේෂ වන්නේ ඔබේ බ්‍රවුසරයේම SQL විමසුම් ලිවීමට සහ ක්‍රියාත්මක කිරීමට හැකි අන්තර්ක්‍රියාකාරී පරිසරයක් ඒවාට තිබීමයි. සම්පත් නවීන SQL අතිරික්ත නොවනු ඇත. තවද ඔබට මෙම දැනුම යෙදිය හැකිය Leetcode කාර්යයන් දත්ත සමුදා කොටසේ.

3. Python සහ Java/Scala හි වැඩසටහන්කරණය

ඔබ පයිතන් ක්‍රමලේඛන භාෂාව ඉගෙන ගත යුත්තේ ඇයි, මම දැනටමත් ලිපියේ ලියා ඇත Python vs R. AI, ML සහ Data Science සඳහා හොඳම මෙවලම තෝරා ගැනීම. Java සහ Scala සම්බන්ධයෙන් ගත් කල, විශාල දත්ත ප්‍රමාණයක් ගබඩා කිරීම සහ සැකසීම සඳහා බොහෝ මෙවලම් මෙම භාෂාවලින් ලියා ඇත. උදාහරණ වශයෙන්:

  • Apache Kafka (Scala)
  • Hadoop, HDFS (ජාවා)
  • Apache Spark (Scala)
  • Apache Cassandra (ජාවා)
  • HBase (ජාවා)
  • Apache Hive (ජාවා)

මෙම මෙවලම් ක්‍රියා කරන ආකාරය තේරුම් ගැනීමට, ඔබ ඒවා ලියා ඇති භාෂා දැන සිටිය යුතුය. Scala හි ක්‍රියාකාරී ප්‍රවේශය ඔබට සමාන්තර දත්ත සැකසුම් ගැටළු ඵලදායී ලෙස විසඳීමට ඉඩ සලසයි. Python, අවාසනාවකට මෙන්, වේගය සහ සමාන්තර සැකසුම් ගැන පුරසාරම් දෙඩීමට නොහැකිය. පොදුවේ ගත් කල, භාෂා කිහිපයක් පිළිබඳ දැනුම සහ ක්‍රමලේඛන ආදර්ශයන් ගැටළු විසඳීම සඳහා වන ප්‍රවේශවල පළල සඳහා හොඳය.

Scala භාෂාවට කිමිදීමට, ඔබට කියවිය හැකිය Scala හි වැඩසටහන්කරණය භාෂාවේ කතුවරයාගෙන්. ට්විටර් හොඳ හඳුන්වාදීමේ මාර්ගෝපදේශයක් ද ප්‍රකාශයට පත් කළේය - Scala පාසල.

පයිතන් සම්බන්ධයෙන්, මම විශ්වාස කරමි චතුර පිඹුරා හොඳම මධ්යම මට්ටමේ පොත.

4. විශාල දත්ත සමඟ වැඩ කිරීම සඳහා මෙවලම්

විශාල දත්ත ලෝකයේ වඩාත්ම ජනප්‍රිය මෙවලම් ලැයිස්තුවක් මෙන්න:

  • අපාචේ ස්පාර්ක්
  • Apache Kafka
  • Apache Hadoop (HDFS, HBase, Hive)
  • අපාචි කැසැන්ඩ්‍රා

ඔබට මෙම විශ්මයජනක විශාල දත්ත කොටස් ගොඩනැගීම පිළිබඳ වැඩිදුර තොරතුරු සොයාගත හැකිය අන්තර් ක්රියාකාරී පරිසරය. වඩාත්ම ජනප්රිය මෙවලම් වන්නේ Spark සහ Kafka ය. ඔවුන් අනිවාර්යයෙන්ම අධ්යයනය කිරීම වටී, ඔවුන් අභ්යන්තරයේ සිට ක්රියා කරන ආකාරය තේරුම් ගැනීම යෝග්ය වේ. ජේ ක්‍රෙප්ස් (කෆ්කා හි සම කර්තෘ) 2013 දී ස්මාරක කෘතියක් ප්‍රකාශයට පත් කළේය. ලොගය: තත්‍ය කාලීන දත්ත සමුච්චය කිරීම ගැන සෑම මෘදුකාංග සංවර්ධකයෙකුම දැනගත යුතු දේමාර්ගය වන විට, මෙම Talmud සිට ප්රධාන අදහස් Apache Kafka නිර්මාණය කිරීමට භාවිතා කරන ලදී.

5. වලාකුළු වේදිකා

දත්ත ඉංජිනේරුවන් යනු කවුරුන්ද, ඔබ එක් අයෙකු වන්නේ කෙසේද?

අවම වශයෙන් එක් වලාකුළු වේදිකාවක් පිළිබඳ දැනුමක් දත්ත ඉංජිනේරු තනතුර සඳහා අයදුම්කරුවන් සඳහා මූලික අවශ්‍යතා ලැයිස්තුවේ ඇත. සේවා යෝජකයින් Amazon Web Services වලට වැඩි කැමැත්තක් දක්වන අතර, Google හි cloud platform දෙවන ස්ථානයේ සහ Microsoft Azure පළමු ස්ථාන තුනට පැමිණ ඇත.

Amazon EC2, AWS Lambda, Amazon S3, DynamoDB ගැන ඔබට හොඳ දැනුමක් තිබිය යුතුය.

6. බෙදා හරින ලද පද්ධති

විශාල දත්ත සමඟ වැඩ කිරීමෙන් අදහස් කරන්නේ ස්වාධීනව ක්‍රියාත්මක වන පරිගණක පොකුරු තිබීමයි, ඒවා අතර සන්නිවේදනය ජාලයක් හරහා සිදු කෙරේ. පොකුර විශාල වන තරමට එහි සාමාජික නෝඩ් අසාර්ථක වීමේ සම්භාවිතාව වැඩි වේ. ශ්රේෂ්ඨ දත්ත විද්යාඥයෙකු වීමට නම්, ඔබ බෙදා හරින ලද පද්ධති සඳහා ගැටළු සහ පවතින විසඳුම් තේරුම් ගත යුතුය. මෙම ප්රදේශය පැරණි හා සංකීර්ණ වේ.

Andrew Tanenbaum මෙම ක්ෂේත්‍රයේ පුරෝගාමියෙකු ලෙස සැලකේ. න්‍යායට බිය නැති අය සඳහා, මම ඔහුගේ පොත නිර්දේශ කරමි "බෙදාහැරි පද්ධති", එය ආරම්භකයින් සඳහා භයංකර බවක් පෙනෙන්නට ඇත, නමුත් එය සැබවින්ම ඔබේ කුසලතා ඔප් නංවා ගැනීමට උපකාරී වනු ඇත.

මම සිතනවා Martin Kleppmann විසින් දත්ත-තීව්‍ර යෙදුම් සැලසුම් කිරීම හොඳම හඳුන්වාදීමේ පොත. මාර්ගය වන විට, මාටින්ට අපූරු දෙයක් තිබේ බ්ලොග්. විශාල දත්ත ගබඩා කිරීම සහ සැකසීම සඳහා නවීන යටිතල පහසුකම් ගොඩනැගීම පිළිබඳ දැනුම ක්රමානුකූල කිරීමට ඔහුගේ කාර්යය උපකාර වනු ඇත.
වීඩියෝ බලන්න කැමති අයට Youtube එකේ පාඨමාලාවක් තියෙනවා බෙදා හරින ලද පරිගණක පද්ධති.

7. දත්ත නල මාර්ග

දත්ත ඉංජිනේරුවන් යනු කවුරුන්ද, ඔබ එක් අයෙකු වන්නේ කෙසේද?

දත්ත නල මාර්ග යනු දත්ත ඉංජිනේරුවෙකු ලෙස ඔබට නොමැතිව ජීවත් විය නොහැකි දෙයකි.

බොහෝ විට, දත්ත ඉංජිනේරුවෙකු ඊනියා දත්ත නල මාර්ගයක් ගොඩනඟයි, එනම් ඔහු එක් ස්ථානයක සිට තවත් ස්ථානයකට දත්ත බෙදා හැරීමේ ක්‍රියාවලියක් නිර්මාණය කරයි. මේවා බාහිර සේවාවක API වෙත යන හෝ SQL විමසුමක් සිදු කරන අභිරුචි ස්ක්‍රිප්ට් විය හැක, දත්ත වැඩි කර එය මධ්‍යගත ගබඩාවකට (දත්ත ගබඩාව) හෝ ව්‍යුහගත නොවන දත්ත ගබඩාවකට (දත්ත විල්).

සාරාංශ කිරීමට: දත්ත ඉංජිනේරුවෙකු සඳහා වන මූලික පිරික්සුම් ලැයිස්තුව

දත්ත ඉංජිනේරුවන් යනු කවුරුන්ද, ඔබ එක් අයෙකු වන්නේ කෙසේද?

සාරාංශ කිරීමට, පහත සඳහන් කරුණු පිළිබඳ හොඳ අවබෝධයක් අවශ්ය වේ:

  • තොරතුරු පද්ධති;
  • මෘදුකාංග සංවර්ධනය (Agile, DevOps, Design Techniques, SOA);
  • බෙදා හරින ලද පද්ධති සහ සමාන්තර වැඩසටහන්කරණය;
  • දත්ත සමුදායේ මූලික කරුණු - සැලසුම් කිරීම, සැලසුම් කිරීම, මෙහෙයුම් සහ දෝශ නිරාකරණය;
  • අත්හදා බැලීම් සැලසුම් කිරීම - සංකල්ප ඔප්පු කිරීමට A/B පරීක්ෂණ, විශ්වසනීයත්වය, පද්ධති කාර්ය සාධනය, සහ හොඳ විසඳුම් ඉක්මනින් ලබා දීම සඳහා විශ්වාසදායක මාර්ග සංවර්ධනය කිරීම.

මේවා දත්ත ඉංජිනේරුවෙකු වීමට අවශ්‍යතා කිහිපයක් පමණි, එබැවින් දත්ත පද්ධති, තොරතුරු පද්ධති, අඛණ්ඩ බෙදා හැරීම/ යෙදවීම/ඒකාබද්ධ කිරීම, ක්‍රමලේඛන භාෂා සහ අනෙකුත් පරිගණක විද්‍යා මාතෘකා (සියලු විෂය ක්ෂේත්‍ර නොවේ) ඉගෙන ගෙන තේරුම් ගන්න.

අවසාන වශයෙන්, මට කියන්නට අවශ්‍ය අවසාන නමුත් ඉතා වැදගත් දෙය.

Data Engineering බවට පත්වීමේ මාර්ගය පෙනෙන තරම් සරල නැත. ඔහු සමාව දෙන්නේ නැත, ඔහු කලකිරීමට පත් කරයි, ඔබ මේ සඳහා සූදානම් විය යුතුය. මෙම ගමනේ සමහර අවස්ථා ඔබව අත්හැරීමට තල්ලු කළ හැකිය. නමුත් මෙය සැබෑ වැඩ සහ ඉගෙනුම් ක්රියාවලියකි.

ආරම්භයේ සිටම සීනි ආලේප නොකරන්න. සංචාරයේ සමස්ත කාරණය වන්නේ හැකිතාක් ඉගෙන ගැනීම සහ නව අභියෝග සඳහා සූදානම් වීමයි.
මෙන්න මේ කාරණය හොඳින් විදහා දක්වන විශිෂ්ට පින්තූරයක් මට හමු විය:

දත්ත ඉංජිනේරුවන් යනු කවුරුන්ද, ඔබ එක් අයෙකු වන්නේ කෙසේද?

ඔව්, දැවීම සහ විවේකයෙන් වැළකී සිටීමට මතක තබා ගන්න. මෙයද ඉතා වැදගත් වේ. වාසනාව!

ලිපිය ගැන ඔබ සිතන්නේ කුමක්ද, මිත්‍රවරුනි? අපි ඔබට ආරාධනා කරනවා නොමිලේ webinar, අද 20.00 ට පැවැත්වේ. webinar අතරතුර, කුඩා සමාගමක් හෝ ආරම්භයක් සඳහා අවම පිරිවැයක් යටතේ ඵලදායී හා පරිමාණය කළ හැකි දත්ත සැකසුම් පද්ධතියක් ගොඩනඟන්නේ කෙසේදැයි අපි සාකච්ඡා කරමු. භාවිතයක් ලෙස, අපි Google Cloud දත්ත සැකසුම් මෙවලම් සමඟ දැන හඳුනා ගන්නෙමු. නැවත හමුවෙන්නම්!

මූලාශ්රය: www.habr.com

අදහස් එක් කරන්න