හැමෝටම ආයුබෝවන්, මගේ නම ඇලෙක්සැන්ඩර්, මම එහි ගුණාත්මකභාවය සඳහා දත්ත පරීක්ෂා කරන දත්ත තත්ත්ව ඉංජිනේරුවෙක්. මෙම ලිපියෙන් මා මෙයට පැමිණියේ කෙසේද සහ 2020 දී මෙම පරීක්ෂණ ක්ෂේත්රය රැල්ලක ලාංඡනයේ තිබුණේ ඇයි යන්න ගැන කතා කරනු ඇත.
ගෝලීය ප්රවණතාවය
අද ලෝකය තවත් තාක්ෂණික විප්ලවයක් අත්විඳිමින් සිටින අතර, එහි එක් අංගයක් වන්නේ සෑම වර්ගයකම සමාගම් විසින් ඔවුන්ගේම විකුණුම්, ලාභ සහ PR ප්රවර්ධනය සඳහා සමුච්චිත දත්ත භාවිතා කිරීමයි. හොඳ (ගුණාත්මක) දත්ත තිබීම මෙන්ම එයින් මුදල් ඉපයිය හැකි දක්ෂ මොළ (නිවැරදිව සැකසීම, දෘශ්යමාන කිරීම, යන්ත්ර ඉගෙනුම් ආකෘති තැනීම යනාදිය) තිබීම අද බොහෝ දෙනෙකුගේ සාර්ථකත්වයේ යතුර වී ඇති බව පෙනේ. මීට වසර 15-20 කට පෙර විශාල සමාගම් ප්රධාන වශයෙන් දත්ත සමුච්චය කිරීම සහ මුදල් ඉපැයීම සමඟ දැඩි වැඩකටයුතුවල නියැලී සිටියේ නම්, අද මෙය සියලුම බුද්ධිමත් පුද්ගලයින්ගේ කොටසයි.
මේ සම්බන්ධයෙන්, මීට වසර කිහිපයකට පෙර, ලොව පුරා රැකියා සෙවීම සඳහා කැප වූ සියලුම ද්වාර දත්ත විද්යාඥයින් සඳහා පුරප්පාඩු පිරවීමට පටන් ගත්තේය, මන්ද එවැනි විශේෂ ist යෙකු බඳවා ගැනීමෙන් යන්ත්ර ඉගෙනීමේ සුපිරි ආකෘතියක් ගොඩනගා ගත හැකි බව සෑම දෙනාම විශ්වාස කළ බැවිනි. , අනාගතය පුරෝකථනය කර සමාගම සඳහා "ක්වොන්ටම් පිම්මක්" සිදු කරන්න. කාලයාගේ ඇවෑමෙන්, මෙම ප්රවේශය කිසි විටෙකත් කොතැනකවත් ක්රියාත්මක නොවන බව මිනිසුන්ට වැටහුණි, මන්ද එවැනි විශේෂ ists යින් අතට පත්වන සියලුම දත්ත පුහුණු ආකෘති සඳහා සුදුසු නොවන බැවිනි.
දත්ත විද්යාඥයින්ගෙන් ඉල්ලීම් ආරම්භ විය: “අපි මේවායින් සහ ඒවායින් තවත් දත්ත මිලදී ගනිමු...”, “අපට ප්රමාණවත් දත්ත නොමැත...”, “අපට තවත් දත්ත කිහිපයක් අවශ්යයි, වඩාත් සුදුසු උසස් තත්ත්වයේ එකක්...” . මෙම ඉල්ලීම් මත පදනම්ව, එක් හෝ තවත් දත්ත සමූහයක් හිමි සමාගම් අතර බොහෝ අන්තර්ක්රියා ගොඩනැගීමට පටන් ගත්තේය. ස්වාභාවිකවම, මෙයට මෙම ක්රියාවලියේ තාක්ෂණික සංවිධානය අවශ්ය විය - දත්ත ප්රභවයට සම්බන්ධ කිරීම, එය බාගත කිරීම, එය සම්පුර්ණයෙන්ම පටවා ඇත්දැයි පරීක්ෂා කිරීම යනාදිය එවැනි ක්රියාවලීන් ගණන වර්ධනය වීමට පටන් ගත් අතර අද අපට තවත් ආකාරයක අවශ්යතාවයක් ඇත. විශේෂඥයින් - දත්ත තත්ත්ව ඉංජිනේරුවන් - පද්ධතියේ දත්ත ගලායාම (දත්ත නල මාර්ග), ආදාන සහ ප්රතිදානයේදී දත්තවල ගුණාත්මකභාවය නිරීක්ෂණය කරන අය සහ ඒවායේ ප්රමාණවත් බව, අඛණ්ඩතාව සහ අනෙකුත් ලක්ෂණ පිළිබඳ නිගමනවලට එළඹේ.
Data Quality ඉංජිනේරුවන්ගේ ප්රවණතාවය අප වෙත පැමිණියේ, ධනවාදයේ උග්ර යුගය මධ්යයේ, දත්ත සඳහා වන සටනින් පරාජයට පත් වීමට කිසිවෙකු සූදානම් නැති ඇමරිකා එක්සත් ජනපදයෙනි. පහත මම එක්සත් ජනපදයේ වඩාත් ජනප්රිය රැකියා සෙවුම් අඩවි දෙකකින් තිරපිටපත් සපයා ඇත:
දත්ත විද්යාඥයින් - පුරප්පාඩු 21416ක්
දත්ත ගුණාත්මකභාවය - පුරප්පාඩු 41104
දත්ත විද්යාඥයින් - පුරප්පාඩු 404ක්
දත්ත ගුණාත්මකභාවය - 2020 පුරප්පාඩු
පැහැදිලිවම, මෙම වෘත්තීන් එකිනෙකා සමඟ තරඟකාරී නොවේ. ස්ක්රීන්ෂොට් සමඟින්, දත්ත විද්යාඥයින්ට වඩා දැන් අවශ්ය වන දත්ත තත්ත්ව ඉංජිනේරුවන් සඳහා වන ඉල්ලීම් අනුව ශ්රම වෙළඳපොළේ වත්මන් තත්ත්වය නිදර්ශනය කිරීමට මට අවශ්ය විය.
2019 ජූනි මාසයේදී, EPAM, නවීන තොරතුරු තාක්ෂණ වෙළඳපොලේ අවශ්යතාවලට ප්රතිචාර දක්වමින්, දත්ත ගුණාත්මක බව වෙනම භාවිතාවකට වෙන් කරන ලදී. දත්ත තත්ත්වයේ ඉංජිනේරුවන්, ඔවුන්ගේ දෛනික වැඩ කටයුතු අතරතුර, දත්ත කළමනාකරණය කිරීම, නව කොන්දේසි සහ පද්ධති තුළ එහි හැසිරීම පරීක්ෂා කිරීම, දත්තවල අදාළත්වය, එහි ප්රමාණවත් බව සහ අදාළත්වය නිරීක්ෂණය කිරීම. මේ සියල්ල සමඟ, ප්රායෝගික අර්ථයකින්, දත්ත තත්ත්ව ඉංජිනේරුවන් සම්භාව්ය ක්රියාකාරී පරීක්ෂණ සඳහා සුළු කාලයක් වෙන් කරයි, නුමුත් මෙය බොහෝ දුරට ව්යාපෘතිය මත රඳා පවතී (මම පහත උදාහරණයක් දෙන්නෙමි).
දත්ත තත්ත්ව ඉංජිනේරුවෙකුගේ වගකීම් දත්ත සමුදා වගුවල “ශුන්ය, ගණන් කිරීම් සහ එකතු කිරීම්” සඳහා සාමාන්ය අත්පොත/ස්වයංක්රීය චෙක්පත්වලට පමණක් සීමා නොවේ, නමුත් පාරිභෝගිකයාගේ ව්යාපාරික අවශ්යතා පිළිබඳ ගැඹුරු අවබෝධයක් අවශ්ය වන අතර ඒ අනුව පවතින දත්ත බවට පරිවර්තනය කිරීමේ හැකියාව අවශ්ය වේ. ප්රයෝජනවත් ව්යාපාරික තොරතුරු.
දත්ත තත්ත්ව න්යාය
එවැනි ඉංජිනේරුවෙකුගේ භූමිකාව වඩාත් සම්පූර්ණයෙන් පරිකල්පනය කිරීම සඳහා, න්යාය තුළ දත්ත ගුණාත්මකභාවය යනු කුමක්දැයි සොයා බලමු.
දත්තවල ගුණාත්මකභාවය - දත්ත කළමනාකරණයේ එක් අදියරක් (ඔබට තනිවම අධ්යයනය කිරීමට අපි ඉතිරි කරන මුළු ලෝකයක්) සහ පහත සඳහන් නිර්ණායක අනුව දත්ත විශ්ලේෂණය කිරීමේ වගකීම දරයි:
මම හිතන්නේ එක් එක් ලක්ෂ්ය විකේතනය කිරීමට අවශ්ය නැත (න්යායාත්මකව ඒවා “දත්ත මානයන්” ලෙස හැඳින්වේ), ඒවා පින්තූරයේ හොඳින් විස්තර කර ඇත. නමුත් පරීක්ෂණ ක්රියාවලියම මෙම විශේෂාංග දැඩි ලෙස පරීක්ෂණ අවස්ථා වලට පිටපත් කිරීම සහ ඒවා පරීක්ෂා කිරීම අදහස් නොකරයි. දත්ත ගුණාත්මක භාවයේදී, වෙනත් ඕනෑම ආකාරයක පරීක්ෂණ වලදී මෙන්, ව්යාපාරික තීරණ ගන්නා ව්යාපෘති සහභාගිවන්නන් සමඟ එකඟ වූ දත්ත තත්ත්ව අවශ්යතා මත ගොඩ නැගීම අවශ්ය වේ.
දත්ත තත්ත්ව ව්යාපෘතිය මත පදනම්ව, ඉංජිනේරුවෙකුට විවිධ කාර්යයන් ඉටු කළ හැකිය: සාමාන්ය ස්වයංක්රීයකරණ පරීක්ෂකයෙකුගේ සිට දත්ත ගුණාත්මක භාවය පිළිබඳ මතුපිටින් තක්සේරු කිරීම, ඉහත නිර්ණායක අනුව දත්ත ගැඹුරු පැතිකඩක් සිදු කරන පුද්ගලයෙකු දක්වා.
දත්ත කළමනාකරණය, දත්ත ගුණාත්මකභාවය සහ අදාළ ක්රියාවලීන් පිළිබඳ ඉතා සවිස්තරාත්මක විස්තරයක් නම් වූ පොතෙහි හොඳින් විස්තර කර ඇත "DAMA-DMBOK: දැනුම පිළිබඳ දත්ත කළමනාකරණ ආයතනය: 2 වන සංස්කරණය". මෙම මාතෘකාවට හැඳින්වීමක් ලෙස මම මෙම පොත බෙහෙවින් නිර්දේශ කරමි (ලිපියේ අවසානයේ ඔබට එයට සබැඳියක් සොයාගත හැකිය).
මගේ කතාව
තොරතුරු තාක්ෂණ ක්ෂේත්රය තුළ, නිෂ්පාදන සමාගම්වල කනිෂ්ඨ පරීක්ෂකවරයෙකුගේ සිට EPAM හි ප්රමුඛ දත්ත තත්ත්ව ඉංජිනේරුවරයෙකු දක්වා මම වැඩ කළෙමි. පරීක්ෂකයෙකු ලෙස වසර දෙකක පමණ වැඩ කිරීමෙන් පසු, මම නියත වශයෙන්ම සියලු ආකාරයේ පරීක්ෂණ සිදු කර ඇති බවට මට ස්ථිර විශ්වාසයක් ඇති විය: ප්රතිගාමී, ක්රියාකාරී, ආතතිය, ස්ථාවරත්වය, ආරක්ෂාව, UI, ආදිය - සහ පරීක්ෂණ මෙවලම් විශාල ප්රමාණයක් උත්සාහ කර ඇත. ක්රමලේඛන භාෂා තුනකින් එකවර වැඩ කළා: Java, Scala, Python.
ආපසු හැරී බලන විට, මගේ නිපුණතා කට්ටලය මෙතරම් විවිධාකාර වූයේ මන්දැයි මට වැටහෙනවා - මම විශාල හා කුඩා දත්ත මත පදනම් වූ ව්යාපෘතිවලට සම්බන්ධ වී සිටිමි. වර්ධනය සඳහා බොහෝ මෙවලම් සහ අවස්ථා සහිත ලෝකයකට මා ගෙන ආවේ මෙයයි.
නව දැනුම සහ කුසලතා ලබා ගැනීමට විවිධ මෙවලම් සහ අවස්ථා අගය කිරීමට, "Data & AI" ලෝකයේ වඩාත්ම ජනප්රිය ඒවා පෙන්වන පහත පින්තූරය දෙස බලන්න.
මෘදුකාංග සංවර්ධනයෙන් එන සුප්රසිද්ධ ව්යාපාර ධනපතියෙකු වන මැට් ටර්ක් විසින් වාර්ෂිකව මෙවැනි නිදර්ශනයක් සම්පාදනය කරනු ලැබේ. මෙතන
මම ව්යාපෘතියේ එකම පරීක්ෂකයා වූ විට හෝ අවම වශයෙන් ව්යාපෘතියේ ආරම්භයේදීම මම වෘත්තීයමය වශයෙන් ඉක්මනින් වර්ධනය විය. එවැනි මොහොතක ඔබ සම්පූර්ණ පරීක්ෂණ ක්රියාවලියට වගකිව යුතු අතර, ඔබට පසුබැසීමට අවස්ථාවක් නැත, ඉදිරියට පමණි. මුලදී එය භයානක විය, නමුත් දැන් එවැනි පරීක්ෂණයක ඇති සියලුම වාසි මට පැහැදිලිය:
- සන්නිවේදනය සඳහා ප්රොක්සියක් නොමැති බැවින් ඔබ පෙර නොවූ විරූ ලෙස මුළු කණ්ඩායම සමඟ සන්නිවේදනය කිරීමට පටන් ගනී: පරීක්ෂණ කළමනාකරු හෝ සෙසු පරීක්ෂකයින් නොවේ.
- ව්යාපෘතියේ ගිල්වීම ඇදහිය නොහැකි තරම් ගැඹුරු වන අතර, පොදුවේ සහ විස්තරාත්මකව සියලුම සංරචක පිළිබඳ තොරතුරු ඔබට ඇත.
- සංවර්ධකයින් ඔබ දෙස බලන්නේ "ඔහු කරන්නේ කුමක්දැයි නොදන්නා පරීක්ෂණයේ යෙදෙන පුද්ගලයා" ලෙස නොව, ඔහුගේ ස්වයංක්රීය පරීක්ෂණ සහ විශේෂිත අංගයක් තුළ දෝෂ ඇතිවීමේ අපේක්ෂාව සමඟ කණ්ඩායමට ඇදහිය නොහැකි ප්රතිලාභ ලබා දෙන සමානයෙකු ලෙස ය. නිෂ්පාදන.
- එහි ප්රතිඵලයක් වශයෙන්, ඔබ වඩාත් ඵලදායී, වඩා සුදුසුකම් සහ වැඩි ඉල්ලුමක් ඇත.
ව්යාපෘතිය වර්ධනය වන විට, 100% ක්ම මම නව පරීක්ෂකයින් සඳහා උපදේශකයෙකු වී, ඔවුන්ට ඉගැන්වීම සහ මා විසින්ම ඉගෙන ගත් දැනුම ලබා දීම. ඒ අතරම, ව්යාපෘතිය මත පදනම්ව, මට සෑම විටම කළමනාකාරිත්වයෙන් ඉහළම මට්ටමේ ස්වයංක්රීය පරීක්ෂණ විශේෂඥයින් නොලැබුණු අතර ඔවුන් ස්වයංක්රීයකරණය (උනන්දුව සිටින අය සඳහා) පුහුණු කිරීම හෝ එදිනෙදා කටයුතු (මෙවලම්) සඳහා මෙවලම් නිර්මාණය කිරීම අවශ්ය විය. දත්ත උත්පාදනය කිරීම සහ පද්ධතියට පැටවීම සඳහා, බර පරීක්ෂා කිරීම / ස්ථායීතා පරීක්ෂාව "ඉක්මන්" සිදු කිරීම සඳහා මෙවලමක්, ආදිය).
නිශ්චිත ව්යාපෘතියක උදාහරණයක්
අවාසනාවකට, හෙළිදරව් නොකිරීමේ වගකීම් හේතුවෙන්, මා වැඩ කළ ව්යාපෘති ගැන මට විස්තරාත්මකව කතා කළ නොහැක, නමුත් එක් ව්යාපෘතියක දත්ත තත්ත්ව ඉංජිනේරුවෙකුගේ සාමාන්ය කාර්යයන් සඳහා මම උදාහරණ දෙන්නෙමි.
ව්යාපෘතියේ සාරය වන්නේ එය මත පදනම් වූ යන්ත්ර ඉගෙනුම් ආකෘති පුහුණු කිරීම සඳහා දත්ත සැකසීම සඳහා වේදිකාවක් ක්රියාත්මක කිරීමයි. පාරිභෝගිකයා ඇමරිකා එක්සත් ජනපදයේ විශාල ඖෂධ සමාගමකි. තාක්ෂණික වශයෙන් එය පොකුරක් විය
දෘශ්යමය වශයෙන්, සෑම දෙයක්ම මේ වගේ දෙයක් විය:
මෙම ව්යාපෘතියේ ක්රියාකාරී පරීක්ෂණ ඕනෑ තරම් තිබූ අතර විශේෂාංග සංවර්ධනයේ වේගය සහ මුදා හැරීමේ චක්රයේ වේගය (සති දෙකක ස්ප්රින්ට්) පවත්වා ගැනීමේ අවශ්යතාවය සැලකිල්ලට ගෙන, වඩාත්ම තීරණාත්මක සංරචක ස්වයංක්රීය කිරීම ගැන වහාම සිතීම අවශ්ය විය. පද්ධතිය. Kubernetes මත පදනම් වූ වේදිකාවේ බොහෝමයක් ස්වයංක්රීය පරීක්ෂණ මගින් ආවරණය කරන ලදී
අවසාන වශයෙන්, අපි වේදිකාවෙන් සහ GUI ඇඩෝනයෙන් ස්ථාවරත්වය ලබා ගැනීමෙන් පසුව, අපි Apache Airflow DAGs භාවිතයෙන් ETL නල මාර්ග තැනීමට පටන් ගත්තෙමු. ETL ක්රියාවලියේ ප්රතිඵල මත පදනම්ව දත්ත පරීක්ෂා කරන විශේෂ Airflow DAGs ලිවීමෙන් ස්වයංක්රීය දත්ත තත්ත්ව පරීක්ෂාව සිදු කරන ලදී. මෙම ව්යාපෘතියේ කොටසක් ලෙස, අපි වාසනාවන්ත වූ අතර පාරිභෝගිකයා අප විසින් පරීක්ෂා කරන ලද නිර්නාමික දත්ත කට්ටල වෙත ප්රවේශය ලබා දුන්නේය. වර්ග වලට අනුකූල වීම, කැඩුණු දත්ත තිබීම, පෙර සහ පසු මුළු වාර්තා ගණන, එකතු කිරීම සඳහා ETL ක්රියාවලිය මගින් සිදු කරන ලද පරිවර්තනයන් සංසන්දනය කිරීම, තීරු නම් වෙනස් කිරීම සහ වෙනත් දේ සඳහා අපි පේළියෙන් දත්ත පරීක්ෂා කළෙමු. මීට අමතරව, මෙම චෙක්පත් විවිධ දත්ත මූලාශ්ර වෙත පරිමාණය කරන ලදී, උදාහරණයක් ලෙස, SalesForce වලට අමතරව, MySQL වෙතද.
අවසාන දත්ත තත්ත්ව පරීක්ෂාවන් දැනටමත් S3 මට්ටමින් සිදු කර ඇති අතර, ඒවා ගබඩා කර ඇති අතර යන්ත්ර ඉගෙනුම් ආකෘති පුහුණු කිරීම සඳහා භාවිතා කිරීමට සූදානම් විය. S3 බාල්දියේ ඇති අවසාන CSV ගොනුවෙන් දත්ත ලබා ගැනීමට සහ එය වලංගු කිරීමට, කේතය ලියා ඇත
දත්ත වලින් කොටසක් එක් S3 බාල්දියක සහ කොටසක් තවත් බාල්දියක ගබඩා කිරීමට පාරිභෝගිකයාගෙන් අවශ්යතාවයක් ද විය. එවැනි වර්ග කිරීම්වල විශ්වසනීයත්වය පරීක්ෂා කිරීම සඳහා අමතර චෙක්පත් ලිවීමද මෙයට අවශ්ය විය.
වෙනත් ව්යාපෘති වලින් සාමාන්ය අත්දැකීම්
දත්ත තත්ත්ව ඉංජිනේරුවෙකුගේ වඩාත් පොදු ක්රියාකාරකම් ලැයිස්තුවේ උදාහරණයක්:
- ස්වයංක්රීය මෙවලමක් හරහා පරීක්ෂණ දත්ත (වලංගු වලංගු නොවන විශාල කුඩා) සකස් කරන්න.
- සකස් කළ දත්ත කට්ටලය මුල් මූලාශ්රයට උඩුගත කර එය භාවිතයට සූදානම්දැයි පරීක්ෂා කරන්න.
- නිශ්චිත සැකසුම් කට්ටලයක් භාවිතා කරමින් මූලාශ්ර ගබඩාවේ සිට අවසාන හෝ අතරමැදි ගබඩාව දක්වා දත්ත කට්ටලයක් සැකසීම සඳහා ETL ක්රියාවලි දියත් කරන්න (හැකි නම්, ETL කාර්යය සඳහා වින්යාසගත කළ හැකි පරාමිති සකසන්න).
- ETL ක්රියාවලිය මගින් සකසන ලද දත්ත එහි ගුණාත්මකභාවය සහ ව්යාපාරික අවශ්යතා සමඟ අනුකූල වීම සඳහා සත්යාපනය කරන්න.
ඒ අතරම, චෙක්පත් වල ප්රධාන අවධානය විය යුත්තේ පද්ධතියේ දත්ත ප්රවාහය ප්රතිපත්තිමය වශයෙන් ක්රියා කර සම්පූර්ණ කර ඇති බව (ක්රියාකාරී පරීක්ෂණයේ කොටසක් වන) පමණක් නොව, බොහෝ දුරට දත්ත පරීක්ෂා කිරීම සහ වලංගු කිරීම සඳහා ය. අපේක්ෂිත අවශ්යතා සමග අනුකූල වීම, විෂමතා හඳුනා ගැනීම සහ වෙනත් දේ.
මෙවලම්
එවැනි දත්ත පාලනය සඳහා එක් තාක්ෂණයක් දත්ත සැකසීමේ සෑම අදියරකදීම දාම චෙක්පත් සංවිධානය කිරීම විය හැකිය, සාහිත්යයේ ඊනියා "දත්ත දාමය" - මූලාශ්රයේ සිට අවසාන භාවිතය දක්වා දත්ත පාලනය කිරීම. මෙම වර්ගයේ චෙක්පත් බොහෝ විට ක්රියාත්මක වන්නේ SQL විමසුම් පරීක්ෂා කිරීමෙනි. එවැනි විමසුම් හැකිතාක් සැහැල්ලු විය යුතු අතර දත්ත ගුණාත්මක තනි කොටස් පරීක්ෂා කළ යුතු බව පැහැදිලිය (වගු පාරදත්ත, හිස් රේඛා, NULL, වාක්ය ඛණ්ඩයේ දෝෂ - පරීක්ෂා කිරීමට අවශ්ය අනෙකුත් ගුණාංග).
සූදානම් කළ (වෙනස් කළ නොහැකි, තරමක් වෙනස් කළ හැකි) දත්ත කට්ටල භාවිතා කරන ප්රතිගාමී පරීක්ෂණ වලදී, autotest කේතයට ගුණාත්මක භාවයට අනුකූල වීම සඳහා දත්ත පරීක්ෂා කිරීම සඳහා සූදානම් කළ සැකිලි ගබඩා කළ හැකිය (අපේක්ෂිත වගු පාරදත්ත විස්තර; පේළි නියැදි වස්තූන් පරීක්ෂණය අතරතුර අහඹු ලෙස තෝරා ඇත, ආදිය).
එසේම, පරීක්ෂා කිරීමේදී, ඔබ Apache Airflow වැනි රාමු භාවිතා කරමින් ETL පරීක්ෂණ ක්රියාවලි ලිවිය යුතුය.
සූදානම් කළ විසඳුම් හැරුණු විට, ඔබේම ශිල්පීය ක්රම සහ මෙවලම් ක්රියාත්මක කිරීමට කිසිවෙකු ඔබට තහනම් නොකරයි. මෙය ව්යාපෘතිය සඳහා පමණක් නොව, දත්ත තත්ත්ව ඉංජිනේරුවරයාට ද ප්රයෝජනවත් වනු ඇත, එමඟින් ඔහුගේ තාක්ෂණික ක්ෂිතිජය සහ කේතීකරණ කුසලතා වැඩිදියුණු කරනු ඇත.
එය සැබෑ ව්යාපෘතියක ක්රියා කරන ආකාරය
"දත්ත දාමය", ETL සහ සර්වබලධාරී චෙක්පත් පිළිබඳ අවසාන ඡේදවල හොඳ නිදර්ශනයක් වන්නේ සැබෑ ව්යාපෘති වලින් එකකින් පහත ක්රියාවලියයි:
මෙන්න, විවිධ දත්ත (ස්වාභාවිකව, අප විසින් සකස් කරන ලද) අපගේ පද්ධතියේ ආදාන "පුනීලය" ඇතුළත් කරන්න: වලංගු, වලංගු නොවන, මිශ්ර, ආදිය, පසුව ඒවා පෙරීම සහ අතරමැදි ගබඩාවකින් අවසන් වේ, පසුව ඒවා නැවත පරිවර්තන මාලාවකට භාජනය වේ. සහ අවසාන ගබඩාවේ තැන්පත් කර ඇති අතර, එයින්, විශ්ලේෂණ, දත්ත ගබඩා ගොඩනැගීම සහ ව්යාපාරික තීක්ෂ්ණ බුද්ධිය සෙවීම සිදු කරනු ලැබේ. එවැනි පද්ධතියක් තුළ, ETL ක්රියාවලිවල ක්රියාකාරීත්වය ක්රියාකාරීව පරීක්ෂා නොකර, පරිවර්තනයට පෙර සහ පසු දත්තවල ගුණාත්මකභාවය මෙන්ම විශ්ලේෂණ සඳහා ප්රතිදානය කෙරෙහි අපි අවධානය යොමු කරමු.
ඉහත කරුණු සාරාංශ කිරීමට, මා සේවය කළ ස්ථාන කුමක් වුවත්, පහත විශේෂාංග බෙදාගත් දත්ත ව්යාපෘතිවල මා සම්බන්ධ වූ සෑම තැනකම:
- ස්වයංක්රීයකරණය හරහා පමණක් ඔබට සමහර අවස්ථා පරීක්ෂා කර ව්යාපාරයට පිළිගත හැකි මුදා හැරීමේ චක්රයක් ලබා ගත හැක.
- එවැනි ව්යාපෘතියක පරීක්ෂකයෙකු කණ්ඩායමේ වඩාත්ම ගෞරවනීය සාමාජිකයින්ගෙන් කෙනෙකි, එය එක් එක් සහභාගිවන්නන්ට විශාල ප්රතිලාභ ගෙන එයි (පරීක්ෂණ වේගවත් කිරීම, දත්ත විද්යාඥයාගේ හොඳ දත්ත, මුල් අවධියේදී දෝෂ හඳුනා ගැනීම).
- ඔබ ඔබේම දෘඩාංග මත හෝ වලාකුළු මත වැඩ කරන්නේද යන්න ගැටළුවක් නොවේ - සියලුම සම්පත් Hortonworks, Cloudera, Mesos, Kubernetes වැනි පොකුරකට සාරාංශ කර ඇත.
- ව්යාපෘති ක්ෂුද්ර සේවා ප්රවේශයක් මත ගොඩනගා ඇත, බෙදා හරින ලද සහ සමාන්තර පරිගණනය ප්රමුඛ වේ.
දත්ත තත්ත්ව ක්ෂේත්රයේ පරීක්ෂණ සිදු කරන විට, පරීක්ෂණ විශේෂඥයෙකු තම වෘත්තීය අවධානය නිෂ්පාදනයේ කේතය සහ භාවිතා කරන මෙවලම් වෙත මාරු කරන බව සටහන් කිරීමට කැමැත්තෙමි.
දත්ත තත්ත්ව පරීක්ෂාවෙහි සුවිශේෂී ලක්ෂණ
ඊට අමතරව, මා වෙනුවෙන්, මම පහත සඳහන් දෑ හඳුනාගෙන ඇත (ඒවා ඉතා සාමාන්යකරණය වූ සහ තනිකරම ආත්මීය බව මම වහාම වෙන්කරවා ගනිමි) දත්ත (විශාල දත්ත) ව්යාපෘති (පද්ධති) සහ අනෙකුත් ක්ෂේත්රවල පරීක්ෂා කිරීමේ සුවිශේෂී ලක්ෂණ:
ප්රයෝජනවත් සබැඳි
- න්යාය:
DAMA-DMBOK: දැනුම පිළිබඳ දත්ත කළමනාකරණ ආයතනය: 2 වන සංස්කරණය . පුහුණු මධ්යස්ථානය EPAM- ආරම්භක දත්ත තත්ත්ව ඉංජිනේරුවෙකු සඳහා නිර්දේශිත ද්රව්ය:
- Stepik පිළිබඳ නොමිලේ පාඨමාලාව:
දත්ත සමුදායන් සඳහා හැඳින්වීම . - LinkedIn ඉගෙනුම් පාඨමාලාව:
දත්ත විද්යා පදනම්: දත්ත ඉංජිනේරු . - ලිපි:
- වීඩියෝ:
- Stepik පිළිබඳ නොමිලේ පාඨමාලාව:
නිගමනය
දත්තවල ගුණාත්මකභාවය යනු ඉතා තරුණ පොරොන්දු දිශානතියකි, එහි කොටසක් වීම යනු ආරම්භයක කොටසක් වීමයි. දත්ත ගුණාත්මක භාවයට පත් වූ පසු, ඔබ නවීන, ඉල්ලුමේ තාක්ෂණයන් විශාල සංඛ්යාවක ගිල්වනු ඇත, නමුත් වඩාත්ම වැදගත් දෙය නම්, ඔබේ අදහස් උත්පාදනය කිරීමට සහ ක්රියාත්මක කිරීමට දැවැන්ත අවස්ථා ඔබට විවෘත වනු ඇත. විශේෂඥයෙකු ලෙස අඛණ්ඩව සංවර්ධනය වෙමින් පවතින ව්යාපෘතියේ පමණක් නොව, ඔබ වෙනුවෙන්ම අඛණ්ඩ වැඩිදියුණු කිරීමේ ප්රවේශය භාවිතා කිරීමට ඔබට හැකි වනු ඇත.
මූලාශ්රය: www.habr.com