විශාල සහ කුඩා දත්ත පරීක්ෂක: ප්‍රවණතා, න්‍යාය, මගේ කතාව

හැමෝටම ආයුබෝවන්, මගේ නම ඇලෙක්සැන්ඩර්, මම එහි ගුණාත්මකභාවය සඳහා දත්ත පරීක්ෂා කරන දත්ත තත්ත්ව ඉංජිනේරුවෙක්. මෙම ලිපියෙන් මා මෙයට පැමිණියේ කෙසේද සහ 2020 දී මෙම පරීක්ෂණ ක්ෂේත්‍රය රැල්ලක ලාංඡනයේ තිබුණේ ඇයි යන්න ගැන කතා කරනු ඇත.

විශාල සහ කුඩා දත්ත පරීක්ෂක: ප්‍රවණතා, න්‍යාය, මගේ කතාව

ගෝලීය ප්රවණතාවය

අද ලෝකය තවත් තාක්ෂණික විප්ලවයක් අත්විඳිමින් සිටින අතර, එහි එක් අංගයක් වන්නේ සෑම වර්ගයකම සමාගම් විසින් ඔවුන්ගේම විකුණුම්, ලාභ සහ PR ප්‍රවර්ධනය සඳහා සමුච්චිත දත්ත භාවිතා කිරීමයි. හොඳ (ගුණාත්මක) දත්ත තිබීම මෙන්ම එයින් මුදල් ඉපයිය හැකි දක්ෂ මොළ (නිවැරදිව සැකසීම, දෘශ්‍යමාන කිරීම, යන්ත්‍ර ඉගෙනුම් ආකෘති තැනීම යනාදිය) තිබීම අද බොහෝ දෙනෙකුගේ සාර්ථකත්වයේ යතුර වී ඇති බව පෙනේ. මීට වසර 15-20 කට පෙර විශාල සමාගම් ප්‍රධාන වශයෙන් දත්ත සමුච්චය කිරීම සහ මුදල් ඉපැයීම සමඟ දැඩි වැඩකටයුතුවල නියැලී සිටියේ නම්, අද මෙය සියලුම බුද්ධිමත් පුද්ගලයින්ගේ කොටසයි.

මේ සම්බන්ධයෙන්, මීට වසර කිහිපයකට පෙර, ලොව පුරා රැකියා සෙවීම සඳහා කැප වූ සියලුම ද්වාර දත්ත විද්‍යාඥයින් සඳහා පුරප්පාඩු පිරවීමට පටන් ගත්තේය, මන්ද එවැනි විශේෂ ist යෙකු බඳවා ගැනීමෙන් යන්ත්‍ර ඉගෙනීමේ සුපිරි ආකෘතියක් ගොඩනගා ගත හැකි බව සෑම දෙනාම විශ්වාස කළ බැවිනි. , අනාගතය පුරෝකථනය කර සමාගම සඳහා "ක්වොන්ටම් පිම්මක්" සිදු කරන්න. කාලයාගේ ඇවෑමෙන්, මෙම ප්‍රවේශය කිසි විටෙකත් කොතැනකවත් ක්‍රියාත්මක නොවන බව මිනිසුන්ට වැටහුණි, මන්ද එවැනි විශේෂ ists යින් අතට පත්වන සියලුම දත්ත පුහුණු ආකෘති සඳහා සුදුසු නොවන බැවිනි.

දත්ත විද්‍යාඥයින්ගෙන් ඉල්ලීම් ආරම්භ විය: “අපි මේවායින් සහ ඒවායින් තවත් දත්ත මිලදී ගනිමු...”, “අපට ප්‍රමාණවත් දත්ත නොමැත...”, “අපට තවත් දත්ත කිහිපයක් අවශ්‍යයි, වඩාත් සුදුසු උසස් තත්ත්වයේ එකක්...” . මෙම ඉල්ලීම් මත පදනම්ව, එක් හෝ තවත් දත්ත සමූහයක් හිමි සමාගම් අතර බොහෝ අන්තර්ක්‍රියා ගොඩනැගීමට පටන් ගත්තේය. ස්වාභාවිකවම, මෙයට මෙම ක්‍රියාවලියේ තාක්ෂණික සංවිධානය අවශ්‍ය විය - දත්ත ප්‍රභවයට සම්බන්ධ කිරීම, එය බාගත කිරීම, එය සම්පුර්ණයෙන්ම පටවා ඇත්දැයි පරීක්ෂා කිරීම යනාදිය එවැනි ක්‍රියාවලීන් ගණන වර්ධනය වීමට පටන් ගත් අතර අද අපට තවත් ආකාරයක අවශ්‍යතාවයක් ඇත. විශේෂඥයින් - දත්ත තත්ත්ව ඉංජිනේරුවන් - පද්ධතියේ දත්ත ගලායාම (දත්ත නල මාර්ග), ආදාන සහ ප්රතිදානයේදී දත්තවල ගුණාත්මකභාවය නිරීක්ෂණය කරන අය සහ ඒවායේ ප්රමාණවත් බව, අඛණ්ඩතාව සහ අනෙකුත් ලක්ෂණ පිළිබඳ නිගමනවලට එළඹේ.

Data Quality ඉංජිනේරුවන්ගේ ප්‍රවණතාවය අප වෙත පැමිණියේ, ධනවාදයේ උග්‍ර යුගය මධ්‍යයේ, දත්ත සඳහා වන සටනින් පරාජයට පත් වීමට කිසිවෙකු සූදානම් නැති ඇමරිකා එක්සත් ජනපදයෙනි. පහත මම එක්සත් ජනපදයේ වඩාත් ජනප්‍රිය රැකියා සෙවුම් අඩවි දෙකකින් තිරපිටපත් සපයා ඇත: www.monster.com и www.dice.com — එය 17 මාර්තු 2020 වන දිනට දත්ත ප්‍රදර්ශනය කරයි: දත්ත ගුණාත්මකභාවය සහ දත්ත විද්‍යාඥයා යන මූල පද භාවිතයෙන් ලැබුණු පළ කරන ලද පුරප්පාඩු ගණන.

www.monster.com

දත්ත විද්‍යාඥයින් - පුරප්පාඩු 21416ක්
දත්ත ගුණාත්මකභාවය - පුරප්පාඩු 41104

විශාල සහ කුඩා දත්ත පරීක්ෂක: ප්‍රවණතා, න්‍යාය, මගේ කතාව
විශාල සහ කුඩා දත්ත පරීක්ෂක: ප්‍රවණතා, න්‍යාය, මගේ කතාව

www.dice.com

දත්ත විද්‍යාඥයින් - පුරප්පාඩු 404ක්
දත්ත ගුණාත්මකභාවය - 2020 පුරප්පාඩු

විශාල සහ කුඩා දත්ත පරීක්ෂක: ප්‍රවණතා, න්‍යාය, මගේ කතාව
විශාල සහ කුඩා දත්ත පරීක්ෂක: ප්‍රවණතා, න්‍යාය, මගේ කතාව

පැහැදිලිවම, මෙම වෘත්තීන් එකිනෙකා සමඟ තරඟකාරී නොවේ. ස්ක්‍රීන්ෂොට් සමඟින්, දත්ත විද්‍යාඥයින්ට වඩා දැන් අවශ්‍ය වන දත්ත තත්ත්ව ඉංජිනේරුවන් සඳහා වන ඉල්ලීම් අනුව ශ්‍රම වෙළඳපොළේ වත්මන් තත්ත්වය නිදර්ශනය කිරීමට මට අවශ්‍ය විය.

2019 ජූනි මාසයේදී, EPAM, නවීන තොරතුරු තාක්ෂණ වෙළඳපොලේ අවශ්‍යතාවලට ප්‍රතිචාර දක්වමින්, දත්ත ගුණාත්මක බව වෙනම භාවිතාවකට වෙන් කරන ලදී. දත්ත තත්ත්‍වයේ ඉංජිනේරුවන්, ඔවුන්ගේ දෛනික වැඩ කටයුතු අතරතුර, දත්ත කළමනාකරණය කිරීම, නව කොන්දේසි සහ පද්ධති තුළ එහි හැසිරීම පරීක්ෂා කිරීම, දත්තවල අදාළත්වය, එහි ප්‍රමාණවත් බව සහ අදාළත්වය නිරීක්ෂණය කිරීම. මේ සියල්ල සමඟ, ප්‍රායෝගික අර්ථයකින්, දත්ත තත්ත්ව ඉංජිනේරුවන් සම්භාව්‍ය ක්‍රියාකාරී පරීක්ෂණ සඳහා සුළු කාලයක් වෙන් කරයි, නුමුත් මෙය බොහෝ දුරට ව්යාපෘතිය මත රඳා පවතී (මම පහත උදාහරණයක් දෙන්නෙමි).

දත්ත තත්ත්ව ඉංජිනේරුවෙකුගේ වගකීම් දත්ත සමුදා වගුවල “ශුන්‍ය, ගණන් කිරීම් සහ එකතු කිරීම්” සඳහා සාමාන්‍ය අත්පොත/ස්වයංක්‍රීය චෙක්පත්වලට පමණක් සීමා නොවේ, නමුත් පාරිභෝගිකයාගේ ව්‍යාපාරික අවශ්‍යතා පිළිබඳ ගැඹුරු අවබෝධයක් අවශ්‍ය වන අතර ඒ අනුව පවතින දත්ත බවට පරිවර්තනය කිරීමේ හැකියාව අවශ්‍ය වේ. ප්රයෝජනවත් ව්යාපාරික තොරතුරු.

දත්ත තත්ත්ව න්‍යාය

විශාල සහ කුඩා දත්ත පරීක්ෂක: ප්‍රවණතා, න්‍යාය, මගේ කතාව

එවැනි ඉංජිනේරුවෙකුගේ භූමිකාව වඩාත් සම්පූර්ණයෙන් පරිකල්පනය කිරීම සඳහා, න්‍යාය තුළ දත්ත ගුණාත්මකභාවය යනු කුමක්දැයි සොයා බලමු.

දත්තවල ගුණාත්මකභාවය - දත්ත කළමනාකරණයේ එක් අදියරක් (ඔබට තනිවම අධ්‍යයනය කිරීමට අපි ඉතිරි කරන මුළු ලෝකයක්) සහ පහත සඳහන් නිර්ණායක අනුව දත්ත විශ්ලේෂණය කිරීමේ වගකීම දරයි:

විශාල සහ කුඩා දත්ත පරීක්ෂක: ප්‍රවණතා, න්‍යාය, මගේ කතාව
මම හිතන්නේ එක් එක් ලක්ෂ්‍ය විකේතනය කිරීමට අවශ්‍ය නැත (න්‍යායාත්මකව ඒවා “දත්ත මානයන්” ලෙස හැඳින්වේ), ඒවා පින්තූරයේ හොඳින් විස්තර කර ඇත. නමුත් පරීක්ෂණ ක්‍රියාවලියම මෙම විශේෂාංග දැඩි ලෙස පරීක්ෂණ අවස්ථා වලට පිටපත් කිරීම සහ ඒවා පරීක්ෂා කිරීම අදහස් නොකරයි. දත්ත ගුණාත්මක භාවයේදී, වෙනත් ඕනෑම ආකාරයක පරීක්ෂණ වලදී මෙන්, ව්‍යාපාරික තීරණ ගන්නා ව්‍යාපෘති සහභාගිවන්නන් සමඟ එකඟ වූ දත්ත තත්ත්ව අවශ්‍යතා මත ගොඩ නැගීම අවශ්‍ය වේ.

දත්ත තත්ත්ව ව්‍යාපෘතිය මත පදනම්ව, ඉංජිනේරුවෙකුට විවිධ කාර්යයන් ඉටු කළ හැකිය: සාමාන්‍ය ස්වයංක්‍රීයකරණ පරීක්ෂකයෙකුගේ සිට දත්ත ගුණාත්මක භාවය පිළිබඳ මතුපිටින් තක්සේරු කිරීම, ඉහත නිර්ණායක අනුව දත්ත ගැඹුරු පැතිකඩක් සිදු කරන පුද්ගලයෙකු දක්වා.

දත්ත කළමනාකරණය, දත්ත ගුණාත්මකභාවය සහ අදාළ ක්‍රියාවලීන් පිළිබඳ ඉතා සවිස්තරාත්මක විස්තරයක් නම් වූ පොතෙහි හොඳින් විස්තර කර ඇත "DAMA-DMBOK: දැනුම පිළිබඳ දත්ත කළමනාකරණ ආයතනය: 2 වන සංස්කරණය". මෙම මාතෘකාවට හැඳින්වීමක් ලෙස මම මෙම පොත බෙහෙවින් නිර්දේශ කරමි (ලිපියේ අවසානයේ ඔබට එයට සබැඳියක් සොයාගත හැකිය).

මගේ කතාව

තොරතුරු තාක්ෂණ ක්ෂේත්‍රය තුළ, නිෂ්පාදන සමාගම්වල කනිෂ්ඨ පරීක්ෂකවරයෙකුගේ සිට EPAM හි ප්‍රමුඛ දත්ත තත්ත්ව ඉංජිනේරුවරයෙකු දක්වා මම වැඩ කළෙමි. පරීක්ෂකයෙකු ලෙස වසර දෙකක පමණ වැඩ කිරීමෙන් පසු, මම නියත වශයෙන්ම සියලු ආකාරයේ පරීක්ෂණ සිදු කර ඇති බවට මට ස්ථිර විශ්වාසයක් ඇති විය: ප්‍රතිගාමී, ක්‍රියාකාරී, ආතතිය, ස්ථාවරත්වය, ආරක්ෂාව, UI, ආදිය - සහ පරීක්ෂණ මෙවලම් විශාල ප්‍රමාණයක් උත්සාහ කර ඇත. ක්‍රමලේඛන භාෂා තුනකින් එකවර වැඩ කළා: Java, Scala, Python.

ආපසු හැරී බලන විට, මගේ නිපුණතා කට්ටලය මෙතරම් විවිධාකාර වූයේ මන්දැයි මට වැටහෙනවා - මම විශාල හා කුඩා දත්ත මත පදනම් වූ ව්‍යාපෘතිවලට සම්බන්ධ වී සිටිමි. වර්ධනය සඳහා බොහෝ මෙවලම් සහ අවස්ථා සහිත ලෝකයකට මා ගෙන ආවේ මෙයයි.

නව දැනුම සහ කුසලතා ලබා ගැනීමට විවිධ මෙවලම් සහ අවස්ථා අගය කිරීමට, "Data & AI" ලෝකයේ වඩාත්ම ජනප්‍රිය ඒවා පෙන්වන පහත පින්තූරය දෙස බලන්න.

විශාල සහ කුඩා දත්ත පරීක්ෂක: ප්‍රවණතා, න්‍යාය, මගේ කතාව
මෘදුකාංග සංවර්ධනයෙන් එන සුප්‍රසිද්ධ ව්‍යාපාර ධනපතියෙකු වන මැට් ටර්ක් විසින් වාර්ෂිකව මෙවැනි නිදර්ශනයක් සම්පාදනය කරනු ලැබේ. මෙතන සබැඳිය ඔහුගේ බ්ලොග් අඩවියට සහ ව්‍යාපාර ප්‍රාග්ධන සමාගම, ඔහු හවුල්කරුවෙකු ලෙස වැඩ කරන තැන.

මම ව්‍යාපෘතියේ එකම පරීක්ෂකයා වූ විට හෝ අවම වශයෙන් ව්‍යාපෘතියේ ආරම්භයේදීම මම වෘත්තීයමය වශයෙන් ඉක්මනින් වර්ධනය විය. එවැනි මොහොතක ඔබ සම්පූර්ණ පරීක්ෂණ ක්‍රියාවලියට වගකිව යුතු අතර, ඔබට පසුබැසීමට අවස්ථාවක් නැත, ඉදිරියට පමණි. මුලදී එය භයානක විය, නමුත් දැන් එවැනි පරීක්ෂණයක ඇති සියලුම වාසි මට පැහැදිලිය:

  • සන්නිවේදනය සඳහා ප්‍රොක්සියක් නොමැති බැවින් ඔබ පෙර නොවූ විරූ ලෙස මුළු කණ්ඩායම සමඟ සන්නිවේදනය කිරීමට පටන් ගනී: පරීක්ෂණ කළමනාකරු හෝ සෙසු පරීක්ෂකයින් නොවේ.
  • ව්‍යාපෘතියේ ගිල්වීම ඇදහිය නොහැකි තරම් ගැඹුරු වන අතර, පොදුවේ සහ විස්තරාත්මකව සියලුම සංරචක පිළිබඳ තොරතුරු ඔබට ඇත.
  • සංවර්ධකයින් ඔබ දෙස බලන්නේ "ඔහු කරන්නේ කුමක්දැයි නොදන්නා පරීක්‍ෂණයේ යෙදෙන පුද්ගලයා" ලෙස නොව, ඔහුගේ ස්වයංක්‍රීය පරීක්ෂණ සහ විශේෂිත අංගයක් තුළ දෝෂ ඇතිවීමේ අපේක්ෂාව සමඟ කණ්ඩායමට ඇදහිය නොහැකි ප්‍රතිලාභ ලබා දෙන සමානයෙකු ලෙස ය. නිෂ්පාදන.
  • එහි ප්රතිඵලයක් වශයෙන්, ඔබ වඩාත් ඵලදායී, වඩා සුදුසුකම් සහ වැඩි ඉල්ලුමක් ඇත.

ව්‍යාපෘතිය වර්ධනය වන විට, 100% ක්ම මම නව පරීක්ෂකයින් සඳහා උපදේශකයෙකු වී, ඔවුන්ට ඉගැන්වීම සහ මා විසින්ම ඉගෙන ගත් දැනුම ලබා දීම. ඒ අතරම, ව්‍යාපෘතිය මත පදනම්ව, මට සෑම විටම කළමනාකාරිත්වයෙන් ඉහළම මට්ටමේ ස්වයංක්‍රීය පරීක්ෂණ විශේෂඥයින් නොලැබුණු අතර ඔවුන් ස්වයංක්‍රීයකරණය (උනන්දුව සිටින අය සඳහා) පුහුණු කිරීම හෝ එදිනෙදා කටයුතු (මෙවලම්) සඳහා මෙවලම් නිර්මාණය කිරීම අවශ්‍ය විය. දත්ත උත්පාදනය කිරීම සහ පද්ධතියට පැටවීම සඳහා, බර පරීක්ෂා කිරීම / ස්ථායීතා පරීක්ෂාව "ඉක්මන්" සිදු කිරීම සඳහා මෙවලමක්, ආදිය).

නිශ්චිත ව්යාපෘතියක උදාහරණයක්

අවාසනාවකට, හෙළිදරව් නොකිරීමේ වගකීම් හේතුවෙන්, මා වැඩ කළ ව්‍යාපෘති ගැන මට විස්තරාත්මකව කතා කළ නොහැක, නමුත් එක් ව්‍යාපෘතියක දත්ත තත්ත්ව ඉංජිනේරුවෙකුගේ සාමාන්‍ය කාර්යයන් සඳහා මම උදාහරණ දෙන්නෙමි.

ව්‍යාපෘතියේ සාරය වන්නේ එය මත පදනම් වූ යන්ත්‍ර ඉගෙනුම් ආකෘති පුහුණු කිරීම සඳහා දත්ත සැකසීම සඳහා වේදිකාවක් ක්‍රියාත්මක කිරීමයි. පාරිභෝගිකයා ඇමරිකා එක්සත් ජනපදයේ විශාල ඖෂධ සමාගමකි. තාක්ෂණික වශයෙන් එය පොකුරක් විය කුබර්නෙට්ස්, දක්වා ඉහළ යයි AWS EC2 නිදසුන්, ක්ෂුද්‍ර සේවා කිහිපයක් සහ EPAM හි යටින් පවතින විවෘත මූලාශ්‍ර ව්‍යාපෘතිය සමඟ - Legion, නිශ්චිත පාරිභෝගිකයෙකුගේ අවශ්‍යතා වලට අනුවර්තනය වී ඇත (දැන් ව්‍යාපෘතිය නැවත ඉපදී ඇත odahu) භාවිතා කරමින් ETL ක්‍රියාවලි සංවිධානය කරන ලදී apache වායු ප්රවාහය සහ දත්ත ගෙන ගියා සේල්ස්ෆෝර්ස් පාරිභෝගික පද්ධති තුළ AWS S3 බාල්දි. ඊළඟට, යන්ත්‍ර ඉගෙනීමේ ආකෘතියක ඩොකර් රූපයක් වේදිකාවට යොදන ලදී, එය නැවුම් දත්ත මත පුහුණු කරන ලද අතර, REST API අතුරුමුහුණත භාවිතා කරමින්, ව්‍යාපාරයට උනන්දුවක් දක්වන අනාවැකි නිපදවා නිශ්චිත ගැටළු නිරාකරණය කළේය.

දෘශ්යමය වශයෙන්, සෑම දෙයක්ම මේ වගේ දෙයක් විය:

විශාල සහ කුඩා දත්ත පරීක්ෂක: ප්‍රවණතා, න්‍යාය, මගේ කතාව
මෙම ව්‍යාපෘතියේ ක්‍රියාකාරී පරීක්ෂණ ඕනෑ තරම් තිබූ අතර විශේෂාංග සංවර්ධනයේ වේගය සහ මුදා හැරීමේ චක්‍රයේ වේගය (සති දෙකක ස්ප්‍රින්ට්) පවත්වා ගැනීමේ අවශ්‍යතාවය සැලකිල්ලට ගෙන, වඩාත්ම තීරණාත්මක සංරචක ස්වයංක්‍රීය කිරීම ගැන වහාම සිතීම අවශ්‍ය විය. පද්ධතිය. Kubernetes මත පදනම් වූ වේදිකාවේ බොහෝමයක් ස්වයංක්‍රීය පරීක්ෂණ මගින් ආවරණය කරන ලදී රොබෝ රාමුව + පයිතන්, නමුත් ඒවාට සහාය දැක්වීම සහ පුළුල් කිරීම ද අවශ්‍ය විය. මීට අමතරව, පාරිභෝගිකයාගේ පහසුව සඳහා, පොකුරට යොදවා ඇති යන්ත්‍ර ඉගෙනුම් ආකෘති කළමනාකරණය කිරීම සඳහා GUI නිර්මාණය කරන ලද අතර, ආකෘති පුහුණු කිරීම සඳහා දත්ත මාරු කළ යුත්තේ කොතැනට සහ කොතැනටද යන්න සඳහන් කිරීමට හැකියාව ඇත. මෙම විස්තීර්ණ එකතු කිරීම ස්වයංක්‍රීය ක්‍රියාකාරී පරීක්‍ෂණයේ ව්‍යාප්තියට හේතු විය, එය බොහෝ දුරට REST API ඇමතුම් සහ කුඩා අන්ත-2-අවසන් UI පරීක්ෂණ හරහා සිදු කරන ලදී. මෙම සියලු චලනයන්හි සමකය වටා, නිෂ්පාදන අනුවාද පිළිගැනීමේ පරීක්ෂණ සහ ඊළඟ නිකුතුව පිළිගැනීම සම්බන්ධයෙන් පාරිභෝගිකයා සමඟ සන්නිවේදනය කිරීම සමඟ විශිෂ්ට කාර්යයක් කළ අතින් පරීක්ෂකයෙකු අප සමඟ සම්බන්ධ විය. මීට අමතරව, නව විශේෂඥයෙකුගේ පැමිණීම හේතුවෙන්, අපගේ කාර්යය ලේඛනගත කිරීමට සහ වහාම ස්වයංක්රීය කිරීමට අපහසු වූ ඉතා වැදගත් අතින් චෙක්පත් කිහිපයක් එකතු කිරීමට අපට හැකි විය.

අවසාන වශයෙන්, අපි වේදිකාවෙන් සහ GUI ඇඩෝනයෙන් ස්ථාවරත්වය ලබා ගැනීමෙන් පසුව, අපි Apache Airflow DAGs භාවිතයෙන් ETL නල මාර්ග තැනීමට පටන් ගත්තෙමු. ETL ක්‍රියාවලියේ ප්‍රතිඵල මත පදනම්ව දත්ත පරීක්ෂා කරන විශේෂ Airflow DAGs ලිවීමෙන් ස්වයංක්‍රීය දත්ත තත්ත්ව පරීක්ෂාව සිදු කරන ලදී. මෙම ව්‍යාපෘතියේ කොටසක් ලෙස, අපි වාසනාවන්ත වූ අතර පාරිභෝගිකයා අප විසින් පරීක්ෂා කරන ලද නිර්නාමික දත්ත කට්ටල වෙත ප්‍රවේශය ලබා දුන්නේය. වර්ග වලට අනුකූල වීම, කැඩුණු දත්ත තිබීම, පෙර සහ පසු මුළු වාර්තා ගණන, එකතු කිරීම සඳහා ETL ක්‍රියාවලිය මගින් සිදු කරන ලද පරිවර්තනයන් සංසන්දනය කිරීම, තීරු නම් වෙනස් කිරීම සහ වෙනත් දේ සඳහා අපි පේළියෙන් දත්ත පරීක්ෂා කළෙමු. මීට අමතරව, මෙම චෙක්පත් විවිධ දත්ත මූලාශ්‍ර වෙත පරිමාණය කරන ලදී, උදාහරණයක් ලෙස, SalesForce වලට අමතරව, MySQL වෙතද.

අවසාන දත්ත තත්ත්ව පරීක්ෂාවන් දැනටමත් S3 මට්ටමින් සිදු කර ඇති අතර, ඒවා ගබඩා කර ඇති අතර යන්ත්‍ර ඉගෙනුම් ආකෘති පුහුණු කිරීම සඳහා භාවිතා කිරීමට සූදානම් විය. S3 බාල්දියේ ඇති අවසාන CSV ගොනුවෙන් දත්ත ලබා ගැනීමට සහ එය වලංගු කිරීමට, කේතය ලියා ඇත boto3 සේවාදායකයින්.

දත්ත වලින් කොටසක් එක් S3 බාල්දියක සහ කොටසක් තවත් බාල්දියක ගබඩා කිරීමට පාරිභෝගිකයාගෙන් අවශ්‍යතාවයක් ද විය. එවැනි වර්ග කිරීම්වල විශ්වසනීයත්වය පරීක්ෂා කිරීම සඳහා අමතර චෙක්පත් ලිවීමද මෙයට අවශ්‍ය විය.

වෙනත් ව්යාපෘති වලින් සාමාන්ය අත්දැකීම්

දත්ත තත්ත්ව ඉංජිනේරුවෙකුගේ වඩාත් පොදු ක්‍රියාකාරකම් ලැයිස්තුවේ උදාහරණයක්:

  • ස්වයංක්‍රීය මෙවලමක් හරහා පරීක්ෂණ දත්ත (වලංගු වලංගු නොවන විශාල කුඩා) සකස් කරන්න.
  • සකස් කළ දත්ත කට්ටලය මුල් මූලාශ්‍රයට උඩුගත කර එය භාවිතයට සූදානම්දැයි පරීක්ෂා කරන්න.
  • නිශ්චිත සැකසුම් කට්ටලයක් භාවිතා කරමින් මූලාශ්‍ර ගබඩාවේ සිට අවසාන හෝ අතරමැදි ගබඩාව දක්වා දත්ත කට්ටලයක් සැකසීම සඳහා ETL ක්‍රියාවලි දියත් කරන්න (හැකි නම්, ETL කාර්යය සඳහා වින්‍යාසගත කළ හැකි පරාමිති සකසන්න).
  • ETL ක්‍රියාවලිය මගින් සකසන ලද දත්ත එහි ගුණාත්මකභාවය සහ ව්‍යාපාරික අවශ්‍යතා සමඟ අනුකූල වීම සඳහා සත්‍යාපනය කරන්න.

ඒ අතරම, චෙක්පත් වල ප්‍රධාන අවධානය විය යුත්තේ පද්ධතියේ දත්ත ප්‍රවාහය ප්‍රතිපත්තිමය වශයෙන් ක්‍රියා කර සම්පූර්ණ කර ඇති බව (ක්‍රියාකාරී පරීක්ෂණයේ කොටසක් වන) පමණක් නොව, බොහෝ දුරට දත්ත පරීක්ෂා කිරීම සහ වලංගු කිරීම සඳහා ය. අපේක්ෂිත අවශ්යතා සමග අනුකූල වීම, විෂමතා හඳුනා ගැනීම සහ වෙනත් දේ.

මෙවලම්

එවැනි දත්ත පාලනය සඳහා එක් තාක්ෂණයක් දත්ත සැකසීමේ සෑම අදියරකදීම දාම චෙක්පත් සංවිධානය කිරීම විය හැකිය, සාහිත්යයේ ඊනියා "දත්ත දාමය" - මූලාශ්රයේ සිට අවසාන භාවිතය දක්වා දත්ත පාලනය කිරීම. මෙම වර්ගයේ චෙක්පත් බොහෝ විට ක්රියාත්මක වන්නේ SQL විමසුම් පරීක්ෂා කිරීමෙනි. එවැනි විමසුම් හැකිතාක් සැහැල්ලු විය යුතු අතර දත්ත ගුණාත්මක තනි කොටස් පරීක්ෂා කළ යුතු බව පැහැදිලිය (වගු පාරදත්ත, හිස් රේඛා, NULL, වාක්‍ය ඛණ්ඩයේ දෝෂ - පරීක්ෂා කිරීමට අවශ්‍ය අනෙකුත් ගුණාංග).

සූදානම් කළ (වෙනස් කළ නොහැකි, තරමක් වෙනස් කළ හැකි) දත්ත කට්ටල භාවිතා කරන ප්‍රතිගාමී පරීක්ෂණ වලදී, autotest කේතයට ගුණාත්මක භාවයට අනුකූල වීම සඳහා දත්ත පරීක්ෂා කිරීම සඳහා සූදානම් කළ සැකිලි ගබඩා කළ හැකිය (අපේක්ෂිත වගු පාරදත්ත විස්තර; පේළි නියැදි වස්තූන් පරීක්ෂණය අතරතුර අහඹු ලෙස තෝරා ඇත, ආදිය).

එසේම, පරීක්ෂා කිරීමේදී, ඔබ Apache Airflow වැනි රාමු භාවිතා කරමින් ETL පරීක්ෂණ ක්‍රියාවලි ලිවිය යුතුය. අපාචේ ස්පාර්ක් හෝ කළු පෙට්ටි වලාකුළු ආකාරයේ මෙවලමක් පවා GCP Dataprep, GCP දත්ත ප්රවාහය සහ යනාදි. මෙම තත්ත්වය පරීක්‍ෂණ ඉංජිනේරුවරයාට ඉහත මෙවලම්වල ක්‍රියාකාරීත්වයේ මූලධර්මවල ගිලී සිටීමට බල කරන අතර ඊටත් වඩා ඵලදායී ලෙස ක්‍රියාකාරී පරීක්‍ෂණය (උදාහරණයක් ලෙස, ව්‍යාපෘතියක පවතින ETL ක්‍රියාවලි) සහ දත්ත පරීක්ෂා කිරීමට ඒවා භාවිතා කරයි. විශේෂයෙන්, Apache Airflow ජනප්‍රිය විශ්ලේෂණ දත්ත සමුදායන් සමඟ වැඩ කිරීම සඳහා සූදානම් කළ ක්‍රියාකරුවන් ඇත, උදාහරණයක් ලෙස GCP BigQuery. එහි භාවිතය පිළිබඳ වඩාත්ම මූලික උදාහරණය දැනටමත් දක්වා ඇත මෙහි, ඒ නිසා මම නැවත නොකියමි.

සූදානම් කළ විසඳුම් හැරුණු විට, ඔබේම ශිල්පීය ක්රම සහ මෙවලම් ක්රියාත්මක කිරීමට කිසිවෙකු ඔබට තහනම් නොකරයි. මෙය ව්‍යාපෘතිය සඳහා පමණක් නොව, දත්ත තත්ත්ව ඉංජිනේරුවරයාට ද ප්‍රයෝජනවත් වනු ඇත, එමඟින් ඔහුගේ තාක්ෂණික ක්ෂිතිජය සහ කේතීකරණ කුසලතා වැඩිදියුණු කරනු ඇත.

එය සැබෑ ව්‍යාපෘතියක ක්‍රියා කරන ආකාරය

"දත්ත දාමය", ETL සහ සර්වබලධාරී චෙක්පත් පිළිබඳ අවසාන ඡේදවල හොඳ නිදර්ශනයක් වන්නේ සැබෑ ව්‍යාපෘති වලින් එකකින් පහත ක්‍රියාවලියයි:

විශාල සහ කුඩා දත්ත පරීක්ෂක: ප්‍රවණතා, න්‍යාය, මගේ කතාව

මෙන්න, විවිධ දත්ත (ස්වාභාවිකව, අප විසින් සකස් කරන ලද) අපගේ පද්ධතියේ ආදාන "පුනීලය" ඇතුළත් කරන්න: වලංගු, වලංගු නොවන, මිශ්ර, ආදිය, පසුව ඒවා පෙරීම සහ අතරමැදි ගබඩාවකින් අවසන් වේ, පසුව ඒවා නැවත පරිවර්තන මාලාවකට භාජනය වේ. සහ අවසාන ගබඩාවේ තැන්පත් කර ඇති අතර, එයින්, විශ්ලේෂණ, දත්ත ගබඩා ගොඩනැගීම සහ ව්‍යාපාරික තීක්ෂ්ණ බුද්ධිය සෙවීම සිදු කරනු ලැබේ. එවැනි පද්ධතියක් තුළ, ETL ක්‍රියාවලිවල ක්‍රියාකාරීත්වය ක්‍රියාකාරීව පරීක්ෂා නොකර, පරිවර්තනයට පෙර සහ පසු දත්තවල ගුණාත්මකභාවය මෙන්ම විශ්ලේෂණ සඳහා ප්‍රතිදානය කෙරෙහි අපි අවධානය යොමු කරමු.

ඉහත කරුණු සාරාංශ කිරීමට, මා සේවය කළ ස්ථාන කුමක් වුවත්, පහත විශේෂාංග බෙදාගත් දත්ත ව්‍යාපෘතිවල මා සම්බන්ධ වූ සෑම තැනකම:

  • ස්වයංක්‍රීයකරණය හරහා පමණක් ඔබට සමහර අවස්ථා පරීක්ෂා කර ව්‍යාපාරයට පිළිගත හැකි මුදා හැරීමේ චක්‍රයක් ලබා ගත හැක.
  • එවැනි ව්‍යාපෘතියක පරීක්ෂකයෙකු කණ්ඩායමේ වඩාත්ම ගෞරවනීය සාමාජිකයින්ගෙන් කෙනෙකි, එය එක් එක් සහභාගිවන්නන්ට විශාල ප්‍රතිලාභ ගෙන එයි (පරීක්ෂණ වේගවත් කිරීම, දත්ත විද්‍යාඥයාගේ හොඳ දත්ත, මුල් අවධියේදී දෝෂ හඳුනා ගැනීම).
  • ඔබ ඔබේම දෘඩාංග මත හෝ වලාකුළු මත වැඩ කරන්නේද යන්න ගැටළුවක් නොවේ - සියලුම සම්පත් Hortonworks, Cloudera, Mesos, Kubernetes වැනි පොකුරකට සාරාංශ කර ඇත.
  • ව්‍යාපෘති ක්ෂුද්‍ර සේවා ප්‍රවේශයක් මත ගොඩනගා ඇත, බෙදා හරින ලද සහ සමාන්තර පරිගණනය ප්‍රමුඛ වේ.

දත්ත තත්ත්ව ක්‍ෂේත්‍රයේ පරීක්ෂණ සිදු කරන විට, පරීක්ෂණ විශේෂඥයෙකු තම වෘත්තීය අවධානය නිෂ්පාදනයේ කේතය සහ භාවිතා කරන මෙවලම් වෙත මාරු කරන බව සටහන් කිරීමට කැමැත්තෙමි.

දත්ත තත්ත්ව පරීක්ෂාවෙහි සුවිශේෂී ලක්ෂණ

ඊට අමතරව, මා වෙනුවෙන්, මම පහත සඳහන් දෑ හඳුනාගෙන ඇත (ඒවා ඉතා සාමාන්‍යකරණය වූ සහ තනිකරම ආත්මීය බව මම වහාම වෙන්කරවා ගනිමි) දත්ත (විශාල දත්ත) ව්‍යාපෘති (පද්ධති) සහ අනෙකුත් ක්ෂේත්‍රවල පරීක්ෂා කිරීමේ සුවිශේෂී ලක්ෂණ:

විශාල සහ කුඩා දත්ත පරීක්ෂක: ප්‍රවණතා, න්‍යාය, මගේ කතාව

ප්රයෝජනවත් සබැඳි

  1. න්යාය: DAMA-DMBOK: දැනුම පිළිබඳ දත්ත කළමනාකරණ ආයතනය: 2 වන සංස්කරණය.
  2. පුහුණු මධ්යස්ථානය EPAM 
  3. ආරම්භක දත්ත තත්ත්ව ඉංජිනේරුවෙකු සඳහා නිර්දේශිත ද්‍රව්‍ය:
    1. Stepik පිළිබඳ නොමිලේ පාඨමාලාව: දත්ත සමුදායන් සඳහා හැඳින්වීම
    2. LinkedIn ඉගෙනුම් පාඨමාලාව: දත්ත විද්‍යා පදනම්: දත්ත ඉංජිනේරු.
    3. ලිපි:
    4. වීඩියෝ:

නිගමනය

දත්තවල ගුණාත්මකභාවය යනු ඉතා තරුණ පොරොන්දු දිශානතියකි, එහි කොටසක් වීම යනු ආරම්භයක කොටසක් වීමයි. දත්ත ගුණාත්මක භාවයට පත් වූ පසු, ඔබ නවීන, ඉල්ලුමේ තාක්ෂණයන් විශාල සංඛ්‍යාවක ගිල්වනු ඇත, නමුත් වඩාත්ම වැදගත් දෙය නම්, ඔබේ අදහස් උත්පාදනය කිරීමට සහ ක්‍රියාත්මක කිරීමට දැවැන්ත අවස්ථා ඔබට විවෘත වනු ඇත. විශේෂඥයෙකු ලෙස අඛණ්ඩව සංවර්ධනය වෙමින් පවතින ව්යාපෘතියේ පමණක් නොව, ඔබ වෙනුවෙන්ම අඛණ්ඩ වැඩිදියුණු කිරීමේ ප්රවේශය භාවිතා කිරීමට ඔබට හැකි වනු ඇත.

මූලාශ්රය: www.habr.com

අදහස් එක් කරන්න