பெரிய மற்றும் சிறிய தரவு சோதனையாளர்: போக்குகள், கோட்பாடு, எனது கதை

அனைவருக்கும் வணக்கம், எனது பெயர் அலெக்சாண்டர், நான் ஒரு டேட்டா குவாலிட்டி இன்ஜினியர், அவர் தரவை அதன் தரத்தை சரிபார்க்கிறார். இந்தக் கட்டுரையில் நான் இதை எப்படி வந்தேன், 2020 இல் இந்த சோதனைப் பகுதி ஏன் அலையின் உச்சத்தில் இருந்தது என்பதைப் பற்றி பேசும்.

பெரிய மற்றும் சிறிய தரவு சோதனையாளர்: போக்குகள், கோட்பாடு, எனது கதை

உலகளாவிய போக்கு

இன்றைய உலகம் மற்றொரு தொழில்நுட்ப புரட்சியை சந்தித்து வருகிறது, இதில் ஒரு அம்சம் அனைத்து வகையான நிறுவனங்களால் திரட்டப்பட்ட தரவை விற்பனை, லாபம் மற்றும் PR ஆகியவற்றின் சொந்த ஃப்ளைவீலை மேம்படுத்த பயன்படுத்துவதாகும். நல்ல (தரமான) தரவுகள் இருப்பதும், அதிலிருந்து பணம் சம்பாதிக்கக்கூடிய திறமையான மூளைகளும் (சரியாகச் செயலாக்குதல், காட்சிப்படுத்துதல், இயந்திரக் கற்றல் மாதிரிகளை உருவாக்குதல் போன்றவை) இன்று பலரின் வெற்றிக்கு முக்கியமாகிவிட்டதாகத் தெரிகிறது. 15-20 ஆண்டுகளுக்கு முன்பு பெரிய நிறுவனங்கள் முக்கியமாக தரவுக் குவிப்பு மற்றும் பணமாக்குதலுடன் தீவிரமான வேலைகளில் ஈடுபட்டிருந்தால், இன்று இது கிட்டத்தட்ட எல்லா விவேகமுள்ள மக்களும் ஆகும்.

இது சம்பந்தமாக, பல ஆண்டுகளுக்கு முன்பு, உலகெங்கிலும் உள்ள வேலை தேடலுக்காக அர்ப்பணிக்கப்பட்ட அனைத்து போர்டல்களும் தரவு விஞ்ஞானிகளுக்கான காலியிடங்களை நிரப்பத் தொடங்கின, ஏனெனில் அத்தகைய நிபுணரை பணியமர்த்தினால், இயந்திர கற்றலின் சூப்பர்மாடலை உருவாக்க முடியும் என்று எல்லோரும் உறுதியாக நம்பினர். , எதிர்காலத்தை கணித்து, நிறுவனத்திற்கு "குவாண்டம் லீப்" செய்ய. காலப்போக்கில், இந்த அணுகுமுறை எங்கும் வேலை செய்யாது என்பதை மக்கள் உணர்ந்தனர், ஏனெனில் அத்தகைய நிபுணர்களின் கைகளில் விழும் எல்லா தரவும் பயிற்சி மாதிரிகளுக்கு ஏற்றது அல்ல.

தரவு விஞ்ஞானிகளிடமிருந்து கோரிக்கைகள் தொடங்கின: “இவற்றிலிருந்தும் அவற்றிலிருந்தும் அதிகமான தரவை வாங்குவோம்...”, “எங்களிடம் போதுமான தரவு இல்லை...”, “எங்களுக்கு இன்னும் சில தரவு தேவை, முன்னுரிமை உயர்தரமானது...” . இந்த கோரிக்கைகளின் அடிப்படையில், ஒன்று அல்லது மற்றொரு தரவுத் தொகுப்பை வைத்திருக்கும் நிறுவனங்களுக்கு இடையே பல தொடர்புகள் உருவாக்கத் தொடங்கின. இயற்கையாகவே, இதற்கு இந்த செயல்முறையின் தொழில்நுட்ப அமைப்பு தேவை - தரவு மூலத்துடன் இணைத்தல், பதிவிறக்கம் செய்தல், முழுமையாக ஏற்றப்பட்டதா எனச் சரிபார்த்தல் போன்றவை. இத்தகைய செயல்முறைகளின் எண்ணிக்கை வளரத் தொடங்கியது, இன்று நமக்கு மற்றொரு வகையான தேவை உள்ளது. வல்லுநர்கள் - தரவுத் தரப் பொறியாளர்கள் - கணினியில் உள்ள தரவுகளின் ஓட்டத்தை (டேட்டா பைப்லைன்கள்), உள்ளீடு மற்றும் வெளியீட்டில் தரவின் தரம் ஆகியவற்றைக் கண்காணித்து, அவற்றின் போதுமான தன்மை, ஒருமைப்பாடு மற்றும் பிற பண்புகள் பற்றிய முடிவுகளை எடுப்பவர்கள்.

டேட்டா குவாலிட்டி இன்ஜினியர்களுக்கான போக்கு அமெரிக்காவிலிருந்து வந்தது, அங்கு, முதலாளித்துவத்தின் பொங்கி எழும் சகாப்தத்தின் மத்தியில், தரவுக்கான போரில் யாரும் இழக்கத் தயாராக இல்லை. அமெரிக்காவில் மிகவும் பிரபலமான இரண்டு வேலை தேடல் தளங்களின் ஸ்கிரீன்ஷாட்களை கீழே வழங்கியுள்ளேன்: www.monster.com и www.dice.com — இது மார்ச் 17, 2020 நிலவரப்படி, தரவுத் தரம் மற்றும் தரவு விஞ்ஞானி என்ற முக்கிய வார்த்தைகளைப் பயன்படுத்தி பெறப்பட்ட இடுகையிடப்பட்ட காலியிடங்களின் எண்ணிக்கையில் தரவைக் காட்டுகிறது.

www.monster.com

தரவு விஞ்ஞானிகள் - 21416 காலியிடங்கள்
தரவுத் தரம் - 41104 காலியிடங்கள்

பெரிய மற்றும் சிறிய தரவு சோதனையாளர்: போக்குகள், கோட்பாடு, எனது கதை
பெரிய மற்றும் சிறிய தரவு சோதனையாளர்: போக்குகள், கோட்பாடு, எனது கதை

www.dice.com

தரவு விஞ்ஞானிகள் - 404 காலியிடங்கள்
தரவுத் தரம் - 2020 காலியிடங்கள்

பெரிய மற்றும் சிறிய தரவு சோதனையாளர்: போக்குகள், கோட்பாடு, எனது கதை
பெரிய மற்றும் சிறிய தரவு சோதனையாளர்: போக்குகள், கோட்பாடு, எனது கதை

வெளிப்படையாக, இந்த தொழில்கள் எந்த வகையிலும் ஒருவருக்கொருவர் போட்டியிடவில்லை. ஸ்கிரீன்ஷாட்கள் மூலம், டேட்டா தர பொறியாளர்களுக்கான கோரிக்கைகளின் அடிப்படையில் தொழிலாளர் சந்தையில் தற்போதைய நிலைமையை விளக்க விரும்புகிறேன், அவர்களில் தரவு விஞ்ஞானிகளை விட இப்போது அதிகம் தேவை.

ஜூன் 2019 இல், EPAM, நவீன தகவல் தொழில்நுட்ப சந்தையின் தேவைகளுக்குப் பதிலளித்து, தரவுத் தரத்தை ஒரு தனி நடைமுறையாகப் பிரித்தது. தரவுத் தர பொறியாளர்கள், தங்களின் அன்றாடப் பணியின் போது, ​​தரவை நிர்வகித்தல், புதிய நிலைமைகள் மற்றும் அமைப்புகளில் அதன் நடத்தையைச் சரிபார்த்தல், தரவின் பொருத்தம், அதன் போதுமான தன்மை மற்றும் பொருத்தம் ஆகியவற்றைக் கண்காணிக்கின்றனர். இவை அனைத்தையும் கொண்டு, நடைமுறை அர்த்தத்தில், தரவு தர பொறியாளர்கள் உண்மையில் கிளாசிக்கல் செயல்பாட்டு சோதனைக்கு சிறிது நேரம் ஒதுக்குகிறார்கள், ஆனால் இது திட்டத்தைப் பொறுத்தது (நான் கீழே ஒரு உதாரணம் தருகிறேன்).

தரவுத் தரப் பொறியாளரின் பொறுப்புகள், தரவுத்தள அட்டவணையில் உள்ள “பூஜ்யங்கள், எண்ணிக்கைகள் மற்றும் தொகைகள்” ஆகியவற்றுக்கான வழக்கமான கையேடு/தானியங்கி சோதனைகளுக்கு மட்டும் மட்டுப்படுத்தப்படவில்லை, ஆனால் வாடிக்கையாளரின் வணிகத் தேவைகளைப் பற்றிய ஆழமான புரிதல் மற்றும் அதற்கேற்ப, கிடைக்கக்கூடிய தரவை மாற்றும் திறன் தேவை. பயனுள்ள வணிக தகவல்.

தரவு தரக் கோட்பாடு

பெரிய மற்றும் சிறிய தரவு சோதனையாளர்: போக்குகள், கோட்பாடு, எனது கதை

அத்தகைய பொறியாளரின் பங்கை இன்னும் முழுமையாக கற்பனை செய்ய, கோட்பாட்டில் தரவுத் தரம் என்ன என்பதைக் கண்டுபிடிப்போம்.

தரவு தரம் — தரவு நிர்வாகத்தின் நிலைகளில் ஒன்று (உலகம் முழுவதையும் நீங்கள் சொந்தமாகப் படிப்பதற்காக விட்டுவிடுவோம்) மேலும் பின்வரும் அளவுகோல்களின்படி தரவை பகுப்பாய்வு செய்வதற்குப் பொறுப்பாகும்:

பெரிய மற்றும் சிறிய தரவு சோதனையாளர்: போக்குகள், கோட்பாடு, எனது கதை
ஒவ்வொரு புள்ளிகளையும் புரிந்து கொள்ள வேண்டிய அவசியமில்லை என்று நான் நினைக்கிறேன் (கோட்பாட்டில் அவை "தரவு பரிமாணங்கள்" என்று அழைக்கப்படுகின்றன), அவை படத்தில் நன்றாக விவரிக்கப்பட்டுள்ளன. ஆனால் சோதனைச் செயல்முறையே இந்த அம்சங்களை சோதனை நிகழ்வுகளில் கண்டிப்பாக நகலெடுத்து அவற்றைச் சரிபார்ப்பதைக் குறிக்கவில்லை. தரவுத் தரத்தில், வேறு எந்த வகையான சோதனைகளிலும், முதலில், வணிக முடிவுகளை எடுக்கும் திட்ட பங்கேற்பாளர்களுடன் ஒப்புக் கொள்ளப்பட்ட தரவு தரத் தேவைகளை உருவாக்குவது அவசியம்.

தரவுத் தரத் திட்டத்தைப் பொறுத்து, ஒரு பொறியாளர் வெவ்வேறு செயல்பாடுகளைச் செய்ய முடியும்: தரவு தரத்தின் மேலோட்டமான மதிப்பீட்டைக் கொண்ட ஒரு சாதாரண ஆட்டோமேஷன் சோதனையாளரிலிருந்து, மேலே உள்ள அளவுகோல்களின்படி தரவின் ஆழமான விவரக்குறிப்பை நடத்தும் நபர் வரை.

டேட்டா மேனேஜ்மென்ட், டேட்டா தரம் மற்றும் தொடர்புடைய செயல்முறைகள் பற்றிய மிக விரிவான விளக்கம் புத்தகத்தில் நன்கு விவரிக்கப்பட்டுள்ளது "DAMA-DMBOK: தரவு மேலாண்மை அமைப்பு அறிவு: 2வது பதிப்பு". இந்த தலைப்புக்கு ஒரு அறிமுகமாக இந்த புத்தகத்தை நான் மிகவும் பரிந்துரைக்கிறேன் (கட்டுரையின் முடிவில் அதற்கான இணைப்பை நீங்கள் காணலாம்).

என் வரலாறு

தகவல் தொழில்நுட்பத் துறையில், தயாரிப்பு நிறுவனங்களில் ஜூனியர் டெஸ்டரிலிருந்து EPAM இல் முன்னணி தரவுத் தரப் பொறியாளர் வரை நான் பணியாற்றினேன். சோதனையாளராக சுமார் இரண்டு வருடங்கள் பணிபுரிந்த பிறகு, நான் அனைத்து வகையான சோதனைகளையும் செய்திருக்கிறேன் என்ற உறுதியான நம்பிக்கை எனக்கு இருந்தது: பின்னடைவு, செயல்பாடு, மன அழுத்தம், நிலைப்புத்தன்மை, பாதுகாப்பு, UI போன்றவை. ஜாவா, ஸ்கலா, பைதான் ஆகிய மூன்று நிரலாக்க மொழிகளில் ஒரே நேரத்தில் பணியாற்றினார்.

பின்னோக்கிப் பார்க்கையில், எனது திறமைத் தொகுப்பு ஏன் மிகவும் மாறுபட்டது என்று எனக்குப் புரிகிறது—நான் பெரிய மற்றும் சிறிய தரவு சார்ந்த திட்டங்களில் ஈடுபட்டேன். இதுவே என்னை பல கருவிகள் மற்றும் வளர்ச்சிக்கான வாய்ப்புகளின் உலகிற்கு கொண்டு வந்தது.

புதிய அறிவு மற்றும் திறன்களைப் பெறுவதற்கான பல்வேறு கருவிகள் மற்றும் வாய்ப்புகளைப் பாராட்ட, கீழே உள்ள படத்தைப் பார்க்கவும், இது "டேட்டா & AI" உலகில் மிகவும் பிரபலமானவற்றைக் காட்டுகிறது.

பெரிய மற்றும் சிறிய தரவு சோதனையாளர்: போக்குகள், கோட்பாடு, எனது கதை
மென்பொருள் மேம்பாட்டிலிருந்து வரும் பிரபல துணிகர முதலீட்டாளர்களில் ஒருவரான மாட் டர்க் என்பவரால் ஆண்டுதோறும் இந்த வகையான விளக்கம் தொகுக்கப்படுகிறது. இங்கே ссылка அவரது வலைப்பதிவிற்கு மற்றும் துணிகர மூலதன நிறுவனம், அங்கு அவர் பங்குதாரராக பணிபுரிகிறார்.

திட்டத்தில் ஒரே சோதனையாளராக இருந்தபோது அல்லது குறைந்தபட்சம் திட்டத்தின் தொடக்கத்தில் நான் தொழில் ரீதியாக விரைவாக வளர்ந்தேன். அத்தகைய தருணத்தில்தான் முழு சோதனைச் செயல்முறைக்கும் நீங்கள் பொறுப்பேற்க வேண்டும், மேலும் பின்வாங்க உங்களுக்கு வாய்ப்பில்லை, முன்னோக்கி மட்டுமே. முதலில் அது பயமாக இருந்தது, ஆனால் இப்போது அத்தகைய சோதனையின் அனைத்து நன்மைகளும் எனக்கு தெளிவாகத் தெரிகிறது:

  • தகவல்தொடர்புக்கு ப்ராக்ஸி இல்லாததால், சோதனை மேலாளரோ அல்லது சக சோதனையாளர்களோ இல்லாததால், நீங்கள் முன் எப்போதும் இல்லாத வகையில் முழு குழுவுடன் தொடர்பு கொள்ளத் தொடங்குகிறீர்கள்.
  • திட்டத்தில் மூழ்குவது நம்பமுடியாத அளவிற்கு ஆழமாகிறது, மேலும் பொதுவாக மற்றும் விரிவாக அனைத்து கூறுகளையும் பற்றிய தகவல் உங்களிடம் உள்ளது.
  • டெவலப்பர்கள் உங்களை "அவர் என்ன செய்கிறார் என்று தெரியாதவர் என்று சோதிப்பவர்" என்று பார்க்கவில்லை, மாறாக ஒரு குறிப்பிட்ட கூறுகளில் தோன்றும் பிழைகளை எதிர்பார்த்து தன்னியக்க சோதனைகள் மூலம் அணிக்கு நம்பமுடியாத பலன்களை உருவாக்கும் ஒரு சமமாக பார்க்கிறார்கள். தயாரிப்பு.
  • இதன் விளைவாக, நீங்கள் மிகவும் பயனுள்ளதாகவும், அதிக தகுதியுடையவராகவும், தேவை அதிகமாகவும் உள்ளீர்கள்.

திட்டம் வளர்ந்தவுடன், 100% வழக்குகளில் நான் புதிய சோதனையாளர்களுக்கு வழிகாட்டியாக ஆனேன், அவர்களுக்கு கற்பித்தல் மற்றும் நானே கற்றுக்கொண்ட அறிவை அனுப்புதல். அதே நேரத்தில், திட்டத்தைப் பொறுத்து, நான் எப்போதும் நிர்வாகத்திடமிருந்து மிக உயர்ந்த அளவிலான ஆட்டோ சோதனை நிபுணர்களைப் பெறவில்லை, மேலும் அவர்களுக்கு ஆட்டோமேஷனில் (ஆர்வமுள்ளவர்களுக்கு) பயிற்சி அளிக்க வேண்டும் அல்லது அன்றாட நடவடிக்கைகளில் (கருவிகள்) பயன்படுத்துவதற்கான கருவிகளை உருவாக்க வேண்டிய அவசியம் இருந்தது. தரவை உருவாக்குவதற்கும் அவற்றை கணினியில் ஏற்றுவதற்கும், சுமை சோதனை/நிலைத்தன்மை சோதனையை "விரைவாக" செய்வதற்கான ஒரு கருவி, முதலியன).

ஒரு குறிப்பிட்ட திட்டத்தின் எடுத்துக்காட்டு

துரதிர்ஷ்டவசமாக, வெளிப்படுத்தாத கடமைகள் காரணமாக, நான் பணிபுரிந்த திட்டங்களைப் பற்றி விரிவாகப் பேச முடியாது, ஆனால் திட்டங்களில் ஒன்றில் தரவு தர பொறியாளரின் வழக்கமான பணிகளின் எடுத்துக்காட்டுகளை தருகிறேன்.

திட்டத்தின் சாராம்சம், அதன் அடிப்படையில் பயிற்சி இயந்திர கற்றல் மாதிரிகளுக்கான தரவை தயாரிப்பதற்கான தளத்தை செயல்படுத்துவதாகும். வாடிக்கையாளர் அமெரிக்காவைச் சேர்ந்த ஒரு பெரிய மருந்து நிறுவனம். தொழில்நுட்ப ரீதியாக இது ஒரு கிளஸ்டர் Kubernetes, வரை உயரும் வட்டாரங்களில் EC2 நிகழ்வுகள், பல மைக்ரோ சர்வீஸ்கள் மற்றும் EPAM இன் அடிப்படை திறந்த மூல திட்டத்துடன் - Legion, ஒரு குறிப்பிட்ட வாடிக்கையாளரின் தேவைகளுக்கு ஏற்றவாறு மாற்றியமைக்கப்பட்டது (இப்போது திட்டம் மீண்டும் பிறந்துள்ளது ஒடாஹு) ETL செயல்முறைகள் பயன்படுத்தி ஒழுங்கமைக்கப்பட்டன அப்பாச்சி காற்றோட்டம் மற்றும் தரவு நகர்த்தப்பட்டது சேல்ஸ்ஃபோர்ஸ் வாடிக்கையாளர் அமைப்புகள் AWS S3 வாளிகள். அடுத்து, ஒரு இயந்திர கற்றல் மாதிரியின் டோக்கர் படம் மேடையில் பயன்படுத்தப்பட்டது, இது புதிய தரவுகளில் பயிற்சியளிக்கப்பட்டது மற்றும் REST API இடைமுகத்தைப் பயன்படுத்தி, வணிகத்திற்கு ஆர்வமுள்ள மற்றும் குறிப்பிட்ட சிக்கல்களைத் தீர்க்கும் கணிப்புகளை உருவாக்கியது.

பார்வைக்கு, எல்லாம் இப்படித்தான் இருந்தது:

பெரிய மற்றும் சிறிய தரவு சோதனையாளர்: போக்குகள், கோட்பாடு, எனது கதை
இந்த திட்டத்தில் ஏராளமான செயல்பாட்டு சோதனைகள் இருந்தன, மேலும் அம்ச மேம்பாட்டின் வேகம் மற்றும் வெளியீட்டு சுழற்சியின் வேகத்தை (இரண்டு வார ஸ்பிரிண்ட்கள்) பராமரிக்க வேண்டியதன் அவசியத்தை கருத்தில் கொண்டு, மிக முக்கியமான கூறுகளை தானியங்குபடுத்துவது பற்றி உடனடியாக சிந்திக்க வேண்டியது அவசியம். அமைப்பு. குபெர்னெட்டஸ் அடிப்படையிலான இயங்குதளத்தின் பெரும்பாலானவை தன்னியக்க சோதனைகளால் செயல்படுத்தப்பட்டன ரோபோ கட்டமைப்பு + பைதான், ஆனால் அவற்றை ஆதரிக்கவும் விரிவாக்கவும் அவசியம். கூடுதலாக, வாடிக்கையாளரின் வசதிக்காக, கிளஸ்டருக்குப் பயன்படுத்தப்படும் இயந்திர கற்றல் மாதிரிகளை நிர்வகிக்க ஒரு GUI உருவாக்கப்பட்டது, அத்துடன் மாதிரிகளைப் பயிற்றுவிப்பதற்காக எங்கு, எங்கு தரவு பரிமாற்றம் செய்யப்பட வேண்டும் என்பதைக் குறிப்பிடும் திறன். இந்த விரிவான சேர்த்தல் தானியங்கு செயல்பாட்டு சோதனையின் விரிவாக்கத்தை ஏற்படுத்தியது, இது பெரும்பாலும் REST API அழைப்புகள் மற்றும் குறைந்த எண்ணிக்கையிலான எண்ட்-2-எண்ட் UI சோதனைகள் மூலம் செய்யப்பட்டது. இந்த அனைத்து இயக்கத்தின் பூமத்திய ரேகையைச் சுற்றி, ஒரு கையேடு சோதனையாளர் எங்களுடன் இணைந்தார், அவர் தயாரிப்பு பதிப்புகளின் ஏற்பு சோதனை மற்றும் அடுத்த வெளியீட்டை ஏற்றுக்கொள்வது குறித்து வாடிக்கையாளருடன் தொடர்புகொள்வதில் சிறந்த வேலையைச் செய்தார். கூடுதலாக, ஒரு புதிய நிபுணரின் வருகையின் காரணமாக, எங்கள் வேலையை ஆவணப்படுத்தவும், உடனடியாக தானியக்கமாக்க கடினமாக இருந்த பல முக்கியமான கையேடு காசோலைகளைச் சேர்க்கவும் முடிந்தது.

இறுதியாக, நாங்கள் பிளாட்ஃபார்ம் மற்றும் அதன் மேல் உள்ள GUI ஆட்-ஆன் ஆகியவற்றிலிருந்து நிலைத்தன்மையை அடைந்த பிறகு, அப்பாச்சி ஏர்ஃப்ளோ DAGகளைப் பயன்படுத்தி ETL பைப்லைன்களை உருவாக்கத் தொடங்கினோம். ETL செயல்முறையின் முடிவுகளின் அடிப்படையில் தரவைச் சரிபார்த்த சிறப்பு ஏர்ஃப்ளோ DAGகளை எழுதுவதன் மூலம் தானியங்கு தரவு தரச் சரிபார்ப்பு மேற்கொள்ளப்பட்டது. இந்தத் திட்டத்தின் ஒரு பகுதியாக, நாங்கள் அதிர்ஷ்டசாலிகள், நாங்கள் சோதனை செய்த அநாமதேய தரவுத் தொகுப்புகளுக்கான அணுகலை வாடிக்கையாளர் எங்களுக்கு வழங்கியுள்ளார். வகைகளுடன் இணங்குதல், உடைந்த தரவுகளின் இருப்பு, முன்னும் பின்னும் உள்ள மொத்த பதிவுகளின் எண்ணிக்கை, திரட்டல், நெடுவரிசைப் பெயர்களை மாற்றுதல் மற்றும் பிற விஷயங்களுக்கான ETL செயல்முறையால் செய்யப்பட்ட மாற்றங்களின் ஒப்பீடு ஆகியவற்றை நாங்கள் வரிக்கு வரியாக சரிபார்த்தோம். கூடுதலாக, இந்த காசோலைகள் வெவ்வேறு தரவு மூலங்களுக்கு அளவிடப்பட்டன, எடுத்துக்காட்டாக, சேல்ஸ்ஃபோர்ஸுடன் கூடுதலாக, MySQL க்கும்.

இறுதித் தரவுத் தரச் சோதனைகள் ஏற்கனவே S3 மட்டத்தில் மேற்கொள்ளப்பட்டன, அங்கு அவை சேமிக்கப்பட்டு, இயந்திரக் கற்றல் மாதிரிகளைப் பயிற்றுவிப்பதற்குப் பயன்படுத்தத் தயாராக இருந்தன. S3 பக்கெட்டில் அமைந்துள்ள இறுதி CSV கோப்பிலிருந்து தரவைப் பெறவும் அதைச் சரிபார்க்கவும், குறியீடு இதைப் பயன்படுத்தி எழுதப்பட்டது boto3 வாடிக்கையாளர்கள்.

டேட்டாவின் ஒரு பகுதியை ஒரு S3 பக்கெட்டிலும், ஒரு பகுதியை மற்றொன்றிலும் சேமித்து வைக்க வேண்டிய தேவையும் வாடிக்கையாளரிடமிருந்து இருந்தது. இது போன்ற வரிசையாக்கத்தின் நம்பகத்தன்மையை சரிபார்க்க கூடுதல் காசோலைகளை எழுத வேண்டும்.

பிற திட்டங்களிலிருந்து பொதுவான அனுபவம்

தரவு தர பொறியாளரின் செயல்பாடுகளின் பொதுவான பட்டியலின் எடுத்துக்காட்டு:

  • தானியங்கு கருவி மூலம் சோதனைத் தரவை (செல்லுபடியாகாத பெரிய சிறியது) தயார் செய்யவும்.
  • தயாரிக்கப்பட்ட தரவு தொகுப்பை அசல் மூலத்தில் பதிவேற்றி, அது பயன்பாட்டிற்குத் தயாராக உள்ளதா எனச் சரிபார்க்கவும்.
  • ஒரு குறிப்பிட்ட அமைப்புகளைப் பயன்படுத்தி மூல சேமிப்பகத்திலிருந்து இறுதி அல்லது இடைநிலை சேமிப்பகத்திற்கு தரவுகளின் தொகுப்பைச் செயலாக்க ETL செயல்முறைகளைத் தொடங்கவும் (முடிந்தால், ETL பணிக்கு உள்ளமைக்கக்கூடிய அளவுருக்களை அமைக்கவும்).
  • ETL செயல்முறையால் செயலாக்கப்பட்ட தரவை அதன் தரம் மற்றும் வணிகத் தேவைகளுக்கு இணங்கச் சரிபார்க்கவும்.

அதே நேரத்தில், காசோலைகளின் முக்கிய கவனம், கணினியில் உள்ள தரவு ஓட்டம், கொள்கையளவில், வேலை செய்து முடிவை அடைந்தது (செயல்பாட்டு சோதனையின் ஒரு பகுதியாகும்), ஆனால் பெரும்பாலும் தரவைச் சரிபார்த்து சரிபார்ப்பதில் மட்டுமே இருக்க வேண்டும். எதிர்பார்க்கப்படும் தேவைகளுக்கு இணங்குதல், முரண்பாடுகள் மற்றும் பிற விஷயங்களைக் கண்டறிதல்.

கருவிகள்

அத்தகைய தரவுக் கட்டுப்பாட்டிற்கான நுட்பங்களில் ஒன்று, தரவு செயலாக்கத்தின் ஒவ்வொரு கட்டத்திலும் சங்கிலி காசோலைகளை ஒழுங்கமைப்பது, இலக்கியத்தில் "தரவு சங்கிலி" என்று அழைக்கப்படுகிறது - மூலத்திலிருந்து இறுதிப் பயன்பாடு வரை தரவைக் கட்டுப்படுத்துதல். இந்த வகையான காசோலைகள் பெரும்பாலும் SQL வினவல்களை சரிபார்த்து எழுதுவதன் மூலம் செயல்படுத்தப்படுகின்றன. அத்தகைய வினவல்கள் முடிந்தவரை இலகுவாக இருக்க வேண்டும் மற்றும் தரவுத் தரத்தின் தனிப்பட்ட பகுதிகளைச் சரிபார்க்க வேண்டும் என்பது தெளிவாகிறது (அட்டவணைகள் மெட்டாடேட்டா, வெற்று கோடுகள், NULLகள், தொடரியல் பிழைகள் - சரிபார்ப்பதற்குத் தேவையான பிற பண்புக்கூறுகள்).

ஆயத்த (மாற்ற முடியாத, சற்று மாறக்கூடிய) தரவுத் தொகுப்புகளைப் பயன்படுத்தும் பின்னடைவு சோதனையின் விஷயத்தில், தானியங்கு சோதனைக் குறியீடு, தரத்துடன் இணங்குவதற்கான தரவைச் சரிபார்க்க ஆயத்த வார்ப்புருக்களை சேமிக்க முடியும் (எதிர்பார்க்கப்படும் அட்டவணை மெட்டாடேட்டாவின் விளக்கங்கள்; வரிசை மாதிரி பொருள்கள் சோதனையின் போது தோராயமாக தேர்ந்தெடுக்கப்பட்டது, முதலியன).

மேலும், சோதனையின் போது, ​​அப்பாச்சி ஏர்ஃப்ளோ போன்ற கட்டமைப்பைப் பயன்படுத்தி ETL சோதனை செயல்முறைகளை எழுத வேண்டும். அப்பாச்சி ஸ்பார்க் அல்லது கருப்பு பெட்டி கிளவுட் வகை கருவியும் கூட ஜிசிபி டேட்டாபிரெப், GCP தரவுப்பாய்வு மற்றும் பல. இந்தச் சூழ்நிலையானது, சோதனைப் பொறியாளரை மேற்கூறிய கருவிகளின் செயல்பாட்டுக் கொள்கைகளில் மூழ்கி, இன்னும் திறம்பட செயல்படும் சோதனையை (உதாரணமாக, ஒரு திட்டத்தில் இருக்கும் ETL செயல்முறைகள்) நடத்தவும், அவற்றைப் பயன்படுத்தி தரவைச் சரிபார்க்கவும் கட்டாயப்படுத்துகிறது. குறிப்பாக, பிரபலமான பகுப்பாய்வு தரவுத்தளங்களுடன் பணிபுரிய Apache Airflow ஆயத்த ஆபரேட்டர்களைக் கொண்டுள்ளது. GCP BigQuery. அதன் பயன்பாட்டின் மிக அடிப்படையான உதாரணம் ஏற்கனவே கோடிட்டுக் காட்டப்பட்டுள்ளது இங்கே, அதனால் நான் மீண்டும் சொல்ல மாட்டேன்.

ஆயத்த தீர்வுகளைத் தவிர, உங்கள் சொந்த நுட்பங்களையும் கருவிகளையும் செயல்படுத்த யாரும் உங்களைத் தடைசெய்யவில்லை. இது திட்டத்திற்கு மட்டுமல்ல, டேட்டா குவாலிட்டி இன்ஜினியர்களுக்கும் பயனளிக்கும், அவர் தனது தொழில்நுட்ப எல்லைகள் மற்றும் குறியீட்டு திறன்களை மேம்படுத்துவார்.

உண்மையான திட்டத்தில் இது எவ்வாறு செயல்படுகிறது

"தரவு சங்கிலி", ETL மற்றும் எங்கும் நிறைந்த காசோலைகள் பற்றிய கடைசி பத்திகளின் நல்ல விளக்கம் உண்மையான திட்டங்களில் ஒன்றிலிருந்து பின்வரும் செயல்முறையாகும்:

பெரிய மற்றும் சிறிய தரவு சோதனையாளர்: போக்குகள், கோட்பாடு, எனது கதை

இங்கே, பல்வேறு தரவுகள் (இயற்கையாகவே, எங்களால் தயாரிக்கப்பட்டவை) எங்கள் கணினியின் "புனல்" உள்ளீட்டை உள்ளிடவும்: செல்லுபடியாகும், தவறானது, கலப்பு போன்றவை, பின்னர் அவை வடிகட்டப்பட்டு ஒரு இடைநிலை சேமிப்பகத்தில் முடிவடையும், பின்னர் அவை மீண்டும் தொடர்ச்சியான மாற்றங்களுக்கு உட்படுகின்றன. மற்றும் இறுதி சேமிப்பகத்தில் வைக்கப்படுகின்றன, அதிலிருந்து, பகுப்பாய்வு, தரவு சந்தைகளை உருவாக்குதல் மற்றும் வணிக நுண்ணறிவுகளைத் தேடுதல் ஆகியவை மேற்கொள்ளப்படும். அத்தகைய அமைப்பில், ETL செயல்முறைகளின் செயல்பாட்டைச் சரிபார்க்காமல், மாற்றங்களுக்கு முன்னும் பின்னும் தரவின் தரம் மற்றும் பகுப்பாய்வுக்கான வெளியீட்டில் கவனம் செலுத்துகிறோம்.

மேலே உள்ளவற்றைச் சுருக்கமாகச் சொல்வதென்றால், நான் பணிபுரிந்த இடங்களைப் பொருட்படுத்தாமல், பின்வரும் அம்சங்களைப் பகிர்ந்து கொள்ளும் தரவுத் திட்டங்களில் நான் ஈடுபட்டிருந்த எல்லா இடங்களிலும்:

  • ஆட்டோமேஷன் மூலம் மட்டுமே நீங்கள் சில நிகழ்வுகளைச் சோதித்து வணிகத்திற்கு ஏற்றுக்கொள்ளக்கூடிய வெளியீட்டு சுழற்சியை அடைய முடியும்.
  • அத்தகைய திட்டத்தில் ஒரு சோதனையாளர் குழுவின் மிகவும் மரியாதைக்குரிய உறுப்பினர்களில் ஒருவர், ஏனெனில் இது பங்கேற்பாளர்கள் ஒவ்வொருவருக்கும் பெரும் நன்மைகளைத் தருகிறது (சோதனையின் முடுக்கம், தரவு விஞ்ஞானியின் நல்ல தரவு, ஆரம்ப கட்டங்களில் குறைபாடுகளை அடையாளம் காணுதல்).
  • நீங்கள் உங்கள் சொந்த வன்பொருளில் அல்லது மேகங்களில் வேலை செய்கிறீர்களா என்பது முக்கியமல்ல - அனைத்து வளங்களும் Hortonworks, Cloudera, Mesos, Kubernetes போன்ற ஒரு கிளஸ்டரில் சுருக்கப்படுகின்றன.
  • திட்டங்கள் மைக்ரோ சர்வீஸ் அணுகுமுறையில் கட்டமைக்கப்படுகின்றன, விநியோகிக்கப்படுகின்றன மற்றும் இணையான கணினி ஆதிக்கம் செலுத்துகிறது.

தரவுத் தரத் துறையில் சோதனை செய்யும் போது, ​​ஒரு சோதனை நிபுணர் தனது தொழில்முறைக் கவனத்தை தயாரிப்பின் குறியீடு மற்றும் பயன்படுத்தப்படும் கருவிகளுக்கு மாற்றுகிறார் என்பதை நான் கவனிக்க விரும்புகிறேன்.

தரவு தர சோதனையின் தனித்துவமான அம்சங்கள்

கூடுதலாக, எனக்காக, நான் பின்வருவனவற்றை அடையாளம் கண்டுள்ளேன் (அவை மிகவும் பொதுவானவை மற்றும் பிரத்தியேகமாக அகநிலை என்று நான் உடனடியாக முன்பதிவு செய்வேன்) தரவு (பெரிய தரவு) திட்டங்கள் (அமைப்புகள்) மற்றும் பிற பகுதிகளில் சோதனையின் தனித்துவமான அம்சங்கள்:

பெரிய மற்றும் சிறிய தரவு சோதனையாளர்: போக்குகள், கோட்பாடு, எனது கதை

பயனுள்ள இணைப்புகள்

  1. கோட்பாடு: DAMA-DMBOK: தரவு மேலாண்மை அமைப்பு அறிவு: 2வது பதிப்பு.
  2. பயிற்சி மையம் EPAM 
  3. ஆரம்ப தரவு தர பொறியாளருக்கு பரிந்துரைக்கப்படும் பொருட்கள்:
    1. ஸ்டெபிக் பற்றிய இலவச பாடநெறி: தரவுத்தளங்கள் அறிமுகம்
    2. லிங்க்ட்இன் கற்றல் பாடநெறி: தரவு அறிவியல் அடித்தளங்கள்: தரவு பொறியியல்.
    3. கட்டுரைகள்:
    4. வீடியோக்கள்:

முடிவுக்கு

தரவு தரம் இது ஒரு இளம் நம்பிக்கைக்குரிய திசையாகும், இதில் ஒரு பகுதியாக இருப்பது ஒரு தொடக்கத்தின் ஒரு பகுதியாக இருக்க வேண்டும். தரவுத் தரத்தில் ஒருமுறை, நீங்கள் அதிக எண்ணிக்கையிலான நவீன, தேவைக்கேற்ப தொழில்நுட்பங்களில் மூழ்கிவிடுவீர்கள், ஆனால் மிக முக்கியமாக, உங்கள் யோசனைகளை உருவாக்கவும் செயல்படுத்தவும் மகத்தான வாய்ப்புகள் உங்களுக்குத் திறக்கப்படும். திட்டத்தில் மட்டுமல்ல, உங்களுக்காகவும் தொடர்ச்சியான முன்னேற்ற அணுகுமுறையை நீங்கள் பயன்படுத்த முடியும், தொடர்ந்து ஒரு நிபுணராக வளரும்.

ஆதாரம்: www.habr.com

கருத்தைச் சேர்