ትልቅ እና ትንሽ ዳታ ሞካሪ፡ አዝማሚያዎች፣ ቲዎሪ፣ የእኔ ታሪክ

ሰላም ለሁላችሁም፣ ስሜ አሌክሳንደር እባላለሁ፣ እና መረጃን ለጥራት የማጣራት የዳታ ጥራት መሐንዲስ ነኝ። ይህ ጽሑፍ እንዴት ወደዚህ እንደመጣሁ እና ለምን በ 2020 ይህ የሙከራ ቦታ በማዕበል ጫፍ ላይ እንደነበረ ይናገራል።

ትልቅ እና ትንሽ ዳታ ሞካሪ፡ አዝማሚያዎች፣ ቲዎሪ፣ የእኔ ታሪክ

ዓለም አቀፍ አዝማሚያ

የዛሬው ዓለም ሌላ የቴክኖሎጂ አብዮት እያጋጠመ ነው፣ የዚህ አንዱ ገጽታ ሁሉም ዓይነት ኩባንያዎች የተከማቸ መረጃን በመጠቀም የራሳቸውን የሽያጭ፣ ትርፍ እና የህዝብ ግንኙነት ለማስተዋወቅ ነው። ጥሩ (ጥራት ያለው) መረጃ መኖሩ፣ እንዲሁም ገንዘብ ሊያገኙ የሚችሉ የተካኑ አእምሮዎች (በትክክል ማካሄድ፣ ማየት፣ የማሽን መማሪያ ሞዴሎችን መገንባት፣ ወዘተ) ዛሬ ለብዙዎች የስኬት ቁልፍ የሆነላቸው ይመስላል። ከ15-20 ዓመታት በፊት ትልልቅ ኩባንያዎች በዋናነት በመረጃ ክምችት እና ገቢ መፍጠር የተጠናከረ ሥራ ላይ ከተሳተፉ፣ ዛሬ ይህ የሁሉም ጤነኛ ሰዎች ዕድል ነው።

በዚህ ረገድ ፣ ከበርካታ ዓመታት በፊት ፣ በዓለም ዙሪያ ለስራ ፍለጋ የተሰጡ ሁሉም መግቢያዎች በመረጃ ሳይንቲስቶች ክፍት ቦታዎች መሞላት ጀመሩ ፣ ሁሉም ሰው እንደዚህ አይነት ልዩ ባለሙያ ከተቀጠረ ፣ የማሽን ትምህርት ሱፐር ሞዴል መገንባት እንደሚቻል እርግጠኛ ነበር ። , የወደፊቱን ይተነብዩ እና ለኩባንያው "ኳንተም ዝላይ" ያከናውኑ. በጊዜ ሂደት ሰዎች እንደዚህ ባሉ ስፔሻሊስቶች እጅ ውስጥ የሚገቡት ሁሉም መረጃዎች ለሥልጠና ሞዴሎች ተስማሚ ስላልሆኑ ይህ አቀራረብ በየትኛውም ቦታ በጭራሽ እንደማይሠራ ተገንዝበዋል ።

እናም ከዳታ ሳይንቲስቶች የቀረበ ጥያቄ ተጀመረ፡- “ከእነዚህ እና ከእነዚያ ተጨማሪ መረጃዎችን እንግዛ...”፣ “በቂ መረጃ የለንም...”፣ “ተጨማሪ መረጃ እንፈልጋለን፣ በተለይም ከፍተኛ ጥራት ያለው...” . በእነዚህ ጥያቄዎች ላይ በመመስረት አንድ ወይም ሌላ የውሂብ ስብስብ ባላቸው ኩባንያዎች መካከል በርካታ ግንኙነቶች መገንባት ጀመሩ። በተፈጥሮ, ይህ ሂደት የቴክኒክ ድርጅት ያስፈልጋል - የውሂብ ምንጭ ጋር በመገናኘት, እሱን በማውረድ, ሙሉ በሙሉ የተጫነ መሆኑን ማረጋገጥ, ወዘተ እንዲህ ያሉ ሂደቶች ቁጥር ማደግ ጀመረ, እና ዛሬ ሌላ ዓይነት ትልቅ ፍላጎት አለን. ስፔሻሊስቶች - የውሂብ ጥራት መሐንዲሶች - በሲስተሙ ውስጥ ያለውን የውሂብ ፍሰት የሚከታተሉ (የውሂብ ቧንቧዎች), በግብአት እና በውጤቱ ላይ ያለውን የውሂብ ጥራት የሚቆጣጠሩ እና ስለ ብቃታቸው, ታማኝነታቸው እና ሌሎች ባህሪያት መደምደሚያ ላይ ይደርሳሉ.

የዳታ ጥራት መሐንዲሶች አዝማሚያ ከዩኤስኤ ወደ እኛ መጥተው ነበር ፣ እዚያም በካፒታሊዝም ጨካኝ ዘመን መካከል ፣ ማንም ለመረጃ የሚደረገውን ውጊያ ለመሸነፍ ዝግጁ አይደለም። ከዚህ በታች በአሜሪካ ውስጥ ካሉት ሁለት በጣም ታዋቂ የስራ ፍለጋ ጣቢያዎች ቅጽበታዊ ገጽ እይታዎችን አቅርቤያለሁ፡ www.monster.com и www.dice.com - ከማርች 17 ቀን 2020 ጀምሮ በተለጠፉት ክፍት የስራ መደቦች ብዛት ላይ መረጃን የሚያሳየው ቁልፍ ቃላት፡ የውሂብ ጥራት እና የውሂብ ሳይንቲስት።

www.monster.com

የውሂብ ሳይንቲስቶች - 21416 ክፍት ቦታዎች
የውሂብ ጥራት - 41104 ክፍት ቦታዎች

ትልቅ እና ትንሽ ዳታ ሞካሪ፡ አዝማሚያዎች፣ ቲዎሪ፣ የእኔ ታሪክ
ትልቅ እና ትንሽ ዳታ ሞካሪ፡ አዝማሚያዎች፣ ቲዎሪ፣ የእኔ ታሪክ

www.dice.com

የውሂብ ሳይንቲስቶች - 404 ክፍት ቦታዎች
የውሂብ ጥራት - 2020 ክፍት የስራ ቦታዎች

ትልቅ እና ትንሽ ዳታ ሞካሪ፡ አዝማሚያዎች፣ ቲዎሪ፣ የእኔ ታሪክ
ትልቅ እና ትንሽ ዳታ ሞካሪ፡ አዝማሚያዎች፣ ቲዎሪ፣ የእኔ ታሪክ

በግልጽ ለማየት እንደሚቻለው, እነዚህ ሙያዎች በምንም መልኩ እርስ በርስ የሚወዳደሩ አይደሉም. በቅጽበታዊ ገጽ እይታዎች፣ አሁን ባለው የስራ ገበያ ላይ ያለውን ሁኔታ ለዳታ ጥራት መሐንዲሶች ከሚቀርቡት ጥያቄዎች አንፃር ለማሳየት ፈልጌ ነበር፣ ከእነዚህም ውስጥ ከዳታ ሳይንቲስቶች የበለጠ አሁን የሚያስፈልጋቸው ናቸው።

በጁን 2019፣ EPAM ለዘመናዊው የአይቲ ገበያ ፍላጎቶች ምላሽ በመስጠት የውሂብ ጥራትን ወደ የተለየ ልምምድ ለየ። የውሂብ ጥራት መሐንዲሶች በዕለት ተዕለት ሥራቸው ውስጥ መረጃን ያስተዳድራሉ ፣ ባህሪውን በአዲስ ሁኔታዎች እና ስርዓቶች ይፈትሹ ፣ የመረጃውን አስፈላጊነት ፣ በቂነቱን እና ተገቢነቱን ይቆጣጠራሉ። ከዚህ ሁሉ ጋር፣ በተግባራዊ መልኩ፣ የውሂብ ጥራት መሐንዲሶች በእውነቱ ለጥንታዊ ተግባራዊ ሙከራ ትንሽ ጊዜ ይሰጣሉ ፣ ግን ይህ በጣም በፕሮጀክቱ ላይ የተመሰረተ ነው (ከዚህ በታች አንድ ምሳሌ እሰጣለሁ).

የውሂብ ጥራት መሐንዲስ ኃላፊነቶች በመረጃ ቋት ሰንጠረዦች ውስጥ በመደበኛ ማንዋል/አውቶማቲክ ፍተሻዎች ላይ ብቻ የተገደቡ አይደሉም፣ ነገር ግን የደንበኛውን የንግድ ፍላጎት በጥልቀት መረዳት እና በዚህ መሠረት ያለውን መረጃ ወደ መለወጥ መቻልን ይጠይቃል። ጠቃሚ የንግድ መረጃ.

የውሂብ ጥራት ቲዎሪ

ትልቅ እና ትንሽ ዳታ ሞካሪ፡ አዝማሚያዎች፣ ቲዎሪ፣ የእኔ ታሪክ

የእንደዚህ አይነት መሐንዲስ ሚና ሙሉ በሙሉ ለመገመት ፣ የውሂብ ጥራት በንድፈ ሀሳብ ውስጥ ምን እንደሆነ እንወቅ።

የውሂብ ጥራት - ከውሂብ አስተዳደር ደረጃዎች አንዱ (በእራስዎ እንዲያጠኑ የምንተወው መላው ዓለም) እና በሚከተለው መስፈርት መሠረት መረጃን የመተንተን ኃላፊነት አለበት።

ትልቅ እና ትንሽ ዳታ ሞካሪ፡ አዝማሚያዎች፣ ቲዎሪ፣ የእኔ ታሪክ
እያንዳንዱን ነጥብ መፍታት አያስፈልግም ብዬ አስባለሁ (በንድፈ ሀሳብ "የውሂብ ልኬቶች" ይባላሉ), በሥዕሉ ላይ በደንብ ተገልጸዋል. ነገር ግን የሙከራ ሂደቱ ራሱ እነዚህን ባህሪያት ወደ የሙከራ ጉዳዮች መገልበጥ እና እነሱን መፈተሽ ብቻ አያመለክትም። በመረጃ ጥራት ፣ ልክ እንደሌላው የፈተና ዓይነት ፣ በመጀመሪያ ፣ የንግድ ውሳኔዎችን ከሚያደርጉ የፕሮጀክት ተሳታፊዎች ጋር በተስማሙት የውሂብ ጥራት መስፈርቶች ላይ መገንባት አስፈላጊ ነው።

በዳታ ጥራት ፕሮጀክት ላይ በመመስረት አንድ መሐንዲስ የተለያዩ ተግባራትን ማከናወን ይችላል፡ ከተራ አውቶሜሽን ፈታኝ የውሂብ ጥራት ላይ ላዩን ገምግሞ፣ ከላይ በተዘረዘሩት መስፈርቶች መሰረት ጥልቅ መረጃን እስከሚያካሂድ ሰው ድረስ።

የመረጃ አያያዝ ፣ የመረጃ ጥራት እና ተዛማጅ ሂደቶች በጣም ዝርዝር መግለጫ በተጠራው መጽሐፍ ውስጥ በደንብ ተብራርቷል። "DAMA-DMBOK፡ የውሂብ አስተዳደር አካል የእውቀት አካል፡ 2ኛ እትም". ይህንን መጽሐፍ ለዚህ ርዕስ መግቢያ እንዲሆን አጥብቄ እመክራለሁ (በጽሑፉ መጨረሻ ላይ ለእሱ አገናኝ ያገኛሉ)።

የኔ ታሪክ

በአይቲ ኢንዱስትሪ ውስጥ፣ በምርት ኩባንያዎች ውስጥ ከጁኒየር ሞካሪ ተነስቼ በEPAM ወደ መሪ የውሂብ ጥራት መሐንዲስ ሄድኩ። እንደ ሞካሪ ሆኖ ለሁለት ዓመታት ያህል ከሠራሁ በኋላ ሁሉንም ዓይነት ሙከራዎች እንዳደረግሁ ጽኑ እምነት ነበረኝ-ወደ ኋላ መመለስ ፣ ተግባራዊ ፣ ውጥረት ፣ መረጋጋት ፣ ደህንነት ፣ ዩአይ ፣ ወዘተ - እና ብዙ ቁጥር ያላቸውን የሙከራ መሳሪያዎችን ሞክሬ ነበር ፣ በተመሳሳይ ጊዜ በሦስት የፕሮግራም አወጣጥ ቋንቋዎች ሠርቷል-Java ፣ Scala ፣ Python።

ወደ ኋላ መለስ ብዬ ሳስበው፣ የችሎታዬ ስብስብ ለምን በጣም የተለያየ እንደሆነ ተረድቻለሁ—በመረጃ በተደገፉ ፕሮጄክቶች ውስጥ ትልቅ እና ትንሽ ተሳትፌ ነበር። ወደ ብዙ መሳሪያዎች እና የእድገት እድሎች አለም ያመጣኝ ይህ ነው።

አዳዲስ እውቀቶችን እና ክህሎቶችን ለማግኘት የተለያዩ መሳሪያዎችን እና እድሎችን ለማድነቅ ከታች ያለውን ምስል ብቻ ይመልከቱ፣ ይህም በ"Data & AI" አለም ውስጥ በጣም ታዋቂ የሆኑትን ያሳያል።

ትልቅ እና ትንሽ ዳታ ሞካሪ፡ አዝማሚያዎች፣ ቲዎሪ፣ የእኔ ታሪክ
የዚህ ዓይነቱ ገለጻ በየዓመቱ የሚጠናቀረው ከሶፍትዌር ልማት በመጣው ታዋቂው የቬንቸር ካፒታሊስት ማት ቱርክ ነው። እዚህ ሳንቲም ወደ ብሎግ እና ቬንቸር ካፒታል ድርጅት, እሱ እንደ አጋር ሆኖ የሚሰራበት.

በፕሮጄክቱ ላይ ብቸኛ ሞካሪ በነበርኩበት ጊዜ፣ ወይም ቢያንስ በፕሮጀክቱ መጀመሪያ ላይ በተለይ በፍጥነት በሙያ አደግኩ። ለጠቅላላው የፈተና ሂደት ሃላፊነት የሚወስዱት በዚህ ቅጽበት ነው፣ እና ወደ ፊት ብቻ ለማፈግፈግ ምንም እድል የለዎትም። በመጀመሪያ አስፈሪ ነበር, አሁን ግን የእንደዚህ አይነት ሙከራ ጥቅሞች ሁሉ ለእኔ ግልጽ ናቸው.

  • የግንኙነት ፕሮክሲ ስለሌለ ከመላው ቡድን ጋር ከመቼውም ጊዜ በበለጠ መገናኘት ትጀምራለህ፡የሙከራ አስተዳዳሪም ሆነ ሌሎች ሞካሪዎች።
  • በፕሮጀክቱ ውስጥ ያለው ጥምቀት በሚያስደንቅ ሁኔታ ጥልቅ ይሆናል, እና ሾለ ሁሉም ክፍሎች በአጠቃላይ እና በዝርዝር መረጃ አለዎት.
  • ገንቢዎች እርስዎን እንደ “ያ የሚያደርገውን የማያውቅ ከመሞከር የወጣ ሰው” አድርገው አይመለከቱዎትም ይልቁንም በራስ-ሰር ሙከራዎች እና በተወሰኑ የቡድኑ ክፍሎች ውስጥ የሚታዩ ስህተቶችን በመጠባበቅ ለቡድኑ አስደናቂ ጥቅሞችን የሚሰጥ እኩል እንደሆኑ አድርገው አይመለከቱም። ምርት.
  • በውጤቱም, እርስዎ የበለጠ ውጤታማ, የበለጠ ብቁ እና የበለጠ ተፈላጊ ነዎት.

ፕሮጀክቱ እያደገ ሲሄድ, በ 100% ከሚሆኑት ጉዳዮች እኔ ራሴ የተማርኩትን እውቀት በማስተማር እና በማስተላለፍ ለአዳዲስ ሞካሪዎች አማካሪ ሆንኩ. በተመሳሳይ ጊዜ በፕሮጀክቱ ላይ በመመስረት ሁልጊዜ ከፍተኛውን የመኪና ምርመራ ልዩ ባለሙያዎችን ከአስተዳደር አልቀበልም ነበር እናም በአውቶሜሽን (ፍላጎት ላላቸው) እነሱን ማሰልጠን ወይም በዕለት ተዕለት እንቅስቃሴዎች ውስጥ ጥቅም ላይ የሚውሉ መሳሪያዎችን መፍጠር አስፈላጊ ነበር (መሳሪያዎች) መረጃን ለማመንጨት እና በሲስተሙ ውስጥ ለመጫን, የጭነት ሙከራን / የመረጋጋት ሙከራን "በፍጥነት", ወዘተ) ለማከናወን መሳሪያ.

የአንድ የተወሰነ ፕሮጀክት ምሳሌ

እንደ አለመታደል ሆኖ ፣ ይፋ ባለማድረግ ግዴታዎች ምክንያት ፣ ስለሰራኋቸው ፕሮጀክቶች በዝርዝር መናገር አልችልም ፣ ግን በአንዱ ፕሮጄክቶቹ ላይ የውሂብ ጥራት መሐንዲስ የተለመዱ ተግባራትን ምሳሌዎችን እሰጣለሁ።

የፕሮጀክቱ ይዘት በእሱ ላይ የተመሰረተ የማሽን መማሪያ ሞዴሎችን ለማሰልጠን መረጃን ለማዘጋጀት መድረክን ተግባራዊ ማድረግ ነው. ደንበኛው ከአሜሪካ የመጣ ትልቅ የመድኃኒት ኩባንያ ነበር። በቴክኒክ ክላስተር ነበር። ኩባንያቶች, ወደ ላይ ይነሳል AWS EC2 አጋጣሚዎች፣ ከበርካታ ጥቃቅን አገልግሎቶች እና ከስር ያለው የEPAM ክፍት ምንጭ ፕሮጀክት - የጦር ሠራዊት ክፍል, ከአንድ የተወሰነ ደንበኛ ፍላጎት ጋር ተጣጥሞ (አሁን ፕሮጀክቱ እንደገና ተወልዷል ኦዳሁ). የኢቲኤል ሂደቶች የተደራጁት በመጠቀም ነው። Apache የአየር ፍሰት እና ውሂብ ከ ተንቀሳቅሷል ሽያጮች የደንበኛ ስርዓቶች በ AWS S3 ባልዲዎች. በመቀጠል፣ የማሽን መማሪያ ሞዴል Docker ምስል ወደ መድረክ ላይ ተዘርግቷል፣ እሱም በአዲስ መረጃ ላይ የሰለጠነው እና፣ የ REST API በይነገጽን በመጠቀም፣ ንግዱን የሚስቡ እና የተወሰኑ ችግሮችን የፈታ ትንበያዎችን አዘጋጅቷል።

በእይታ ፣ ሁሉም ነገር እንደዚህ ይመስላል

ትልቅ እና ትንሽ ዳታ ሞካሪ፡ አዝማሚያዎች፣ ቲዎሪ፣ የእኔ ታሪክ
በዚህ ፕሮጀክት ላይ ብዙ ተግባራዊ ሙከራዎች ነበሩ ፣ እና የባህሪ ልማት ፍጥነት እና የመልቀቂያ ዑደቱን ፍጥነት የመጠበቅ አስፈላጊነት (የሁለት-ሳምንት sprints) ፣ በጣም ወሳኝ የሆኑትን ክፍሎች በራስ-ሰር ስለመሞከር ወዲያውኑ ማሰብ አስፈላጊ ነበር። ስርዓቱ. አብዛኛው Kubernetes ላይ የተመሰረተ መድረክ እራሱ በተተገበሩ አውቶሞተሮች ተሸፍኗል የሮቦት መዋቅር + Python፣ ግን እነሱን መደገፍ እና ማስፋትም አስፈላጊ ነበር። በተጨማሪም ለደንበኛው ምቾት ሲባል ወደ ክላስተር የሚዘረጉ የማሽን መማሪያ ሞዴሎችን እንዲሁም ሞዴሎቹን ለማሰልጠን መረጃ የት እና የት መተላለፍ እንዳለበት የሚገልጽ GUI ተፈጠረ። ይህ ሰፊ መደመር በአብዛኛው በREST API ጥሪዎች እና በትንሽ-2-መጨረሻ የUI ሙከራዎች የተደረገው አውቶሜትድ የተግባር ሙከራ መስፋፋትን አስከትሏል። የዚህ ሁሉ እንቅስቃሴ ወገብ አካባቢ፣ የምርት ስሪቶችን መቀበል እና የሚቀጥለውን መለቀቅ መቀበልን በተመለከተ ከደንበኛው ጋር በመገናኘት ጥሩ ስራ የሰራ ማንዋል ሞካሪ ተቀላቅለናል። በተጨማሪም, አዲስ ስፔሻሊስት በመምጣቱ, ስራችንን ለመመዝገብ እና ወዲያውኑ አውቶማቲክ ለማድረግ አስቸጋሪ የሆኑ በርካታ በጣም አስፈላጊ የእጅ ቼኮችን መጨመር ችለናል.

እና በመጨረሻ፣ ከመድረክ ላይ መረጋጋትን እና የ GUI መጨመሪያውን በላዩ ላይ ካገኘን በኋላ፣ Apache Airflow DAGs በመጠቀም የኢቲኤል ቧንቧዎችን መገንባት ጀመርን። አውቶሜትድ የመረጃ ጥራት ፍተሻ የተካሄደው በኢቲኤል ሂደት ውጤቶች ላይ ተመስርተው መረጃውን የሚፈትሹ ልዩ የአየር ፍሰት DAGs በመፃፍ ነው። የዚህ ፕሮጀክት አካል እንደመሆናችን መጠን እድለኞች ነበርን እና ደንበኛው የሞከርንባቸውን ማንነታቸው ያልተገለጡ የውሂብ ስብስቦችን ሰጠን። የዳታ መስመሩን ከአይነቶች ጋር ለመጣጣም ፣የተበላሹ መረጃዎች መኖራቸውን ፣የመመዝገቦችን ጠቅላላ ብዛት በፊት እና በኋላ ፣በኢቲኤል ሂደት የተደረጉ ለውጦችን ንፅፅርን ፣የአምድ ስሞችን ለመቀየር እና ሌሎች ነገሮችን አረጋግጠናል ። በተጨማሪም፣ እነዚህ ቼኮች ወደ ተለያዩ የመረጃ ምንጮች፣ ለምሳሌ፣ ከSalesForce በተጨማሪ፣ እንዲሁም ወደ MySQL ተቀምጠዋል።

የመጨረሻ የመረጃ ጥራት ፍተሻዎች ቀደም ሲል በS3 ደረጃ ተካሂደዋል፣ እዚያም የተከማቹ እና የማሽን መማሪያ ሞዴሎችን ለማሰልጠን ዝግጁ ነበሩ። በS3 Bucket ላይ ካለው የመጨረሻው የCSV ፋይል መረጃ ለማግኘት እና ለማረጋገጥ፣ ኮድ የተፃፈው በመጠቀም ነው። boto3 ደንበኞች.

ከደንበኛው የተወሰነውን መረጃ በአንድ ኤስ 3 ባልዲ እና በከፊል በሌላ የማከማቸት ግዴታ ነበር። ይህ ደግሞ የእንደዚህ አይነት መደርደር አስተማማኝነትን ለማረጋገጥ ተጨማሪ ቼኮችን መፃፍ ያስፈልጋል።

ከሌሎች ፕሮጀክቶች አጠቃላይ ልምድ

የውሂብ ጥራት መሐንዲስ በጣም አጠቃላይ የእንቅስቃሴዎች ዝርዝር ምሳሌ፡-

  • የሙከራ ውሂብ (ልክ ያልሆነ ትልቅ ትንሽ) በራስ-ሰር መሳሪያ ያዘጋጁ።
  • የተዘጋጀውን የውሂብ ስብስብ ወደ መጀመሪያው ምንጭ ይስቀሉ እና ለአገልግሎት ዝግጁ መሆኑን ያረጋግጡ።
  • የተወሰኑ ቅንብሮችን በመጠቀም ከምንጩ ማከማቻ እስከ መጨረሻው ወይም መካከለኛ ማከማቻ ድረስ ያለውን የውሂብ ስብስብ ለማስኬድ የኢቲኤል ሂደቶችን ያስጀምሩ (ከተቻለ ለኢቲኤል ተግባር የሚዋቀሩ መለኪያዎችን ያዘጋጁ)።
  • በETL ሂደት የተሰራውን መረጃ ለጥራት እና ከንግድ መስፈርቶች ጋር ስለተከበረ ያረጋግጡ።

በተመሳሳይ ጊዜ የፍተሻዎች ዋና ትኩረት በሲስተሙ ውስጥ ያለው የመረጃ ፍሰት በመርህ ደረጃ ሰርቶ መጨረሻ ላይ መድረሱን ብቻ ሳይሆን (የተግባር ሙከራ አካል ነው) ነገር ግን በአብዛኛው መረጃን በማጣራት እና በማረጋገጥ ላይ መሆን አለበት። የሚጠበቁትን መስፈርቶች ለማክበር, ያልተለመዱ ነገሮችን እና ሌሎች ነገሮችን መለየት.

መሳሪያዎች

ለእንደዚህ አይነት የመረጃ ቁጥጥር ዘዴዎች አንዱ በእያንዳንዱ የመረጃ ሂደት ደረጃ ላይ የሰንሰለት ቼኮች አደረጃጀት ሊሆን ይችላል ፣ በሥነ-ጽሑፍ ውስጥ “የውሂብ ሰንሰለት” ተብሎ የሚጠራው - ከምንጩ እስከ መጨረሻው አጠቃቀም ድረስ የመረጃ ቁጥጥር ። የዚህ አይነት ቼኮች ብዙ ጊዜ የሚተገበሩት የ SQL መጠይቆችን በመፈተሽ ነው። እንደነዚህ ያሉ መጠይቆች በተቻለ መጠን ቀላል መሆን አለባቸው እና የነጠላ የውሂብ ጥራትን ያረጋግጡ (ሠንጠረዦች ሜታዳታ፣ ባዶ መስመሮች፣ NULLs፣ ስህተቶች በአገባብ ውስጥ - ሌሎች ለመፈተሽ የሚያስፈልጉ ባህሪያት)።

ዝግጁ የተደረጉ (የማይለወጥ፣ ትንሽ ሊለወጡ የሚችሉ) የውሂብ ስብስቦችን የሚጠቀም የድጋሚ ሙከራ ከሆነ፣ አውቶማቲክ ኮድ ከጥራት ጋር የተጣጣመ መሆኑን ለመፈተሽ ዝግጁ የሆኑ አብነቶችን ማከማቸት ይችላል (የሚጠበቀው የሠንጠረዥ ዲበ ውሂብ መግለጫዎች፣ የረድፍ ናሙና ዕቃዎች ሊሆኑ የሚችሉ በፈተና ወቅት በዘፈቀደ የተመረጠ, ወዘተ).

እንዲሁም፣ በሙከራ ጊዜ፣ እንደ Apache Airflow ያሉ ማዕቀፎችን በመጠቀም የኢቲኤል ሙከራ ሂደቶችን መፃፍ አለቦት። የ Apache Spark ወይም ጥቁር-ሳጥን የደመና ዓይነት መሣሪያ እንኳን GCP Dataprep, የጂሲፒ የውሂብ ፍሰት እናም ይቀጥላል. ይህ ሁኔታ የፈተና መሐንዲሱ እራሱን ከላይ ባሉት መሳሪያዎች አሠራር መርሆዎች ውስጥ እንዲጠመቅ እና የበለጠ ውጤታማ በሆነ መልኩ ሁለቱም ተግባራዊ ሙከራዎችን እንዲያካሂዱ (ለምሳሌ በፕሮጀክት ላይ ያሉ የኢቲኤል ሂደቶችን) እና መረጃን ለመፈተሽ እንዲጠቀምባቸው ያስገድደዋል። በተለይም Apache Airflow ለምሳሌ ከታዋቂ የትንታኔ የውሂብ ጎታዎች ጋር ለመስራት ዝግጁ የሆኑ ኦፕሬተሮች አሉት GCP BigQuery. በጣም መሠረታዊው የአጠቃቀም ምሳሌ አስቀድሞ ተዘርዝሯል። እዚህ, ስለዚህ እራሴን አልደግምም.

ከተዘጋጁ መፍትሄዎች በስተቀር, የራስዎን ቴክኒኮች እና መሳሪያዎች ለመተግበር ማንም አይከለክልዎትም. ይህ ለፕሮጀክቱ ብቻ ሳይሆን ለዳታ ጥራት መሐንዲስ እራሱ ጠቃሚ ይሆናል, እሱም የቴክኒክ አድማሱን እና የኮድ ችሎታውን ያሻሽላል.

በእውነተኛ ፕሮጀክት ላይ እንዴት እንደሚሰራ

ስለ “የውሂብ ሰንሰለት”፣ ኢቲኤል እና በየቦታው ያሉ ቼኮች የመጨረሻዎቹ አንቀጾች ጥሩ ምሳሌ ከእውነተኛ ፕሮጀክቶች ውስጥ የሚከተለው ሂደት ነው።

ትልቅ እና ትንሽ ዳታ ሞካሪ፡ አዝማሚያዎች፣ ቲዎሪ፣ የእኔ ታሪክ

እዚህ ፣ የተለያዩ መረጃዎች (በተፈጥሮ ፣ በእኛ ተዘጋጅተዋል) ወደ ስርዓታችን “ፈንጠዝ” ግቤት ያስገቡት ልክ ያልሆነ ፣የተደባለቀ ፣ወዘተ ፣ከዚያ ተጣርተው በመካከለኛ ማከማቻ ውስጥ ይደረጋሉ ፣ ከዚያ እንደገና ተከታታይ ለውጦችን ያደርጋሉ ። እና በመጨረሻው ማከማቻ ውስጥ ይቀመጣሉ , ከእሱ, ትንታኔዎች, የዳታ ማርቶች ግንባታ እና የንግድ ስራ ግንዛቤዎችን መፈለግ ይከናወናሉ. በእንደዚህ ዓይነት ስርዓት ውስጥ የኢቲኤል ሂደቶችን አሠራር በትክክል ሳንመረምር ፣ ከለውጦች በፊት እና በኋላ ባለው የውሂብ ጥራት ላይ እንዲሁም ወደ ትንታኔዎች በሚወጣው ውጤት ላይ እናተኩራለን።

ከላይ ያለውን ለማጠቃለል፣ የሰራሁባቸው ቦታዎች ምንም ቢሆኑም፣ በሁሉም ቦታ በዳታ ፕሮጄክቶች ውስጥ የተሳተፍኩ ሲሆን የሚከተሉትን ባህሪያት ያጋሩ፡

  • በራስ-ሰር ብቻ አንዳንድ ጉዳዮችን መሞከር እና ለንግዱ ተቀባይነት ያለው የመልቀቂያ ዑደት ማግኘት ይችላሉ።
  • በእንደዚህ አይነት ፕሮጀክት ላይ ያለ ሞካሪ ለእያንዳንዱ ተሳታፊዎች ትልቅ ጥቅም ስለሚያመጣ (የሙከራ ማፋጠን, የውሂብ ሳይንቲስት ጥሩ መረጃ, በመጀመሪያዎቹ ደረጃዎች ጉድለቶችን መለየት) በጣም የተከበሩ የቡድኑ አባላት አንዱ ነው.
  • በእራስዎ ሃርድዌር ወይም ደመና ውስጥ ቢሰሩ ምንም ችግር የለውም - ሁሉም ሀብቶች እንደ Hortonworks ፣ Cloudera ፣ Mesos ፣ Kubernetes ፣ ወዘተ ባሉ ክላስተር ውስጥ ገብተዋል ።
  • ፕሮጄክቶቹ የሚገነቡት በማይክሮ አገልግሎት አቀራረብ፣ በተከፋፈለ እና በትይዩ ኮምፒውተሮች ላይ ነው።

በመረጃ ጥራት መስክ ላይ ሙከራዎችን በሚያደርጉበት ጊዜ አንድ ልዩ ባለሙያተኛ ሙያዊ ትኩረቱን ወደ ምርቱ ኮድ እና ጥቅም ላይ በሚውሉ መሳሪያዎች ላይ እንደሚቀይር ማስተዋል እፈልጋለሁ።

የውሂብ ጥራት ሙከራ ልዩ ባህሪዎች

በተጨማሪም፣ ለራሴ፣ በመረጃ (Big Data) ፕሮጀክቶች (ስርዓቶች) እና በሌሎች አካባቢዎች የሙከራ ልዩ ባህሪያትን ለራሴ የሚከተሉትን ለይቻለሁ (ወዲያውኑ አስይዘዋለሁ።

ትልቅ እና ትንሽ ዳታ ሞካሪ፡ አዝማሚያዎች፣ ቲዎሪ፣ የእኔ ታሪክ

ጠቃሚ አገናኞች

  1. ቲዎሪ፡ DAMA-DMBOK፡ የውሂብ አስተዳደር የእውቀት አካል፡ 2ኛ እትም።.
  2. የስልጠና ማዕከል EPAM 
  3. ለጀማሪ የውሂብ ጥራት መሐንዲስ የሚመከሩ ቁሳቁሶች፡-
    1. በስቴቲክ ላይ ነፃ ኮርስ፡- á‹¨á‹áˆ‚ቼ ጎታዎች መግቢያ
    2. በLinkedIn መማር ላይ ኮርስ፡- á‹¨á‹áˆ‚ቼ ሳይንስ መሠረቶች: የውሂብ ምህንድስና.
    3. ጽሑፎች፡-
    4. ቪዲዮ

መደምደሚያ

የውሂብ ጥራት በጣም ወጣት ተስፋ ሰጪ አቅጣጫ ነው፣ አካል መሆን ማለት የጅምር አካል መሆን ማለት ነው። አንዴ በመረጃ ጥራት ውስጥ፣ ብዙ ቁጥር ባላቸው ዘመናዊ ቴክኖሎጂዎች ውስጥ ይጠመቃሉ፣ ከሁሉም በላይ ግን፣ ሃሳቦችዎን ለማመንጨት እና ተግባራዊ ለማድረግ ግዙፍ እድሎች ይከፈታሉ። ቀጣይነት ያለው የማሻሻያ ዘዴን በፕሮጀክቱ ላይ ብቻ ሳይሆን ለራስዎም, እንደ ልዩ ባለሙያተኛ ያለማቋረጥ ማደግ ይችላሉ.

ምንጭ: hab.com

አስተያየት ያክሉ