የጎግል BigQuery የመረጃ ትንተና እንዴት ዲሞክራሲያዊ እንዳደረገ። ክፍል 2

ሰላም ሀብር! ለአዲስ የኮርስ ዥረት ምዝገባ አሁን በOTUS ተከፍቷል። የውሂብ መሐንዲስየኮርሱን ጅማሬ በጉጉት ስንጠባበቅ፣ ጠቃሚ ቁሳቁሶችን ማጋራታችንን እንቀጥላለን።

የመጀመሪያውን ክፍል ያንብቡ

የጎግል BigQuery የመረጃ ትንተና እንዴት ዲሞክራሲያዊ እንዳደረገ። ክፍል 2

የውሂብ አስተዳደር

ጠንካራ የውሂብ አስተዳደር የትዊተር ምህንድስና ዋና መርህ ነው። BigQueryን ከመሳሪያ ስርዓታችን ጋር ስናዋህድ፣ በውሂብ ግኝት፣ በመዳረሻ ቁጥጥር፣ በደህንነት እና በግላዊነት ላይ እናተኩራለን።

የውሂብ ግኝትን እና አስተዳደርን ለማንቃት፣ የውሂብ መዳረሻ ንብርብርን (DAL) የሚከተሉትን እንዲያካትት አስፍተናል፦ DAL) ለተጠቃሚዎቻችን የተዋሃደ በይነገጽ እና ኤፒአይ በማቅረብ ለቦታው እና ለጉግል ክላውድ ዳታ መሳሪያዎችን ለማቅረብ። እንደ ጉግል የውሂብ ካታሎግ ወደ አጠቃላይ ተደራሽነት ሲሸጋገር፣ እንደ አምድ ፍለጋ ያሉ ባህሪያትን ለተጠቃሚዎች ለማቅረብ በፕሮጀክቶቻችን ውስጥ እናካትታለን።

ቢግQuery ውሂብን ማጋራት እና መድረስን ቀላል ያደርገዋል፣ ነገር ግን የውሂብ መውጣትን ለመከላከል በዚህ ላይ የተወሰነ ቁጥጥር ያስፈልገን ነበር። ከሌሎች መሳሪያዎች መካከል ሁለት ባህሪያትን መርጠናል፡

ደህንነትን ለማረጋገጥ የማረጋገጫ፣ የፈቃድ እና የኦዲት (AAA) መስፈርቶችን እንደሚከተለው ተግባራዊ አድርገናል፡

  • ማረጋገጫ፡- ለምርት ጥያቄዎች የጂሲፒ ተጠቃሚ መለያዎችን እና የአገልግሎት መለያዎችን ለምርት ጥያቄዎች ተጠቅመናል።
  • ፈቃድ፡- እያንዳንዱ የውሂብ ስብስብ የባለቤት አገልግሎት መለያ እና የአንባቢ ቡድን እንዲኖረው ጠይቀናል።
  • ኦዲት፡- ዝርዝር የጥያቄ አፈፃፀም መረጃ የያዙትን የBigQuery stack driver ሎጎችን ወደ BigQuery የውሂብ ስብስብ ለቀላል ትንተና ወደ ውጭ ልከናል።

የትዊተር ተጠቃሚዎችን የግል መረጃ በአግባቡ መያዝን ለማረጋገጥ፣ ሁሉንም የBigQuery የውሂብ ስብስቦችን መመዝገብ፣ የግል መረጃዎችን ማብራራት፣ ተገቢውን ማከማቻ መጠበቅ እና በተጠቃሚዎች የተሰረዘ ውሂብን መሰረዝ (ማጽዳት) አለብን።

ጉግልን ተመልክተናል የደመና ውሂብ መጥፋት መከላከል ኤፒአይ, ይህም ሚስጥራዊ መረጃዎችን ለመመደብ እና ለመሰረዝ የማሽን መማሪያን የሚጠቀም ሲሆን፣ ነገር ግን በትክክለኛነቱ ምክንያት የውሂብ ስብስቡን በእጅ ማብራርያ መርጧል። ብጁ ማብራሪያን ለማሟላት የውሂብ መጥፋት መከላከያ ኤፒአይን ለመጠቀም አቅደናል።

በትዊተር፣ በBigQuery ውስጥ ለመረጃ ስብስቦች አራት የግላዊነት ምድቦችን ፈጥረናል፣ እዚህ ላይ በዝቅተኛነት ቅደም ተከተል ተዘርዝረዋል፡

  • ከፍተኛ ሚስጥራዊ የውሂብ ስብስቦች እንደ አስፈላጊነቱ ተደራሽ የሚሆኑት ዝቅተኛ መብት በሚለው መርህ ላይ በመመስረት ነው። እያንዳንዱ የውሂብ ስብስብ የተለየ የአንባቢዎች ቡድን አለው፣ እና የግለሰብ መለያዎችን አጠቃቀም እንከታተላለን።
  • መካከለኛ-ትብነት ያላቸው የውሂብ ስብስቦች (ጨዋማ ሃሺንግን በመጠቀም የአንድ መንገድ የውሸት ስም ያለው መረጃ) በግል የሚለይ መረጃ (PII) የላቸውም እና ለብዙ የሰራተኞች ቡድን ተደራሽ ናቸው። ይህ በግላዊነት ስጋቶች እና በውሂብ መገልገያ መካከል ጥሩ ሚዛን ይሰጣል። ይህ ሰራተኞች ትክክለኛ ተጠቃሚዎች እነማን እንደሆኑ ሳያውቁ ባህሪን የተጠቀሙ ተጠቃሚዎችን ቁጥር ማስላት ያሉ የትንታኔ ተግባራትን እንዲያከናውኑ ያስችላቸዋል።
  • ዝቅተኛ ስሜታዊነት ያላቸው የውሂብ ስብስቦች ከሁሉም የተጠቃሚ መለያ መረጃዎች ጋር። ይህ ከግላዊነት አንፃር ጥሩ አቀራረብ ነው፣ ነገር ግን ለተጠቃሚ ደረጃ ትንተና ጥቅም ላይ ሊውል አይችልም።
  • የህዝብ የውሂብ ስብስቦች (ከትዊተር ውጭ የተለቀቁ) ለሁሉም የትዊተር ሰራተኞች ይገኛሉ።

ስለ ሎግንግ በተመለከተ፣ የBigQuery የውሂብ ስብስቦችን ለመዘርዘር እና ወደ የውሂብ መዳረሻ ንብርብር ለማስገባት የታቀዱ ተግባራትን ተጠቅመናል (DAL) የትዊተር ሜታዳታ ማከማቻ። ተጠቃሚዎች የውሂብ ስብስቦችን በግላዊነት መረጃ ያብራራሉ እና የማቆያ ጊዜን ይገልጻሉ። ስለ ጽዳት፣ የሁለት አማራጮች አፈጻጸም እና ወጪ እንገመግማለን፡ 1. እንደ Scalding ያሉ መሳሪያዎችን በመጠቀም በGCS ውስጥ የውሂብ ስብስቦችን ማጽዳት እና ወደ BigQuery መጫን፤ 2. የBigQuery DML ኦፕሬተሮችን መጠቀም። የተለያዩ ቡድኖችን እና የውሂብ ፍላጎቶችን ለማሟላት የሁለቱንም ዘዴዎች ጥምረት እንጠቀማለን።

የስርዓት ተግባራዊነት

ቢግQuery የሚተዳደር አገልግሎት ስለሆነ፣ የትዊተርን የSRE ቡድን በስርዓት አስተዳደር ወይም በጥሪ ተግባራት ውስጥ ማካተት አያስፈልግም ነበር። ለማከማቻም ሆነ ለኮምፒውቲንግ ተጨማሪ አቅም መስጠት ቀላል ነበር። በGoogle ድጋፍ ቲኬቶችን በመፍጠር የቦታ ማስያዣዎችን ማስተካከል እንችላለን። እንደ የራስ አገልግሎት የቦታ ምደባ እና የተሻሻለ የክትትል ዳሽቦርዶች ያሉ መሻሻል ያለባቸውን ቦታዎች ለይተን እነዚህን ጥያቄዎች ወደ Google አስተላልፈናል።

ወጪ

የመጀመሪያ ትንታኔያችን እንደሚያሳየው የBigQuery እና Presto የጥያቄ ወጪዎች ተመሳሳይ ነበሩ። ስሎቶችን ገዝተናል በ ቋሚ ከመክፈል ይልቅ ወርሃዊ ወጪው የተረጋጋ እንዲሆን የሚያስችል ዋጋ በፍላጎት በአንድ ቴባ በተሰራ መረጃ። ይህ ውሳኔ የተመሰረተው እያንዳንዱን ጥያቄ ከማስፈጸምዎ በፊት ስለ ወጪዎች ማሰብ ያልፈለጉ የተጠቃሚ ግብረመልስ ላይም የተመሠረተ ነበር።

በBigQuery ውስጥ ውሂብ ማከማቸት ለGCS ወጪዎችን ጨምሯል። እንደ Scalding ያሉ መሳሪያዎች በGCS ውስጥ የውሂብ ስብስቦችን ይፈልጋሉ፣ እና BigQueryን ለመድረስ እነዚያን ተመሳሳይ የውሂብ ስብስቦች ወደ BigQuery ቅርጸት መጫን ነበረብን። ኃይል መለኪያScaldingን ከBigQuery የውሂብ ስብስቦች ጋር በማገናኘት ላይ እየሰራን ነው፣ ይህም በGCS እና BigQuery ውስጥ የውሂብ ስብስቦችን የማከማቸት አስፈላጊነትን ያስወግዳል።

አልፎ አልፎ በአስር የሚቆጠሩ ፔታባይት መጠይቆችን የሚጠይቁ አልፎ አልፎ ለሚከሰቱ ጉዳዮች፣ በBigQuery ውስጥ የውሂብ ስብስቦችን ማከማቸት ወጪ ቆጣቢ እንዳልሆነ ወስነናል እና Prestoን በቀጥታ ወደ GCS የውሂብ ስብስቦች ለመድረስ ተጠቅመንበታል። ለዚህ ዓላማ፣ BigQuery ውጫዊ የውሂብ ምንጮችን እያሰብን ነው።

ቀጣይ እርምጃዎች

ከአልፋ ልቀት ጀምሮ በBigQuery ላይ ከፍተኛ ፍላጎት አይተናል። ተጨማሪ የውሂብ ስብስቦችን እና ትዕዛዞችን ወደ BigQuery እያከልን ነው። እንደ Scalding ያሉ የውሂብ ትንተና መሳሪያዎችን ለማንበብ እና ወደ BigQuery ማከማቻ ለመጻፍ ማገናኛዎችን እያዘጋጀን ነው። የBigQuery የውሂብ ስብስቦችን በመጠቀም የድርጅት ጥራት ሪፖርቶችን እና ማብራሪያዎችን ለመፍጠር እንደ Looker እና Apache Zeppelin ያሉ መሳሪያዎችን እየመረመርን ነው።

ከጉግል ጋር ያደረግነው ትብብር በጣም ውጤታማ ነበር፣ እናም ይህንን ሽርክና ለመቀጠል እና ለማዳበር ደስተኞች ነን። የራሳችንን አጋርነት ተግባራዊ ለማድረግ ከጉግል ጋር ሰርተናል። የአጋር ችግር መከታተያጥያቄዎችን በቀጥታ ወደ ጉግል ለመላክ። እንደ BigQuery Parquet loader ያሉ አንዳንድ እነዚህ አስቀድመው በጉግል ተግባራዊ ሆነዋል።

ለGoogle ከፍተኛ ቅድሚያ የሚሰጣቸው የባህሪ ጥያቄዎቻችን እነሆ፡

  • ለ LZO-Thrift ቅርጸት ምቹ የውሂብ አቀባበል እና ድጋፍ የሚሆኑ መሳሪያዎች።
  • በሰዓት ክፍፍል
  • እንደ ሰንጠረዥ፣ ረድፍ እና የአምድ ደረጃ ፈቃዶች ያሉ በመዳረሻ መቆጣጠሪያ ላይ የተደረጉ ማሻሻያዎች።
  • BigQuery ውጫዊ የውሂብ ምንጮች ከ Hive Metastore ውህደት እና ለ LZO-Thrift ቅርጸት ድጋፍ ጋር።
  • በBigQuery UI ውስጥ የተሻሻለ የውሂብ ካታሎግ ውህደት
  • ለቦታ ምደባ እና ክትትል የራስ አገልግሎት።

መደምደሚያ

የውሂብ ትንተና፣ ምስላዊነት እና የማሽን ትምህርትን ደህንነቱ በተጠበቀ ሁኔታ ዲሞክራሲያዊ ማድረግ ለዳታ መድረክ ቡድን ቅድሚያ የሚሰጠው ጉዳይ ነው። ይህንን ግብ ለማሳካት የሚረዱ መሳሪያዎች እንደሆኑ Google BigQuery እና Data Studio ለይተናል፣ እና ባለፈው ዓመት BigQuery Alphaን ለመላው ኩባንያ አወጣን።

የBigQuery ጥያቄዎች ቀላል እና ቀልጣፋ ሆነው አግኝተናቸዋል። ለውሂብ ማስገባት እና ትራንስፎርሜሽን፣ ለቀላል የቧንቧ መስመሮች የGoogle መሳሪያዎችን ተጠቅመን ነበር፣ ነገር ግን ውስብስብ የቧንቧ መስመሮችን በተመለከተ የራሳችንን የአየር ፍሰት መሠረተ ልማት መገንባት ነበረብን። ለውሂብ አስተዳደር፣ የBigQuery ማረጋገጫ፣ ፈቃድ እና የኦዲት አገልግሎቶች ፍላጎቶቻችንን ያሟላሉ። ለሜታዳታ አስተዳደር እና ግላዊነት፣ የበለጠ ተለዋዋጭነት ያስፈልገን ነበር እና የራሳችንን ስርዓቶች መገንባት ነበረብን። BigQuery፣ እንደ የሚተዳደር አገልግሎት፣ ለመስራት ቀላል ነበር። የጥያቄ ወጪዎች ከነባር መሳሪያዎች ጋር ተመሳሳይ ነበሩ። በBigQuery ውስጥ ውሂብ ማከማቸት ከGCS በተጨማሪ ወጪዎችን አስከትሏል።

በአጠቃላይ፣ BigQuery ለአጠቃላይ የSQL ትንተና ጥሩ ይሰራል። በBigQuery ላይ ከፍተኛ ፍላጎት አይተናል፣ እና ተጨማሪ የውሂብ ስብስቦችን ለማዛወር፣ ተጨማሪ ቡድኖችን ለማሳተፍ እና ተጨማሪ የBigQuery ቧንቧዎችን ለመገንባት እየሰራን ነው። ትዊተር እንደ Scalding፣ Spark፣ Presto እና Druid ያሉ የተለያዩ መሳሪያዎችን ጥምረት የሚፈልግ የተለያዩ የውሂብ ስብስቦችን ይጠቀማል። የውሂብ ትንተና መሳሪያዎቻችንን መገንባት ለመቀጠል እና ለተጠቃሚዎቻችን አቅርቦቶቻችንን በተሻለ መንገድ እንዴት መጠቀም እንደሚችሉ ግልጽ መመሪያ ለመስጠት እንፈልጋለን።

የምስጋና ቃላት

በዚህ ፕሮጀክት ላይ ላደረጉት ጥሩ ትብብር እና በትጋት አብረውኝ የሰሩትን ደራሲያን እና የቡድን አጋሮቼን አንጁ ጃ እና ዊል ፓስኩቺን ማመስገን እፈልጋለሁ። እንዲሁም በትዊተር እና በጉግል ላይ ላሉ በርካታ ቡድኖች የተውጣጡ መሐንዲሶችን እና አስተዳዳሪዎችን እንዲሁም ጠቃሚ ግብረመልስ ለሰጡን የትዊተር ቢግQuery ተጠቃሚዎችን ማመስገን እፈልጋለሁ።

በእነዚህ ስራዎች ላይ ለመስራት ፍላጎት ካለዎት፣ እባክዎን የእኛን ይመልከቱ ክፍት የሥራ ቦታዎች በውሂብ መድረክ ቡድን ውስጥ።

በDWH ውስጥ የውሂብ ጥራት - የውሂብ መጋዘን ወጥነት

ምንጭ: hab.com

በDDoS ጥበቃ፣ VPS VDS አገልጋዮች ለጣቢያዎች አስተማማኝ ማስተናገጃ ይግዙ 🔥 አስተማማኝ የድር ጣቢያ ማስተናገጃ በዲዶኤስ ጥበቃ፣ በቪፒኤስ ቪዲኤስ አገልጋዮች ይግዙ | ProHoster