የጎግል BigQuery የመረጃ ትንተና እንዴት ዲሞክራሲያዊ እንዳደረገ። ክፍል 2

ሰላም ሀብር! ለአዲስ የኮርስ ዥረት ምዝገባ አሁን በOTUS ተከፍቷል። የውሂብ መሐንዲስ. የትምህርቱን ጅምር በመጠባበቅ ፣ ጠቃሚ ነገሮችን ከእርስዎ ጋር ማካፈላችንን እንቀጥላለን።

የመጀመሪያውን ክፍል ያንብቡ

የጎግል BigQuery የመረጃ ትንተና እንዴት ዲሞክራሲያዊ እንዳደረገ። ክፍል 2

የውሂብ አስተዳደር

ጠንካራ ዳታ አስተዳደር የትዊተር ምህንድስና ዋና መርህ ነው። BigQueryን ወደ መድረክችን ስንተገብር፣በመረጃ ግኝት፣መዳረሻ ቁጥጥር፣ደህንነት እና ግላዊነት ላይ እናተኩራለን።

ውሂብን ለማግኘት እና ለማስተዳደር፣የእኛን የውሂብ መዳረሻ ንብርብ ወደዚህ አስፋፍተናል DAL) ለሁለቱም በግቢው ውስጥ እና ለ Google ክላውድ ውሂብ መሳሪያዎችን ለማቅረብ, ነጠላ በይነገጽ እና ለተጠቃሚዎቻችን API ያቀርባል. እንደ Google የውሂብ ካታሎግ ወደ አጠቃላይ ተደራሽነት እየሄደ ነው፣ እንደ አምድ ፍለጋ ያሉ ባህሪያትን ለተጠቃሚዎች ለማቅረብ በፕሮጀክቶቻችን ውስጥ እናካትታለን።

BigQuery ውሂብን ማጋራት እና መድረስን ቀላል ያደርገዋል፣ ነገር ግን የውሂብ መስፋፋትን ለመከላከል በዚህ ላይ የተወሰነ ቁጥጥር ሊኖረን ያስፈልገናል። ከሌሎች መሳሪያዎች መካከል ሁለት ተግባራትን መርጠናል-

ለደህንነት ሲባል የማረጋገጫ፣ የፈቃድ እና የኦዲት (AAA) መስፈርቶችን እንደሚከተለው ተግባራዊ አድርገናል፡

  • ማረጋገጫ፡ ለጊዜያዊ ጥያቄዎች የጂሲፒ ተጠቃሚ መለያዎችን እና የአገልግሎት መለያዎችን ለምርት ጥያቄዎች ተጠቀምን።
  • ፍቃድ፡ እያንዳንዱ የውሂብ ስብስብ የባለቤት አገልግሎት መለያ እና የአንባቢ ቡድን እንዲኖረው እንፈልጋለን።
  • ኦዲቲንግ፡ ለቀላል ትንተና ዝርዝር የመጠይቅ አፈጻጸም መረጃ የያዘውን የBigQuery stackdriver ሎግዎች ወደ BigQuery ዳታ ስብስብ ልከናል።

የTwitter ተጠቃሚዎች ግላዊ መረጃ በአግባቡ መያዙን ለማረጋገጥ ሁሉንም የBigQuery ዳታሴቶች መመዝገብ፣የግል መረጃን ማብራራት፣ትክክለኛውን ማከማቻ መጠበቅ እና በተጠቃሚዎች የተሰረዙ መረጃዎችን መሰረዝ አለብን።

ጎግልን አይተናል የደመና ውሂብ መጥፋት መከላከል APIሚስጥራዊነት ያላቸውን መረጃዎች ለመከፋፈል እና ለማርትዕ የማሽን መማርን የሚጠቀም፣ነገር ግን የመረጃ ቋቱን በትክክለኛነት ለማብራራት ወስኗል። ብጁ ማብራሪያውን ለመጨመር የውሂብ መጥፋት መከላከያ ኤፒአይን ለመጠቀም አቅደናል።

በትዊተር፣ በBigQuery ውስጥ ለዳታ ስብስቦች አራት የግላዊነት ምድቦችን ፈጥረናል፣ እዚህ በዝቅተኛ የትብነት ቅደም ተከተል ተዘርዝረዋል፡

  • በጣም ሚስጥራዊነት ያላቸው የመረጃ ስብስቦች በትንሹ መብት መርህ ላይ ተመስርተው በሚፈለገው መሰረት እንዲገኙ ይደረጋሉ። እያንዳንዱ የውሂብ ስብስብ የተለየ የአንባቢዎች ቡድን አለው, እና በግለሰብ መለያዎች አጠቃቀምን እንከታተላለን.
  • መካከለኛ ስሜት ቀስቃሽ ዳታ ስብስቦች (የአንድ-መንገድ የውሸት ስሞች ጨዋማ ሃሽንግ በመጠቀም) በግል የሚለይ መረጃ (PII) የሉትም እና ለትልቅ የሰራተኞች ቡድን ተደራሽ ናቸው። ይህ በግላዊነት ጉዳዮች እና በመረጃ መገልገያ መካከል ጥሩ ሚዛን ነው። ይህ ሰራተኞቹ ትክክለኛ ተጠቃሚዎች እነማን እንደሆኑ ሳያውቅ ባህሪን የተጠቀሙ ተጠቃሚዎችን ቁጥር በማስላት የትንታኔ ተግባራትን እንዲያከናውኑ ያስችላቸዋል።
  • ከሁሉም የተጠቃሚ መለያ መረጃ ጋር ዝቅተኛ የትብነት ስብስቦች። ይህ ከግላዊነት አንፃር ጥሩ አቀራረብ ነው፣ ነገር ግን ለተጠቃሚ ደረጃ ትንተና መጠቀም አይቻልም።
  • ይፋዊ የመረጃ ስብስቦች (ከTwitter ውጪ የተለቀቁ) ለሁሉም የትዊተር ሰራተኞች ይገኛሉ።

መግባትን በተመለከተ የBigQuery ዳታ ስብስቦችን ለመዘርዘር እና በመረጃ ተደራሽነት ንብርብር ለመመዝገብ የታቀዱ ተግባራትን ተጠቀምን (DAL)) የትዊተር ሜታዳታ ማከማቻ። ተጠቃሚዎች የውሂብ ስብስቦችን ከግላዊነት መረጃ ጋር ያብራራሉ እና እንዲሁም የማቆያ ጊዜን ይጠቅሳሉ። ስለ ጽዳት ፣ የሁለት አማራጮችን አፈፃፀም እና ዋጋ እንገመግማለን- 1. እንደ Scalding ያሉ መሳሪያዎችን በመጠቀም በGCS ውስጥ ያሉ የውሂብ ስብስቦችን ማጽዳት እና ወደ BigQuery መጫን; 2. የBigQuery ዲኤምኤል መግለጫዎችን በመጠቀም። የተለያዩ ቡድኖችን እና መረጃዎችን ለማሟላት የሁለቱንም ዘዴዎች ጥምር እንጠቀማለን።

የስርዓት ተግባራዊነት

BigQuery የሚተዳደር አገልግሎት ስለሆነ የTwitter SRE ቡድንን በስርዓት አስተዳደር ወይም በዴስክ ስራዎች ላይ ማሳተፍ አያስፈልግም ነበር። ለሁለቱም ማከማቻ እና ማስላት የበለጠ አቅም ለማቅረብ ቀላል ነበር። ከGoogle ድጋፍ ጋር ትኬት በመፍጠር የቦታ ማስያዣውን መለወጥ እንችላለን። ሊሻሻሉ የሚችሉ ቦታዎችን ለይተን እንደ ራስ አገልግሎት ማስገቢያ ድልድል እና የዳሽቦርድ ማሻሻያ ለክትትል ማሻሻያዎችን ለይተናል እና እነዚያን ጥያቄዎች ለGoogle አቅርበናል።

ወጪ

የእኛ የመጀመሪያ ትንታኔ እንደሚያሳየው ለBigQuery እና Presto የመጠይቅ ወጪዎች በተመሳሳይ ደረጃ ላይ ናቸው። ቦታዎችን ገዝተናል ተስተካክሏል ዋጋ ከክፍያ ይልቅ የተረጋጋ ወርሃዊ ወጪ እንዲኖርዎት በፍላጎት በቲቢ በተሰራ መረጃ. ይህ ውሳኔ እያንዳንዱ ጥያቄ ከማቅረቡ በፊት ስለ ወጪ ማሰብ በማይፈልጉ ተጠቃሚዎች አስተያየት ላይ የተመሰረተ ነው።

በBigQuery ውስጥ ውሂብ ማከማቸት ከጂሲኤስ ወጪዎች በተጨማሪ ወጪዎችን አምጥቷል። እንደ Scalding ያሉ መሳሪያዎች በGCS ውስጥ የውሂብ ስብስቦችን ይፈልጋሉ፣ እና BigQueryን ለመድረስ ተመሳሳይ የውሂብ ስብስቦችን ወደ BigQuery ቅርጸት መጫን ነበረብን። ኃይል መለኪያ. በሁለቱም GCS እና BigQuery ውስጥ የውሂብ ስብስቦችን የማከማቸትን አስፈላጊነት የሚያስቀር ከBigQuery ዳታሴቶች ጋር Scalding ግንኙነት እየሰራን ነው።

አልፎ አልፎ በአስር የፔታባይት መጠይቆችን ለሚጠይቁ አልፎ አልፎ በBigQuery ውስጥ የውሂብ ስብስቦችን ማከማቸት ወጪ ቆጣቢ እንዳልሆነ ወስነናል እና በጂሲኤስ ውስጥ የውሂብ ስብስቦችን በቀጥታ ለመድረስ Presto ን ተጠቅመንበታል። ይህንን ለማድረግ የBigQuery External Data Sources እየተመለከትን ነው።

ቀጣይ እርምጃዎች

አልፋ ከተለቀቀ በኋላ በBigQuery ላይ ብዙ ፍላጎት አይተናል። ወደ BigQuery ተጨማሪ የውሂብ ስብስቦችን እና ተጨማሪ ትዕዛዞችን እያከልን ነው። ለBigQuery ማከማቻ ለማንበብ እና ለመፃፍ እንደ Scalding ላሉ የውሂብ መተንተኛ መሳሪያዎች አያያዦችን እንገነባለን። የBigQuery ዳታሴቶችን በመጠቀም የድርጅት ጥራት ሪፖርቶችን እና ማስታወሻዎችን ለመፍጠር እንደ Looker እና Apache Zeppelin ያሉ መሳሪያዎችን እየተመለከትን ነው።

ከGoogle ጋር ያለን ትብብር በጣም ውጤታማ ነበር እናም ይህን አጋርነት ለመቀጠል እና ለማዳበር ደስተኞች ነን። የራሳችንን ተግባራዊ ለማድረግ ከGoogle ጋር ሠርተናል የአጋር ጉዳይ መከታተያጥያቄዎችን በቀጥታ ወደ Google ለመላክ. አንዳንዶቹ እንደ BigQuery Parquet ሎደር ያሉ በGoogle ተተግብረዋል።

ለGoogle ቅድሚያ የምንሰጣቸው አንዳንድ የባህሪ ጥያቄዎች እነኚሁና፡

  • ለ LZO-Thrift ቅርጸት ምቹ የመረጃ መቀበያ መሳሪያዎች እና ድጋፍ።
  • የሰዓት ክፍፍል
  • የመዳረሻ መቆጣጠሪያ ማሻሻያዎችን እንደ ሰንጠረዥ-፣ ረድፍ እና የአምድ-ደረጃ ፍቃዶች።
  • BigQuery ውጫዊ የውሂብ ምንጮች ከHive Metastore ውህደት እና ድጋፍ ለ LZO-Thrift ቅርጸት።
  • በBigQuery የተጠቃሚ በይነገጽ ውስጥ የተሻሻለ የውሂብ ካታሎግ ውህደት
  • ማስገቢያ ምደባ እና ክትትል ራስን አገልግሎት.

መደምደሚያ

የመረጃ ትንተና፣ እይታ እና የማሽን መማር ደህንነቱ በተጠበቀ መንገድ ዴሞክራሲያዊ ማድረግ ለዳታ ፕላትፎርም ቡድን ቅድሚያ የሚሰጠው ጉዳይ ነው። ጎግል BigQuery እና ዳታ ስቱዲዮ ይህንን ግብ ለማሳካት የሚረዱ መሳሪያዎች አድርገን ለይተናል፣ እና BigQuery Alphaን ባለፈው አመት በድርጅታዊነት ለቋል።

በBigQuery ውስጥ ያሉ መጠይቆችን ቀላል እና ቀልጣፋ ሆነው አግኝተናል። ለቀላል የቧንቧ መስመሮች መረጃን ለማስገባት እና ለመለወጥ የGoogle መሳሪያዎችን ተጠቅመን ነበር፣ ነገር ግን ለተወሳሰቡ የቧንቧ መስመሮች የራሳችንን የአየር ፍሰት ማዕቀፍ መገንባት ነበረብን። በመረጃ አስተዳደር ቦታ የBigQuery የማረጋገጫ፣ ፍቃድ እና ኦዲት አገልግሎቶች ፍላጎታችንን ያሟላሉ። ሜታዳታን ለማስተዳደር እና ግላዊነትን ለመጠበቅ፣ የበለጠ ተለዋዋጭነት ያስፈልገናል እና የራሳችንን ስርዓቶች መገንባት ነበረብን። BigQuery፣ የሚተዳደር አገልግሎት መሆን፣ ለመጠቀም ቀላል ነበር። የጥያቄ ወጪዎች ከነባር መሣሪያዎች ጋር ተመሳሳይ ነበሩ። በBigQuery ውስጥ ውሂብ ማከማቸት ከጂሲኤስ ወጪዎች በተጨማሪ ወጪዎችን ያስከትላል።

በአጠቃላይ፣ BigQuery ለአጠቃላይ SQL ትንተና ጥሩ ይሰራል። በBigQuery ላይ ብዙ ፍላጎት እያየን ነው፣ እና ተጨማሪ የውሂብ ስብስቦችን ለማዛወር፣ ብዙ ቡድኖችን ለማምጣት እና በBigQuery ተጨማሪ የቧንቧ መስመሮችን ለመስራት እየሰራን ነው። ትዊተር እንደ ስካልዲንግ፣ ስፓርክ፣ ፕሬስቶ እና ድሩይድ ያሉ መሳሪያዎች ጥምረት የሚያስፈልጋቸው የተለያዩ መረጃዎችን ይጠቀማል። የእኛን የመረጃ መተንተኛ መሳሪያ ማጠናከራችንን ለመቀጠል እና ለተጠቃሚዎቻችን አቅርቦቶቻችንን እንዴት በተሻለ ሁኔታ መጠቀም እንዳለብን ግልጽ መመሪያ ለመስጠት አስበናል።

የምስጋና ቃላት

የስራ ባልደረቦቼን እና የቡድን አጋሮቼን አንጁ ጃሃ እና ዊል ፓስኩቺን በዚህ ፕሮጀክት ላይ ላደረጉት ታላቅ ትብብር እና ትጋት ላመሰግናቸው እወዳለሁ። በTwitter እና Google ላይ ከበርካታ ቡድኖች የተውጣጡ መሐንዲሶችን እና አስተዳዳሪዎችን እና ጠቃሚ አስተያየት ለሰጡን በትዊተር ላይ የBigQuery ተጠቃሚዎችን ማመስገን እፈልጋለሁ።

በእነዚህ ችግሮች ላይ ለመስራት ፍላጎት ካሎት የእኛን ይመልከቱ ክፍት የሥራ ቦታዎች በዳታ መድረክ ቡድን ውስጥ።

የውሂብ ጥራት በDWH - የውሂብ መጋዘን ወጥነት

ምንጭ: hab.com

አስተያየት ያክሉ