የጎግል BigQuery የመረጃ ትንተና እንዴት ዲሞክራሲያዊ እንዳደረገ። ክፍል 1

ሰላም ሀብር! ለአዲስ የኮርስ ዥረት ምዝገባ አሁን በOTUS ተከፍቷል። የውሂብ መሐንዲስ. የትምህርቱን መጀመሪያ በመጠባበቅ ፣ ለእርስዎ አስደሳች የሆኑ ነገሮችን ትርጉም በተለምዶ አዘጋጅተናል።

በአለም ላይ ምን እየሆነ እንዳለ ለማወቅ እና ለመወያየት በየቀኑ ከመቶ ሚሊዮን በላይ ሰዎች ትዊተርን ይጎበኛሉ። እያንዳንዱ ትዊት እና እያንዳንዱ ሌላ የተጠቃሚ እርምጃ ለትዊተር ውስጣዊ መረጃ ትንተና የሚገኝ ክስተት ይፈጥራል። በመቶዎች የሚቆጠሩ ሰራተኞች ይህንን መረጃ ይመረምራሉ እና በዓይነ ሕሊናዎ ይመለከቱታል, እና ልምዳቸውን ማሻሻል በትዊተር ዳታ መድረክ ቡድን ውስጥ ቅድሚያ የሚሰጠው ጉዳይ ነው.

ሰፊ የቴክኒካል ክህሎት ያላቸው ተጠቃሚዎች መረጃን ማግኘት እና ጥሩ አፈጻጸም ያላቸውን SQL ላይ የተመሰረተ ትንተና እና የእይታ መሳሪያዎችን ማግኘት መቻል አለባቸው ብለን እናምናለን። ይህ የመረጃ ተንታኞችን እና የምርት አስተዳዳሪዎችን ጨምሮ ሙሉ ለሙሉ አዲስ ቴክኒካል ተጠቃሚዎች ከውሂቡ ግንዛቤዎችን እንዲያወጡ ያስችላቸዋል ይህም የትዊተርን አቅም የበለጠ እንዲረዱ እና እንዲጠቀሙ ያስችላቸዋል። በትዊተር ላይ የመረጃ ትንተናን ዲሞክራሲ የምናደርገው በዚህ መንገድ ነው።

የእኛ መሳሪያዎች እና የውስጥ ዳታ ትንተና ችሎታዎች ሲሻሻሉ፣ ትዊተር ሲሻሻል አይተናል። ይሁን እንጂ አሁንም ለመሻሻል ቦታ አለ. እንደ Scalding ያሉ የአሁን መሳሪያዎች የፕሮግራም አወጣጥ ልምድ ያስፈልጋቸዋል። እንደ Presto እና Vertica ያሉ በSQL ላይ የተመሰረቱ የትንታኔ መሳሪያዎች በመጠን የአፈጻጸም ችግሮች አሏቸው። እንዲሁም ያለማቋረጥ መዳረሻ ሳይኖር በተለያዩ ስርዓቶች ላይ ውሂብ የማሰራጨት ችግር አለብን።

ባለፈው አመት አሳውቀናል ከ Google ጋር አዲስ ትብብር, በውስጡም የእኛን ክፍሎች እናስተላልፋለን የውሂብ መሠረተ ልማት በጎግል ክላውድ ፕላትፎርም (ጂሲፒ) ላይ። ጎግል ክላውድ መሳሪያዎችን ጨርሰናል። ትልቅ መረጃ በትዊተር ላይ ትንታኔዎችን፣ ምስላዊ እይታን እና የማሽን መማሪያን በምናደርገው ተነሳሽነት ሊረዳን ይችላል።

  • BigQueryየድርጅት መረጃ መጋዘን በ SQL ሞተር ላይ የተመሠረተ ድሬል, እሱም በፍጥነት, ቀላልነት እና በመቋቋም ዝነኛ ነው ማሽን መማር.
  • የውሂብ ስቱዲዮ ትልቅ የዳታ ማሳያ መሳሪያ ከGoogle ሰነዶች መሰል የትብብር ባህሪያት ጋር።

በዚህ ጽሑፍ ውስጥ ስለእነዚህ መሳሪያዎች ያለንን ልምድ ይማራሉ-ምን እንዳደረግን, ምን እንደተማርን እና ቀጥሎ ምን እንደምናደርግ. አሁን በቡድን እና በይነተገናኝ ትንታኔ ላይ እናተኩራለን። በሚቀጥለው ርዕስ ውስጥ የእውነተኛ ጊዜ ትንታኔዎችን እንነጋገራለን.

የTwitter Data Stores ታሪክ

ወደ BigQuery ከመግባትዎ በፊት፣ የTwitter ውሂብ ማከማቻ ታሪክን በአጭሩ መናገሩ ጠቃሚ ነው። እ.ኤ.አ. በ 2011 የትዊተር መረጃ ትንተና በቨርቲካ እና ሃዱፕ ተካሂዷል። MapReduce Hadoop ስራዎችን ለመፍጠር አሳማን ተጠቀምን። እ.ኤ.አ. በ 2012 አሳማን በ Scalding ተክተናል ፣ እሱም Scala ኤፒአይ እንደ ውስብስብ የቧንቧ መስመሮች የመፍጠር ችሎታ እና የመሞከር ቀላልነት ካሉ ጥቅሞች ጋር። ነገር ግን፣ ከSQL ጋር አብሮ ለመስራት የበለጠ ለተመቻቸው ለብዙ የውሂብ ተንታኞች እና የምርት አስተዳዳሪዎች፣ ፍትሃዊ ቁልቁል የመማሪያ መንገድ ነበር። እ.ኤ.አ. በ2016፣ Prestoን እንደ SQL በይነገጽ ወደ Hadoop ውሂብ መጠቀም ጀመርን። ስፓርክ የፓይዘን በይነገጽ አቅርቧል፣ ይህም ለአድሆክ ዳታ ሳይንስ እና ለማሽን መማር ጥሩ ምርጫ ያደርገዋል።

ከ2018 ጀምሮ፣ ለመረጃ ትንተና እና እይታ የሚከተሉትን መሳሪያዎች ተጠቅመናል፡

  • ለምርት ማጓጓዣዎች ማቃጠል
  • ለአድሆክ መረጃ ትንተና እና ለማሽን መማር ማቃጠል እና ስፓርክ
  • Vertica እና Presto ለአድሆክ እና በይነተገናኝ SQL ትንተና
  • ድሩይድ ለዝቅተኛ መስተጋብራዊ፣ ገላጭ እና ዝቅተኛ መዘግየት የጊዜ ተከታታይ መለኪያዎች
  • Tableau፣ Zeppelin እና Pivot ለውሂብ እይታ

እነዚህ መሳሪያዎች በጣም ኃይለኛ ችሎታዎች ሲሰጡን እነዚህን ችሎታዎች በትዊተር ላይ ለብዙ ተመልካቾች ለማቅረብ ተቸግረናል. መድረክችንን በGoogle ክላውድ በማስፋፋት፣የእኛን የትንታኔ መሳሪያ ለሁሉም ትዊተር በማቃለል ላይ እናተኩራለን።

የGoogle BigQuery ውሂብ ማከማቻ

በTwitter ላይ ያሉ በርካታ ቡድኖች BigQueryን በአንዳንድ የምርት መስመሮቻቸው ውስጥ አካተዋል። እውቀታቸውን ተጠቅመን ለሁሉም የTwitter አጠቃቀም ጉዳዮች የBigQueryን አቅም መገምገም ጀመርን። ግባችን BigQueryን ለመላው ኩባንያ ማቅረብ እና ደረጃውን የጠበቀ እና በዳታ ፕላትፎርም መሳሪያዎች ስብስብ ውስጥ መደገፍ ነበር። ይህ በብዙ ምክንያቶች አስቸጋሪ ነበር። ብዙ መረጃዎችን በአስተማማኝ ሁኔታ ለማስገባት፣ የኩባንያውን አቀፍ የውሂብ አስተዳደርን ለመደገፍ፣ ትክክለኛ የመዳረሻ ቁጥጥሮችን ለማረጋገጥ እና የደንበኞችን ግላዊነት ለማረጋገጥ መሠረተ ልማት ማዘጋጀት ነበረብን። ቡድኖች BigQueryን በብቃት መጠቀም እንዲችሉ ለሀብት ድልድል፣ ክትትል እና መልሶ ክፍያ ስርዓቶችን መፍጠር ነበረብን።

እ.ኤ.አ. በኖቬምበር 2018 የBigQuery እና Data Studio ኩባንያ-ሰፊ የአልፋ ልቀት ለቀቅን። ብዙ ጊዜ የምንጠቀምባቸውን የተመን ሉሆችን ከጸዳ የግል መረጃ ጋር ለትዊተር ሰራተኞች አቅርበናል። BigQuery ምህንድስናን፣ ፋይናንስን እና ግብይትን ጨምሮ ከተለያዩ ቡድኖች በተውጣጡ ከ250 በላይ ተጠቃሚዎች ጥቅም ላይ ውሏል። በጣም በቅርብ ጊዜ፣ የታቀዱ ጥያቄዎችን ሳይቆጥሩ በወር ወደ 8 ፒቢ እያስሄዱ 100k ያህል ጥያቄዎችን እያሄዱ ነበር። በጣም አዎንታዊ ግብረ መልስ ከተቀበልን በኋላ፣ ወደ ፊት ለመቀጠል ወሰንን እና BigQuery በትዊተር ላይ ካለው ውሂብ ጋር መስተጋብር ለመፍጠር እንደ ዋና ግብአት ለማቅረብ ወሰንን።

የእኛ የGoogle BigQuery ውሂብ መጋዘን አርክቴክቸር የከፍተኛ ደረጃ ሥዕላዊ መግለጫ ይኸውና።

የጎግል BigQuery የመረጃ ትንተና እንዴት ዲሞክራሲያዊ እንዳደረገ። ክፍል 1
የውስጣዊ Cloud Replicator መሳሪያን በመጠቀም ከግቢው Hadoop ዘለላዎች ወደ ጎግል ክላውድ ማከማቻ (ጂሲኤስ) እንቀዳለን። ከዚያም "" የሚጠቀሙ የቧንቧ መስመሮችን ለመፍጠር Apache Airflow እንጠቀማለን.bq_ጫን» ከGCS ወደ BigQuery ውሂብ ለመጫን። በGCS ውስጥ Parquet ወይም Thrift-LZO የውሂብ ስብስቦችን ለመጠየቅ Presto እንጠቀማለን። BQ Blaster HDFS Vertica እና Thrift-LZO የውሂብ ስብስቦችን ወደ BigQuery ለመጫን ውስጣዊ ማቃጠያ መሳሪያ ነው።

በሚቀጥሉት ክፍሎች፣ በአጠቃቀም ቀላልነት፣ በአፈጻጸም፣ በመረጃ አያያዝ፣ በስርዓት ጤና እና ወጪ ዙሪያ ያለንን አቀራረብ እና እውቀት እንነጋገራለን።

የመጠቀም ሁኔታ

የሶፍትዌር ጭነት ስለማይፈልግ እና ተጠቃሚዎች ሊታወቅ በሚችል የድረ-ገጽ በይነገጽ ማግኘት ስለሚችሉ ተጠቃሚዎች በBigQuery ለመጀመር ቀላል ሆኖ አግኝተነዋል። ነገር ግን፣ ተጠቃሚዎች እንደ ፕሮጀክቶች፣ የውሂብ ስብስቦች እና ሠንጠረዦች ያሉ ግብዓቶችን ጨምሮ አንዳንድ የጂሲፒ ባህሪያትን እና ፅንሰ ሀሳቦችን ማወቅ ነበረባቸው። ተጠቃሚዎች እንዲጀምሩ የሚያግዙ ትምህርታዊ ቁሳቁሶችን እና አጋዥ ስልጠናዎችን አዘጋጅተናል። በመሠረታዊ ግንዛቤ ተጠቃሚዎች የውሂብ ስብስቦችን ማሰስ፣ የመርሃግብር እና የሰንጠረዥ ውሂብን መመልከት፣ ቀላል ጥያቄዎችን ማስኬድ እና ውጤቶችን በዳታ ስቱዲዮ ውስጥ ማየት ቀላል ሆኖ አግኝተውታል።

ወደ BigQuery የመግባት ግባችን እንከን የለሽ የHDFS ወይም የጂሲኤስ የውሂብ ስብስቦችን በአንድ ጠቅታ መጫንን ማስቻል ነበር። እኛ ተመልክተናል የደመና አቀናባሪ (በአየር ፍሰት የሚተዳደር) ነገር ግን በእኛ ጎራ የተገደበ መጋራት ደህንነት ሞዴላችን ምክንያት መጠቀም አልቻልንም (ይህን በተመለከተ ከዚህ በታች ባለው የውሂብ አስተዳደር ክፍል ውስጥ)። የBigQuery የስራ ጫናዎችን ለማቀናጀት የGoogle ዳታ ማስተላለፊያ አገልግሎትን (DTS)ን በመጠቀም ሞክረናል። DTS ለማዘጋጀት ፈጣን ቢሆንም, ከጥገኛዎች ጋር የቧንቧ መስመሮችን ለመገንባት ተለዋዋጭ አልነበረም. ለአልፋ ልቀታችን የራሳችንን Apache Airflow በGCE ውስጥ ገንብተናል እና በምርት ላይ እንዲሰራ እና እንደ ቬርቲካ ያሉ ተጨማሪ የመረጃ ምንጮችን መደገፍ እንድንችል እያዘጋጀን ነው።

ውሂብን ወደ BigQuery ለመቀየር ተጠቃሚዎች የታቀዱ ጥያቄዎችን በመጠቀም ቀላል የSQL ዳታ ቧንቧዎችን ይፈጥራሉ። ለተወሳሰቡ ባለብዙ ደረጃ የቧንቧ መስመሮች ከጥገኛዎች ጋር፣ የራሳችንን የአየር ፍሰት ማዕቀፍ ወይም Cloud Composerን ከጥገኛ ጋር ለመጠቀም አቅደናል። የደመና ውሂብ ፍሰት.

ምርታማነት

BigQuery የተነደፈው ለአጠቃላይ ዓላማ ከፍተኛ መጠን ያለው ውሂብን ለሚያስኬዱ የSQL መጠይቆች ነው። ለዝቅተኛ መዘግየት፣ በግብይት ዳታቤዝ ለሚፈለጉት ከፍተኛ የውጤት መጠይቆች ወይም ለተተገበረው ዝቅተኛ የቆይታ ጊዜ ተከታታይ ትንተና የታሰበ አይደለም። Apache Druid. በይነተገናኝ የትንታኔ መጠይቆች ተጠቃሚዎቻችን ከአንድ ደቂቃ በታች የምላሽ ጊዜን ይጠብቃሉ። እነዚህን የሚጠበቁ ነገሮች ለማሟላት የBigQuery አጠቃቀማችንን መንደፍ ነበረብን። ሊገመት የሚችል አፈጻጸምን ለተጠቃሚዎቻችን ለማቅረብ፣ የፕሮጀክት ባለቤቶች ለጥያቄዎቻቸው አነስተኛ ቦታዎችን እንዲያስቀምጡ የሚያስችል የBigQuery ተግባርን ለደንበኞች በተመጣጣኝ ክፍያ ሰጥተናል። ማስገቢያው BigQuery የSQL መጠይቆችን ለማስፈጸም የሚያስፈልገው የኮምፒዩተር ሃይል አሃድ ነው።

እያንዳንዳቸው በግምት 800 ቴባ መረጃን በማስኬድ ከ1 በላይ መጠይቆችን ተንትነን አማካኝ የማስፈጸሚያ ጊዜ 30 ሰከንድ ሆኖ አግኝተነዋል። በተጨማሪም አፈጻጸሙ በተለያዩ ፕሮጀክቶች እና ተግባራት ላይ የእኛን ማስገቢያ አጠቃቀም ላይ በጣም ጥገኛ እንደሆነ ተምረናል። ለምርት አጠቃቀም ጉዳዮች እና ለኦንላይን ትንተና አፈፃፀሙን ለማስቀጠል የእኛን የምርት እና የአድሆክ ማስገቢያ ክምችቶችን በግልፅ መወሰን ነበረብን። ይህ ለቦታ ማስያዣዎች እና የፕሮጀክት ተዋረድ በእኛ ዲዛይን ላይ ከፍተኛ ተጽዕኖ አሳድሯል።

በሚቀጥሉት ቀናት ውስጥ ስለ የውሂብ አያያዝ, ተግባራዊነት እና የስርዓቶች ዋጋ በትርጉሙ ሁለተኛ ክፍል ውስጥ እንነጋገራለን, አሁን ግን ሁሉንም ሰው እንጋብዛለን. ነፃ የቀጥታ ዌቢናር, በዚህ ጊዜ ስለ ኮርሱ በዝርዝር መማር ይችላሉ, እንዲሁም ለባለሙያዎቻችን ጥያቄዎችን ይጠይቁ - Egor Mateshuk (ከፍተኛ የውሂብ መሐንዲስ, MaximaTelecom).

ተጨማሪ ያንብቡ፡

ምንጭ: hab.com

አስተያየት ያክሉ