Чӣ гуна BigQuery-и Google таҳлили маълумотро демократӣ кард. Қисми 2

Салом, Хабр! Сабти ном барои ҷараёни курси нав ҳоло дар OTUS кушода аст Муҳандиси маълумот. Бо интизории оғози курс, мо мубодилаи маводи муфидро бо шумо идома медиҳем.

Қисми якумро хонед

Чӣ гуна BigQuery-и Google таҳлили маълумотро демократӣ кард. Қисми 2

Идоракунии маълумот

Идоракунии пурқуввати додаҳо як принсипи асосии муҳандисии Twitter мебошад. Вақте ки мо BigQuery-ро дар платформаи худ татбиқ мекунем, мо ба кашфи маълумот, назорати дастрасӣ, амният ва махфият тамаркуз мекунем.

Барои кашф ва идоракунии додаҳо, мо қабати дастрасии маълумотро васеъ кардем DAL) барои таъмин намудани абзорҳо ҳам барои маълумот дар дохили бино ва ҳам Google Cloud, таъмин намудани интерфейси ягона ва API барои корбарони мо. Ҳамчун Google Каталоги маълумот ба сӯи дастрасии умумӣ ҳаракат мекунад, мо онро ба лоиҳаҳои худ дохил хоҳем кард, то корбаронро бо хусусиятҳо ба монанди ҷустуҷӯи сутун таъмин кунем.

BigQuery мубодила ва дастрасии маълумотро осон мекунад, аммо ба мо лозим буд, ки аз болои ин каме назорат дошта бошем, то аз ихроҷи маълумот пешгирӣ кунем. Дар байни дигар асбобҳо, мо ду функсияро интихоб кардем:

  • Домени мубодилаи маҳдуд: Хусусияти бета барои пешгирӣ кардани мубодилаи маҷмӯаҳои маълумоти BigQuery бо корбарон берун аз Twitter.
  • Назорати хидматрасонии VPC: Назорате, ки эксфилтратсияи маълумотро пешгирӣ мекунад ва аз корбарон талаб мекунад, ки BigQuery аз диапазони маълуми суроғаҳои IP дастрас шаванд.

Мо талаботҳои аутентификатсия, авторизатсия ва аудитро (AAA) барои амният ба таври зерин амалӣ кардем:

  • Аутентификатсия: Мо ҳисобҳои корбари GCP-ро барои дархостҳои муваққатӣ ва ҳисобҳои хидматӣ барои дархостҳои истеҳсолӣ истифода бурдем.
  • Иҷозат: Мо аз ҳар як маҷмӯи маълумот талаб кардем, ки ҳисоби хидматрасонии соҳиб ва гурӯҳи хонандагон дошта бошад.
  • Аудит: Мо гузоришҳои BigQuery stackdriver-ро, ки дорои маълумоти муфассали иҷрои дархостҳо буданд, ба маҷмӯаи маълумоти BigQuery барои таҳлили осон содир кардем.

Барои таъмини дуруст коркарди маълумоти шахсии корбарони Twitter, мо бояд ҳамаи маҷмӯаҳои BigQuery-ро сабти ном кунем, маълумоти шахсиро шарҳ диҳем, нигоҳдории дурустро нигоҳ дорем ва маълумотеро, ки корбарон ҳазф кардаанд, нест кунем.

Мо ба Google назар кардем API-и пешгирии талафи маълумот, ки омӯзиши мошинро барои тасниф ва таҳрири маълумоти ҳассос истифода мебарад, аммо аз сабаби дақиқӣ ба манфиати шарҳи дастӣ маҷмӯи додаҳо тасмим гирифт. Мо нақша дорем, ки API-и пешгирии талафоти маълумотро барои афзоиш додани шарҳи фармоишӣ истифода барем.

Дар Twitter, мо чор категорияи махфиятро барои маҷмӯи додаҳо дар BigQuery эҷод кардем, ки дар ин ҷо бо тартиби камшавии ҳассосият номбар шудаанд:

  • Маҷмӯи додаҳои хеле ҳассос дар асоси зарурӣ дар асоси принсипи имтиёзҳои камтарин дастрас карда мешаванд. Ҳар як маҷмӯи маълумот гурӯҳи алоҳидаи хонандагон дорад ва мо истифодаи онро аз рӯи ҳисобҳои инфиродӣ пайгирӣ хоҳем кард.
  • Маҷмӯи маълумотҳои ҳассосияти миёна (нимҳои тахаллуси яктарафа бо истифода аз ҳашинги намакзада) дорои маълумоти шахсии мушаххасшаванда (PII) нестанд ва барои гурӯҳи калони кормандон дастрасанд. Ин тавозуни хуби байни нигарониҳои махфият ва хидматрасонии додаҳост. Ин ба кормандон имкон медиҳад, ки вазифаҳои таҳлилиро иҷро кунанд, ба монанди ҳисоб кардани шумораи корбароне, ки хусусиятро истифода кардаанд, бидуни донистани корбарони воқеӣ кистанд.
  • Маҷмӯи додаҳои ҳассосияти паст бо ҳама маълумоти мушаххаскунандаи корбар. Ин як равиши хуб аз нуқтаи назари махфият аст, аммо наметавонад барои таҳлили сатҳи корбар истифода шавад.
  • Маҷмӯи додаҳои ҷамъиятӣ (берун аз Twitter бароварда шудаанд) барои ҳамаи кормандони Twitter дастрасанд.

Дар мавриди сабти ном, мо вазифаҳои ба нақша гирифташударо барои номбар кардани маҷмӯаҳои додаҳои BigQuery ва ба қайд гирифтани онҳо дар қабати дастрасии додаҳо истифода бурдем (DAL), анбори метамаълумоти Twitter. Истифодабарандагон маҷмӯи додаҳоро бо маълумоти махфият шарҳ медиҳанд ва инчунин мӯҳлати нигоҳдорӣ муайян мекунанд. Дар мавриди тозакунӣ, мо кор ва арзиши ду вариантро арзёбӣ мекунем: 1. Тоза кардани маҷмӯаҳои додаҳо дар GCS бо истифода аз асбобҳо ба монанди Scalding ва бор кардани онҳо ба BigQuery; 2. Истифодаи изҳороти BigQuery DML. Мо эҳтимолан омезиши ҳарду усулро барои қонеъ кардани талаботи гурӯҳҳо ва додаҳои гуногун истифода хоҳем кард.

Функсияи система

Азбаски BigQuery хидмати идорашаванда аст, зарурати ҷалби гурӯҳи SRE-и Twitter ба идоракунии системаҳо ё вазифаҳои мизи корӣ вуҷуд надошт. Таъмини иқтидори бештар ҳам барои нигоҳдорӣ ва ҳам барои ҳисоббарорӣ осон буд. Мо метавонем фармоиши слотро тавассути сохтани чипта бо дастгирии Google тағир диҳем. Мо соҳаҳоеро муайян кардем, ки онҳоро беҳтар кардан мумкин аст, ба монанди тақсимоти слотҳои худхизматрасонӣ ва такмил додани панели асбобҳо барои мониторинг ва ин дархостҳоро ба Google пешниҳод кардем.

арзиши

Таҳлили пешакии мо нишон дод, ки хароҷоти дархост барои BigQuery ва Presto дар як сатҳ буданд. Мо барои слотҳо харидем собит нарх ба ҷои пардохт арзиши устувори моҳона дошта бошад мувофиқи дархост ба як TB маълумоти коркардшуда. Ин тасмим инчунин ба фикру мулоҳизаҳои корбароне асос ёфтааст, ки пеш аз пешниҳоди ҳар як дархост дар бораи хароҷот фикр кардан намехостанд.

Нигоҳ доштани маълумот дар BigQuery ба ғайр аз хароҷоти GCS хароҷотро ба бор овард. Асбобҳо ба монанди Scalding маҷмӯи додаҳоро дар GCS талаб мекунанд ва барои дастрасӣ ба BigQuery мо бояд ҳамон маҷмӯаҳои додаҳоро ба формати BigQuery бор кунем. Capacitor. Мо дар болои пайвасти Scalding ба маҷмӯаҳои додаҳои BigQuery кор карда истодаем, ки зарурати нигоҳ доштани маҷмӯи додаҳоро ҳам дар GCS ва ҳам BigQuery бартараф мекунад.

Барои ҳолатҳои нодир, ки дархостҳои камёфт даҳҳо петабайтро талаб мекарданд, мо қарор додем, ки нигоҳдории маҷмӯи додаҳо дар BigQuery камхарҷ нест ва Presto-ро барои дастрасии мустақим ба маҷмӯи додаҳо дар GCS истифода бурд. Барои ин, мо ба манбаъҳои берунии маълумоти BigQuery назар мекунем.

Қадамҳои оянда

Мо аз замони нашри алфа таваҷҷӯҳи зиёдро ба BigQuery дидем. Мо ба BigQuery маҷмӯи додаҳо ва фармонҳои бештар илова мекунем. Мо пайвасткунакҳоро барои абзорҳои таҳлили додаҳо ба мисли Scalding барои хондан ва навиштан дар анбори BigQuery таҳия мекунем. Мо асбобҳоро ба монанди Looker ва Apache Zeppelin барои эҷод кардани гузоришҳо ва қайдҳои сифати корхона бо истифода аз маҷмӯаҳои додаҳои BigQuery ҷустуҷӯ мекунем.

Ҳамкории мо бо Google хеле пурмаҳсул буд ва мо аз идома ва рушди ин шарикӣ хушҳолем. Мо бо Google барои татбиқи худамон кор кардем Назоратчии масъалаи шарикбарои фиристодани дархостҳо мустақиман ба Google. Баъзе аз онҳо, ба монанди боркунаки BigQuery Parket, аллакай аз ҷониби Google татбиқ карда шудаанд.

Инҳоянд баъзе аз дархостҳои афзалиятноки хусусияти мо барои Google:

  • Асбобҳо барои қабули маълумот ва дастгирии формати LZO-Thrift.
  • Сегментатсияи соатбайъ
  • Такмилдиҳии назорати дастрасӣ ба монанди иҷозатҳои сатҳи ҷадвал, сатр ва сутун.
  • пурсиш Сарчашмаҳои берунии маълумот бо ҳамгироии Hive Metastore ва дастгирии формати LZO-Thrift.
  • Интегратсияи беҳтаршудаи каталоги додаҳо дар интерфейси корбари BigQuery
  • Худхизматрасонӣ барои тақсимоти слот ва мониторинг.

хулоса

Демократикунонии таҳлили додаҳо, визуализатсия ва омӯзиши мошинсозӣ бо роҳи бехатар авлавияти аввалиндараҷаи гурӯҳи Data Platform мебошад. Мо Google BigQuery ва Data Studio ҳамчун абзоре муайян кардем, ки метавонанд барои расидан ба ин ҳадаф кумак кунанд ва соли гузашта BigQuery Alpha-ро дар тамоми ширкат баровард.

Мо дар BigQuery дархостҳоро содда ва муассир дарёфтем. Мо абзорҳои Google-ро барои ворид кардан ва табдил додани маълумот барои қубурҳои оддӣ истифода мебурдем, аммо барои қубурҳои мураккаб мо бояд чаҳорчӯбаи ҳавоии худро созем. Дар фазои идоракунии додаҳо, хидматҳои BigQuery оид ба аутентификатсия, авторизатсия ва аудит ба ниёзҳои мо ҷавобгӯ мебошанд. Барои идоракунии метамаълумот ва нигоҳ доштани махфият ба мо чандирии бештар лозим буд ва бояд системаҳои шахсии худро созем. BigQuery, ки хидмати идорашаванда буд, истифода бурдан осон буд. Хароҷоти дархост ба асбобҳои мавҷуда монанд буд. Нигоҳдории маълумот дар BigQuery ба ғайр аз хароҷоти GCS хароҷотро талаб мекунад.

Умуман, BigQuery барои таҳлили умумии SQL хуб кор мекунад. Мо таваҷҷӯҳи зиёдро ба BigQuery мебинем ва мо кор карда истодаем, ки маҷмӯаҳои бештари маълумотро интиқол диҳанд, дастаҳои бештарро ҷалб кунем ва бо BigQuery лӯлаҳои бештар созем. Twitter маълумотҳои гуногунро истифода мебарад, ки маҷмӯи абзорҳоро ба монанди Scalding, Spark, Presto ва Druid талаб мекунанд. Мо ният дорем таҳкими абзорҳои таҳлили додаҳоямонро идома диҳем ва ба корбаронамон оид ба истифодаи беҳтарини пешниҳодҳои мо роҳнамоии равшан пешниҳод кунем.

Суханони миннатдорӣ

Ман мехоҳам ба ҳаммуаллифон ва ҳамкорони худ Анҷу Ҷа ва Вил Паскуччи барои ҳамкории бузург ва заҳмати сахташон дар ин лоиҳа ташаккур гӯям. Ман инчунин мехоҳам ба муҳандисон ва менеҷерони якчанд дастаҳои Twitter ва Google, ки ба мо ва корбарони BigQuery дар Twitter кӯмак карданд, ки фикру мулоҳизаҳои арзишманд пешниҳод карданд, ташаккур гӯям.

Агар шумо ба кор бо ин мушкилот таваҷҷӯҳ дошта бошед, ба мо муроҷиат кунед ҷойҳои холӣ дар дастаи Data Platform.

Сифати маълумот дар DWH - Мутобиқати анбори додаҳо

Манбаъ: will.com

Илова Эзоҳ