Салом, Хабр! Сабти ном барои ҷараёни курси нав ҳоло дар OTUS кушода аст
Идоракунии маълумот
Идоракунии пурқуввати додаҳо як принсипи асосии муҳандисии Twitter мебошад. Вақте ки мо BigQuery-ро дар платформаи худ татбиқ мекунем, мо ба кашфи маълумот, назорати дастрасӣ, амният ва махфият тамаркуз мекунем.
Барои кашф ва идоракунии додаҳо, мо қабати дастрасии маълумотро васеъ кардем
BigQuery мубодила ва дастрасии маълумотро осон мекунад, аммо ба мо лозим буд, ки аз болои ин каме назорат дошта бошем, то аз ихроҷи маълумот пешгирӣ кунем. Дар байни дигар асбобҳо, мо ду функсияро интихоб кардем:
Домени мубодилаи маҳдуд : Хусусияти бета барои пешгирӣ кардани мубодилаи маҷмӯаҳои маълумоти BigQuery бо корбарон берун аз Twitter.Назорати хидматрасонии VPC : Назорате, ки эксфилтратсияи маълумотро пешгирӣ мекунад ва аз корбарон талаб мекунад, ки BigQuery аз диапазони маълуми суроғаҳои IP дастрас шаванд.
Мо талаботҳои аутентификатсия, авторизатсия ва аудитро (AAA) барои амният ба таври зерин амалӣ кардем:
- Аутентификатсия: Мо ҳисобҳои корбари GCP-ро барои дархостҳои муваққатӣ ва ҳисобҳои хидматӣ барои дархостҳои истеҳсолӣ истифода бурдем.
- Иҷозат: Мо аз ҳар як маҷмӯи маълумот талаб кардем, ки ҳисоби хидматрасонии соҳиб ва гурӯҳи хонандагон дошта бошад.
- Аудит: Мо гузоришҳои BigQuery stackdriver-ро, ки дорои маълумоти муфассали иҷрои дархостҳо буданд, ба маҷмӯаи маълумоти BigQuery барои таҳлили осон содир кардем.
Барои таъмини дуруст коркарди маълумоти шахсии корбарони Twitter, мо бояд ҳамаи маҷмӯаҳои BigQuery-ро сабти ном кунем, маълумоти шахсиро шарҳ диҳем, нигоҳдории дурустро нигоҳ дорем ва маълумотеро, ки корбарон ҳазф кардаанд, нест кунем.
Мо ба Google назар кардем
Дар Twitter, мо чор категорияи махфиятро барои маҷмӯи додаҳо дар BigQuery эҷод кардем, ки дар ин ҷо бо тартиби камшавии ҳассосият номбар шудаанд:
- Маҷмӯи додаҳои хеле ҳассос дар асоси зарурӣ дар асоси принсипи имтиёзҳои камтарин дастрас карда мешаванд. Ҳар як маҷмӯи маълумот гурӯҳи алоҳидаи хонандагон дорад ва мо истифодаи онро аз рӯи ҳисобҳои инфиродӣ пайгирӣ хоҳем кард.
- Маҷмӯи маълумотҳои ҳассосияти миёна (нимҳои тахаллуси яктарафа бо истифода аз ҳашинги намакзада) дорои маълумоти шахсии мушаххасшаванда (PII) нестанд ва барои гурӯҳи калони кормандон дастрасанд. Ин тавозуни хуби байни нигарониҳои махфият ва хидматрасонии додаҳост. Ин ба кормандон имкон медиҳад, ки вазифаҳои таҳлилиро иҷро кунанд, ба монанди ҳисоб кардани шумораи корбароне, ки хусусиятро истифода кардаанд, бидуни донистани корбарони воқеӣ кистанд.
- Маҷмӯи додаҳои ҳассосияти паст бо ҳама маълумоти мушаххаскунандаи корбар. Ин як равиши хуб аз нуқтаи назари махфият аст, аммо наметавонад барои таҳлили сатҳи корбар истифода шавад.
- Маҷмӯи додаҳои ҷамъиятӣ (берун аз Twitter бароварда шудаанд) барои ҳамаи кормандони Twitter дастрасанд.
Дар мавриди сабти ном, мо вазифаҳои ба нақша гирифташударо барои номбар кардани маҷмӯаҳои додаҳои BigQuery ва ба қайд гирифтани онҳо дар қабати дастрасии додаҳо истифода бурдем (
Функсияи система
Азбаски BigQuery хидмати идорашаванда аст, зарурати ҷалби гурӯҳи SRE-и Twitter ба идоракунии системаҳо ё вазифаҳои мизи корӣ вуҷуд надошт. Таъмини иқтидори бештар ҳам барои нигоҳдорӣ ва ҳам барои ҳисоббарорӣ осон буд. Мо метавонем фармоиши слотро тавассути сохтани чипта бо дастгирии Google тағир диҳем. Мо соҳаҳоеро муайян кардем, ки онҳоро беҳтар кардан мумкин аст, ба монанди тақсимоти слотҳои худхизматрасонӣ ва такмил додани панели асбобҳо барои мониторинг ва ин дархостҳоро ба Google пешниҳод кардем.
арзиши
Таҳлили пешакии мо нишон дод, ки хароҷоти дархост барои BigQuery ва Presto дар як сатҳ буданд. Мо барои слотҳо харидем
Нигоҳ доштани маълумот дар BigQuery ба ғайр аз хароҷоти GCS хароҷотро ба бор овард. Асбобҳо ба монанди Scalding маҷмӯи додаҳоро дар GCS талаб мекунанд ва барои дастрасӣ ба BigQuery мо бояд ҳамон маҷмӯаҳои додаҳоро ба формати BigQuery бор кунем.
Барои ҳолатҳои нодир, ки дархостҳои камёфт даҳҳо петабайтро талаб мекарданд, мо қарор додем, ки нигоҳдории маҷмӯи додаҳо дар BigQuery камхарҷ нест ва Presto-ро барои дастрасии мустақим ба маҷмӯи додаҳо дар GCS истифода бурд. Барои ин, мо ба манбаъҳои берунии маълумоти BigQuery назар мекунем.
Қадамҳои оянда
Мо аз замони нашри алфа таваҷҷӯҳи зиёдро ба BigQuery дидем. Мо ба BigQuery маҷмӯи додаҳо ва фармонҳои бештар илова мекунем. Мо пайвасткунакҳоро барои абзорҳои таҳлили додаҳо ба мисли Scalding барои хондан ва навиштан дар анбори BigQuery таҳия мекунем. Мо асбобҳоро ба монанди Looker ва Apache Zeppelin барои эҷод кардани гузоришҳо ва қайдҳои сифати корхона бо истифода аз маҷмӯаҳои додаҳои BigQuery ҷустуҷӯ мекунем.
Ҳамкории мо бо Google хеле пурмаҳсул буд ва мо аз идома ва рушди ин шарикӣ хушҳолем. Мо бо Google барои татбиқи худамон кор кардем
Инҳоянд баъзе аз дархостҳои афзалиятноки хусусияти мо барои Google:
- Асбобҳо барои қабули маълумот ва дастгирии формати LZO-Thrift.
- Сегментатсияи соатбайъ
- Такмилдиҳии назорати дастрасӣ ба монанди иҷозатҳои сатҳи ҷадвал, сатр ва сутун.
- пурсиш
Сарчашмаҳои берунии маълумот бо ҳамгироии Hive Metastore ва дастгирии формати LZO-Thrift. - Интегратсияи беҳтаршудаи каталоги додаҳо дар интерфейси корбари BigQuery
- Худхизматрасонӣ барои тақсимоти слот ва мониторинг.
хулоса
Демократикунонии таҳлили додаҳо, визуализатсия ва омӯзиши мошинсозӣ бо роҳи бехатар авлавияти аввалиндараҷаи гурӯҳи Data Platform мебошад. Мо Google BigQuery ва Data Studio ҳамчун абзоре муайян кардем, ки метавонанд барои расидан ба ин ҳадаф кумак кунанд ва соли гузашта BigQuery Alpha-ро дар тамоми ширкат баровард.
Мо дар BigQuery дархостҳоро содда ва муассир дарёфтем. Мо абзорҳои Google-ро барои ворид кардан ва табдил додани маълумот барои қубурҳои оддӣ истифода мебурдем, аммо барои қубурҳои мураккаб мо бояд чаҳорчӯбаи ҳавоии худро созем. Дар фазои идоракунии додаҳо, хидматҳои BigQuery оид ба аутентификатсия, авторизатсия ва аудит ба ниёзҳои мо ҷавобгӯ мебошанд. Барои идоракунии метамаълумот ва нигоҳ доштани махфият ба мо чандирии бештар лозим буд ва бояд системаҳои шахсии худро созем. BigQuery, ки хидмати идорашаванда буд, истифода бурдан осон буд. Хароҷоти дархост ба асбобҳои мавҷуда монанд буд. Нигоҳдории маълумот дар BigQuery ба ғайр аз хароҷоти GCS хароҷотро талаб мекунад.
Умуман, BigQuery барои таҳлили умумии SQL хуб кор мекунад. Мо таваҷҷӯҳи зиёдро ба BigQuery мебинем ва мо кор карда истодаем, ки маҷмӯаҳои бештари маълумотро интиқол диҳанд, дастаҳои бештарро ҷалб кунем ва бо BigQuery лӯлаҳои бештар созем. Twitter маълумотҳои гуногунро истифода мебарад, ки маҷмӯи абзорҳоро ба монанди Scalding, Spark, Presto ва Druid талаб мекунанд. Мо ният дорем таҳкими абзорҳои таҳлили додаҳоямонро идома диҳем ва ба корбаронамон оид ба истифодаи беҳтарини пешниҳодҳои мо роҳнамоии равшан пешниҳод кунем.
Суханони миннатдорӣ
Ман мехоҳам ба ҳаммуаллифон ва ҳамкорони худ Анҷу Ҷа ва Вил Паскуччи барои ҳамкории бузург ва заҳмати сахташон дар ин лоиҳа ташаккур гӯям. Ман инчунин мехоҳам ба муҳандисон ва менеҷерони якчанд дастаҳои Twitter ва Google, ки ба мо ва корбарони BigQuery дар Twitter кӯмак карданд, ки фикру мулоҳизаҳои арзишманд пешниҳод карданд, ташаккур гӯям.
Агар шумо ба кор бо ин мушкилот таваҷҷӯҳ дошта бошед, ба мо муроҷиат кунед
Манбаъ: will.com