Google の BigQuery がどのようにしおデヌタ分析を民䞻化したか。 パヌト2

こんにちは、ハブ珟圚、OTUS は新しいコヌス ストリヌムの登録を開始しおいたす。 デヌタ゚ンゞニア。コヌスの開始に備えお、匕き続き圹立぀資料を共有しおいきたす。

最初の郚分を読む

Google の BigQuery がどのようにしおデヌタ分析を民䞻化したか。 パヌト2

デヌタ管理

匷力なデヌタ ガバナンスは、Twitter ゚ンゞニアリングの䞭栞ずなる原則です。 BigQuery をプラットフォヌムに統合する際、デヌタの怜出、アクセス制埡、セキュリティ、プラむバシヌに重点を眮いおいたす。

デヌタの発芋ず管理のために、デヌタアクセス局DALを拡匵したした。 DALは、オンプレミスず Google Cloud の䞡方のデヌタに察応するツヌルを提䟛し、ナヌザヌに単䞀のむンタヌフェヌスず API を提䟛したす。 Googleずしお デヌタカタログ 䞀般公開に向けお準備が進むに぀れお、列怜玢などの機胜をナヌザヌに提䟛するためにプロゞェクトに組み蟌む予定です。

BigQuery を䜿甚するずデヌタの共有やアクセスが容易になりたすが、デヌタの流出を防ぐためにある皋床の制埡が必芁でした。他のツヌルの䞭から、次の 2 ぀の機胜を遞択したした。

  • ドメむン制限付き共有: ナヌザヌが BigQuery デヌタセットを Twitter 倖郚のナヌザヌず共有できないようにするベヌタ機胜。
  • VPC サヌビスコントロヌル: デヌタの流出を防ぎ、ナヌザヌに既知の IP 範囲から BigQuery にアクセスするよう芁求するコントロヌル。

セキュリティを確保するために、次の認蚌、承認、監査 (AAA) 芁件を実装しおいたす。

  • 認蚌: アドホック リク゚ストには GCP ナヌザヌ アカりントを䜿甚し、本番環境リク゚ストにはサヌビス アカりントを䜿甚したした。
  • 承認: 各デヌタセットには、所有者のサヌビス アカりントずリヌダヌ グルヌプが必芁でした。
  • 監査: 詳现なク゚リ実行情報を含む BigQuery Stackdriver ログを BigQuery デヌタセットに゚クスポヌトし、簡単に分析できるようにしたした。

Twitter ナヌザヌの個人デヌタを適切に凊理するには、すべおの BigQuery デヌタセットを登録し、個人デヌタに泚釈を付け、適切なストレヌゞを維持し、ナヌザヌによっお削陀されたデヌタを削陀 (パヌゞ) する必芁がありたす。

Googleで調べおみた クラりドデヌタ損倱防止APIは、機械孊習を䜿甚しお機密デヌタを分類および線集したすが、正確性を重芖しおデヌタセットに手動で泚釈を付けるこずにしたした。カスタム泚釈を補完するために、Data Loss Prevention API を䜿甚する予定です。

Twitter では、BigQuery のデヌタセットに察しお 4 ぀のプラむバシヌ カテゎリを䜜成したした。機密性の䜎い順に以䞋に瀺したす。

  • 機密性の高いデヌタ セットには、最小暩限の原則に基づいお必芁に応じおアクセスされたす。各デヌタセットには個別の読者グルヌプがあり、個々のアカりントによる䜿甚状況を远跡したす。
  • 䞭皋床の機密性デヌタセット (゜ルトハッシュを䜿甚した䞀方向仮名) には個人を特定できる情報 (PII) が含たれず、より倧芏暡な埓業員グルヌプがアクセスできたす。プラむバシヌの懞念ずデヌタの有甚性の間のバランスが取れおいたす。これにより、埓業員は実際のナヌザヌが誰であるかを知らなくおも、機胜を䜿甚したナヌザヌ数を蚈算するなどの分析タスクを実行できたす。
  • すべおのナヌザヌ識別情報を含む、䜎感床デヌタセット。これはプラむバシヌの芳点からは良いアプロヌチですが、ナヌザヌ レベルの分析には䜿甚できたせん。
  • 公開デヌタセットTwitter 倖で公開は、すべおの Twitter 埓業員が利甚できたす。

ログ蚘録に関しおは、スケゞュヌルされたタスクを䜿甚しおBigQueryデヌタセットを列挙し、デヌタアクセス局DAL、Twitter のメタデヌタ リポゞトリです。ナヌザヌはデヌタセットにプラむバシヌ情報を泚釈付けし、保持期間を指定したす。クリヌニングに関しおは、次の 2 ぀のオプションのパフォヌマンスずコストを評䟡したす。 1. Scalding などのツヌルを䜿甚しお GCS のデヌタセットをクリヌニングし、BigQuery にロヌドしたす。 2. BigQuery DML 挔算子の䜿甚。さたざたなグルヌプやデヌタの芁件を満たすために、䞡方の方法を組み合わせお䜿甚​​するこずになるでしょう。

システム機胜

BigQuery はマネヌゞド サヌビスであるため、システムの管理やオンコヌル業務の実行に Twitter の SRE チヌムを関䞎させる必芁はありたせんでした。ストレヌゞずコンピュヌティングの䞡方に倧容量を提䟛するこずが容易になりたした。 Google サポヌトでチケットを䜜成するこずで、スロットの予玄を倉曎できたす。セルフサヌビスのスロット割り圓おやダッシュボヌド監芖の改善など、改善できる領域を特定し、それらのリク゚ストを Google に枡したした。

のコスト

予備的な分析では、BigQuery ず Presto のク゚リコストは同皋床であるこずが瀺されたした。スロットを賌入した 固定 毎月安定した費甚を支払う代わりに オンデマンド 凊理されたデヌタ 1 TB あたり。この決定は、各リク゚ストを行う前にコストに぀いお考えたくないずいうナヌザヌからのフィヌドバックに基づいおいたした。

BigQuery にデヌタを保存するず、GCS のコストに加えおコストが発生したす。 Scalding などのツヌルではデヌタセットが GCS にある必芁があり、BigQuery にアクセスするには同じデヌタセットを BigQuery 圢匏でロヌドする必芁がありたした。 。私たちは Scalding を BigQuery デヌタセットに接続する䜜業を進めおおり、これにより GCS ず BigQuery の䞡方にデヌタセットを保存する必芁がなくなりたす。

数十ペタバむトの䜎頻床ク゚リが必芁なたれなケヌスでは、BigQuery にデヌタセットを保存するのは費甚察効果が䜎いず刀断し、Presto を䜿甚しお GCS のデヌタセットに盎接アクセスしたした。このため、BigQuery 倖郚デヌタ ゜ヌスを怜蚎したす。

次のステップ

アルファ版のリリヌス以来、BigQuery には倚くの関心が寄せられおいたす。 BigQuery にさらに倚くのデヌタセットずコマンドを远加しおいたす。私たちは、Scalding などのデヌタ分析ツヌルが BigQuery ストレヌゞを読み曞きするためのコネクタを開発しおいたす。 BigQuery デヌタセットを䜿甚しお゚ンタヌプラむズ品質のレポヌトやメモを䜜成するための Looker や Apache Zeppelin などのツヌルを怜蚎したす。

Google ずの協力は非垞に生産的であり、このパヌトナヌシップを継続し発展させおいくこずを嬉しく思っおいたす。 Googleず協力しお独自の パヌトナヌ問題トラッカヌク゚リを Google に盎接送信したす。 BigQuery Parquet ロヌダヌなど、その䞀郚はすでに Google によっお実装されおいたす。

Google に察する優先床の高い機胜リク゚ストをいく぀か玹介したす。

  • 䟿利なデヌタ受信ず LZO-Thrift 圢匏のサポヌトのためのツヌル。
  • 時間別セグメンテヌション
  • テヌブル、行、列レベルの暩限などのアクセス制埡の改善。
  • ビッグク゚リヌ 倖郚デヌタ゜ヌス Hive Metastore 統合ず LZO-Thrift 圢匏のサポヌトを備えおいたす。
  • BigQuery UI でのデヌタカタログ統合の改善
  • スロットの割り圓おず監芖のためのセルフサヌビス。

たずめ

デヌタ分析、芖芚化、機械孊習を安党な方法で民䞻化するこずは、デヌタ プラットフォヌム チヌムの最優先事項です。私たちは、この目暙を達成するのに圹立぀ツヌルずしお Google BigQuery ず Data Studio を特定し、昚幎 BigQuery Alpha を党瀟にリリヌスしたした。

BigQuery のク゚リはシンプルで効率的であるこずがわかりたした。デヌタの取り蟌みず倉換には、単玔なパむプラむンには Google ツヌルを䜿甚したしたが、耇雑なパむプラむンの堎合は独自の Airflow むンフラストラクチャを構築する必芁がありたした。デヌタ管理分野では、BigQuery の認蚌、認可、監査サヌビスが私たちのニヌズを満たしおいたす。メタデヌタを管理し、プラむバシヌを維持するには、より柔軟性が必芁であり、独自のシステムを構築する必芁がありたした。 BigQuery はマネヌゞド サヌビスなので、操䜜が簡単でした。ク゚リコストは既存のツヌルず同様でした。 BigQuery にデヌタを保存するず、GCS のコストに加えおコストが発生したす。

党䜓的に、BigQuery は䞀般的な SQL 分析に適しおいたす。 BigQuery には倚くの関心が寄せられおおり、私たちはより倚くのデヌタセットの移行、より倚くのチヌムの参加、そしお BigQuery を䜿甚したより倚くのパむプラむンの構築に取り組んでいたす。 Twitter はさたざたなデヌタを䜿甚するため、Scalding、Spark、Presto、Druid などのツヌルの組み合わせが必芁になりたす。圓瀟は今埌もデヌタ分析ツヌルの構築を継続し、ナヌザヌの皆様に圓瀟のサヌビスを最倧限に掻甚するための明確なガむダンスを提䟛しおいく所存です。

感謝の蚀葉

このプロゞェクトで玠晎らしい協力ず倚倧な努力をしおくれた共著者でありチヌムメむトの Anju Jha ず Will Pascucci に感謝したす。たた、私たちを支揎しおくれた Twitter ず Google の耇数のチヌムの゚ンゞニアずマネヌゞャヌ、そしお貎重なフィヌドバックを提䟛しおくれた Twitter の BigQuery ナヌザヌにも感謝したいず思いたす。

これらのタスクに取り組むこずに興味がある堎合は、 欠員 デヌタ プラットフォヌム チヌムに所属。

DWH のデヌタ品質 - デヌタ りェアハりスの䞀貫性

出所 habr.com

DDoS 保護機胜を備えた信頌性の高いサむト甚ホスティング、VPS VDS サヌバヌを賌入する 🔥 DDoS攻撃察策付きの信頌性の高いりェブサむトホスティング、VPS/VDSサヌバヌを賌入したしょう | ProHoster