Google-un BigQuery məlumat təhlilini necə demokratikləşdirdi. 2-ci hissə

Salam, Habr! Yeni kurs axını üçün qeydiyyat hazırda OTUS-da açıqdır Məlumat Mühəndisi. Kursun başlaması ərəfəsində biz sizinlə faydalı material paylaşmağa davam edirik.

Birinci hissəni oxuyun

Google-un BigQuery məlumat təhlilini necə demokratikləşdirdi. 2-ci hissə

Məlumatların idarə olunması

Güclü Məlumat İdarəçiliyi Twitter Mühəndisliyinin əsas prinsipidir. BigQuery-ni platformamıza tətbiq edərkən biz məlumatların aşkarlanması, girişə nəzarət, təhlükəsizlik və məxfiliyə diqqət yetiririk.

Verilənləri kəşf etmək və idarə etmək üçün biz Data Access Layer-i genişləndirdik DAL) istifadəçilərimiz üçün vahid interfeys və API təmin edərək həm yerli, həm də Google Bulud məlumatları üçün alətlər təqdim etmək. Google kimi Məlumat kataloqu ümumi əlçatanlığa doğru irəliləyir, istifadəçilərə sütun axtarışı kimi funksiyalar təqdim etmək üçün onu layihələrimizə daxil edəcəyik.

BigQuery datanı paylaşmağı və əldə etməyi asanlaşdırır, lakin məlumatların xaric edilməsinin qarşısını almaq üçün biz buna müəyyən nəzarət etməli idik. Digər alətlər arasında biz iki funksiya seçdik:

  • Domen məhdud paylaşım: İstifadəçilərin BigQuery məlumat dəstlərini Twitter xaricində istifadəçilərlə paylaşmasının qarşısını almaq üçün beta funksiyası.
  • VPC xidmətinə nəzarət: Məlumatların xaric edilməsinin qarşısını alan və istifadəçilərin məlum IP ünvan diapazonlarından BigQuery-yə daxil olmasını tələb edən nəzarət.

Biz təhlükəsizlik üçün autentifikasiya, avtorizasiya və audit (AAA) tələblərini aşağıdakı kimi həyata keçirmişik:

  • Doğrulama: Biz xüsusi sorğular üçün GCP istifadəçi hesablarından və istehsal sorğuları üçün xidmət hesablarından istifadə etdik.
  • Avtorizasiya: Biz hər bir verilənlər toplusunun sahibinin xidmət hesabı və oxucu qrupunun olmasını tələb etdik.
  • Audit: Sorğunun icrası ilə bağlı ətraflı məlumatı özündə əks etdirən BigQuery stackdriver jurnallarını asan təhlil üçün BigQuery verilənlər bazasına ixrac etdik.

Twitter istifadəçilərinin şəxsi məlumatlarının düzgün idarə olunmasını təmin etmək üçün biz bütün BigQuery məlumat dəstlərini qeydiyyatdan keçirməli, şəxsi məlumatlara şərhlər əlavə etməli, lazımi yaddaşı saxlamalı və istifadəçilər tərəfindən silinmiş məlumatları silməliyik.

Google-a baxdıq Cloud Data Loss Prevention API, həssas məlumatları təsnif etmək və redaktə etmək üçün maşın öyrənməsindən istifadə edir, lakin dəqiqliyə görə verilənlər toplusuna əl ilə şərh vermək lehinə qərar verir. Fərdi annotasiyanı artırmaq üçün Data Loss Prevention API-dən istifadə etməyi planlaşdırırıq.

Twitter-də biz BigQuery-də məlumat dəstləri üçün həssaslığın azalan qaydada sadalanan dörd məxfilik kateqoriyası yaratdıq:

  • Yüksək həssas məlumat dəstləri ən az imtiyaz prinsipinə əsaslanaraq, ehtiyac olduqda istifadəyə verilir. Hər bir məlumat dəstinin ayrıca oxucu qrupu var və biz fərdi hesablar üzrə istifadəni izləyəcəyik.
  • Orta həssaslıq məlumat dəstləri (duzlu heşinqdən istifadə edən birtərəfli təxəllüslər) Şəxsi Müəyyənləşdirilə bilən Məlumatı (PII) ehtiva etmir və daha böyük işçilər qrupu üçün əlçatandır. Bu, məxfilik problemləri və məlumat yardım proqramı arasında yaxşı balansdır. Bu, işçilərə həqiqi istifadəçilərin kim olduğunu bilmədən, hansısa funksiyadan istifadə edən istifadəçilərin sayını hesablamaq kimi təhlil tapşırıqlarını yerinə yetirməyə imkan verir.
  • Bütün istifadəçi identifikasiya məlumatları ilə aşağı həssaslıq verilənlər dəsti. Bu məxfilik baxımından yaxşı yanaşmadır, lakin istifadəçi səviyyəsində təhlil üçün istifadə edilə bilməz.
  • İctimai məlumat dəstləri (Twitter xaricində buraxılır) bütün Twitter əməkdaşları üçün əlçatandır.

Girişə gəldikdə, biz BigQuery məlumat dəstlərini sadalamaq və Data Access Layer ilə qeydiyyatdan keçirmək üçün planlaşdırılmış tapşırıqlardan istifadə etdik (DAL), Twitter metadata anbarı. İstifadəçilər məlumat dəstlərinə məxfilik məlumatları ilə şərh verəcək və həmçinin saxlama müddətini təyin edəcəklər. Təmizliyə gəldikdə, iki variantın performansını və dəyərini qiymətləndiririk: 1. Scalding kimi alətlərdən istifadə edərək GCS-də verilənlər dəstlərinin təmizlənməsi və BigQuery-ə yüklənməsi; 2. BigQuery DML ifadələrindən istifadə. Çox güman ki, müxtəlif qrupların və məlumatların tələblərinə cavab vermək üçün hər iki metodun birləşməsindən istifadə edəcəyik.

Sistem funksionallığı

BigQuery idarə olunan xidmət olduğundan, Twitter-in SRE komandasının sistemlərin idarə edilməsinə və ya stolüstü vəzifələrə cəlb edilməsinə ehtiyac yox idi. Həm saxlama, həm də hesablama üçün daha çox tutum təmin etmək asan idi. Google dəstəyi ilə bilet yaratmaqla slot rezervasiyasını dəyişə bilərik. Monitorinq üçün özünəxidmət sahəsinin ayrılması və tablosunun təkmilləşdirilməsi kimi təkmilləşdirilə bilən sahələri müəyyən etdik və bu sorğuları Google-a təqdim etdik.

dəyəri

İlkin təhlilimiz göstərdi ki, BigQuery və Presto üçün sorğu xərcləri eyni səviyyədədir. üçün yuvalar aldıq sabit ödəniş əvəzinə sabit aylıq xərcə sahib olmaq üçün qiymət tələbə üzrə emal edilmiş məlumatın hər TB-si üçün. Bu qərar həm də hər sorğu verməzdən əvvəl xərclər barədə düşünmək istəməyən istifadəçilərin rəyinə əsaslanıb.

BigQuery-də məlumatların saxlanması GCS xərclərinə əlavə olaraq xərclər gətirdi. Scalding kimi alətlər GCS-də verilənlər bazası tələb edir və BigQuery-ə daxil olmaq üçün biz eyni verilənlər dəstlərini BigQuery formatına yükləməli olduq Kondensator. Biz BigQuery verilənlər bazası ilə Scalding bağlantısı üzərində işləyirik ki, bu da data dəstlərini həm GCS, həm də BigQuery-də saxlamaq ehtiyacını aradan qaldıracaq.

Onlarla petabaytlıq nadir sorğular tələb edən nadir hallarda biz qərara gəldik ki, BigQuery-də data dəstləri saxlamaq sərfəli deyil və GCS-də verilənlər bazasına birbaşa daxil olmaq üçün Presto-dan istifadə etdik. Bunun üçün biz BigQuery Xarici Məlumat Mənbələrinə baxırıq.

Sonrakı addımlar

Biz alfa buraxılışından sonra BigQuery-ə böyük maraq gördük. Biz BigQuery-ə daha çox məlumat dəsti və daha çox əmr əlavə edirik. BigQuery yaddaşına oxumaq və yazmaq üçün Scalding kimi data analitika alətləri üçün birləşdiricilər hazırlayırıq. BigQuery məlumat dəstlərindən istifadə edərək müəssisə keyfiyyəti hesabatları və qeydlər yaratmaq üçün Looker və Apache Zeppelin kimi alətlərə baxırıq.

Google ilə əməkdaşlığımız çox məhsuldar olub və biz bu tərəfdaşlığı davam etdirməkdən və inkişaf etdirməkdən məmnunuq. Biz özümüzü həyata keçirmək üçün Google ilə işlədik Partnyor Problem İzləyicisisorğuları birbaşa Google-a göndərmək üçün. Onlardan bəziləri, məsələn, BigQuery Parket yükləyicisi artıq Google tərəfindən tətbiq edilib.

Google üçün yüksək prioritet xüsusiyyət sorğularımızdan bəziləri bunlardır:

  • LZO-Thrift formatı üçün rahat məlumat qəbulu və dəstək üçün alətlər.
  • Saatlıq seqmentasiya
  • Cədvəl, sıra və sütun səviyyəli icazələr kimi giriş nəzarəti təkmilləşdirmələri.
  • BigQuery Xarici məlumat mənbələri Hive Metastore inteqrasiyası və LZO-Thrift formatı dəstəyi ilə.
  • BigQuery istifadəçi interfeysində təkmilləşdirilmiş məlumat kataloqu inteqrasiyası
  • Slotların ayrılması və monitorinqi üçün özünə xidmət.

Nəticə

Məlumatların analitikasının, vizuallaşdırılmasının və maşın öyrənməsinin təhlükəsiz şəkildə demokratikləşdirilməsi Data Platform komandası üçün əsas prioritetdir. Biz Google BigQuery və Data Studio-nu bu məqsədə çatmağa kömək edə biləcək alətlər kimi müəyyən etdik və keçən il BigQuery Alpha-nı bütün şirkətdə buraxdıq.

BigQuery-də sorğuların sadə və səmərəli olduğunu gördük. Sadə boru kəmərləri üçün məlumatları qəbul etmək və çevirmək üçün Google alətlərindən istifadə etdik, lakin mürəkkəb boru kəmərləri üçün öz Hava axını çərçivəmizi yaratmalı olduq. Məlumatların idarə olunması sahəsində BigQuery-nin autentifikasiya, avtorizasiya və audit xidmətləri tələblərimizə cavab verir. Metadatanı idarə etmək və məxfiliyi qorumaq üçün bizə daha çox çeviklik lazım idi və öz sistemlərimizi qurmalı olduq. İdarə olunan xidmət olan BigQuery istifadəsi asan idi. Sorğu xərcləri mövcud alətlərə bənzəyirdi. BigQuery-də məlumatların saxlanması GCS xərclərinə əlavə olaraq xərclərə səbəb olur.

Ümumiyyətlə, BigQuery ümumi SQL təhlili üçün yaxşı işləyir. Biz BigQuery-ə böyük marağın olduğunu görürük və daha çox məlumat dəstini köçürmək, daha çox komanda cəlb etmək və BigQuery ilə daha çox boru kəməri qurmaq üçün çalışırıq. Twitter Scalding, Spark, Presto və Druid kimi alətlərin birləşməsini tələb edən müxtəlif məlumatlardan istifadə edir. Biz data analitik alətlərimizi gücləndirməyə davam etmək və istifadəçilərimizə təkliflərimizdən ən yaxşı şəkildə necə istifadə etmək barədə aydın təlimat vermək niyyətindəyik.

Minnətdarlıq sözləri

Həmmüəlliflərim və komanda yoldaşlarım Anju Jha və Will Pascucci-yə bu layihədə böyük əməkdaşlığa və zəhmətə görə təşəkkür etmək istərdim. Mən həmçinin Twitter və Google-da bizə kömək edən bir neçə komandanın mühəndis və menecerlərinə və Twitter-də dəyərli rəy bildirən BigQuery istifadəçilərinə təşəkkür etmək istərdim.

Bu problemlər üzərində işləmək istəyirsinizsə, bizimlə tanış olun vakansiyalar Data Platform komandasında.

DWH-də Data Keyfiyyəti - Məlumat Anbarının Ardıcıllığı

Mənbə: www.habr.com

Добавить комментарий