Pehea ko Google BigQuery i hoʻokaʻawale ai i ka ʻikepili ʻikepili. Mahele 2

Aloha, Habr! Wehe ʻia ke kākau inoa no kahi kahawai papa hou i kēia manawa ma OTUS ʻEnekinia ʻIkepili. I ka kali ʻana i ka hoʻomaka ʻana o ka papa, hoʻomau mākou i ka hāʻawi ʻana i nā mea pono me ʻoe.

Heluhelu i ka hapa mua

Pehea ko Google BigQuery i hoʻokaʻawale ai i ka ʻikepili ʻikepili. Mahele 2

Hooponopono ikepili

ʻO Strong Data Governance kahi kumu nui o Twitter Engineering. Ke hoʻokō nei mākou i ka BigQuery i loko o kā mākou paepae, ʻike mākou i ka ʻike ʻikepili, ka mana ʻae, palekana a me ka pilikino.

No ka ʻike a mālama ʻana i ka ʻikepili, ua hoʻonui mākou i kā mākou Data Access Layer i DAL) e hoʻolako i nā mea hana no ka ʻikepili ma ka hale a me ka ʻikepili Google Cloud, e hāʻawi ana i hoʻokahi interface a me API no kā mākou mea hoʻohana. E like me Google Palapala ʻIkepili ke neʻe nei i ka loaʻa maʻamau, e hoʻokomo mākou i loko o kā mākou papahana e hāʻawi i nā mea hoʻohana me nā hiʻohiʻona e like me ka huli kolamu.

He mea maʻalahi ka BigQuery i ka kaʻana like ʻana a me ke komo ʻana i ka ʻikepili, akā pono mākou e loaʻa kekahi mana ma luna o kēia e pale aku i ka exfiltration ʻikepili. Ma waena o nā mea hana ʻē aʻe, ua koho mākou i ʻelua mau hana:

  • Kaʻana kaʻana i kaupalena ʻia: ʻO ka hiʻohiʻona Beta no ka pale ʻana i nā mea hoʻohana mai ka kaʻana like ʻana i nā ʻikepili BigQuery me nā mea hoʻohana ma waho o Twitter.
  • Nā mana lawelawe VPC: He mana e pale ana i ka exfiltration ʻikepili a koi aku i nā mea hoʻohana e komo i ka BigQuery mai nā pae helu IP i ʻike ʻia.

Ua hoʻokō mākou i nā koi hōʻoia, ʻae, a me ka loiloi (AAA) no ka palekana e like me kēia:

  • Hōʻoia: Ua hoʻohana mākou i nā moʻokāki mea hoʻohana GCP no nā noi ad hoc a me nā moʻokāki lawelawe no nā noi hana.
  • Manaʻo: Ua koi mākou i kēlā me kēia ʻikepili i loaʻa kahi moʻokāki lawelawe a me kahi pūʻulu heluhelu.
  • Ka hoʻokolo ʻana: Ua lawe aku mākou i nā moʻolelo hoʻopaʻa ʻo BigQuery stackdriver, i loaʻa ka ʻike kikoʻī o ka hoʻokō ʻana i nā nīnau, i loko o kahi waihona BigQuery no ka maʻalahi o ka nānā ʻana.

No ka mālama pono ʻana i ka ʻikepili pilikino o nā mea hoʻohana Twitter, pono mākou e hoʻopaʻa inoa i nā ʻikepili BigQuery a pau, e hōʻike i ka ʻikepili pilikino, mālama pono i ka waiho ʻana, a holoi (scrape) ʻikepili i holoi ʻia e nā mea hoʻohana.

Nānā mākou iā Google API no ke ao poho poho, ka mea e hoʻohana ana i ka mīkini aʻo e hoʻokaʻawale a hoʻoponopono i ka ʻikepili koʻikoʻi, akā ua hoʻoholo ʻia no ka hoʻopili lima lima ʻana i ka dataset ma muli o ka pololei. Hoʻolālā mākou e hoʻohana i ka Data Loss Prevention API no ka hoʻonui ʻana i ka hōʻike maʻamau.

Ma Twitter, ua hana mākou i ʻehā mau ʻāpana pilikino no nā ʻikepili ma BigQuery, i helu ʻia ma ʻaneʻi ma ke ʻano iho o ka naʻau.

  • Loaʻa ʻia nā pūʻulu ʻikepili koʻikoʻi ma ke kumu e pono ai ma muli o ke kumu o ka pono liʻiliʻi. Loaʻa i kēlā me kēia pūʻulu ʻikepili kahi hui o ka poʻe heluhelu, a e nānā mākou i ka hoʻohana ʻana e nā moʻolelo pākahi.
  • ʻAʻole i loaʻa i nā ʻikepili koʻikoʻi liʻiliʻi (nā inoa pseudonyms hoʻokahi e hoʻohana ana i ka hashing paʻakai) i ʻike pilikino (PII) a hiki ke loaʻa i kahi hui nui o nā limahana. He kaulike maikaʻi kēia ma waena o nā manaʻo pilikino a me ka pono ʻikepili. ʻAe kēia i nā limahana e hana i nā hana loiloi, e like me ka helu ʻana i ka helu o nā mea hoʻohana i hoʻohana i kahi hiʻohiʻona, me ka ʻike ʻole ʻo wai nā mea hoʻohana maoli.
  • ʻO ka ʻikepili haʻahaʻa haʻahaʻa me ka ʻike mea hoʻohana āpau. He ala maikaʻi kēia mai kahi hiʻohiʻona pilikino, akā ʻaʻole hiki ke hoʻohana ʻia no ka nānā ʻana i ka pae hoʻohana.
  • Loaʻa nā waihona helu lehulehu (i hoʻokuʻu ʻia ma waho o Twitter) i nā limahana Twitter āpau.

No ka hoʻopaʻa inoa ʻana, ua hoʻohana mākou i nā hana i hoʻonohonoho ʻia e helu i nā ʻikepili BigQuery a hoʻopaʻa inoa iā lākou me ka Data Access Layer (DAL), Twitter metadata waihona. E hōʻike nā mea hoʻohana i ka ʻikepili me ka ʻike pilikino a kuhikuhi pū i kahi manawa paʻa. No ka hoʻomaʻemaʻe, loiloi mākou i ka hana a me ke kumukūʻai o nā koho ʻelua: 1. Hoʻomaʻemaʻe i nā ʻikepili ma GCS me ka hoʻohana ʻana i nā mea hana e like me Scalding a hoʻouka iā lākou i BigQuery; 2. Ke hoʻohana nei i nā ʻōlelo BigQuery DML. E hoʻohana paha mākou i kahi hui o nā ʻano ʻelua e hoʻokō i nā koi o nā hui like ʻole a me nā ʻikepili.

Hana ʻōnaehana

No ka mea he lawelawe mālama ʻia ʻo BigQuery, ʻaʻohe pono e hoʻokomo i ka hui SRE o Twitter i ka hoʻokele ʻōnaehana a i ʻole nā ​​​​hana pākaukau. Ua maʻalahi ka hāʻawi ʻana i nā mana hou aʻe no ka mālama ʻana a me ka helu ʻana. Hiki iā mākou ke hoʻololi i ka mālama ʻana i ka slot ma ka hana ʻana i kahi tikiki me ke kākoʻo Google. Ua ʻike mākou i nā wahi i hiki ke hoʻomaikaʻi ʻia, e like me ka hoʻokaʻawale ʻana i ka slot lawelawe ponoʻī a me ka hoʻomaikaʻi ʻana i ka dashboard no ka nānā ʻana, a waiho i kēlā mau noi iā Google.

lilo o

Ua hōʻike ʻia kā mākou loiloi mua i nā kumukūʻai nīnau no BigQuery a me Presto i ka pae like. Ua kūʻai mākou i nā slots no paa ke kumu kūʻai e loaʻa kahi kumukūʻai paʻa o kēlā me kēia mahina ma mua o ka uku ma ka noi no TB o ka ʻikepili i hana ʻia. Hoʻokumu pū ʻia kēia hoʻoholo ma luna o nā manaʻo mai nā mea hoʻohana i makemake ʻole e noʻonoʻo e pili ana i nā kumukūʻai ma mua o ka hana ʻana i kēlā me kēia noi.

ʻO ka mālama ʻana i ka ʻikepili ma BigQuery i lawe mai i nā kumukūʻai me nā koina GCS. Pono nā mea hana e like me Scalding i nā ʻikepili ma GCS, a no ke komo ʻana i ka BigQuery pono mākou e hoʻouka i nā ʻikepili like i ka ʻano BigQuery. ʻO ka mea koho. Ke hana nei mākou i kahi pilina Scalding i nā ʻikepili BigQuery e hoʻopau i ka pono e mālama i nā ʻikepili ma GCS a me BigQuery.

No nā hihia kakaʻikahi e koi ana i nā nīnau pinepine ʻole o nā ʻumi petabytes, ua hoʻoholo mākou ʻaʻole maikaʻi ka mālama ʻana i nā ʻikepili ma BigQuery a hoʻohana iā Presto e komo pololei i nā ʻikepili ma GCS. No ka hana ʻana i kēia, ke nānā nei mākou i BigQuery External Data Sources.

Nā ʻanuʻu aʻe

Ua ʻike mākou i ka hoihoi nui iā BigQuery mai ka wā i hoʻokuʻu ʻia ai ka alpha. Ke hoʻohui nei mākou i nā ʻikepili a me nā kauoha hou aku i BigQuery. Hoʻomohala mākou i nā mea hoʻohui no nā mea hana ʻikepili e like me Scalding e heluhelu a kākau i kahi waihona BigQuery. Ke nānā nei mākou i nā mea hana e like me Looker a me Apache Zeppelin no ka hoʻokumu ʻana i nā hōʻike maikaʻi o ka ʻoihana a me nā memo me ka hoʻohana ʻana i nā ʻikepili BigQuery.

ʻO kā mākou hui pū ʻana me Google ua hua nui a hauʻoli mākou e hoʻomau a hoʻomohala i kēia hui. Ua hana pū mākou me Google e hoʻokō i kā mākou iho Hoa Puka Pukae hoʻouna pololei i nā nīnau iā Google. ʻO kekahi o lākou, e like me ka BigQuery Parquet loader, ua hoʻokō ʻia e Google.

Eia kekahi o kā mākou mau noi hiʻona kiʻekiʻe no Google:

  • Nā mea hana no ka loaʻa ʻana o ka ʻikepili maʻalahi a me ke kākoʻo ʻana i ke ʻano LZO-Thrift.
  • Māhele hola
  • Nā hoʻomaikaʻi ʻana i ka mana e like me ka ʻae papaʻaina, lālani, a me ka pae kolamu.
  • ʻO BigQuery Nā PunaʻIke Kūwaho me ka hoʻohui ʻana a me ke kākoʻo ʻana o Hive Metastore no ka LZO-Thrift format.
  • Ua hoʻomaikaʻi ʻia ka hoʻohui ʻana i ka waihona ʻikepili i ka mea hoʻohana BigQuery
  • ʻO ka lawelawe ponoʻī no ka hoʻokaʻawale ʻana a me ka nānā ʻana.

hopena

ʻO ka demokalaka ʻikepili ʻikepili, ʻike maka, a me ke aʻo ʻana i ka mīkini ma kahi ala palekana he mea nui ia no ka hui Data Platform. Ua ʻike mākou ʻo Google BigQuery a me Data Studio he mau mea hana e hiki ke kōkua i ka hoʻokō ʻana i kēia pahuhopu, a ua hoʻokuʻu ʻia ʻo BigQuery Alpha ʻoihana holoʻokoʻa i ka makahiki i hala.

Ua maʻalahi a maikaʻi nā nīnau ma BigQuery. Ua hoʻohana mākou i nā mea hana Google e hoʻokomo a hoʻololi i ka ʻikepili no nā pipeline maʻalahi, akā no nā pipeline paʻakikī, pono mākou e kūkulu i kā mākou Airflow framework. Ma ke kikowaena hoʻokele ʻikepili, hoʻokō nā lawelawe a BigQuery no ka hōʻoia ʻana, ka ʻae ʻana, a me ka loiloi i kā mākou pono. No ka mālama ʻana i ka metadata a mālama i ka pilikino, pono mākou i ka maʻalahi a pono mākou e kūkulu i kā mākou ʻōnaehana ponoʻī. ʻO BigQuery, he lawelawe mālama ʻia, maʻalahi ka hoʻohana. Ua like nā kumukūʻai nīnau me nā mea hana i loaʻa. ʻO ka mālama ʻana i ka ʻikepili ma BigQuery e loaʻa nā kumukūʻai me nā koina GCS.

Ma ke ʻano holoʻokoʻa, hana maikaʻi ʻo BigQuery no ka loiloi SQL maʻamau. Ke ʻike nei mākou i ka hoihoi nui iā BigQuery, a ke hana nei mākou e neʻe i nā pūʻulu ʻikepili hou aʻe, e lawe mai i nā hui hou aʻe, a kūkulu i nā paipu hou aku me BigQuery. Hoʻohana ʻo Twitter i nā ʻikepili like ʻole e pono ai ka hui pū ʻana o nā mea hana e like me Scalding, Spark, Presto, a me Druid. Manaʻo mākou e hoʻomau i ka hoʻoikaika ʻana i kā mākou mau mea hana ʻikepili a hāʻawi i ke alakaʻi maopopo i kā mākou mea hoʻohana i ka hoʻohana maikaʻi ʻana i kā mākou mau makana.

ʻŌlelo mahalo

Makemake au e hoʻomaikaʻi i koʻu mau hoa kākau a me koʻu mau hoa hui, ʻo Anju Jha lāua ʻo Will Pascucci, no kā lākou hana nui ʻana a me kā lākou hana nui ma kēia papahana. Makemake au e hoʻomaikaʻi aku i nā ʻenekinia a me nā luna hoʻokele mai kekahi mau hui ma Twitter a me Google i kōkua iā mākou a me nā mea hoʻohana BigQuery ma Twitter nāna i hāʻawi i nā manaʻo koʻikoʻi.

Inā makemake ʻoe e hana i kēia mau pilikia, e nānā i kā mākou hakahaka i loko o ka hui Pūnaehana ʻIkepili.

ʻIkepili ʻIke ma DWH - Kūʻai Kūʻai ʻIkepili

Source: www.habr.com

Pākuʻi i ka manaʻo hoʻopuka