Aloha, Habr! Wehe ʻia ke kākau inoa no kahi kahawai papa hou i kēia manawa ma OTUS . I ka kali ʻana i ka hoʻomaka ʻana o ka papa, hoʻomau mākou i ka hāʻawi ʻana i nā mea pono me ʻoe.

Hooponopono ikepili
ʻO Strong Data Governance kahi kumu nui o Twitter Engineering. Ke hoʻokō nei mākou i ka BigQuery i loko o kā mākou paepae, ʻike mākou i ka ʻike ʻikepili, ka mana ʻae, palekana a me ka pilikino.
No ka ʻike a mālama ʻana i ka ʻikepili, ua hoʻonui mākou i kā mākou Data Access Layer i ) e hoʻolako i nā mea hana no ka ʻikepili ma ka hale a me ka ʻikepili Google Cloud, e hāʻawi ana i hoʻokahi interface a me API no kā mākou mea hoʻohana. E like me Google ke neʻe nei i ka loaʻa maʻamau, e hoʻokomo mākou i loko o kā mākou papahana e hāʻawi i nā mea hoʻohana me nā hiʻohiʻona e like me ka huli kolamu.
He mea maʻalahi ka BigQuery i ka kaʻana like ʻana a me ke komo ʻana i ka ʻikepili, akā pono mākou e loaʻa kekahi mana ma luna o kēia e pale aku i ka exfiltration ʻikepili. Ma waena o nā mea hana ʻē aʻe, ua koho mākou i ʻelua mau hana:
- : ʻO ka hiʻohiʻona Beta no ka pale ʻana i nā mea hoʻohana mai ka kaʻana like ʻana i nā ʻikepili BigQuery me nā mea hoʻohana ma waho o Twitter.
- : He mana e pale ana i ka exfiltration ʻikepili a koi aku i nā mea hoʻohana e komo i ka BigQuery mai nā pae helu IP i ʻike ʻia.
Ua hoʻokō mākou i nā koi hōʻoia, ʻae, a me ka loiloi (AAA) no ka palekana e like me kēia:
- Hōʻoia: Ua hoʻohana mākou i nā moʻokāki mea hoʻohana GCP no nā noi ad hoc a me nā moʻokāki lawelawe no nā noi hana.
- Manaʻo: Ua koi mākou i kēlā me kēia ʻikepili i loaʻa kahi moʻokāki lawelawe a me kahi pūʻulu heluhelu.
- Ka hoʻokolo ʻana: Ua lawe aku mākou i nā moʻolelo hoʻopaʻa ʻo BigQuery stackdriver, i loaʻa ka ʻike kikoʻī o ka hoʻokō ʻana i nā nīnau, i loko o kahi waihona BigQuery no ka maʻalahi o ka nānā ʻana.
No ka mālama pono ʻana i ka ʻikepili pilikino o nā mea hoʻohana Twitter, pono mākou e hoʻopaʻa inoa i nā ʻikepili BigQuery a pau, e hōʻike i ka ʻikepili pilikino, mālama pono i ka waiho ʻana, a holoi (scrape) ʻikepili i holoi ʻia e nā mea hoʻohana.
Nānā mākou iā Google , ka mea e hoʻohana ana i ka mīkini aʻo e hoʻokaʻawale a hoʻoponopono i ka ʻikepili koʻikoʻi, akā ua hoʻoholo ʻia no ka hoʻopili lima lima ʻana i ka dataset ma muli o ka pololei. Hoʻolālā mākou e hoʻohana i ka Data Loss Prevention API no ka hoʻonui ʻana i ka hōʻike maʻamau.
Ma Twitter, ua hana mākou i ʻehā mau ʻāpana pilikino no nā ʻikepili ma BigQuery, i helu ʻia ma ʻaneʻi ma ke ʻano iho o ka naʻau.
- Loaʻa ʻia nā pūʻulu ʻikepili koʻikoʻi ma ke kumu e pono ai ma muli o ke kumu o ka pono liʻiliʻi. Loaʻa i kēlā me kēia pūʻulu ʻikepili kahi hui o ka poʻe heluhelu, a e nānā mākou i ka hoʻohana ʻana e nā moʻolelo pākahi.
- ʻAʻole i loaʻa i nā ʻikepili koʻikoʻi liʻiliʻi (nā inoa pseudonyms hoʻokahi e hoʻohana ana i ka hashing paʻakai) i ʻike pilikino (PII) a hiki ke loaʻa i kahi hui nui o nā limahana. He kaulike maikaʻi kēia ma waena o nā manaʻo pilikino a me ka pono ʻikepili. ʻAe kēia i nā limahana e hana i nā hana loiloi, e like me ka helu ʻana i ka helu o nā mea hoʻohana i hoʻohana i kahi hiʻohiʻona, me ka ʻike ʻole ʻo wai nā mea hoʻohana maoli.
- ʻO ka ʻikepili haʻahaʻa haʻahaʻa me ka ʻike mea hoʻohana āpau. He ala maikaʻi kēia mai kahi hiʻohiʻona pilikino, akā ʻaʻole hiki ke hoʻohana ʻia no ka nānā ʻana i ka pae hoʻohana.
- Loaʻa nā waihona helu lehulehu (i hoʻokuʻu ʻia ma waho o Twitter) i nā limahana Twitter āpau.
No ka hoʻopaʻa inoa ʻana, ua hoʻohana mākou i nā hana i hoʻonohonoho ʻia e helu i nā ʻikepili BigQuery a hoʻopaʻa inoa iā lākou me ka Data Access Layer (), Twitter metadata waihona. E hōʻike nā mea hoʻohana i ka ʻikepili me ka ʻike pilikino a kuhikuhi pū i kahi manawa paʻa. No ka hoʻomaʻemaʻe, loiloi mākou i ka hana a me ke kumukūʻai o nā koho ʻelua: 1. Hoʻomaʻemaʻe i nā ʻikepili ma GCS me ka hoʻohana ʻana i nā mea hana e like me Scalding a hoʻouka iā lākou i BigQuery; 2. Ke hoʻohana nei i nā ʻōlelo BigQuery DML. E hoʻohana paha mākou i kahi hui o nā ʻano ʻelua e hoʻokō i nā koi o nā hui like ʻole a me nā ʻikepili.
Hana ʻōnaehana
No ka mea he lawelawe mālama ʻia ʻo BigQuery, ʻaʻohe pono e hoʻokomo i ka hui SRE o Twitter i ka hoʻokele ʻōnaehana a i ʻole nā hana pākaukau. Ua maʻalahi ka hāʻawi ʻana i nā mana hou aʻe no ka mālama ʻana a me ka helu ʻana. Hiki iā mākou ke hoʻololi i ka mālama ʻana i ka slot ma ka hana ʻana i kahi tikiki me ke kākoʻo Google. Ua ʻike mākou i nā wahi i hiki ke hoʻomaikaʻi ʻia, e like me ka hoʻokaʻawale ʻana i ka slot lawelawe ponoʻī a me ka hoʻomaikaʻi ʻana i ka dashboard no ka nānā ʻana, a waiho i kēlā mau noi iā Google.
lilo o
Ua hōʻike ʻia kā mākou loiloi mua i nā kumukūʻai nīnau no BigQuery a me Presto i ka pae like. Ua kūʻai mākou i nā slots no ke kumu kūʻai e loaʻa kahi kumukūʻai paʻa o kēlā me kēia mahina ma mua o ka uku no TB o ka ʻikepili i hana ʻia. Hoʻokumu pū ʻia kēia hoʻoholo ma luna o nā manaʻo mai nā mea hoʻohana i makemake ʻole e noʻonoʻo e pili ana i nā kumukūʻai ma mua o ka hana ʻana i kēlā me kēia noi.
ʻO ka mālama ʻana i ka ʻikepili ma BigQuery i lawe mai i nā kumukūʻai me nā koina GCS. Pono nā mea hana e like me Scalding i nā ʻikepili ma GCS, a no ke komo ʻana i ka BigQuery pono mākou e hoʻouka i nā ʻikepili like i ka ʻano BigQuery. . Ke hana nei mākou i kahi pilina Scalding i nā ʻikepili BigQuery e hoʻopau i ka pono e mālama i nā ʻikepili ma GCS a me BigQuery.
No nā hihia kakaʻikahi e koi ana i nā nīnau pinepine ʻole o nā ʻumi petabytes, ua hoʻoholo mākou ʻaʻole maikaʻi ka mālama ʻana i nā ʻikepili ma BigQuery a hoʻohana iā Presto e komo pololei i nā ʻikepili ma GCS. No ka hana ʻana i kēia, ke nānā nei mākou i BigQuery External Data Sources.
Nā ʻanuʻu aʻe
Ua ʻike mākou i ka hoihoi nui iā BigQuery mai ka wā i hoʻokuʻu ʻia ai ka alpha. Ke hoʻohui nei mākou i nā ʻikepili a me nā kauoha hou aku i BigQuery. Hoʻomohala mākou i nā mea hoʻohui no nā mea hana ʻikepili e like me Scalding e heluhelu a kākau i kahi waihona BigQuery. Ke nānā nei mākou i nā mea hana e like me Looker a me Apache Zeppelin no ka hoʻokumu ʻana i nā hōʻike maikaʻi o ka ʻoihana a me nā memo me ka hoʻohana ʻana i nā ʻikepili BigQuery.
ʻO kā mākou hui pū ʻana me Google ua hua nui a hauʻoli mākou e hoʻomau a hoʻomohala i kēia hui. Ua hana pū mākou me Google e hoʻokō i kā mākou iho e hoʻouna pololei i nā nīnau iā Google. ʻO kekahi o lākou, e like me ka BigQuery Parquet loader, ua hoʻokō ʻia e Google.
Eia kekahi o kā mākou mau noi hiʻona kiʻekiʻe no Google:
- Nā mea hana no ka loaʻa ʻana o ka ʻikepili maʻalahi a me ke kākoʻo ʻana i ke ʻano LZO-Thrift.
- Māhele hola
- Nā hoʻomaikaʻi ʻana i ka mana e like me ka ʻae papaʻaina, lālani, a me ka pae kolamu.
- ʻO BigQuery me ka hoʻohui ʻana a me ke kākoʻo ʻana o Hive Metastore no ka LZO-Thrift format.
- Ua hoʻomaikaʻi ʻia ka hoʻohui ʻana i ka waihona ʻikepili i ka mea hoʻohana BigQuery
- ʻO ka lawelawe ponoʻī no ka hoʻokaʻawale ʻana a me ka nānā ʻana.
hopena
ʻO ka demokalaka ʻikepili ʻikepili, ʻike maka, a me ke aʻo ʻana i ka mīkini ma kahi ala palekana he mea nui ia no ka hui Data Platform. Ua ʻike mākou ʻo Google BigQuery a me Data Studio he mau mea hana e hiki ke kōkua i ka hoʻokō ʻana i kēia pahuhopu, a ua hoʻokuʻu ʻia ʻo BigQuery Alpha ʻoihana holoʻokoʻa i ka makahiki i hala.
Ua maʻalahi a maikaʻi nā nīnau ma BigQuery. Ua hoʻohana mākou i nā mea hana Google e hoʻokomo a hoʻololi i ka ʻikepili no nā pipeline maʻalahi, akā no nā pipeline paʻakikī, pono mākou e kūkulu i kā mākou Airflow framework. Ma ke kikowaena hoʻokele ʻikepili, hoʻokō nā lawelawe a BigQuery no ka hōʻoia ʻana, ka ʻae ʻana, a me ka loiloi i kā mākou pono. No ka mālama ʻana i ka metadata a mālama i ka pilikino, pono mākou i ka maʻalahi a pono mākou e kūkulu i kā mākou ʻōnaehana ponoʻī. ʻO BigQuery, he lawelawe mālama ʻia, maʻalahi ka hoʻohana. Ua like nā kumukūʻai nīnau me nā mea hana i loaʻa. ʻO ka mālama ʻana i ka ʻikepili ma BigQuery e loaʻa nā kumukūʻai me nā koina GCS.
Ma ke ʻano holoʻokoʻa, hana maikaʻi ʻo BigQuery no ka loiloi SQL maʻamau. Ke ʻike nei mākou i ka hoihoi nui iā BigQuery, a ke hana nei mākou e neʻe i nā pūʻulu ʻikepili hou aʻe, e lawe mai i nā hui hou aʻe, a kūkulu i nā paipu hou aku me BigQuery. Hoʻohana ʻo Twitter i nā ʻikepili like ʻole e pono ai ka hui pū ʻana o nā mea hana e like me Scalding, Spark, Presto, a me Druid. Manaʻo mākou e hoʻomau i ka hoʻoikaika ʻana i kā mākou mau mea hana ʻikepili a hāʻawi i ke alakaʻi maopopo i kā mākou mea hoʻohana i ka hoʻohana maikaʻi ʻana i kā mākou mau makana.
ʻŌlelo mahalo
Makemake au e hoʻomaikaʻi i koʻu mau hoa kākau a me koʻu mau hoa hui, ʻo Anju Jha lāua ʻo Will Pascucci, no kā lākou hana nui ʻana a me kā lākou hana nui ma kēia papahana. Makemake au e hoʻomaikaʻi aku i nā ʻenekinia a me nā luna hoʻokele mai kekahi mau hui ma Twitter a me Google i kōkua iā mākou a me nā mea hoʻohana BigQuery ma Twitter nāna i hāʻawi i nā manaʻo koʻikoʻi.
Inā makemake ʻoe e hana i kēia mau pilikia, e nānā i kā mākou i loko o ka hui Pūnaehana ʻIkepili.
Source: www.habr.com
