Pehea ko Google BigQuery i hoʻokaʻawale ai i ka ʻikepili ʻikepili. Mahele 2
Aloha, Habr! Wehe ʻia ke kākau inoa no kahi kahawai papa hou i kēia manawa ma OTUS ʻEnekinia ʻIkepili. I ka kali ʻana i ka hoʻomaka ʻana o ka papa, hoʻomau mākou i ka hāʻawi ʻana i nā mea pono me ʻoe.
ʻO Strong Data Governance kahi kumu nui o Twitter Engineering. Ke hoʻokō nei mākou i ka BigQuery i loko o kā mākou paepae, ʻike mākou i ka ʻike ʻikepili, ka mana ʻae, palekana a me ka pilikino.
No ka ʻike a mālama ʻana i ka ʻikepili, ua hoʻonui mākou i kā mākou Data Access Layer i DAL) e hoʻolako i nā mea hana no ka ʻikepili ma ka hale a me ka ʻikepili Google Cloud, e hāʻawi ana i hoʻokahi interface a me API no kā mākou mea hoʻohana. E like me Google Palapala ʻIkepili ke neʻe nei i ka loaʻa maʻamau, e hoʻokomo mākou i loko o kā mākou papahana e hāʻawi i nā mea hoʻohana me nā hiʻohiʻona e like me ka huli kolamu.
He mea maʻalahi ka BigQuery i ka kaʻana like ʻana a me ke komo ʻana i ka ʻikepili, akā pono mākou e loaʻa kekahi mana ma luna o kēia e pale aku i ka exfiltration ʻikepili. Ma waena o nā mea hana ʻē aʻe, ua koho mākou i ʻelua mau hana:
Kaʻana kaʻana i kaupalena ʻia: ʻO ka hiʻohiʻona Beta no ka pale ʻana i nā mea hoʻohana mai ka kaʻana like ʻana i nā ʻikepili BigQuery me nā mea hoʻohana ma waho o Twitter.
Nā mana lawelawe VPC: He mana e pale ana i ka exfiltration ʻikepili a koi aku i nā mea hoʻohana e komo i ka BigQuery mai nā pae helu IP i ʻike ʻia.
Ua hoʻokō mākou i nā koi hōʻoia, ʻae, a me ka loiloi (AAA) no ka palekana e like me kēia:
Hōʻoia: Ua hoʻohana mākou i nā moʻokāki mea hoʻohana GCP no nā noi ad hoc a me nā moʻokāki lawelawe no nā noi hana.
Manaʻo: Ua koi mākou i kēlā me kēia ʻikepili i loaʻa kahi moʻokāki lawelawe a me kahi pūʻulu heluhelu.
Ka hoʻokolo ʻana: Ua lawe aku mākou i nā moʻolelo hoʻopaʻa ʻo BigQuery stackdriver, i loaʻa ka ʻike kikoʻī o ka hoʻokō ʻana i nā nīnau, i loko o kahi waihona BigQuery no ka maʻalahi o ka nānā ʻana.
No ka mālama pono ʻana i ka ʻikepili pilikino o nā mea hoʻohana Twitter, pono mākou e hoʻopaʻa inoa i nā ʻikepili BigQuery a pau, e hōʻike i ka ʻikepili pilikino, mālama pono i ka waiho ʻana, a holoi (scrape) ʻikepili i holoi ʻia e nā mea hoʻohana.
Nānā mākou iā Google API no ke ao poho poho, ka mea e hoʻohana ana i ka mīkini aʻo e hoʻokaʻawale a hoʻoponopono i ka ʻikepili koʻikoʻi, akā ua hoʻoholo ʻia no ka hoʻopili lima lima ʻana i ka dataset ma muli o ka pololei. Hoʻolālā mākou e hoʻohana i ka Data Loss Prevention API no ka hoʻonui ʻana i ka hōʻike maʻamau.
Ma Twitter, ua hana mākou i ʻehā mau ʻāpana pilikino no nā ʻikepili ma BigQuery, i helu ʻia ma ʻaneʻi ma ke ʻano iho o ka naʻau.
Loaʻa ʻia nā pūʻulu ʻikepili koʻikoʻi ma ke kumu e pono ai ma muli o ke kumu o ka pono liʻiliʻi. Loaʻa i kēlā me kēia pūʻulu ʻikepili kahi hui o ka poʻe heluhelu, a e nānā mākou i ka hoʻohana ʻana e nā moʻolelo pākahi.
ʻAʻole i loaʻa i nā ʻikepili koʻikoʻi liʻiliʻi (nā inoa pseudonyms hoʻokahi e hoʻohana ana i ka hashing paʻakai) i ʻike pilikino (PII) a hiki ke loaʻa i kahi hui nui o nā limahana. He kaulike maikaʻi kēia ma waena o nā manaʻo pilikino a me ka pono ʻikepili. ʻAe kēia i nā limahana e hana i nā hana loiloi, e like me ka helu ʻana i ka helu o nā mea hoʻohana i hoʻohana i kahi hiʻohiʻona, me ka ʻike ʻole ʻo wai nā mea hoʻohana maoli.
ʻO ka ʻikepili haʻahaʻa haʻahaʻa me ka ʻike mea hoʻohana āpau. He ala maikaʻi kēia mai kahi hiʻohiʻona pilikino, akā ʻaʻole hiki ke hoʻohana ʻia no ka nānā ʻana i ka pae hoʻohana.
Loaʻa nā waihona helu lehulehu (i hoʻokuʻu ʻia ma waho o Twitter) i nā limahana Twitter āpau.
No ka hoʻopaʻa inoa ʻana, ua hoʻohana mākou i nā hana i hoʻonohonoho ʻia e helu i nā ʻikepili BigQuery a hoʻopaʻa inoa iā lākou me ka Data Access Layer (DAL), Twitter metadata waihona. E hōʻike nā mea hoʻohana i ka ʻikepili me ka ʻike pilikino a kuhikuhi pū i kahi manawa paʻa. No ka hoʻomaʻemaʻe, loiloi mākou i ka hana a me ke kumukūʻai o nā koho ʻelua: 1. Hoʻomaʻemaʻe i nā ʻikepili ma GCS me ka hoʻohana ʻana i nā mea hana e like me Scalding a hoʻouka iā lākou i BigQuery; 2. Ke hoʻohana nei i nā ʻōlelo BigQuery DML. E hoʻohana paha mākou i kahi hui o nā ʻano ʻelua e hoʻokō i nā koi o nā hui like ʻole a me nā ʻikepili.
Hana ʻōnaehana
No ka mea he lawelawe mālama ʻia ʻo BigQuery, ʻaʻohe pono e hoʻokomo i ka hui SRE o Twitter i ka hoʻokele ʻōnaehana a i ʻole nā hana pākaukau. Ua maʻalahi ka hāʻawi ʻana i nā mana hou aʻe no ka mālama ʻana a me ka helu ʻana. Hiki iā mākou ke hoʻololi i ka mālama ʻana i ka slot ma ka hana ʻana i kahi tikiki me ke kākoʻo Google. Ua ʻike mākou i nā wahi i hiki ke hoʻomaikaʻi ʻia, e like me ka hoʻokaʻawale ʻana i ka slot lawelawe ponoʻī a me ka hoʻomaikaʻi ʻana i ka dashboard no ka nānā ʻana, a waiho i kēlā mau noi iā Google.
lilo o
Ua hōʻike ʻia kā mākou loiloi mua i nā kumukūʻai nīnau no BigQuery a me Presto i ka pae like. Ua kūʻai mākou i nā slots no paa ke kumu kūʻai e loaʻa kahi kumukūʻai paʻa o kēlā me kēia mahina ma mua o ka uku ma ka noi no TB o ka ʻikepili i hana ʻia. Hoʻokumu pū ʻia kēia hoʻoholo ma luna o nā manaʻo mai nā mea hoʻohana i makemake ʻole e noʻonoʻo e pili ana i nā kumukūʻai ma mua o ka hana ʻana i kēlā me kēia noi.
ʻO ka mālama ʻana i ka ʻikepili ma BigQuery i lawe mai i nā kumukūʻai me nā koina GCS. Pono nā mea hana e like me Scalding i nā ʻikepili ma GCS, a no ke komo ʻana i ka BigQuery pono mākou e hoʻouka i nā ʻikepili like i ka ʻano BigQuery. ʻO ka mea koho. Ke hana nei mākou i kahi pilina Scalding i nā ʻikepili BigQuery e hoʻopau i ka pono e mālama i nā ʻikepili ma GCS a me BigQuery.
No nā hihia kakaʻikahi e koi ana i nā nīnau pinepine ʻole o nā ʻumi petabytes, ua hoʻoholo mākou ʻaʻole maikaʻi ka mālama ʻana i nā ʻikepili ma BigQuery a hoʻohana iā Presto e komo pololei i nā ʻikepili ma GCS. No ka hana ʻana i kēia, ke nānā nei mākou i BigQuery External Data Sources.
Nā ʻanuʻu aʻe
Ua ʻike mākou i ka hoihoi nui iā BigQuery mai ka wā i hoʻokuʻu ʻia ai ka alpha. Ke hoʻohui nei mākou i nā ʻikepili a me nā kauoha hou aku i BigQuery. Hoʻomohala mākou i nā mea hoʻohui no nā mea hana ʻikepili e like me Scalding e heluhelu a kākau i kahi waihona BigQuery. Ke nānā nei mākou i nā mea hana e like me Looker a me Apache Zeppelin no ka hoʻokumu ʻana i nā hōʻike maikaʻi o ka ʻoihana a me nā memo me ka hoʻohana ʻana i nā ʻikepili BigQuery.
ʻO kā mākou hui pū ʻana me Google ua hua nui a hauʻoli mākou e hoʻomau a hoʻomohala i kēia hui. Ua hana pū mākou me Google e hoʻokō i kā mākou iho Hoa Puka Pukae hoʻouna pololei i nā nīnau iā Google. ʻO kekahi o lākou, e like me ka BigQuery Parquet loader, ua hoʻokō ʻia e Google.
Eia kekahi o kā mākou mau noi hiʻona kiʻekiʻe no Google:
Nā mea hana no ka loaʻa ʻana o ka ʻikepili maʻalahi a me ke kākoʻo ʻana i ke ʻano LZO-Thrift.
Māhele hola
Nā hoʻomaikaʻi ʻana i ka mana e like me ka ʻae papaʻaina, lālani, a me ka pae kolamu.
ʻO BigQuery Nā PunaʻIke Kūwaho me ka hoʻohui ʻana a me ke kākoʻo ʻana o Hive Metastore no ka LZO-Thrift format.
Ua hoʻomaikaʻi ʻia ka hoʻohui ʻana i ka waihona ʻikepili i ka mea hoʻohana BigQuery
ʻO ka lawelawe ponoʻī no ka hoʻokaʻawale ʻana a me ka nānā ʻana.
hopena
ʻO ka demokalaka ʻikepili ʻikepili, ʻike maka, a me ke aʻo ʻana i ka mīkini ma kahi ala palekana he mea nui ia no ka hui Data Platform. Ua ʻike mākou ʻo Google BigQuery a me Data Studio he mau mea hana e hiki ke kōkua i ka hoʻokō ʻana i kēia pahuhopu, a ua hoʻokuʻu ʻia ʻo BigQuery Alpha ʻoihana holoʻokoʻa i ka makahiki i hala.
Ua maʻalahi a maikaʻi nā nīnau ma BigQuery. Ua hoʻohana mākou i nā mea hana Google e hoʻokomo a hoʻololi i ka ʻikepili no nā pipeline maʻalahi, akā no nā pipeline paʻakikī, pono mākou e kūkulu i kā mākou Airflow framework. Ma ke kikowaena hoʻokele ʻikepili, hoʻokō nā lawelawe a BigQuery no ka hōʻoia ʻana, ka ʻae ʻana, a me ka loiloi i kā mākou pono. No ka mālama ʻana i ka metadata a mālama i ka pilikino, pono mākou i ka maʻalahi a pono mākou e kūkulu i kā mākou ʻōnaehana ponoʻī. ʻO BigQuery, he lawelawe mālama ʻia, maʻalahi ka hoʻohana. Ua like nā kumukūʻai nīnau me nā mea hana i loaʻa. ʻO ka mālama ʻana i ka ʻikepili ma BigQuery e loaʻa nā kumukūʻai me nā koina GCS.
Ma ke ʻano holoʻokoʻa, hana maikaʻi ʻo BigQuery no ka loiloi SQL maʻamau. Ke ʻike nei mākou i ka hoihoi nui iā BigQuery, a ke hana nei mākou e neʻe i nā pūʻulu ʻikepili hou aʻe, e lawe mai i nā hui hou aʻe, a kūkulu i nā paipu hou aku me BigQuery. Hoʻohana ʻo Twitter i nā ʻikepili like ʻole e pono ai ka hui pū ʻana o nā mea hana e like me Scalding, Spark, Presto, a me Druid. Manaʻo mākou e hoʻomau i ka hoʻoikaika ʻana i kā mākou mau mea hana ʻikepili a hāʻawi i ke alakaʻi maopopo i kā mākou mea hoʻohana i ka hoʻohana maikaʻi ʻana i kā mākou mau makana.
ʻŌlelo mahalo
Makemake au e hoʻomaikaʻi i koʻu mau hoa kākau a me koʻu mau hoa hui, ʻo Anju Jha lāua ʻo Will Pascucci, no kā lākou hana nui ʻana a me kā lākou hana nui ma kēia papahana. Makemake au e hoʻomaikaʻi aku i nā ʻenekinia a me nā luna hoʻokele mai kekahi mau hui ma Twitter a me Google i kōkua iā mākou a me nā mea hoʻohana BigQuery ma Twitter nāna i hāʻawi i nā manaʻo koʻikoʻi.
Inā makemake ʻoe e hana i kēia mau pilikia, e nānā i kā mākou hakahaka i loko o ka hui Pūnaehana ʻIkepili.