ప్రోహోస్టర్ > బ్లాగ్ > పరిపాలన > Google యొక్క BigQuery డేటా విశ్లేషణను ఎలా ప్రజాస్వామ్యీకరించింది. 2 వ భాగము
Google యొక్క BigQuery డేటా విశ్లేషణను ఎలా ప్రజాస్వామ్యీకరించింది. 2 వ భాగము
హే హబ్ర్! కొత్త కోర్సు స్ట్రీమ్ కోసం నమోదు ప్రస్తుతం OTUSలో తెరవబడింది డేటా ఇంజనీర్. కోర్సు ప్రారంభానికి ఎదురుచూస్తూ, మేము మీతో ఉపయోగకరమైన విషయాలను పంచుకోవడం కొనసాగిస్తాము.
బలమైన డేటా గవర్నెన్స్ అనేది Twitter ఇంజనీరింగ్ యొక్క ప్రధాన సిద్ధాంతం. మేము మా ప్లాట్ఫారమ్లో BigQueryని అమలు చేస్తున్నప్పుడు, మేము డేటా ఆవిష్కరణ, యాక్సెస్ నియంత్రణ, భద్రత మరియు గోప్యతపై దృష్టి పెడతాము.
డేటాను కనుగొనడానికి మరియు నిర్వహించడానికి, మేము మా డేటా యాక్సెస్ లేయర్ని విస్తరించాము DAL) ఆన్-ప్రాంగణంలో మరియు Google క్లౌడ్ డేటా రెండింటికీ సాధనాలను అందించడానికి, మా వినియోగదారుల కోసం ఒకే ఇంటర్ఫేస్ మరియు APIని అందించడం. Google వలె డేటా కేటలాగ్ సాధారణ లభ్యత వైపు కదులుతోంది, కాలమ్ శోధన వంటి లక్షణాలను వినియోగదారులకు అందించడానికి మేము దీన్ని మా ప్రాజెక్ట్లలో చేర్చుతాము.
BigQuery డేటాను భాగస్వామ్యం చేయడం మరియు యాక్సెస్ చేయడం సులభం చేస్తుంది, అయితే డేటా ఎక్స్ఫిల్ట్రేషన్ను నిరోధించడానికి మేము దీనిపై కొంత నియంత్రణను కలిగి ఉండాలి. ఇతర సాధనాలలో, మేము రెండు విధులను ఎంచుకున్నాము:
డొమైన్ పరిమితం చేయబడిన భాగస్వామ్యం: Twitter వెలుపలి వినియోగదారులతో BigQuery డేటాసెట్లను షేర్ చేయకుండా వినియోగదారులను నిరోధించే బీటా ఫీచర్.
VPC సేవా నియంత్రణలు: డేటా ఎక్స్ఫిల్ట్రేషన్ను నిరోధించే నియంత్రణ మరియు తెలిసిన IP చిరునామా పరిధుల నుండి వినియోగదారులు BigQueryని యాక్సెస్ చేయడం అవసరం.
మేము భద్రత కోసం ప్రమాణీకరణ, అధికారం మరియు ఆడిటింగ్ (AAA) అవసరాలను క్రింది విధంగా అమలు చేసాము:
ప్రామాణీకరణ: మేము తాత్కాలిక అభ్యర్థనల కోసం GCP వినియోగదారు ఖాతాలను మరియు ఉత్పత్తి అభ్యర్థనల కోసం సేవా ఖాతాలను ఉపయోగించాము.
ఆథరైజేషన్: ప్రతి డేటాసెట్కి ఓనర్ సర్వీస్ ఖాతా మరియు రీడర్ గ్రూప్ ఉండాలి.
ఆడిటింగ్: మేము సులభ విశ్లేషణ కోసం వివరణాత్మక ప్రశ్న అమలు సమాచారాన్ని కలిగి ఉన్న BigQuery స్టాక్డ్రైవర్ లాగ్లను BigQuery డేటాసెట్లోకి ఎగుమతి చేసాము.
Twitter వినియోగదారుల వ్యక్తిగత డేటా సరిగ్గా నిర్వహించబడుతుందని నిర్ధారించుకోవడానికి, మేము తప్పనిసరిగా అన్ని BigQuery డేటాసెట్లను నమోదు చేయాలి, వ్యక్తిగత డేటాను ఉల్లేఖించాలి, సరైన నిల్వను నిర్వహించాలి మరియు వినియోగదారులు తొలగించిన (స్క్రాప్) డేటాను తొలగించాలి.
మేము గూగుల్ చూసాము క్లౌడ్ డేటా లాస్ ప్రివెన్షన్ API, ఇది సున్నితమైన డేటాను వర్గీకరించడానికి మరియు సవరించడానికి మెషిన్ లెర్నింగ్ను ఉపయోగిస్తుంది, అయితే ఖచ్చితత్వం కారణంగా డేటాసెట్ను మాన్యువల్గా ఉల్లేఖించడానికి అనుకూలంగా నిర్ణయించుకుంది. కస్టమ్ ఉల్లేఖనాన్ని పెంచడానికి మేము డేటా లాస్ ప్రివెన్షన్ APIని ఉపయోగించాలని ప్లాన్ చేస్తున్నాము.
Twitterలో, మేము BigQueryలో డేటాసెట్ల కోసం నాలుగు గోప్యతా వర్గాలను సృష్టించాము, ఇక్కడ సున్నితత్వం యొక్క అవరోహణ క్రమంలో జాబితా చేయబడింది:
అత్యంత సున్నితమైన డేటా సెట్లు కనీస హక్కు సూత్రం ఆధారంగా అవసరమైన ప్రాతిపదికన అందుబాటులో ఉంచబడతాయి. ప్రతి డేటా సెట్కు ప్రత్యేక పాఠకుల సమూహం ఉంటుంది మరియు మేము వ్యక్తిగత ఖాతాల ద్వారా వినియోగాన్ని ట్రాక్ చేస్తాము.
మీడియం సెన్సిటివిటీ డేటాసెట్లు (సాల్టెడ్ హ్యాషింగ్ని ఉపయోగించే వన్-వే మారుపేర్లు) వ్యక్తిగతంగా గుర్తించదగిన సమాచారాన్ని (PII) కలిగి ఉండవు మరియు పెద్ద సమూహ ఉద్యోగులకు అందుబాటులో ఉంటాయి. ఇది గోప్యతా ఆందోళనలు మరియు డేటా యుటిలిటీ మధ్య మంచి బ్యాలెన్స్. దీని వలన ఉద్యోగులు నిజమైన యూజర్లు ఎవరో తెలియకుండానే ఫీచర్ని ఉపయోగించిన వినియోగదారుల సంఖ్యను లెక్కించడం వంటి విశ్లేషణ పనులను చేయవచ్చు.
మొత్తం వినియోగదారుని గుర్తించే సమాచారంతో తక్కువ సున్నితత్వ డేటాసెట్లు. ఇది గోప్యతా దృక్కోణం నుండి మంచి విధానం, కానీ వినియోగదారు-స్థాయి విశ్లేషణ కోసం ఉపయోగించబడదు.
పబ్లిక్ డేటాసెట్లు (Twitter వెలుపల విడుదల చేయబడ్డాయి) Twitter ఉద్యోగులందరికీ అందుబాటులో ఉంటాయి.
లాగింగ్ విషయానికొస్తే, మేము BigQuery డేటాసెట్లను లెక్కించడానికి మరియు వాటిని డేటా యాక్సెస్ లేయర్తో నమోదు చేయడానికి షెడ్యూల్ చేసిన టాస్క్లను ఉపయోగించాము (DAL), ట్విట్టర్ మెటాడేటా రిపోజిటరీ. వినియోగదారులు గోప్యతా సమాచారంతో డేటాసెట్లను ఉల్లేఖిస్తారు మరియు నిలుపుదల వ్యవధిని కూడా పేర్కొంటారు. శుభ్రపరచడం కొరకు, మేము రెండు ఎంపికల పనితీరు మరియు ధరను అంచనా వేస్తాము: 1. Scalding వంటి సాధనాలను ఉపయోగించి GCSలో డేటాసెట్లను శుభ్రపరచడం మరియు వాటిని BigQueryలోకి లోడ్ చేయడం; 2. BigQuery DML స్టేట్మెంట్లను ఉపయోగించడం. వేర్వేరు సమూహాలు మరియు డేటా అవసరాలను తీర్చడానికి మేము రెండు పద్ధతుల కలయికను ఉపయోగిస్తాము.
సిస్టమ్ కార్యాచరణ
BigQuery నిర్వహించబడే సేవ అయినందున, సిస్టమ్స్ మేనేజ్మెంట్ లేదా డెస్క్ విధుల్లో Twitter యొక్క SRE బృందాన్ని పాల్గొనాల్సిన అవసరం లేదు. నిల్వ మరియు కంప్యూటింగ్ రెండింటికీ మరింత సామర్థ్యాన్ని అందించడం సులభం. మేము Google మద్దతుతో టిక్కెట్ని సృష్టించడం ద్వారా స్లాట్ రిజర్వేషన్ని మార్చవచ్చు. స్వీయ-సేవ స్లాట్ కేటాయింపు మరియు పర్యవేక్షణ కోసం డాష్బోర్డ్ మెరుగుదలలు వంటి మెరుగుపరచగల ప్రాంతాలను మేము గుర్తించాము మరియు ఆ అభ్యర్థనలను Googleకి సమర్పించాము.
ఖర్చు
BigQuery మరియు Presto కోసం క్వెరీ ఖర్చులు ఒకే స్థాయిలో ఉన్నాయని మా ప్రాథమిక విశ్లేషణలో తేలింది. మేము స్లాట్లను కొనుగోలు చేసాము స్థిర ధర చెల్లింపుకు బదులుగా స్థిరమైన నెలవారీ ఖర్చు ఉంటుంది కోరిక మేరకు ప్రతి TB ప్రాసెస్ చేయబడిన డేటా. ఈ నిర్ణయం ప్రతి అభ్యర్థన చేయడానికి ముందు ఖర్చుల గురించి ఆలోచించకూడదనుకునే వినియోగదారుల నుండి వచ్చిన ఫీడ్బ్యాక్ ఆధారంగా కూడా తీసుకోబడింది.
BigQueryలో డేటాను నిల్వ చేయడం వలన GCS ఖర్చులకు అదనంగా ఖర్చులు వచ్చాయి. Scalding వంటి సాధనాలకు GCSలో డేటాసెట్లు అవసరం మరియు BigQueryని యాక్సెస్ చేయడానికి మేము అదే డేటాసెట్లను BigQuery ఫార్మాట్లోకి లోడ్ చేయాల్సి ఉంటుంది కెపాసిటర్. మేము GCS మరియు BigQuery రెండింటిలోనూ డేటాసెట్లను నిల్వ చేయవలసిన అవసరాన్ని తొలగించే BigQuery డేటాసెట్లకు స్కాల్డింగ్ కనెక్షన్పై పని చేస్తున్నాము.
పదుల సంఖ్యలో పెటాబైట్ల యొక్క అరుదైన ప్రశ్నలు అవసరమయ్యే అరుదైన సందర్భాల్లో, మేము BigQueryలో డేటాసెట్లను నిల్వ చేయడం ఖర్చుతో కూడుకున్నది కాదని నిర్ణయించుకున్నాము మరియు GCSలోని డేటాసెట్లను నేరుగా యాక్సెస్ చేయడానికి Prestoని ఉపయోగించాము. దీన్ని చేయడానికి, మేము BigQuery బాహ్య డేటా సోర్సెస్ని చూస్తున్నాము.
తదుపరి దశలు
ఆల్ఫా విడుదలైనప్పటి నుండి మేము బిగ్ క్వెరీపై చాలా ఆసక్తిని చూశాము. మేము BigQueryకి మరిన్ని డేటాసెట్లు మరియు మరిన్ని ఆదేశాలను జోడిస్తున్నాము. మేము BigQuery నిల్వను చదవడానికి మరియు వ్రాయడానికి Scalding వంటి డేటా అనలిటిక్స్ సాధనాల కోసం కనెక్టర్లను అభివృద్ధి చేస్తాము. BigQuery డేటాసెట్లను ఉపయోగించి ఎంటర్ప్రైజ్ నాణ్యత నివేదికలు మరియు గమనికలను సృష్టించడం కోసం మేము Looker మరియు Apache Zeppelin వంటి సాధనాలను చూస్తున్నాము.
Googleతో మా సహకారం చాలా ఉత్పాదకంగా ఉంది మరియు ఈ భాగస్వామ్యాన్ని కొనసాగించడానికి మరియు అభివృద్ధి చేయడానికి మేము సంతోషిస్తున్నాము. మేము మా స్వంతంగా అమలు చేయడానికి Googleతో కలిసి పనిచేశాము భాగస్వామి ఇష్యూ ట్రాకర్ప్రశ్నలను నేరుగా Googleకి పంపడానికి. BigQuery Parquet loader వంటి వాటిలో కొన్ని ఇప్పటికే Google ద్వారా అమలు చేయబడ్డాయి.
Google కోసం మా అధిక ప్రాధాన్యత కలిగిన కొన్ని ఫీచర్ అభ్యర్థనలు ఇక్కడ ఉన్నాయి:
సౌకర్యవంతమైన డేటా స్వీకరణ మరియు LZO-పొదుపు ఆకృతికి మద్దతు కోసం సాధనాలు.
గంటకు విభజన
పట్టిక-, వరుస- మరియు నిలువు-స్థాయి అనుమతులు వంటి నియంత్రణ మెరుగుదలలను యాక్సెస్ చేయండి.
BigQuery బాహ్య డేటా మూలాలు హైవ్ మెటాస్టోర్ ఇంటిగ్రేషన్ మరియు LZO-పొదుపు ఆకృతికి మద్దతుతో.
BigQuery వినియోగదారు ఇంటర్ఫేస్లో మెరుగైన డేటా కేటలాగ్ ఇంటిగ్రేషన్
స్లాట్ కేటాయింపు మరియు పర్యవేక్షణ కోసం స్వీయ-సేవ.
తీర్మానం
డేటా అనలిటిక్స్, విజువలైజేషన్ మరియు మెషీన్ లెర్నింగ్ను సురక్షితమైన మార్గంలో ప్రజాస్వామ్యీకరించడం అనేది డేటా ప్లాట్ఫారమ్ బృందానికి అత్యంత ప్రాధాన్యత. మేము ఈ లక్ష్యాన్ని సాధించడంలో సహాయపడే సాధనాలుగా Google BigQuery మరియు Data Studioని గుర్తించాము మరియు గత సంవత్సరం BigQuery Alpha కంపెనీవ్యాప్తంగా విడుదల చేసాము.
మేము BigQueryలో ప్రశ్నలను సరళంగా మరియు సమర్థవంతంగా కనుగొన్నాము. మేము సాధారణ పైప్లైన్ల కోసం డేటాను ఇంజెక్ట్ చేయడానికి మరియు మార్చడానికి Google సాధనాలను ఉపయోగించాము, కానీ సంక్లిష్టమైన పైప్లైన్ల కోసం మేము మా స్వంత ఎయిర్ఫ్లో ఫ్రేమ్వర్క్ను రూపొందించాలి. డేటా మేనేజ్మెంట్ స్పేస్లో, ప్రామాణీకరణ, అధికారం మరియు ఆడిటింగ్ కోసం BigQuery సేవలు మా అవసరాలను తీరుస్తాయి. మెటాడేటాను నిర్వహించడానికి మరియు గోప్యతను నిర్వహించడానికి, మాకు మరింత సౌలభ్యం అవసరం మరియు మా స్వంత సిస్టమ్లను నిర్మించాల్సి వచ్చింది. BigQuery, నిర్వహించబడే సేవ అయినందున, ఉపయోగించడం సులభం. ప్రశ్న ఖర్చులు ఇప్పటికే ఉన్న సాధనాల మాదిరిగానే ఉన్నాయి. BigQueryలో డేటాను నిల్వ చేయడం వలన GCS ఖర్చులతో పాటు ఖర్చులు కూడా ఉంటాయి.
మొత్తంమీద, సాధారణ SQL విశ్లేషణ కోసం BigQuery బాగా పనిచేస్తుంది. మేము BigQueryలో చాలా ఆసక్తిని చూస్తున్నాము మరియు మరిన్ని డేటా సెట్లను తరలించడానికి, మరిన్ని బృందాలను తీసుకురావడానికి మరియు BigQueryతో మరిన్ని పైప్లైన్లను రూపొందించడానికి మేము కృషి చేస్తున్నాము. Twitter స్కాల్డింగ్, స్పార్క్, ప్రెస్టో మరియు డ్రూయిడ్ వంటి సాధనాల కలయిక అవసరమయ్యే అనేక రకాల డేటాను ఉపయోగిస్తుంది. మా డేటా అనలిటిక్స్ సాధనాలను బలోపేతం చేయడం మరియు మా ఆఫర్లను ఎలా ఉత్తమంగా ఉపయోగించాలనే దానిపై మా వినియోగదారులకు స్పష్టమైన మార్గదర్శకత్వం అందించడం కొనసాగించాలని మేము భావిస్తున్నాము.
కృతజ్ఞతా పదాలు
ఈ ప్రాజెక్ట్లో గొప్ప సహకారం అందించినందుకు మరియు కృషి చేసినందుకు నా సహ రచయితలు మరియు సహచరులు అంజు ఝా మరియు విల్ పాస్కుకీకి నేను ధన్యవాదాలు తెలియజేస్తున్నాను. మాకు సహాయం చేసిన Twitter మరియు Googleలోని అనేక బృందాలకు చెందిన ఇంజనీర్లు మరియు మేనేజర్లకు మరియు విలువైన అభిప్రాయాన్ని అందించిన Twitterలోని BigQuery వినియోగదారులకు కూడా నేను ధన్యవాదాలు చెప్పాలనుకుంటున్నాను.
మీరు ఈ సమస్యలపై పని చేయడానికి ఆసక్తి కలిగి ఉంటే, మా తనిఖీ చేయండి ఖాళీలు డేటా ప్లాట్ఫారమ్ బృందంలో.