Google యొక్క BigQuery డేటా విశ్లేషణను ఎలా ప్రజాస్వామ్యీకరించింది. 2 వ భాగము

హే హబ్ర్! కొత్త కోర్సు స్ట్రీమ్ కోసం నమోదు ప్రస్తుతం OTUSలో తెరవబడింది డేటా ఇంజనీర్. కోర్సు ప్రారంభానికి ఎదురుచూస్తూ, మేము మీతో ఉపయోగకరమైన విషయాలను పంచుకోవడం కొనసాగిస్తాము.

మొదటి భాగం చదవండి

Google యొక్క BigQuery డేటా విశ్లేషణను ఎలా ప్రజాస్వామ్యీకరించింది. 2 వ భాగము

సమాచార నిర్వహణ

బలమైన డేటా గవర్నెన్స్ అనేది Twitter ఇంజనీరింగ్ యొక్క ప్రధాన సిద్ధాంతం. మేము మా ప్లాట్‌ఫారమ్‌లో BigQueryని అమలు చేస్తున్నప్పుడు, మేము డేటా ఆవిష్కరణ, యాక్సెస్ నియంత్రణ, భద్రత మరియు గోప్యతపై దృష్టి పెడతాము.

డేటాను కనుగొనడానికి మరియు నిర్వహించడానికి, మేము మా డేటా యాక్సెస్ లేయర్‌ని విస్తరించాము DAL) ఆన్-ప్రాంగణంలో మరియు Google క్లౌడ్ డేటా రెండింటికీ సాధనాలను అందించడానికి, మా వినియోగదారుల కోసం ఒకే ఇంటర్‌ఫేస్ మరియు APIని అందించడం. Google వలె డేటా కేటలాగ్ సాధారణ లభ్యత వైపు కదులుతోంది, కాలమ్ శోధన వంటి లక్షణాలను వినియోగదారులకు అందించడానికి మేము దీన్ని మా ప్రాజెక్ట్‌లలో చేర్చుతాము.

BigQuery డేటాను భాగస్వామ్యం చేయడం మరియు యాక్సెస్ చేయడం సులభం చేస్తుంది, అయితే డేటా ఎక్స్‌ఫిల్ట్రేషన్‌ను నిరోధించడానికి మేము దీనిపై కొంత నియంత్రణను కలిగి ఉండాలి. ఇతర సాధనాలలో, మేము రెండు విధులను ఎంచుకున్నాము:

  • డొమైన్ పరిమితం చేయబడిన భాగస్వామ్యం: Twitter వెలుపలి వినియోగదారులతో BigQuery డేటాసెట్‌లను షేర్ చేయకుండా వినియోగదారులను నిరోధించే బీటా ఫీచర్.
  • VPC సేవా నియంత్రణలు: డేటా ఎక్స్‌ఫిల్ట్రేషన్‌ను నిరోధించే నియంత్రణ మరియు తెలిసిన IP చిరునామా పరిధుల నుండి వినియోగదారులు BigQueryని యాక్సెస్ చేయడం అవసరం.

మేము భద్రత కోసం ప్రమాణీకరణ, అధికారం మరియు ఆడిటింగ్ (AAA) అవసరాలను క్రింది విధంగా అమలు చేసాము:

  • ప్రామాణీకరణ: మేము తాత్కాలిక అభ్యర్థనల కోసం GCP వినియోగదారు ఖాతాలను మరియు ఉత్పత్తి అభ్యర్థనల కోసం సేవా ఖాతాలను ఉపయోగించాము.
  • ఆథరైజేషన్: ప్రతి డేటాసెట్‌కి ఓనర్ సర్వీస్ ఖాతా మరియు రీడర్ గ్రూప్ ఉండాలి.
  • ఆడిటింగ్: మేము సులభ విశ్లేషణ కోసం వివరణాత్మక ప్రశ్న అమలు సమాచారాన్ని కలిగి ఉన్న BigQuery స్టాక్‌డ్రైవర్ లాగ్‌లను BigQuery డేటాసెట్‌లోకి ఎగుమతి చేసాము.

Twitter వినియోగదారుల వ్యక్తిగత డేటా సరిగ్గా నిర్వహించబడుతుందని నిర్ధారించుకోవడానికి, మేము తప్పనిసరిగా అన్ని BigQuery డేటాసెట్‌లను నమోదు చేయాలి, వ్యక్తిగత డేటాను ఉల్లేఖించాలి, సరైన నిల్వను నిర్వహించాలి మరియు వినియోగదారులు తొలగించిన (స్క్రాప్) డేటాను తొలగించాలి.

మేము గూగుల్ చూసాము క్లౌడ్ డేటా లాస్ ప్రివెన్షన్ API, ఇది సున్నితమైన డేటాను వర్గీకరించడానికి మరియు సవరించడానికి మెషిన్ లెర్నింగ్‌ను ఉపయోగిస్తుంది, అయితే ఖచ్చితత్వం కారణంగా డేటాసెట్‌ను మాన్యువల్‌గా ఉల్లేఖించడానికి అనుకూలంగా నిర్ణయించుకుంది. కస్టమ్ ఉల్లేఖనాన్ని పెంచడానికి మేము డేటా లాస్ ప్రివెన్షన్ APIని ఉపయోగించాలని ప్లాన్ చేస్తున్నాము.

Twitterలో, మేము BigQueryలో డేటాసెట్‌ల కోసం నాలుగు గోప్యతా వర్గాలను సృష్టించాము, ఇక్కడ సున్నితత్వం యొక్క అవరోహణ క్రమంలో జాబితా చేయబడింది:

  • అత్యంత సున్నితమైన డేటా సెట్‌లు కనీస హక్కు సూత్రం ఆధారంగా అవసరమైన ప్రాతిపదికన అందుబాటులో ఉంచబడతాయి. ప్రతి డేటా సెట్‌కు ప్రత్యేక పాఠకుల సమూహం ఉంటుంది మరియు మేము వ్యక్తిగత ఖాతాల ద్వారా వినియోగాన్ని ట్రాక్ చేస్తాము.
  • మీడియం సెన్సిటివిటీ డేటాసెట్‌లు (సాల్టెడ్ హ్యాషింగ్‌ని ఉపయోగించే వన్-వే మారుపేర్లు) వ్యక్తిగతంగా గుర్తించదగిన సమాచారాన్ని (PII) కలిగి ఉండవు మరియు పెద్ద సమూహ ఉద్యోగులకు అందుబాటులో ఉంటాయి. ఇది గోప్యతా ఆందోళనలు మరియు డేటా యుటిలిటీ మధ్య మంచి బ్యాలెన్స్. దీని వలన ఉద్యోగులు నిజమైన యూజర్లు ఎవరో తెలియకుండానే ఫీచర్‌ని ఉపయోగించిన వినియోగదారుల సంఖ్యను లెక్కించడం వంటి విశ్లేషణ పనులను చేయవచ్చు.
  • మొత్తం వినియోగదారుని గుర్తించే సమాచారంతో తక్కువ సున్నితత్వ డేటాసెట్‌లు. ఇది గోప్యతా దృక్కోణం నుండి మంచి విధానం, కానీ వినియోగదారు-స్థాయి విశ్లేషణ కోసం ఉపయోగించబడదు.
  • పబ్లిక్ డేటాసెట్‌లు (Twitter వెలుపల విడుదల చేయబడ్డాయి) Twitter ఉద్యోగులందరికీ అందుబాటులో ఉంటాయి.

లాగింగ్ విషయానికొస్తే, మేము BigQuery డేటాసెట్‌లను లెక్కించడానికి మరియు వాటిని డేటా యాక్సెస్ లేయర్‌తో నమోదు చేయడానికి షెడ్యూల్ చేసిన టాస్క్‌లను ఉపయోగించాము (DAL), ట్విట్టర్ మెటాడేటా రిపోజిటరీ. వినియోగదారులు గోప్యతా సమాచారంతో డేటాసెట్‌లను ఉల్లేఖిస్తారు మరియు నిలుపుదల వ్యవధిని కూడా పేర్కొంటారు. శుభ్రపరచడం కొరకు, మేము రెండు ఎంపికల పనితీరు మరియు ధరను అంచనా వేస్తాము: 1. Scalding వంటి సాధనాలను ఉపయోగించి GCSలో డేటాసెట్‌లను శుభ్రపరచడం మరియు వాటిని BigQueryలోకి లోడ్ చేయడం; 2. BigQuery DML స్టేట్‌మెంట్‌లను ఉపయోగించడం. వేర్వేరు సమూహాలు మరియు డేటా అవసరాలను తీర్చడానికి మేము రెండు పద్ధతుల కలయికను ఉపయోగిస్తాము.

సిస్టమ్ కార్యాచరణ

BigQuery నిర్వహించబడే సేవ అయినందున, సిస్టమ్స్ మేనేజ్‌మెంట్ లేదా డెస్క్ విధుల్లో Twitter యొక్క SRE బృందాన్ని పాల్గొనాల్సిన అవసరం లేదు. నిల్వ మరియు కంప్యూటింగ్ రెండింటికీ మరింత సామర్థ్యాన్ని అందించడం సులభం. మేము Google మద్దతుతో టిక్కెట్‌ని సృష్టించడం ద్వారా స్లాట్ రిజర్వేషన్‌ని మార్చవచ్చు. స్వీయ-సేవ స్లాట్ కేటాయింపు మరియు పర్యవేక్షణ కోసం డాష్‌బోర్డ్ మెరుగుదలలు వంటి మెరుగుపరచగల ప్రాంతాలను మేము గుర్తించాము మరియు ఆ అభ్యర్థనలను Googleకి సమర్పించాము.

ఖర్చు

BigQuery మరియు Presto కోసం క్వెరీ ఖర్చులు ఒకే స్థాయిలో ఉన్నాయని మా ప్రాథమిక విశ్లేషణలో తేలింది. మేము స్లాట్‌లను కొనుగోలు చేసాము స్థిర ధర చెల్లింపుకు బదులుగా స్థిరమైన నెలవారీ ఖర్చు ఉంటుంది కోరిక మేరకు ప్రతి TB ప్రాసెస్ చేయబడిన డేటా. ఈ నిర్ణయం ప్రతి అభ్యర్థన చేయడానికి ముందు ఖర్చుల గురించి ఆలోచించకూడదనుకునే వినియోగదారుల నుండి వచ్చిన ఫీడ్‌బ్యాక్ ఆధారంగా కూడా తీసుకోబడింది.

BigQueryలో డేటాను నిల్వ చేయడం వలన GCS ఖర్చులకు అదనంగా ఖర్చులు వచ్చాయి. Scalding వంటి సాధనాలకు GCSలో డేటాసెట్‌లు అవసరం మరియు BigQueryని యాక్సెస్ చేయడానికి మేము అదే డేటాసెట్‌లను BigQuery ఫార్మాట్‌లోకి లోడ్ చేయాల్సి ఉంటుంది కెపాసిటర్. మేము GCS మరియు BigQuery రెండింటిలోనూ డేటాసెట్‌లను నిల్వ చేయవలసిన అవసరాన్ని తొలగించే BigQuery డేటాసెట్‌లకు స్కాల్డింగ్ కనెక్షన్‌పై పని చేస్తున్నాము.

పదుల సంఖ్యలో పెటాబైట్‌ల యొక్క అరుదైన ప్రశ్నలు అవసరమయ్యే అరుదైన సందర్భాల్లో, మేము BigQueryలో డేటాసెట్‌లను నిల్వ చేయడం ఖర్చుతో కూడుకున్నది కాదని నిర్ణయించుకున్నాము మరియు GCSలోని డేటాసెట్‌లను నేరుగా యాక్సెస్ చేయడానికి Prestoని ఉపయోగించాము. దీన్ని చేయడానికి, మేము BigQuery బాహ్య డేటా సోర్సెస్‌ని చూస్తున్నాము.

తదుపరి దశలు

ఆల్ఫా విడుదలైనప్పటి నుండి మేము బిగ్ క్వెరీపై చాలా ఆసక్తిని చూశాము. మేము BigQueryకి మరిన్ని డేటాసెట్‌లు మరియు మరిన్ని ఆదేశాలను జోడిస్తున్నాము. మేము BigQuery నిల్వను చదవడానికి మరియు వ్రాయడానికి Scalding వంటి డేటా అనలిటిక్స్ సాధనాల కోసం కనెక్టర్‌లను అభివృద్ధి చేస్తాము. BigQuery డేటాసెట్‌లను ఉపయోగించి ఎంటర్‌ప్రైజ్ నాణ్యత నివేదికలు మరియు గమనికలను సృష్టించడం కోసం మేము Looker మరియు Apache Zeppelin వంటి సాధనాలను చూస్తున్నాము.

Googleతో మా సహకారం చాలా ఉత్పాదకంగా ఉంది మరియు ఈ భాగస్వామ్యాన్ని కొనసాగించడానికి మరియు అభివృద్ధి చేయడానికి మేము సంతోషిస్తున్నాము. మేము మా స్వంతంగా అమలు చేయడానికి Googleతో కలిసి పనిచేశాము భాగస్వామి ఇష్యూ ట్రాకర్ప్రశ్నలను నేరుగా Googleకి పంపడానికి. BigQuery Parquet loader వంటి వాటిలో కొన్ని ఇప్పటికే Google ద్వారా అమలు చేయబడ్డాయి.

Google కోసం మా అధిక ప్రాధాన్యత కలిగిన కొన్ని ఫీచర్ అభ్యర్థనలు ఇక్కడ ఉన్నాయి:

  • సౌకర్యవంతమైన డేటా స్వీకరణ మరియు LZO-పొదుపు ఆకృతికి మద్దతు కోసం సాధనాలు.
  • గంటకు విభజన
  • పట్టిక-, వరుస- మరియు నిలువు-స్థాయి అనుమతులు వంటి నియంత్రణ మెరుగుదలలను యాక్సెస్ చేయండి.
  • BigQuery బాహ్య డేటా మూలాలు హైవ్ మెటాస్టోర్ ఇంటిగ్రేషన్ మరియు LZO-పొదుపు ఆకృతికి మద్దతుతో.
  • BigQuery వినియోగదారు ఇంటర్‌ఫేస్‌లో మెరుగైన డేటా కేటలాగ్ ఇంటిగ్రేషన్
  • స్లాట్ కేటాయింపు మరియు పర్యవేక్షణ కోసం స్వీయ-సేవ.

తీర్మానం

డేటా అనలిటిక్స్, విజువలైజేషన్ మరియు మెషీన్ లెర్నింగ్‌ను సురక్షితమైన మార్గంలో ప్రజాస్వామ్యీకరించడం అనేది డేటా ప్లాట్‌ఫారమ్ బృందానికి అత్యంత ప్రాధాన్యత. మేము ఈ లక్ష్యాన్ని సాధించడంలో సహాయపడే సాధనాలుగా Google BigQuery మరియు Data Studioని గుర్తించాము మరియు గత సంవత్సరం BigQuery Alpha కంపెనీవ్యాప్తంగా విడుదల చేసాము.

మేము BigQueryలో ప్రశ్నలను సరళంగా మరియు సమర్థవంతంగా కనుగొన్నాము. మేము సాధారణ పైప్‌లైన్‌ల కోసం డేటాను ఇంజెక్ట్ చేయడానికి మరియు మార్చడానికి Google సాధనాలను ఉపయోగించాము, కానీ సంక్లిష్టమైన పైప్‌లైన్‌ల కోసం మేము మా స్వంత ఎయిర్‌ఫ్లో ఫ్రేమ్‌వర్క్‌ను రూపొందించాలి. డేటా మేనేజ్‌మెంట్ స్పేస్‌లో, ప్రామాణీకరణ, అధికారం మరియు ఆడిటింగ్ కోసం BigQuery సేవలు మా అవసరాలను తీరుస్తాయి. మెటాడేటాను నిర్వహించడానికి మరియు గోప్యతను నిర్వహించడానికి, మాకు మరింత సౌలభ్యం అవసరం మరియు మా స్వంత సిస్టమ్‌లను నిర్మించాల్సి వచ్చింది. BigQuery, నిర్వహించబడే సేవ అయినందున, ఉపయోగించడం సులభం. ప్రశ్న ఖర్చులు ఇప్పటికే ఉన్న సాధనాల మాదిరిగానే ఉన్నాయి. BigQueryలో డేటాను నిల్వ చేయడం వలన GCS ఖర్చులతో పాటు ఖర్చులు కూడా ఉంటాయి.

మొత్తంమీద, సాధారణ SQL విశ్లేషణ కోసం BigQuery బాగా పనిచేస్తుంది. మేము BigQueryలో చాలా ఆసక్తిని చూస్తున్నాము మరియు మరిన్ని డేటా సెట్‌లను తరలించడానికి, మరిన్ని బృందాలను తీసుకురావడానికి మరియు BigQueryతో మరిన్ని పైప్‌లైన్‌లను రూపొందించడానికి మేము కృషి చేస్తున్నాము. Twitter స్కాల్డింగ్, స్పార్క్, ప్రెస్టో మరియు డ్రూయిడ్ వంటి సాధనాల కలయిక అవసరమయ్యే అనేక రకాల డేటాను ఉపయోగిస్తుంది. మా డేటా అనలిటిక్స్ సాధనాలను బలోపేతం చేయడం మరియు మా ఆఫర్‌లను ఎలా ఉత్తమంగా ఉపయోగించాలనే దానిపై మా వినియోగదారులకు స్పష్టమైన మార్గదర్శకత్వం అందించడం కొనసాగించాలని మేము భావిస్తున్నాము.

కృతజ్ఞతా పదాలు

ఈ ప్రాజెక్ట్‌లో గొప్ప సహకారం అందించినందుకు మరియు కృషి చేసినందుకు నా సహ రచయితలు మరియు సహచరులు అంజు ఝా మరియు విల్ పాస్‌కుకీకి నేను ధన్యవాదాలు తెలియజేస్తున్నాను. మాకు సహాయం చేసిన Twitter మరియు Googleలోని అనేక బృందాలకు చెందిన ఇంజనీర్లు మరియు మేనేజర్‌లకు మరియు విలువైన అభిప్రాయాన్ని అందించిన Twitterలోని BigQuery వినియోగదారులకు కూడా నేను ధన్యవాదాలు చెప్పాలనుకుంటున్నాను.

మీరు ఈ సమస్యలపై పని చేయడానికి ఆసక్తి కలిగి ఉంటే, మా తనిఖీ చేయండి ఖాళీలు డేటా ప్లాట్‌ఫారమ్ బృందంలో.

DWHలో డేటా నాణ్యత - డేటా వేర్‌హౌస్ స్థిరత్వం

మూలం: www.habr.com

ఒక వ్యాఖ్యను జోడించండి