Google యొక్క BigQuery డేటా విశ్లేషణను ఎలా ప్రజాస్వామ్యీకరించింది. 1 వ భాగము

హే హబ్ర్! కొత్త కోర్సు స్ట్రీమ్ కోసం నమోదు ప్రస్తుతం OTUSలో తెరవబడింది డేటా ఇంజనీర్. కోర్సు ప్రారంభాన్ని ఊహించి, మేము మీ కోసం సాంప్రదాయకంగా ఆసక్తికరమైన అంశాల అనువాదాన్ని సిద్ధం చేసాము.

ప్రతిరోజు, వంద మిలియన్ల మంది ప్రజలు ప్రపంచంలో ఏమి జరుగుతుందో తెలుసుకోవడానికి మరియు దాని గురించి చర్చించడానికి ట్విట్టర్‌ని సందర్శిస్తారు. ప్రతి ట్వీట్ మరియు ఏదైనా ఇతర వినియోగదారు చర్య Twitterలో అంతర్గత డేటా విశ్లేషణ కోసం అందుబాటులో ఉండే ఈవెంట్‌ను రూపొందిస్తుంది. వందలాది మంది ఉద్యోగులు ఈ డేటాను విశ్లేషిస్తారు మరియు దృశ్యమానం చేస్తారు మరియు వారి అనుభవాన్ని మెరుగుపరచడం Twitter డేటా ప్లాట్‌ఫారమ్ బృందానికి అత్యంత ప్రాధాన్యత.

విస్తృత శ్రేణి సాంకేతిక నైపుణ్యాలు కలిగిన వినియోగదారులు డేటాను కనుగొనగలరని మరియు బాగా పనిచేసే SQL-ఆధారిత విశ్లేషణ మరియు విజువలైజేషన్ సాధనాలకు ప్రాప్యత కలిగి ఉంటారని మేము విశ్వసిస్తున్నాము. ఇది డేటా విశ్లేషకులు మరియు ఉత్పత్తి నిర్వాహకులతో సహా తక్కువ సాంకేతిక వినియోగదారుల యొక్క సరికొత్త సమూహాన్ని డేటా నుండి అంతర్దృష్టులను సేకరించేందుకు అనుమతిస్తుంది, తద్వారా వారు Twitter యొక్క శక్తిని బాగా అర్థం చేసుకోవడానికి మరియు ఉపయోగించుకోవడానికి వీలు కల్పిస్తుంది. మేము ట్విట్టర్‌లో డేటా విశ్లేషణను ఈ విధంగా ప్రజాస్వామ్యం చేస్తాము.

అంతర్గత డేటా విశ్లేషణ కోసం మా సాధనాలు మరియు సామర్థ్యాలు మెరుగుపడినందున, మేము Twitter సేవ యొక్క మెరుగుదలను చూశాము. అయితే, ఇంకా మెరుగుదల కోసం స్థలం ఉంది. స్కాల్డింగ్ వంటి ప్రస్తుత సాధనాలకు ప్రోగ్రామింగ్ అనుభవం అవసరం. ప్రెస్టో మరియు వెర్టికా వంటి SQL-ఆధారిత విశ్లేషణ సాధనాలు పెద్ద స్థాయిలో పనితీరు సమస్యలను కలిగి ఉన్నాయి. డేటాకు స్థిరమైన ప్రాప్యత లేకుండా బహుళ సిస్టమ్‌లలో డేటాను పంపిణీ చేయడంలో కూడా మాకు సమస్య ఉంది.

గతేడాది ప్రకటించాం Googleతో కొత్త సహకారం, దీనిలో మేము మా భాగాలను బదిలీ చేస్తాము డేటా మౌలిక సదుపాయాలు Google క్లౌడ్ ప్లాట్‌ఫారమ్ (GCP)లో మేము Google క్లౌడ్ సాధనాలు అని నిర్ధారించాము బిగ్ డేటా Twitterలో విశ్లేషణ, విజువలైజేషన్ మరియు మెషీన్ లెర్నింగ్‌ను ప్రజాస్వామ్యీకరించడానికి మా చొరవలో మాకు సహాయం చేస్తుంది:

  • BigQuery: SQL ఇంజిన్ ఆధారిత ఎంటర్‌ప్రైజ్ డేటా వేర్‌హౌస్ Dremel, ఇది దాని వేగం, సరళత మరియు copes కోసం ప్రసిద్ధి చెందింది యంత్ర అభ్యాస.
  • డేటా స్టూడియో: Google డాక్స్ వంటి సహకార లక్షణాలతో పెద్ద డేటా విజువలైజేషన్ సాధనం.

ఈ కథనంలో, మీరు ఈ సాధనాలతో మా అనుభవం గురించి నేర్చుకుంటారు: మేము ఏమి చేసాము, మేము ఏమి నేర్చుకున్నాము మరియు మేము ఏమి చేస్తాము. మేము ఇప్పుడు బ్యాచ్ మరియు ఇంటరాక్టివ్ అనలిటిక్స్‌పై దృష్టి పెడతాము. నిజ-సమయ విశ్లేషణలు తదుపరి కథనంలో చర్చించబడతాయి.

ట్విట్టర్‌లో డేటా వేర్‌హౌస్‌ల చరిత్ర

BigQueryలోకి ప్రవేశించే ముందు, Twitterలో డేటా వేర్‌హౌస్‌ల చరిత్రను క్లుప్తంగా చెప్పడం విలువ. 2011లో, ట్విట్టర్ డేటా విశ్లేషణ వెర్టికా మరియు హడూప్‌లలో నిర్వహించబడింది. MapReduce Hadoop ఉద్యోగాలను సృష్టించడానికి, మేము Pigని ఉపయోగించాము. 2012లో, మేము పిగ్‌ని స్కాల్డింగ్‌తో భర్తీ చేసాము, ఇది సంక్లిష్టమైన పైప్‌లైన్‌లను సృష్టించగల సామర్థ్యం మరియు పరీక్ష సౌలభ్యం వంటి ప్రయోజనాలతో కూడిన Scala APIని కలిగి ఉంది. అయినప్పటికీ, SQLతో మరింత సౌకర్యవంతంగా పని చేసే అనేక డేటా విశ్లేషకులు మరియు ఉత్పత్తి నిర్వాహకులకు, ఇది చాలా నిటారుగా నేర్చుకునే వక్రత. 2016లో, మేము హడూప్ డేటా కోసం ప్రెస్టోను మా SQL ఫ్రంట్ ఎండ్‌గా ఉపయోగించడం ప్రారంభించాము. స్పార్క్ పైథాన్ ఇంటర్‌ఫేస్‌ను అందించింది, ఇది తాత్కాలిక డేటా సైన్స్ మరియు మెషిన్ లెర్నింగ్‌కు మంచి ఎంపికగా చేస్తుంది.

2018 నుండి, మేము డేటా విశ్లేషణ మరియు విజువలైజేషన్ కోసం క్రింది సాధనాలను ఉపయోగించాము:

  • ఉత్పత్తి లైన్ల కోసం స్కాల్డింగ్
  • తాత్కాలిక డేటా అనలిటిక్స్ మరియు మెషిన్ లెర్నింగ్ కోసం స్కాల్డింగ్ మరియు స్పార్క్
  • తాత్కాలిక మరియు ఇంటరాక్టివ్ SQL విశ్లేషణ కోసం వెర్టికా మరియు ప్రెస్టో
  • సమయ శ్రేణి కొలమానాలకు తక్కువ ఇంటరాక్టివ్, అన్వేషణ మరియు తక్కువ జాప్యం యాక్సెస్ కోసం డ్రూయిడ్
  • డేటా విజువలైజేషన్ కోసం పట్టిక, జెప్పెలిన్ మరియు పివోట్

ఈ సాధనాలు చాలా శక్తివంతమైన ఫీచర్‌లను అందిస్తున్నప్పటికీ, Twitterలో ఎక్కువ మంది ప్రేక్షకులకు ఈ ఫీచర్‌లను అందుబాటులో ఉంచడంలో మాకు ఇబ్బంది ఉందని మేము కనుగొన్నాము. Google క్లౌడ్‌తో మా ప్లాట్‌ఫారమ్‌ను విస్తరించడం ద్వారా, మేము Twitter మొత్తం కోసం మా విశ్లేషణ సాధనాలను సరళీకృతం చేయడంపై దృష్టి పెడుతున్నాము.

Google యొక్క BigQuery డేటా వేర్‌హౌస్

Twitterలోని అనేక బృందాలు ఇప్పటికే తమ ఉత్పత్తి పైప్‌లైన్‌లలో కొన్నింటిలో BigQueryని చేర్చాయి. వారి అనుభవాన్ని ఉపయోగించి, మేము అన్ని Twitter వినియోగ సందర్భాలలో BigQuery యొక్క అవకాశాలను విశ్లేషించడం ప్రారంభించాము. మా లక్ష్యం మొత్తం కంపెనీకి BigQueryని అందించడం మరియు డేటా ప్లాట్‌ఫారమ్ టూల్‌కిట్‌లో దానిని ప్రామాణీకరించడం మరియు మద్దతు ఇవ్వడం. అనేక కారణాల వల్ల ఇది కష్టమైంది. పెద్ద మొత్తంలో డేటాను విశ్వసనీయంగా స్వీకరించడానికి, కంపెనీ-వ్యాప్త డేటా నిర్వహణకు మద్దతు ఇవ్వడానికి, సరైన యాక్సెస్ నియంత్రణలను నిర్ధారించడానికి మరియు కస్టమర్ గోప్యతను నిర్ధారించడానికి మేము మౌలిక సదుపాయాలను అభివృద్ధి చేయాల్సిన అవసరం ఉంది. మేము వనరుల కేటాయింపు, పర్యవేక్షణ మరియు ఛార్జ్‌బ్యాక్‌ల కోసం సిస్టమ్‌లను కూడా సృష్టించాలి, తద్వారా బృందాలు BigQueryని సమర్థవంతంగా ఉపయోగించుకోవచ్చు.

నవంబర్ 2018లో, మేము మొత్తం కంపెనీ కోసం BigQuery మరియు Data Studio యొక్క ఆల్ఫా విడుదలను విడుదల చేసాము. మేము ఎక్కువగా ఉపయోగించిన వ్యక్తిగత డేటా-క్లియర్ చేసిన స్ప్రెడ్‌షీట్‌లలో కొన్నింటిని Twitter సిబ్బందికి అందించాము. BigQueryని ఇంజనీరింగ్, ఫైనాన్స్ మరియు మార్కెటింగ్‌తో సహా వివిధ బృందాల నుండి 250 మంది వినియోగదారులు ఉపయోగించారు. ఇటీవల, వారు దాదాపు 8 అభ్యర్థనలను అమలు చేస్తున్నారు, నెలకు 100 PBని ప్రాసెస్ చేస్తున్నారు, షెడ్యూల్ చేసిన అభ్యర్థనలను లెక్కించలేదు. చాలా సానుకూల అభిప్రాయాన్ని స్వీకరించిన తర్వాత, మేము ముందుకు వెళ్లాలని నిర్ణయించుకున్నాము మరియు Twitterలో డేటాతో పరస్పర చర్య చేయడానికి ప్రాథమిక వనరుగా BigQueryని అందించాము.

మా Google BigQuery డేటా వేర్‌హౌస్ యొక్క ఉన్నత-స్థాయి ఆర్కిటెక్చర్ యొక్క రేఖాచిత్రం ఇక్కడ ఉంది.

Google యొక్క BigQuery డేటా విశ్లేషణను ఎలా ప్రజాస్వామ్యీకరించింది. 1 వ భాగము
మేము అంతర్గత క్లౌడ్ రెప్లికేటర్ సాధనాన్ని ఉపయోగించి స్థానిక హడూప్ క్లస్టర్‌ల నుండి డేటాను Google క్లౌడ్ స్టోరేజ్ (GCS)కి కాపీ చేస్తాము. "అని ఉపయోగించే పైప్‌లైన్‌లను రూపొందించడానికి మేము అపాచీ ఎయిర్‌ఫ్లోను ఉపయోగిస్తాముbq_load» GCS నుండి BigQueryలోకి డేటాను లోడ్ చేయడానికి. GCSలో Parquet లేదా Thrift-LZO డేటాసెట్‌లను ప్రశ్నించడానికి మేము Prestoని ఉపయోగిస్తాము. BQ Blaster అనేది HDFS వెర్టికా మరియు థ్రిఫ్ట్-LZO డేటాసెట్‌లను BigQueryలోకి లోడ్ చేయడానికి అంతర్గత స్కాల్డింగ్ సాధనం.

కింది విభాగాలలో, వాడుకలో సౌలభ్యం, పనితీరు, డేటా నిర్వహణ, సిస్టమ్ ఆరోగ్యం మరియు ఖర్చులో మా విధానం మరియు నైపుణ్యాన్ని మేము చర్చిస్తాము.

వాడుకలో సౌలభ్యం

వినియోగదారులు BigQueryతో ప్రారంభించడం సులభం అని మేము కనుగొన్నాము, ఎందుకంటే దీనికి సాఫ్ట్‌వేర్ ఇన్‌స్టాలేషన్ అవసరం లేదు మరియు వినియోగదారులు దీన్ని సహజమైన వెబ్ ఇంటర్‌ఫేస్ ద్వారా యాక్సెస్ చేయవచ్చు. అయితే, వినియోగదారులు ప్రాజెక్ట్‌లు, డేటాసెట్‌లు మరియు టేబుల్‌ల వంటి వనరులతో సహా కొన్ని GCP ఫీచర్‌లు మరియు కాన్సెప్ట్‌లతో పరిచయం కలిగి ఉండాలి. వినియోగదారులు ప్రారంభించడంలో సహాయపడటానికి మేము ట్యుటోరియల్‌లు మరియు ట్యుటోరియల్‌లను అభివృద్ధి చేసాము. పొందిన ప్రాథమిక అవగాహనతో, వినియోగదారులు డేటాసెట్‌లను నావిగేట్ చేయడం, స్కీమా మరియు టేబుల్ డేటాను వీక్షించడం, సాధారణ ప్రశ్నలను అమలు చేయడం మరియు డేటా స్టూడియోలో ఫలితాలను దృశ్యమానం చేయడం సులభం.

BigQueryలో డేటా నమోదుతో మా లక్ష్యం ఒక్క క్లిక్‌తో HDFS లేదా GCS డేటాసెట్‌ల అతుకులు లేని లోడింగ్‌ను అందించడం. మేము పరిగణించాము క్లౌడ్ కంపోజర్ (వాయుప్రవాహం ద్వారా నిర్వహించబడుతుంది) కానీ మా "డొమైన్ పరిమితం చేయబడిన భాగస్వామ్యం" భద్రతా నమూనా కారణంగా దీనిని ఉపయోగించలేకపోయాము (దీనిపై దిగువన ఉన్న డేటా మేనేజ్‌మెంట్ విభాగంలో మరిన్ని). BigQuery లోడ్ టాస్క్‌లను నిర్వహించడానికి మేము Google డేటా ట్రాన్స్‌ఫర్ సర్వీస్ (DTS)ని ఉపయోగించి ప్రయోగాలు చేసాము. డిటిఎస్‌ను త్వరగా ఏర్పాటు చేసినప్పటికీ, డిపెండెన్సీలతో పైప్‌లైన్‌లను నిర్మించడానికి ఇది అనువైనది కాదు. మా ఆల్ఫా విడుదల కోసం, మేము GCEలో మా స్వంత అపాచీ ఎయిర్‌ఫ్లో వాతావరణాన్ని సృష్టించాము మరియు ఉత్పత్తి కోసం మరియు వెర్టికా వంటి మరిన్ని డేటా సోర్స్‌లకు మద్దతు ఇచ్చే సామర్థ్యాన్ని సిద్ధం చేస్తున్నాము.

డేటాను BigQueryగా మార్చడానికి, వినియోగదారులు షెడ్యూల్ చేసిన ప్రశ్నలను ఉపయోగించి సాధారణ SQL డేటా పైప్‌లైన్‌లను సృష్టిస్తారు. డిపెండెన్సీలతో కూడిన సంక్లిష్టమైన బహుళ-దశల పైప్‌లైన్‌ల కోసం, మేము మా స్వంత ఎయిర్‌ఫ్లో ఫ్రేమ్‌వర్క్ లేదా క్లౌడ్ కంపోజర్‌తో పాటుగా ఉపయోగించాలనుకుంటున్నాము క్లౌడ్ డేటాఫ్లో.

ఉత్పాదకత

పెద్ద మొత్తంలో డేటాను ప్రాసెస్ చేసే సాధారణ ప్రయోజన SQL ప్రశ్నల కోసం BigQuery రూపొందించబడింది. ఇది తక్కువ జాప్యం, లావాదేవీల డేటాబేస్ ద్వారా అవసరమైన అధిక నిర్గమాంశ ప్రశ్నలు లేదా అమలు చేయబడిన తక్కువ జాప్య సమయ శ్రేణి విశ్లేషణ కోసం ఉద్దేశించబడలేదు అపాచీ డ్రూయిడ్. ఇంటరాక్టివ్ విశ్లేషణాత్మక ప్రశ్నల కోసం, మా వినియోగదారులు ఒక నిమిషం కంటే తక్కువ ప్రతిస్పందన సమయాన్ని ఆశిస్తున్నారు. ఈ అంచనాలను అందుకోవడానికి మేము BigQuery వినియోగాన్ని రూపొందించాలి. మా వినియోగదారులకు ఊహాజనిత పనితీరును అందించడానికి, మేము BigQuery ఫంక్షనాలిటీని ఉపయోగించాము, ఇది నిర్ణీత రుసుము ఆధారంగా కస్టమర్‌లకు అందుబాటులో ఉంటుంది, ఇది ప్రాజెక్ట్ యజమానులు వారి అభ్యర్థనల కోసం కనీస స్లాట్‌లను రిజర్వ్ చేయడానికి అనుమతిస్తుంది. స్లాట్ BigQuery అనేది SQL ప్రశ్నలను అమలు చేయడానికి అవసరమైన కంప్యూటింగ్ పవర్ యూనిట్.

మేము ఒక్కొక్కటి 800 TB డేటాను ప్రాసెస్ చేస్తున్న 1కి పైగా ప్రశ్నలను విశ్లేషించాము మరియు సగటు అమలు సమయం 30 సెకన్లు అని కనుగొన్నాము. వివిధ ప్రాజెక్ట్‌లు మరియు టాస్క్‌లలో మా స్లాట్‌ని ఉపయోగించడంపై పనితీరు ఎక్కువగా ఆధారపడి ఉంటుందని కూడా మేము తెలుసుకున్నాము. ఉత్పత్తి వినియోగ కేసులు మరియు ఇంటరాక్టివ్ విశ్లేషణల కోసం పనితీరును కొనసాగించడానికి మేము మా ఉత్పత్తి మరియు తాత్కాలిక స్లాట్ నిల్వలను స్పష్టంగా వేరు చేయాల్సి ఉంటుంది. ఇది స్లాట్ రిజర్వేషన్‌లు మరియు ప్రాజెక్ట్ సోపానక్రమాల కోసం మా డిజైన్‌ను బాగా ప్రభావితం చేసింది.

మేము అనువాదం యొక్క రెండవ భాగంలో రాబోయే రోజుల్లో డేటా నిర్వహణ, కార్యాచరణ మరియు సిస్టమ్‌ల ఖర్చు గురించి మాట్లాడుతాము మరియు ఇప్పుడు మేము ప్రతి ఒక్కరినీ ఆహ్వానిస్తున్నాము ఉచిత ప్రత్యక్ష వెబ్‌నార్, మీరు కోర్సు గురించి మరింత తెలుసుకోవచ్చు, అలాగే మా నిపుణుడిని ప్రశ్నలు అడగవచ్చు - ఎగోర్ మాటేషుక్ (సీనియర్ డేటా ఇంజనీర్, మాక్సిమాటెలికామ్).

ఇంకా చదవండి:

మూలం: www.habr.com

ఒక వ్యాఖ్యను జోడించండి