ప్రోహోస్టర్ > బ్లాగ్ > పరిపాలన > Google యొక్క BigQuery డేటా విశ్లేషణను ఎలా ప్రజాస్వామ్యీకరించింది. 1 వ భాగము
Google యొక్క BigQuery డేటా విశ్లేషణను ఎలా ప్రజాస్వామ్యీకరించింది. 1 వ భాగము
హే హబ్ర్! కొత్త కోర్సు స్ట్రీమ్ కోసం నమోదు ప్రస్తుతం OTUSలో తెరవబడింది డేటా ఇంజనీర్. కోర్సు ప్రారంభాన్ని ఊహించి, మేము మీ కోసం సాంప్రదాయకంగా ఆసక్తికరమైన అంశాల అనువాదాన్ని సిద్ధం చేసాము.
ప్రతిరోజు, వంద మిలియన్ల మంది ప్రజలు ప్రపంచంలో ఏమి జరుగుతుందో తెలుసుకోవడానికి మరియు దాని గురించి చర్చించడానికి ట్విట్టర్ని సందర్శిస్తారు. ప్రతి ట్వీట్ మరియు ఏదైనా ఇతర వినియోగదారు చర్య Twitterలో అంతర్గత డేటా విశ్లేషణ కోసం అందుబాటులో ఉండే ఈవెంట్ను రూపొందిస్తుంది. వందలాది మంది ఉద్యోగులు ఈ డేటాను విశ్లేషిస్తారు మరియు దృశ్యమానం చేస్తారు మరియు వారి అనుభవాన్ని మెరుగుపరచడం Twitter డేటా ప్లాట్ఫారమ్ బృందానికి అత్యంత ప్రాధాన్యత.
విస్తృత శ్రేణి సాంకేతిక నైపుణ్యాలు కలిగిన వినియోగదారులు డేటాను కనుగొనగలరని మరియు బాగా పనిచేసే SQL-ఆధారిత విశ్లేషణ మరియు విజువలైజేషన్ సాధనాలకు ప్రాప్యత కలిగి ఉంటారని మేము విశ్వసిస్తున్నాము. ఇది డేటా విశ్లేషకులు మరియు ఉత్పత్తి నిర్వాహకులతో సహా తక్కువ సాంకేతిక వినియోగదారుల యొక్క సరికొత్త సమూహాన్ని డేటా నుండి అంతర్దృష్టులను సేకరించేందుకు అనుమతిస్తుంది, తద్వారా వారు Twitter యొక్క శక్తిని బాగా అర్థం చేసుకోవడానికి మరియు ఉపయోగించుకోవడానికి వీలు కల్పిస్తుంది. మేము ట్విట్టర్లో డేటా విశ్లేషణను ఈ విధంగా ప్రజాస్వామ్యం చేస్తాము.
అంతర్గత డేటా విశ్లేషణ కోసం మా సాధనాలు మరియు సామర్థ్యాలు మెరుగుపడినందున, మేము Twitter సేవ యొక్క మెరుగుదలను చూశాము. అయితే, ఇంకా మెరుగుదల కోసం స్థలం ఉంది. స్కాల్డింగ్ వంటి ప్రస్తుత సాధనాలకు ప్రోగ్రామింగ్ అనుభవం అవసరం. ప్రెస్టో మరియు వెర్టికా వంటి SQL-ఆధారిత విశ్లేషణ సాధనాలు పెద్ద స్థాయిలో పనితీరు సమస్యలను కలిగి ఉన్నాయి. డేటాకు స్థిరమైన ప్రాప్యత లేకుండా బహుళ సిస్టమ్లలో డేటాను పంపిణీ చేయడంలో కూడా మాకు సమస్య ఉంది.
గతేడాది ప్రకటించాం Googleతో కొత్త సహకారం, దీనిలో మేము మా భాగాలను బదిలీ చేస్తాము డేటా మౌలిక సదుపాయాలు Google క్లౌడ్ ప్లాట్ఫారమ్ (GCP)లో మేము Google క్లౌడ్ సాధనాలు అని నిర్ధారించాము బిగ్ డేటా Twitterలో విశ్లేషణ, విజువలైజేషన్ మరియు మెషీన్ లెర్నింగ్ను ప్రజాస్వామ్యీకరించడానికి మా చొరవలో మాకు సహాయం చేస్తుంది:
BigQuery: SQL ఇంజిన్ ఆధారిత ఎంటర్ప్రైజ్ డేటా వేర్హౌస్ Dremel, ఇది దాని వేగం, సరళత మరియు copes కోసం ప్రసిద్ధి చెందింది యంత్ర అభ్యాస.
డేటా స్టూడియో: Google డాక్స్ వంటి సహకార లక్షణాలతో పెద్ద డేటా విజువలైజేషన్ సాధనం.
ఈ కథనంలో, మీరు ఈ సాధనాలతో మా అనుభవం గురించి నేర్చుకుంటారు: మేము ఏమి చేసాము, మేము ఏమి నేర్చుకున్నాము మరియు మేము ఏమి చేస్తాము. మేము ఇప్పుడు బ్యాచ్ మరియు ఇంటరాక్టివ్ అనలిటిక్స్పై దృష్టి పెడతాము. నిజ-సమయ విశ్లేషణలు తదుపరి కథనంలో చర్చించబడతాయి.
ట్విట్టర్లో డేటా వేర్హౌస్ల చరిత్ర
BigQueryలోకి ప్రవేశించే ముందు, Twitterలో డేటా వేర్హౌస్ల చరిత్రను క్లుప్తంగా చెప్పడం విలువ. 2011లో, ట్విట్టర్ డేటా విశ్లేషణ వెర్టికా మరియు హడూప్లలో నిర్వహించబడింది. MapReduce Hadoop ఉద్యోగాలను సృష్టించడానికి, మేము Pigని ఉపయోగించాము. 2012లో, మేము పిగ్ని స్కాల్డింగ్తో భర్తీ చేసాము, ఇది సంక్లిష్టమైన పైప్లైన్లను సృష్టించగల సామర్థ్యం మరియు పరీక్ష సౌలభ్యం వంటి ప్రయోజనాలతో కూడిన Scala APIని కలిగి ఉంది. అయినప్పటికీ, SQLతో మరింత సౌకర్యవంతంగా పని చేసే అనేక డేటా విశ్లేషకులు మరియు ఉత్పత్తి నిర్వాహకులకు, ఇది చాలా నిటారుగా నేర్చుకునే వక్రత. 2016లో, మేము హడూప్ డేటా కోసం ప్రెస్టోను మా SQL ఫ్రంట్ ఎండ్గా ఉపయోగించడం ప్రారంభించాము. స్పార్క్ పైథాన్ ఇంటర్ఫేస్ను అందించింది, ఇది తాత్కాలిక డేటా సైన్స్ మరియు మెషిన్ లెర్నింగ్కు మంచి ఎంపికగా చేస్తుంది.
2018 నుండి, మేము డేటా విశ్లేషణ మరియు విజువలైజేషన్ కోసం క్రింది సాధనాలను ఉపయోగించాము:
ఉత్పత్తి లైన్ల కోసం స్కాల్డింగ్
తాత్కాలిక డేటా అనలిటిక్స్ మరియు మెషిన్ లెర్నింగ్ కోసం స్కాల్డింగ్ మరియు స్పార్క్
తాత్కాలిక మరియు ఇంటరాక్టివ్ SQL విశ్లేషణ కోసం వెర్టికా మరియు ప్రెస్టో
సమయ శ్రేణి కొలమానాలకు తక్కువ ఇంటరాక్టివ్, అన్వేషణ మరియు తక్కువ జాప్యం యాక్సెస్ కోసం డ్రూయిడ్
డేటా విజువలైజేషన్ కోసం పట్టిక, జెప్పెలిన్ మరియు పివోట్
ఈ సాధనాలు చాలా శక్తివంతమైన ఫీచర్లను అందిస్తున్నప్పటికీ, Twitterలో ఎక్కువ మంది ప్రేక్షకులకు ఈ ఫీచర్లను అందుబాటులో ఉంచడంలో మాకు ఇబ్బంది ఉందని మేము కనుగొన్నాము. Google క్లౌడ్తో మా ప్లాట్ఫారమ్ను విస్తరించడం ద్వారా, మేము Twitter మొత్తం కోసం మా విశ్లేషణ సాధనాలను సరళీకృతం చేయడంపై దృష్టి పెడుతున్నాము.
Google యొక్క BigQuery డేటా వేర్హౌస్
Twitterలోని అనేక బృందాలు ఇప్పటికే తమ ఉత్పత్తి పైప్లైన్లలో కొన్నింటిలో BigQueryని చేర్చాయి. వారి అనుభవాన్ని ఉపయోగించి, మేము అన్ని Twitter వినియోగ సందర్భాలలో BigQuery యొక్క అవకాశాలను విశ్లేషించడం ప్రారంభించాము. మా లక్ష్యం మొత్తం కంపెనీకి BigQueryని అందించడం మరియు డేటా ప్లాట్ఫారమ్ టూల్కిట్లో దానిని ప్రామాణీకరించడం మరియు మద్దతు ఇవ్వడం. అనేక కారణాల వల్ల ఇది కష్టమైంది. పెద్ద మొత్తంలో డేటాను విశ్వసనీయంగా స్వీకరించడానికి, కంపెనీ-వ్యాప్త డేటా నిర్వహణకు మద్దతు ఇవ్వడానికి, సరైన యాక్సెస్ నియంత్రణలను నిర్ధారించడానికి మరియు కస్టమర్ గోప్యతను నిర్ధారించడానికి మేము మౌలిక సదుపాయాలను అభివృద్ధి చేయాల్సిన అవసరం ఉంది. మేము వనరుల కేటాయింపు, పర్యవేక్షణ మరియు ఛార్జ్బ్యాక్ల కోసం సిస్టమ్లను కూడా సృష్టించాలి, తద్వారా బృందాలు BigQueryని సమర్థవంతంగా ఉపయోగించుకోవచ్చు.
నవంబర్ 2018లో, మేము మొత్తం కంపెనీ కోసం BigQuery మరియు Data Studio యొక్క ఆల్ఫా విడుదలను విడుదల చేసాము. మేము ఎక్కువగా ఉపయోగించిన వ్యక్తిగత డేటా-క్లియర్ చేసిన స్ప్రెడ్షీట్లలో కొన్నింటిని Twitter సిబ్బందికి అందించాము. BigQueryని ఇంజనీరింగ్, ఫైనాన్స్ మరియు మార్కెటింగ్తో సహా వివిధ బృందాల నుండి 250 మంది వినియోగదారులు ఉపయోగించారు. ఇటీవల, వారు దాదాపు 8 అభ్యర్థనలను అమలు చేస్తున్నారు, నెలకు 100 PBని ప్రాసెస్ చేస్తున్నారు, షెడ్యూల్ చేసిన అభ్యర్థనలను లెక్కించలేదు. చాలా సానుకూల అభిప్రాయాన్ని స్వీకరించిన తర్వాత, మేము ముందుకు వెళ్లాలని నిర్ణయించుకున్నాము మరియు Twitterలో డేటాతో పరస్పర చర్య చేయడానికి ప్రాథమిక వనరుగా BigQueryని అందించాము.
మా Google BigQuery డేటా వేర్హౌస్ యొక్క ఉన్నత-స్థాయి ఆర్కిటెక్చర్ యొక్క రేఖాచిత్రం ఇక్కడ ఉంది.
మేము అంతర్గత క్లౌడ్ రెప్లికేటర్ సాధనాన్ని ఉపయోగించి స్థానిక హడూప్ క్లస్టర్ల నుండి డేటాను Google క్లౌడ్ స్టోరేజ్ (GCS)కి కాపీ చేస్తాము. "అని ఉపయోగించే పైప్లైన్లను రూపొందించడానికి మేము అపాచీ ఎయిర్ఫ్లోను ఉపయోగిస్తాముbq_load» GCS నుండి BigQueryలోకి డేటాను లోడ్ చేయడానికి. GCSలో Parquet లేదా Thrift-LZO డేటాసెట్లను ప్రశ్నించడానికి మేము Prestoని ఉపయోగిస్తాము. BQ Blaster అనేది HDFS వెర్టికా మరియు థ్రిఫ్ట్-LZO డేటాసెట్లను BigQueryలోకి లోడ్ చేయడానికి అంతర్గత స్కాల్డింగ్ సాధనం.
కింది విభాగాలలో, వాడుకలో సౌలభ్యం, పనితీరు, డేటా నిర్వహణ, సిస్టమ్ ఆరోగ్యం మరియు ఖర్చులో మా విధానం మరియు నైపుణ్యాన్ని మేము చర్చిస్తాము.
వాడుకలో సౌలభ్యం
వినియోగదారులు BigQueryతో ప్రారంభించడం సులభం అని మేము కనుగొన్నాము, ఎందుకంటే దీనికి సాఫ్ట్వేర్ ఇన్స్టాలేషన్ అవసరం లేదు మరియు వినియోగదారులు దీన్ని సహజమైన వెబ్ ఇంటర్ఫేస్ ద్వారా యాక్సెస్ చేయవచ్చు. అయితే, వినియోగదారులు ప్రాజెక్ట్లు, డేటాసెట్లు మరియు టేబుల్ల వంటి వనరులతో సహా కొన్ని GCP ఫీచర్లు మరియు కాన్సెప్ట్లతో పరిచయం కలిగి ఉండాలి. వినియోగదారులు ప్రారంభించడంలో సహాయపడటానికి మేము ట్యుటోరియల్లు మరియు ట్యుటోరియల్లను అభివృద్ధి చేసాము. పొందిన ప్రాథమిక అవగాహనతో, వినియోగదారులు డేటాసెట్లను నావిగేట్ చేయడం, స్కీమా మరియు టేబుల్ డేటాను వీక్షించడం, సాధారణ ప్రశ్నలను అమలు చేయడం మరియు డేటా స్టూడియోలో ఫలితాలను దృశ్యమానం చేయడం సులభం.
BigQueryలో డేటా నమోదుతో మా లక్ష్యం ఒక్క క్లిక్తో HDFS లేదా GCS డేటాసెట్ల అతుకులు లేని లోడింగ్ను అందించడం. మేము పరిగణించాము క్లౌడ్ కంపోజర్ (వాయుప్రవాహం ద్వారా నిర్వహించబడుతుంది) కానీ మా "డొమైన్ పరిమితం చేయబడిన భాగస్వామ్యం" భద్రతా నమూనా కారణంగా దీనిని ఉపయోగించలేకపోయాము (దీనిపై దిగువన ఉన్న డేటా మేనేజ్మెంట్ విభాగంలో మరిన్ని). BigQuery లోడ్ టాస్క్లను నిర్వహించడానికి మేము Google డేటా ట్రాన్స్ఫర్ సర్వీస్ (DTS)ని ఉపయోగించి ప్రయోగాలు చేసాము. డిటిఎస్ను త్వరగా ఏర్పాటు చేసినప్పటికీ, డిపెండెన్సీలతో పైప్లైన్లను నిర్మించడానికి ఇది అనువైనది కాదు. మా ఆల్ఫా విడుదల కోసం, మేము GCEలో మా స్వంత అపాచీ ఎయిర్ఫ్లో వాతావరణాన్ని సృష్టించాము మరియు ఉత్పత్తి కోసం మరియు వెర్టికా వంటి మరిన్ని డేటా సోర్స్లకు మద్దతు ఇచ్చే సామర్థ్యాన్ని సిద్ధం చేస్తున్నాము.
డేటాను BigQueryగా మార్చడానికి, వినియోగదారులు షెడ్యూల్ చేసిన ప్రశ్నలను ఉపయోగించి సాధారణ SQL డేటా పైప్లైన్లను సృష్టిస్తారు. డిపెండెన్సీలతో కూడిన సంక్లిష్టమైన బహుళ-దశల పైప్లైన్ల కోసం, మేము మా స్వంత ఎయిర్ఫ్లో ఫ్రేమ్వర్క్ లేదా క్లౌడ్ కంపోజర్తో పాటుగా ఉపయోగించాలనుకుంటున్నాము క్లౌడ్ డేటాఫ్లో.
ఉత్పాదకత
పెద్ద మొత్తంలో డేటాను ప్రాసెస్ చేసే సాధారణ ప్రయోజన SQL ప్రశ్నల కోసం BigQuery రూపొందించబడింది. ఇది తక్కువ జాప్యం, లావాదేవీల డేటాబేస్ ద్వారా అవసరమైన అధిక నిర్గమాంశ ప్రశ్నలు లేదా అమలు చేయబడిన తక్కువ జాప్య సమయ శ్రేణి విశ్లేషణ కోసం ఉద్దేశించబడలేదు అపాచీ డ్రూయిడ్. ఇంటరాక్టివ్ విశ్లేషణాత్మక ప్రశ్నల కోసం, మా వినియోగదారులు ఒక నిమిషం కంటే తక్కువ ప్రతిస్పందన సమయాన్ని ఆశిస్తున్నారు. ఈ అంచనాలను అందుకోవడానికి మేము BigQuery వినియోగాన్ని రూపొందించాలి. మా వినియోగదారులకు ఊహాజనిత పనితీరును అందించడానికి, మేము BigQuery ఫంక్షనాలిటీని ఉపయోగించాము, ఇది నిర్ణీత రుసుము ఆధారంగా కస్టమర్లకు అందుబాటులో ఉంటుంది, ఇది ప్రాజెక్ట్ యజమానులు వారి అభ్యర్థనల కోసం కనీస స్లాట్లను రిజర్వ్ చేయడానికి అనుమతిస్తుంది. స్లాట్ BigQuery అనేది SQL ప్రశ్నలను అమలు చేయడానికి అవసరమైన కంప్యూటింగ్ పవర్ యూనిట్.
మేము ఒక్కొక్కటి 800 TB డేటాను ప్రాసెస్ చేస్తున్న 1కి పైగా ప్రశ్నలను విశ్లేషించాము మరియు సగటు అమలు సమయం 30 సెకన్లు అని కనుగొన్నాము. వివిధ ప్రాజెక్ట్లు మరియు టాస్క్లలో మా స్లాట్ని ఉపయోగించడంపై పనితీరు ఎక్కువగా ఆధారపడి ఉంటుందని కూడా మేము తెలుసుకున్నాము. ఉత్పత్తి వినియోగ కేసులు మరియు ఇంటరాక్టివ్ విశ్లేషణల కోసం పనితీరును కొనసాగించడానికి మేము మా ఉత్పత్తి మరియు తాత్కాలిక స్లాట్ నిల్వలను స్పష్టంగా వేరు చేయాల్సి ఉంటుంది. ఇది స్లాట్ రిజర్వేషన్లు మరియు ప్రాజెక్ట్ సోపానక్రమాల కోసం మా డిజైన్ను బాగా ప్రభావితం చేసింది.
మేము అనువాదం యొక్క రెండవ భాగంలో రాబోయే రోజుల్లో డేటా నిర్వహణ, కార్యాచరణ మరియు సిస్టమ్ల ఖర్చు గురించి మాట్లాడుతాము మరియు ఇప్పుడు మేము ప్రతి ఒక్కరినీ ఆహ్వానిస్తున్నాము ఉచిత ప్రత్యక్ష వెబ్నార్, మీరు కోర్సు గురించి మరింత తెలుసుకోవచ్చు, అలాగే మా నిపుణుడిని ప్రశ్నలు అడగవచ్చు - ఎగోర్ మాటేషుక్ (సీనియర్ డేటా ఇంజనీర్, మాక్సిమాటెలికామ్).