Google இன் BigQuery தரவு பகுப்பாய்வை எவ்வாறு ஜனநாயகப்படுத்தியது. பகுதி 1

வணக்கம், ஹப்ர்! OTUS இல் புதிய பாடத் தொடருக்கான பதிவு இப்போது திறக்கப்பட்டுள்ளது தரவு பொறியாளர். பாடத்திட்டத்தின் தொடக்கத்தை எதிர்பார்த்து, பாரம்பரியமாக உங்களுக்காக சுவாரஸ்யமான உள்ளடக்கத்தின் மொழிபெயர்ப்பை நாங்கள் தயார் செய்துள்ளோம்.

உலகில் என்ன நடக்கிறது என்பதைக் கண்டறியவும் அதைப் பற்றி விவாதிக்கவும் ஒவ்வொரு நாளும் நூறு மில்லியனுக்கும் அதிகமான மக்கள் ட்விட்டரைப் பார்வையிடுகிறார்கள். ஒவ்வொரு ட்வீட் மற்றும் ஒவ்வொரு பயனர் செயலும் Twitter இன் உள் தரவு பகுப்பாய்வுக்கு கிடைக்கக்கூடிய நிகழ்வை உருவாக்குகிறது. நூற்றுக்கணக்கான ஊழியர்கள் இந்தத் தரவை பகுப்பாய்வு செய்து காட்சிப்படுத்துகிறார்கள், மேலும் அவர்களின் அனுபவத்தை மேம்படுத்துவது Twitter டேட்டா பிளாட்ஃபார்ம் குழுவின் முதன்மையான முன்னுரிமையாகும்.

பரந்த அளவிலான தொழில்நுட்பத் திறன்களைக் கொண்ட பயனர்கள் தரவைக் கண்டறிய முடியும் மற்றும் சிறப்பாகச் செயல்படும் SQL அடிப்படையிலான பகுப்பாய்வு மற்றும் காட்சிப்படுத்தல் கருவிகளுக்கான அணுகலைப் பெற முடியும் என்று நாங்கள் நம்புகிறோம். இது தரவு ஆய்வாளர்கள் மற்றும் தயாரிப்பு மேலாளர்கள் உட்பட குறைவான தொழில்நுட்ப பயனர்களின் புதிய குழுவை தரவுகளிலிருந்து நுண்ணறிவைப் பிரித்தெடுக்க அனுமதிக்கும், மேலும் அவர்கள் Twitter இன் திறன்களை நன்கு புரிந்து கொள்ளவும் பயன்படுத்தவும் அனுமதிக்கிறது. ட்விட்டரில் தரவு பகுப்பாய்வுகளை நாங்கள் இப்படித்தான் ஜனநாயகப்படுத்துகிறோம்.

எங்கள் கருவிகள் மற்றும் உள் தரவு பகுப்பாய்வு திறன்கள் மேம்பட்டுள்ளதால், ட்விட்டர் மேம்படுவதைக் கண்டோம். இருப்பினும், இன்னும் முன்னேற்றத்திற்கான இடம் உள்ளது. Scalding போன்ற தற்போதைய கருவிகளுக்கு நிரலாக்க அனுபவம் தேவை. ப்ரெஸ்டோ மற்றும் வெர்டிகா போன்ற SQL அடிப்படையிலான பகுப்பாய்வு கருவிகள் அளவில் செயல்திறன் சிக்கல்களைக் கொண்டுள்ளன. பல கணினிகளில் தரவை தொடர்ந்து அணுகாமல் விநியோகிப்பதில் சிக்கல் உள்ளது.

கடந்த ஆண்டு அறிவித்தோம் Google உடனான புதிய ஒத்துழைப்பு, அதற்குள் நமது பகுதிகளை மாற்றுகிறோம் தரவு உள்கட்டமைப்பு Google Cloud Platform (GCP) இல் கூகுள் கிளவுட் கருவிகள் என்று முடிவு செய்துள்ளோம் பெரிய தரவு Twitter இல் பகுப்பாய்வு, காட்சிப்படுத்தல் மற்றும் இயந்திர கற்றல் ஆகியவற்றை ஜனநாயகப்படுத்துவதற்கான எங்கள் முன்முயற்சிகளுக்கு உதவலாம்:

  • BigQuery இல்: SQL இன்ஜின் அடிப்படையிலான நிறுவன தரவுக் கிடங்கு dremel, இது அதன் வேகம், எளிமை மற்றும் சமாளிக்கிறது இயந்திர வழி கற்றல்.
  • டேட்டா ஸ்டுடியோ: கூகுள் டாக்ஸ் போன்ற ஒத்துழைப்பு அம்சங்களுடன் கூடிய பெரிய தரவு காட்சிப்படுத்தல் கருவி.

இந்தக் கட்டுரையில், இந்தக் கருவிகளுடன் எங்கள் அனுபவத்தைப் பற்றி நீங்கள் அறிந்து கொள்வீர்கள்: நாங்கள் என்ன செய்தோம், என்ன கற்றுக்கொண்டோம், அடுத்து என்ன செய்வோம். நாங்கள் இப்போது தொகுதி மற்றும் ஊடாடும் பகுப்பாய்வுகளில் கவனம் செலுத்துவோம். நிகழ்நேர பகுப்பாய்வுகளை அடுத்த கட்டுரையில் விவாதிப்போம்.

ட்விட்டர் தரவுக் கடைகளின் வரலாறு

BigQuery இல் நுழைவதற்கு முன், ட்விட்டர் தரவுக் கிடங்கின் வரலாற்றை சுருக்கமாக விவரிப்பது மதிப்பு. 2011 இல், ட்விட்டர் தரவு பகுப்பாய்வு வெர்டிகா மற்றும் ஹடூப்பில் செய்யப்பட்டது. MapReduce Hadoop வேலைகளை உருவாக்க பன்றியைப் பயன்படுத்தினோம். 2012 ஆம் ஆண்டில், பிக்ஸை ஸ்கால்டிங்காக மாற்றினோம், இதில் ஸ்கலா API ஆனது சிக்கலான பைப்லைன்களை உருவாக்கும் திறன் மற்றும் சோதனையின் எளிமை போன்ற பலன்களைக் கொண்டுள்ளது. இருப்பினும், பல தரவு ஆய்வாளர்கள் மற்றும் SQL உடன் பணிபுரியும் தயாரிப்பு மேலாளர்களுக்கு, இது மிகவும் செங்குத்தான கற்றல் வளைவாக இருந்தது. 2016 ஆம் ஆண்டில், ஹடூப் தரவுக்கான SQL இடைமுகமாக Presto ஐப் பயன்படுத்தத் தொடங்கினோம். ஸ்பார்க் ஒரு பைதான் இடைமுகத்தை வழங்கியது, இது தற்காலிக தரவு அறிவியல் மற்றும் இயந்திர கற்றலுக்கு ஒரு நல்ல தேர்வாக அமைகிறது.

2018 முதல், தரவு பகுப்பாய்வு மற்றும் காட்சிப்படுத்தலுக்கு பின்வரும் கருவிகளைப் பயன்படுத்துகிறோம்:

  • உற்பத்தி கன்வேயர்களுக்கு எரியும்
  • தற்காலிக தரவு பகுப்பாய்வு மற்றும் இயந்திர கற்றலுக்கான ஸ்கால்டிங் மற்றும் ஸ்பார்க்
  • தற்காலிக மற்றும் ஊடாடும் SQL பகுப்பாய்வுக்கான வெர்டிகா மற்றும் ப்ரெஸ்டோ
  • நேரத் தொடர் அளவீடுகளுக்கான குறைந்த ஊடாடும், ஆய்வு மற்றும் குறைந்த தாமத அணுகலுக்கான ட்ரூயிட்
  • தரவு காட்சிப்படுத்தலுக்கான அட்டவணை, செப்பெலின் மற்றும் பிவோட்

இந்தக் கருவிகள் மிகவும் சக்திவாய்ந்த திறன்களை வழங்கினாலும், ட்விட்டரில் பரந்த பார்வையாளர்களுக்கு இந்த திறன்களை வழங்குவதில் எங்களுக்கு சிரமம் இருப்பதைக் கண்டறிந்தோம். கூகிள் கிளவுட் மூலம் எங்கள் தளத்தை விரிவுபடுத்துவதன் மூலம், ட்விட்டர் அனைத்திற்கும் எங்கள் பகுப்பாய்வுக் கருவிகளை எளிதாக்குவதில் கவனம் செலுத்துகிறோம்.

Google இன் BigQuery தரவுக் கிடங்கு

ட்விட்டரில் உள்ள பல குழுக்கள் ஏற்கனவே தங்கள் தயாரிப்புக் குழாய்களில் சிலவற்றில் BigQuery ஐ இணைத்துள்ளன. அவர்களின் நிபுணத்துவத்தைப் பயன்படுத்தி, அனைத்து Twitter பயன்பாட்டு நிகழ்வுகளுக்கும் BigQuery இன் திறன்களை மதிப்பீடு செய்யத் தொடங்கினோம். முழு நிறுவனத்திற்கும் BigQuery ஐ வழங்குவதும், தரவு இயங்குதள கருவித்தொகுப்பிற்குள் அதை தரப்படுத்துவதும் ஆதரிப்பதும் எங்கள் இலக்காக இருந்தது. பல காரணங்களால் இது கடினமாக இருந்தது. பெரிய அளவிலான தரவை நம்பகத்தன்மையுடன் உள்வாங்குவதற்கும், நிறுவனம் முழுவதும் தரவு நிர்வாகத்தை ஆதரிப்பதற்கும், சரியான அணுகல் கட்டுப்பாடுகளை உறுதி செய்வதற்கும், வாடிக்கையாளர் தனியுரிமையை உறுதி செய்வதற்கும் ஒரு உள்கட்டமைப்பை நாங்கள் உருவாக்க வேண்டும். குழுக்கள் BigQuery ஐ திறம்பட பயன்படுத்தக்கூடிய வகையில், வள ஒதுக்கீடு, கண்காணிப்பு மற்றும் கட்டணம் வசூலிப்பதற்கான அமைப்புகளையும் நாங்கள் உருவாக்க வேண்டியிருந்தது.

நவம்பர் 2018 இல், BigQuery மற்றும் Data Studio இன் நிறுவனம் முழுவதும் ஆல்பா வெளியீட்டை வெளியிட்டோம். ட்விட்டர் பணியாளர்களுக்கு நாங்கள் அடிக்கடி பயன்படுத்தும் சில விரிதாள்களை சுத்தம் செய்த தனிப்பட்ட தரவுகளுடன் வழங்கியுள்ளோம். பொறியியல், நிதி மற்றும் சந்தைப்படுத்தல் உள்ளிட்ட பல்வேறு குழுக்களைச் சேர்ந்த 250க்கும் மேற்பட்ட பயனர்களால் BigQuery பயன்படுத்தப்பட்டுள்ளது. மிக சமீபத்தில், அவர்கள் சுமார் 8k கோரிக்கைகளை இயக்குகிறார்கள், ஒரு மாதத்திற்கு சுமார் 100 PB ஐ செயலாக்குகிறார்கள், திட்டமிடப்பட்ட கோரிக்கைகளை கணக்கிடவில்லை. மிகவும் நேர்மறையான கருத்தைப் பெற்ற பிறகு, ட்விட்டரில் தரவுகளுடன் தொடர்புகொள்வதற்கான முதன்மை ஆதாரமாக BigQuery ஐ வழங்க முடிவு செய்தோம்.

எங்கள் Google BigQuery தரவுக் கிடங்கு கட்டமைப்பின் உயர்நிலை வரைபடம் இதோ.

Google இன் BigQuery தரவு பகுப்பாய்வை எவ்வாறு ஜனநாயகப்படுத்தியது. பகுதி 1
உட்புற கிளவுட் ரெப்ளிகேட்டர் கருவியைப் பயன்படுத்தி, வளாகத்தில் உள்ள ஹடூப் கிளஸ்டர்களில் இருந்து Google கிளவுட் ஸ்டோரேஜுக்கு (GCS) தரவை நகலெடுக்கிறோம். "ஐப் பயன்படுத்தும் பைப்லைன்களை உருவாக்க அப்பாச்சி ஏர்ஃப்ளோவைப் பயன்படுத்துகிறோம்.bq_load» GCS இலிருந்து BigQuery இல் தரவை ஏற்றுவதற்கு. GCS இல் Parquet அல்லது Thrift-LZO தரவுத்தொகுப்புகளை வினவுவதற்கு Presto ஐப் பயன்படுத்துகிறோம். BQ Blaster என்பது HDFS வெர்டிகா மற்றும் த்ரிஃப்ட்-LZO தரவுத்தொகுப்புகளை BigQuery இல் ஏற்றுவதற்கான ஒரு உள் எரியும் கருவியாகும்.

பின்வரும் பிரிவுகளில், பயன்பாட்டின் எளிமை, செயல்திறன், தரவு மேலாண்மை, கணினி ஆரோக்கியம் மற்றும் செலவு ஆகியவற்றில் எங்கள் அணுகுமுறை மற்றும் நிபுணத்துவம் பற்றி விவாதிக்கிறோம்.

பயன்பாட்டின் எளிமை

பயனர்கள் BigQuery உடன் தொடங்குவது எளிதானது என்பதைக் கண்டறிந்தோம், ஏனெனில் இதற்கு மென்பொருள் நிறுவல் தேவையில்லை மற்றும் பயனர்கள் உள்ளுணர்வு இணைய இடைமுகம் மூலம் அதை அணுகலாம். இருப்பினும், திட்டங்கள், தரவுத்தொகுப்புகள் மற்றும் அட்டவணைகள் போன்ற ஆதாரங்கள் உட்பட GCP இன் சில அம்சங்கள் மற்றும் கருத்துகளை பயனர்கள் நன்கு அறிந்திருக்க வேண்டும். பயனர்கள் தொடங்குவதற்கு உதவும் வகையில் கல்விப் பொருட்கள் மற்றும் பயிற்சிகளை நாங்கள் உருவாக்கியுள்ளோம். பெற்ற அடிப்படை புரிதலுடன், பயனர்கள் தரவுத் தொகுப்புகளை வழிசெலுத்துவது, ஸ்கீமா மற்றும் டேபிள் தரவைப் பார்ப்பது, எளிய வினவல்களை இயக்குவது மற்றும் டேட்டா ஸ்டுடியோவில் முடிவுகளைக் காட்சிப்படுத்துவது ஆகியவற்றை எளிதாகக் கண்டறிந்தனர்.

BigQuery இல் தரவு உள்ளீட்டிற்கான எங்கள் குறிக்கோள், HDFS அல்லது GCS தரவுத்தொகுப்புகளை ஒரே கிளிக்கில் தடையின்றி ஏற்றுவதை இயக்குவதாகும். நாங்கள் கருதினோம் கிளவுட் இசையமைப்பாளர் (Airflow மூலம் நிர்வகிக்கப்படுகிறது) ஆனால் எங்கள் டொமைன் கட்டுப்படுத்தப்பட்ட பகிர்வு பாதுகாப்பு மாதிரியின் காரணமாக அதைப் பயன்படுத்த முடியவில்லை (கீழே உள்ள தரவு மேலாண்மை பிரிவில் இதைப் பற்றி மேலும்). BigQuery பணிச்சுமைகளை ஒழுங்கமைக்க Google தரவு பரிமாற்ற சேவையை (DTS) பயன்படுத்தி சோதனை செய்தோம். டிடிஎஸ் அமைப்பது விரைவாக இருந்தபோதிலும், சார்புகளுடன் குழாய்களை உருவாக்க இது நெகிழ்வானதாக இல்லை. எங்களின் ஆல்பா வெளியீட்டிற்காக, க.பொ.த.யில் எங்களுடைய சொந்த அப்பாச்சி ஏர்ஃப்ளோ கட்டமைப்பை நாங்கள் உருவாக்கியுள்ளோம், மேலும் அதை உற்பத்தியில் இயக்கவும் வெர்டிகா போன்ற கூடுதல் தரவு மூலங்களை ஆதரிக்கவும் தயாராகி வருகிறோம்.

தரவை BigQuery ஆக மாற்ற, பயனர்கள் திட்டமிடப்பட்ட வினவல்களைப் பயன்படுத்தி எளிய SQL தரவு பைப்லைன்களை உருவாக்குகிறார்கள். சார்புகளைக் கொண்ட சிக்கலான பல-நிலைக் குழாய்களுக்கு, எங்கள் சொந்த ஏர்ஃப்ளோ கட்டமைப்பை அல்லது கிளவுட் இசையமைப்பாளரைப் பயன்படுத்த திட்டமிட்டுள்ளோம். கிளவுட் டேட்டாஃப்ளோ.

உற்பத்தித்

பெரிய அளவிலான தரவை செயலாக்கும் பொது நோக்கத்திற்காக SQL வினவல்களுக்காக BigQuery வடிவமைக்கப்பட்டுள்ளது. இது ஒரு பரிவர்த்தனை தரவுத்தளத்திற்குத் தேவைப்படும் குறைந்த தாமதம், அதிக செயல்திறன் வினவல்கள் அல்லது செயல்படுத்தப்பட்ட குறைந்த தாமத நேரத் தொடர் பகுப்பாய்வு ஆகியவற்றை நோக்கமாகக் கொண்டிருக்கவில்லை. அப்பாச்சி ட்ரூயிட். ஊடாடும் பகுப்பாய்வு வினவல்களுக்கு, எங்கள் பயனர்கள் ஒரு நிமிடத்திற்கும் குறைவான பதிலை எதிர்பார்க்கிறார்கள். இந்த எதிர்பார்ப்புகளைப் பூர்த்தி செய்ய BigQuery ஐப் பயன்படுத்துவதை நாங்கள் வடிவமைக்க வேண்டியிருந்தது. எங்கள் பயனர்களுக்கு யூகிக்கக்கூடிய செயல்திறனை வழங்க, நாங்கள் BigQuery செயல்பாட்டை மேம்படுத்தினோம், இது வாடிக்கையாளர்களுக்கு நிலையான கட்டண அடிப்படையில் கிடைக்கிறது, இது திட்ட உரிமையாளர்கள் தங்கள் வினவல்களுக்கு குறைந்தபட்ச இடங்களை ஒதுக்க அனுமதிக்கிறது. ஸ்லாட் BigQuery என்பது SQL வினவல்களை இயக்க தேவையான கணினி சக்தியின் அலகு ஆகும்.

ஒவ்வொன்றும் தோராயமாக 800 TB தரவைச் செயலாக்கும் 1 க்கும் மேற்பட்ட வினவல்களை நாங்கள் பகுப்பாய்வு செய்தோம், சராசரி செயலாக்க நேரம் 30 வினாடிகள் என்பதைக் கண்டறிந்தோம். வெவ்வேறு திட்டங்கள் மற்றும் பணிகளில் எங்கள் ஸ்லாட்டைப் பயன்படுத்துவதைப் பொறுத்து செயல்திறன் அதிகமாக உள்ளது என்பதையும் நாங்கள் அறிந்தோம். உற்பத்திப் பயன்பாட்டு வழக்குகள் மற்றும் ஆன்லைன் பகுப்பாய்விற்கான செயல்திறனைப் பராமரிக்க எங்கள் உற்பத்தி மற்றும் தற்காலிக ஸ்லாட் இருப்புக்களை நாங்கள் தெளிவாக வரையறுக்க வேண்டும். இது ஸ்லாட் முன்பதிவுகள் மற்றும் திட்டப் படிநிலைக்கான எங்கள் வடிவமைப்பை பெரிதும் பாதித்தது.

மொழிபெயர்ப்பின் இரண்டாம் பகுதியில் வரும் நாட்களில் தரவு மேலாண்மை, செயல்பாடு மற்றும் கணினிகளின் செலவு பற்றி பேசுவோம், ஆனால் இப்போது அனைவரையும் அழைக்கிறோம் இலவச நேரடி வெபினார், இதன் போது நீங்கள் பாடத்திட்டத்தைப் பற்றி விரிவாக அறிந்துகொள்ள முடியும், அத்துடன் எங்கள் நிபுணரிடம் கேள்விகளைக் கேட்கலாம் - எகோர் மாடேஷுக் (மூத்த தரவுப் பொறியாளர், MaximaTelecom).

மேலும் படிக்க:

ஆதாரம்: www.habr.com

கருத்தைச் சேர்