Google இன் BigQuery தரவு பகுப்பாய்வை எவ்வாறு ஜனநாயகப்படுத்தியது. பகுதி 2

வணக்கம், ஹப்ர்! OTUS இல் புதிய பாடத் தொடருக்கான பதிவு இப்போது திறக்கப்பட்டுள்ளது தரவு பொறியாளர். பாடத்திட்டத்தின் தொடக்கத்தை எதிர்பார்த்து, பயனுள்ள விஷயங்களை உங்களுடன் தொடர்ந்து பகிர்ந்து கொள்கிறோம்.

பகுதி ஒன்றைப் படியுங்கள்

Google இன் BigQuery தரவு பகுப்பாய்வை எவ்வாறு ஜனநாயகப்படுத்தியது. பகுதி 2

தரவு மேலாண்மை

வலுவான தரவு ஆளுமை என்பது ட்விட்டர் பொறியியலின் முக்கியக் கொள்கையாகும். எங்கள் தளத்தில் BigQuery ஐ செயல்படுத்தும்போது, ​​தரவு கண்டுபிடிப்பு, அணுகல் கட்டுப்பாடு, பாதுகாப்பு மற்றும் தனியுரிமை ஆகியவற்றில் கவனம் செலுத்துகிறோம்.

தரவைக் கண்டறிந்து நிர்வகிக்க, எங்கள் தரவு அணுகல் லேயரை விரிவாக்கியுள்ளோம் இருந்து) எங்கள் பயனர்களுக்கு ஒற்றை இடைமுகம் மற்றும் API வழங்கும் வளாகத்தில் மற்றும் Google கிளவுட் தரவு ஆகிய இரண்டிற்கும் கருவிகளை வழங்குவதற்கு. Google ஆக தரவு பட்டியல் பொதுவான கிடைக்கும் தன்மையை நோக்கி நகர்கிறது, நெடுவரிசை தேடல் போன்ற அம்சங்களை பயனர்களுக்கு வழங்குவதற்காக எங்கள் திட்டங்களில் அதைச் சேர்ப்போம்.

BigQuery தரவைப் பகிர்வதையும் அணுகுவதையும் எளிதாக்குகிறது, ஆனால் தரவு வெளியேற்றத்தைத் தடுக்க இதை நாங்கள் கட்டுப்படுத்த வேண்டும். மற்ற கருவிகளில், நாங்கள் இரண்டு செயல்பாடுகளைத் தேர்ந்தெடுத்தோம்:

  • டொமைன் தடைசெய்யப்பட்ட பகிர்வு: ட்விட்டருக்கு வெளியே பயனர்களுடன் BigQuery தரவுத்தொகுப்புகளைப் பகிர்வதிலிருந்து பயனர்களைத் தடுக்கும் பீட்டா அம்சம்.
  • VPC சேவை கட்டுப்பாடுகள்: தரவு வெளியேற்றத்தைத் தடுக்கும் கட்டுப்பாடு மற்றும் பயனர்கள் அறியப்பட்ட IP முகவரி வரம்புகளிலிருந்து BigQuery ஐ அணுக வேண்டும்.

பாதுகாப்பிற்கான அங்கீகாரம், அங்கீகாரம் மற்றும் தணிக்கை (AAA) தேவைகளை பின்வருமாறு செயல்படுத்தியுள்ளோம்:

  • அங்கீகாரம்: தற்காலிக கோரிக்கைகளுக்கு GCP பயனர் கணக்குகளையும், உற்பத்தி கோரிக்கைகளுக்கு சேவை கணக்குகளையும் பயன்படுத்தினோம்.
  • அங்கீகாரம்: ஒவ்வொரு தரவுத்தொகுப்பிற்கும் ஒரு உரிமையாளர் சேவைக் கணக்கும் வாசகர் குழுவும் இருக்க வேண்டும்.
  • தணிக்கை: விரிவான வினவல் செயலாக்கத் தகவலைக் கொண்ட BigQuery ஸ்டாக்டிரைவர் பதிவுகளை எளிதாகப் பகுப்பாய்வு செய்ய BigQuery தரவுத்தொகுப்பில் ஏற்றுமதி செய்தோம்.

ட்விட்டர் பயனர்களின் தனிப்பட்ட தரவு சரியாகக் கையாளப்படுவதை உறுதிசெய்ய, அனைத்து BigQuery தரவுத்தொகுப்புகளையும் பதிவுசெய்து, தனிப்பட்ட தரவை சிறுகுறிப்பு செய்ய வேண்டும், சரியான சேமிப்பகத்தை பராமரிக்க வேண்டும் மற்றும் பயனர்கள் நீக்கிய (ஸ்கிராப்) தரவை நீக்க வேண்டும்.

கூகுளில் பார்த்தோம் Cloud Data Loss Prevention API, இது முக்கியமான தரவை வகைப்படுத்தவும் திருத்தவும் இயந்திர கற்றலைப் பயன்படுத்துகிறது, ஆனால் துல்லியம் காரணமாக தரவுத்தொகுப்பை கைமுறையாக சிறுகுறிப்பு செய்வதற்கு ஆதரவாக முடிவு செய்தது. தனிப்பயன் சிறுகுறிப்பை அதிகரிக்க, தரவு இழப்பு தடுப்பு API ஐப் பயன்படுத்த திட்டமிட்டுள்ளோம்.

Twitter இல், BigQuery இல் தரவுத்தொகுப்புகளுக்காக நான்கு தனியுரிமை வகைகளை உருவாக்கியுள்ளோம், உணர்திறன் இறங்கு வரிசையில் இங்கே பட்டியலிடப்பட்டுள்ளது:

  • அதிக உணர்திறன் கொண்ட தரவுத் தொகுப்புகள் குறைந்தபட்ச சிறப்புரிமைக் கொள்கையின் அடிப்படையில் தேவைப்படும் அடிப்படையில் கிடைக்கின்றன. ஒவ்வொரு தரவுத் தொகுப்பிற்கும் தனித்தனியான வாசகர்கள் குழு உள்ளது, மேலும் தனிப்பட்ட கணக்குகளின் பயன்பாட்டை நாங்கள் கண்காணிப்போம்.
  • நடுத்தர உணர்திறன் தரவுத்தொகுப்புகள் (உப்பு ஹேஷிங்கைப் பயன்படுத்தும் ஒரு வழி புனைப்பெயர்கள்) தனிப்பட்ட முறையில் அடையாளம் காணக்கூடிய தகவலை (PII) கொண்டிருக்கவில்லை மற்றும் ஒரு பெரிய குழு ஊழியர்களுக்கு அணுகக்கூடியவை. இது தனியுரிமை கவலைகள் மற்றும் தரவு பயன்பாட்டுக்கு இடையே ஒரு நல்ல சமநிலை. உண்மையான பயனர்கள் யார் என்று தெரியாமல், ஒரு அம்சத்தைப் பயன்படுத்திய பயனர்களின் எண்ணிக்கையைக் கணக்கிடுவது போன்ற பகுப்பாய்வுப் பணிகளைச் செய்ய இது பணியாளர்களை அனுமதிக்கிறது.
  • குறைந்த உணர்திறன் தரவுத்தொகுப்புகள் அனைத்து பயனர்களை அடையாளம் காணும் தகவல்களுடன். தனியுரிமைக் கண்ணோட்டத்தில் இது ஒரு நல்ல அணுகுமுறை, ஆனால் பயனர்-நிலை பகுப்பாய்விற்குப் பயன்படுத்த முடியாது.
  • பொது தரவுத்தொகுப்புகள் (ட்விட்டருக்கு வெளியே வெளியிடப்பட்டது) அனைத்து ட்விட்டர் ஊழியர்களுக்கும் கிடைக்கும்.

உள்நுழைவதைப் பொறுத்தவரை, BigQuery தரவுத்தொகுப்புகளைக் கணக்கிடவும், அவற்றை தரவு அணுகல் லேயரில் பதிவு செய்யவும் திட்டமிடப்பட்ட பணிகளைப் பயன்படுத்தினோம் (இருந்து), ட்விட்டர் மெட்டாடேட்டா களஞ்சியம். பயனர்கள் தனியுரிமைத் தகவலுடன் தரவுத்தொகுப்புகளைக் குறிப்பதோடு, தக்கவைக்கும் காலத்தையும் குறிப்பிடுவார்கள். சுத்தம் செய்வதைப் பொறுத்தவரை, இரண்டு விருப்பங்களின் செயல்திறன் மற்றும் விலையை நாங்கள் மதிப்பீடு செய்கிறோம்: 1. Scalding போன்ற கருவிகளைப் பயன்படுத்தி GCS இல் தரவுத்தொகுப்புகளைச் சுத்தம் செய்தல் மற்றும் அவற்றை BigQuery இல் ஏற்றுதல்; 2. BigQuery DML அறிக்கைகளைப் பயன்படுத்துதல். வெவ்வேறு குழுக்கள் மற்றும் தரவுகளின் தேவைகளைப் பூர்த்தி செய்ய இரண்டு முறைகளின் கலவையைப் பயன்படுத்துவோம்.

கணினி செயல்பாடு

BigQuery நிர்வகிக்கப்படும் சேவை என்பதால், ட்விட்டரின் SRE குழுவை சிஸ்டம்ஸ் மேனேஜ்மென்ட் அல்லது டெஸ்க் கடமைகளில் ஈடுபடுத்த வேண்டிய அவசியமில்லை. சேமிப்பகம் மற்றும் கணினி ஆகிய இரண்டிற்கும் அதிக திறனை வழங்குவது எளிதாக இருந்தது. Google ஆதரவுடன் டிக்கெட்டை உருவாக்குவதன் மூலம் ஸ்லாட் முன்பதிவை மாற்றலாம். சுய சேவை ஸ்லாட் ஒதுக்கீடு மற்றும் கண்காணிப்புக்கான டாஷ்போர்டு மேம்பாடுகள் போன்ற மேம்படுத்தப்படக்கூடிய பகுதிகளைக் கண்டறிந்து, அந்தக் கோரிக்கைகளை Googleளிடம் சமர்ப்பித்தோம்.

செலவு

BigQuery மற்றும் Presto க்கான வினவல் செலவுகள் ஒரே அளவில் இருப்பதாக எங்கள் ஆரம்ப பகுப்பாய்வு காட்டுகிறது. நாங்கள் ஸ்லாட்டுகளை வாங்கினோம் சரி செய்யப்பட்டது கட்டணம் செலுத்துவதற்குப் பதிலாக நிலையான மாதாந்திர செலவைக் கொண்டிருக்க வேண்டும் தேவைக்கு ஏற்ப ஒரு TB செயலாக்கப்பட்ட தரவு. ஒவ்வொரு கோரிக்கையை முன்வைக்கும் முன் செலவுகளைப் பற்றி சிந்திக்க விரும்பாத பயனர்களின் கருத்துகளின் அடிப்படையில் இந்த முடிவு எடுக்கப்பட்டது.

BigQuery இல் தரவைச் சேமிப்பது GCS செலவுகளுக்கு கூடுதலாக செலவைக் கொண்டு வந்தது. Scalding போன்ற கருவிகளுக்கு GCS இல் தரவுத்தொகுப்புகள் தேவை, மேலும் BigQuery ஐ அணுக, அதே தரவுத்தொகுப்புகளை நாம் BigQuery வடிவத்தில் ஏற்ற வேண்டும். தேக்கி. GCS மற்றும் BigQuery இரண்டிலும் தரவுத்தொகுப்புகளைச் சேமிப்பதற்கான தேவையை நீக்கும் BigQuery தரவுத்தொகுப்புகளுக்கான Scalding இணைப்பில் நாங்கள் பணியாற்றி வருகிறோம்.

பல்லாயிரக்கணக்கான பெட்டாபைட்களின் எப்போதாவது வினவல்கள் தேவைப்படும் அரிதான நிகழ்வுகளுக்கு, BigQuery இல் தரவுத்தொகுப்புகளைச் சேமிப்பது செலவு குறைந்ததல்ல என்று முடிவுசெய்து, GCS இல் உள்ள தரவுத்தொகுப்புகளை நேரடியாக அணுக Prestoவைப் பயன்படுத்தினோம். இதைச் செய்ய, நாங்கள் BigQuery வெளிப்புற தரவு மூலங்களைப் பார்க்கிறோம்.

அடுத்த படிகள்

ஆல்பா வெளியீட்டிற்குப் பிறகு BigQuery இல் அதிக ஆர்வத்தைப் பார்த்தோம். BigQuery இல் கூடுதல் தரவுத்தொகுப்புகள் மற்றும் கூடுதல் கட்டளைகளைச் சேர்க்கிறோம். BigQuery சேமிப்பகத்தில் படிக்கவும் எழுதவும் ஸ்கால்டிங் போன்ற தரவு பகுப்பாய்வுக் கருவிகளுக்கான இணைப்பிகளை நாங்கள் உருவாக்குகிறோம். BigQuery தரவுத்தொகுப்புகளைப் பயன்படுத்தி நிறுவன தர அறிக்கைகள் மற்றும் குறிப்புகளை உருவாக்குவதற்காக Looker மற்றும் Apache Zeppelin போன்ற கருவிகளைப் பார்க்கிறோம்.

Google உடனான எங்கள் ஒத்துழைப்பு மிகவும் பயனுள்ளதாக இருந்தது, மேலும் இந்த கூட்டாண்மையை தொடர்ந்து மேம்படுத்துவதில் நாங்கள் மகிழ்ச்சியடைகிறோம். எங்களுடையதைச் செயல்படுத்த Google உடன் இணைந்து பணியாற்றினோம் கூட்டாளர் பிரச்சினை கண்காணிப்பாளர்கூகுளுக்கு நேரடியாக வினவல்களை அனுப்ப. BigQuery Parquet loader போன்ற சில, Google ஆல் ஏற்கனவே செயல்படுத்தப்பட்டுள்ளன.

Googleக்கான எங்களின் உயர் முன்னுரிமை அம்சக் கோரிக்கைகளில் சில இங்கே:

  • வசதியான தரவு வரவேற்புக்கான கருவிகள் மற்றும் LZO-Thrift வடிவமைப்பிற்கான ஆதரவு.
  • மணிநேரப் பிரிவு
  • அட்டவணை-, வரிசை- மற்றும் நெடுவரிசை-நிலை அனுமதிகள் போன்ற அணுகல் கட்டுப்பாட்டு மேம்பாடுகள்.
  • BigQuery இல் வெளிப்புற தரவு ஆதாரங்கள் ஹைவ் மெட்டாஸ்டோர் ஒருங்கிணைப்பு மற்றும் LZO-Thrift வடிவமைப்பிற்கான ஆதரவுடன்.
  • BigQuery பயனர் இடைமுகத்தில் மேம்படுத்தப்பட்ட தரவு அட்டவணை ஒருங்கிணைப்பு
  • ஸ்லாட் ஒதுக்கீடு மற்றும் கண்காணிப்புக்கான சுய சேவை.

முடிவுக்கு

தரவு பகுப்பாய்வு, காட்சிப்படுத்தல் மற்றும் இயந்திர கற்றல் ஆகியவற்றை பாதுகாப்பான முறையில் ஜனநாயகப்படுத்துவது டேட்டா பிளாட்ஃபார்ம் குழுவின் முதன்மையான முன்னுரிமையாகும். இந்த இலக்கை அடைய உதவும் கருவிகளாக Google BigQuery மற்றும் Data Studio ஆகியவற்றைக் கண்டறிந்தோம், மேலும் கடந்த ஆண்டு BigQuery Alpha நிறுவனம் முழுவதும் வெளியிட்டோம்.

BigQuery இல் வினவல்கள் எளிமையாகவும் திறமையாகவும் இருப்பதைக் கண்டோம். எளிமையான பைப்லைன்களுக்கான தரவை உள்வாங்குவதற்கும் மாற்றுவதற்கும் Google கருவிகளைப் பயன்படுத்தினோம், ஆனால் சிக்கலான பைப்லைன்களுக்கு எங்கள் சொந்த ஏர்ஃப்ளோ கட்டமைப்பை உருவாக்க வேண்டியிருந்தது. தரவு மேலாண்மை இடத்தில், அங்கீகாரம், அங்கீகாரம் மற்றும் தணிக்கைக்கான BigQuery இன் சேவைகள் எங்கள் தேவைகளைப் பூர்த்தி செய்கின்றன. மெட்டாடேட்டாவை நிர்வகிப்பதற்கும் தனியுரிமையைப் பேணுவதற்கும், எங்களுக்கு அதிக நெகிழ்வுத்தன்மை தேவைப்பட்டது மேலும் எங்கள் சொந்த அமைப்புகளை உருவாக்க வேண்டியிருந்தது. BigQuery, நிர்வகிக்கப்படும் சேவையாக இருப்பதால், பயன்படுத்த எளிதானது. வினவல் செலவுகள் ஏற்கனவே உள்ள கருவிகளைப் போலவே இருந்தன. BigQuery இல் தரவைச் சேமிப்பது GCS செலவுகளுக்கு கூடுதலாக செலவாகும்.

ஒட்டுமொத்தமாக, பொது SQL பகுப்பாய்விற்கு BigQuery நன்றாக வேலை செய்கிறது. BigQuery இல் அதிக ஆர்வத்தை நாங்கள் காண்கிறோம், மேலும் அதிக தரவுத் தொகுப்புகளை நகர்த்தவும், அதிக குழுக்களைக் கொண்டு வரவும், மேலும் BigQuery மூலம் அதிக பைப்லைன்களை உருவாக்கவும் நாங்கள் பணியாற்றி வருகிறோம். Scalding, Spark, Presto மற்றும் Druid போன்ற கருவிகளின் கலவை தேவைப்படும் பல்வேறு தரவை Twitter பயன்படுத்துகிறது. எங்கள் தரவு பகுப்பாய்வுக் கருவிகளைத் தொடர்ந்து வலுப்படுத்தவும், எங்கள் சலுகைகளை எவ்வாறு சிறப்பாகப் பயன்படுத்துவது என்பது குறித்த தெளிவான வழிகாட்டுதலை எங்கள் பயனர்களுக்கு வழங்கவும் நாங்கள் உத்தேசித்துள்ளோம்.

நன்றியுணர்வின் வார்த்தைகள்

இந்தத் திட்டத்தில் பெரும் ஒத்துழைப்பிற்கும் கடின உழைப்பிற்கும் எனது இணை ஆசிரியர்கள் மற்றும் குழு உறுப்பினர்களான அஞ்சு ஜா மற்றும் வில் பாஸ்குசி ஆகியோருக்கு நன்றி தெரிவிக்க விரும்புகிறேன். எங்களுக்கு உதவிய Twitter மற்றும் Google இல் உள்ள பல குழுக்களின் பொறியாளர்கள் மற்றும் மேலாளர்களுக்கும் மதிப்புமிக்க கருத்துக்களை வழங்கிய Twitter இல் BigQuery பயனர்களுக்கும் நன்றி தெரிவிக்க விரும்புகிறேன்.

இந்தச் சிக்கல்களைச் சமாளிக்க நீங்கள் ஆர்வமாக இருந்தால், எங்களுடையதைப் பார்க்கவும் காலியிடங்கள் டேட்டா பிளாட்ஃபார்ம் குழுவில்.

DWH இல் தரவுத் தரம் - தரவுக் கிடங்கு நிலைத்தன்மை

ஆதாரம்: www.habr.com

கருத்தைச் சேர்