Google හි BigQuery දත්ත විශ්ලේෂණය ප්‍රජාතන්ත්‍රීකරණය කළ ආකාරය. 2 කොටස

හේයි හබ්ර්! නව පාඨමාලා ප්‍රවාහයක් සඳහා ලියාපදිංචි වීම දැන් OTUS හි විවෘතයි දත්ත ඉංජිනේරු. පාඨමාලාවේ ආරම්භය අපේක්ෂාවෙන්, අපි දිගටම ඔබ සමඟ ප්රයෝජනවත් ද්රව්ය බෙදා ගන්නෙමු.

පළමු කොටස කියවන්න

Google හි BigQuery දත්ත විශ්ලේෂණය ප්‍රජාතන්ත්‍රීකරණය කළ ආකාරය. 2 කොටස

දත්ත කළමනාකරණය

ශක්තිමත් දත්ත පාලනය යනු ට්විටර් ඉංජිනේරු විද්‍යාවේ මූලික මූලධර්මයකි. අපි BigQuery අපගේ වේදිකාවට ක්‍රියාත්මක කරන විට, අපි දත්ත සොයා ගැනීම, ප්‍රවේශ පාලනය, ආරක්ෂාව සහ පෞද්ගලිකත්වය කෙරෙහි අවධානය යොමු කරමු.

දත්ත සොයා ගැනීමට සහ කළමනාකරණය කිරීමට, අපි අපගේ දත්ත ප්‍රවේශ ස්තරය පුළුල් කර ඇත DAL) අපගේ පරිශීලකයින් සඳහා තනි අතුරු මුහුණතක් සහ API සැපයීම, පරිශ්‍රයේ සහ Google Cloud දත්ත යන දෙකටම මෙවලම් සැපයීමට. ගූගල් ලෙස දත්ත නාමාවලිය සාමාන්‍ය ලබා ගැනීමේ හැකියාව කරා ගමන් කරයි, තීරු සෙවීම වැනි විශේෂාංග සමඟ පරිශීලකයින්ට ලබා දීම සඳහා අපි එය අපගේ ව්‍යාපෘතිවලට ඇතුළත් කරන්නෙමු.

BigQuery දත්ත හුවමාරු කර ගැනීම සහ ප්‍රවේශ වීම පහසු කරයි, නමුත් දත්ත පිටකිරීම වැලැක්වීම සඳහා අපට මෙය පාලනය කිරීමට අවශ්‍ය විය. වෙනත් මෙවලම් අතර, අපි කාර්යයන් දෙකක් තෝරා ගත්තෙමු:

  • වසම සීමා කළ බෙදාගැනීම: Twitter වෙතින් පිටත පරිශීලකයන් සමඟ BigQuery දත්ත කට්ටල බෙදාගැනීමෙන් පරිශීලකයන් වැළැක්වීමට බීටා විශේෂාංගය.
  • VPC සේවා පාලනය: දත්ත පිටකිරීම වළක්වන පාලනයක් සහ දන්නා IP ලිපින පරාසයන්ගෙන් BigQuery වෙත ප්‍රවේශ වීමට පරිශීලකයින්ට අවශ්‍ය වේ.

අපි ආරක්ෂාව සඳහා සත්‍යාපනය, අවසරය සහ විගණන (AAA) අවශ්‍යතා පහත පරිදි ක්‍රියාත්මක කර ඇත:

  • සත්‍යාපනය: අපි තාවකාලික ඉල්ලීම් සඳහා GCP පරිශීලක ගිණුම් සහ නිෂ්පාදන ඉල්ලීම් සඳහා සේවා ගිණුම් භාවිත කළෙමු.
  • අවසරය: අපට සෑම දත්ත කට්ටලයක්ම හිමිකරු සේවා ගිණුමක් සහ පාඨක කණ්ඩායමක් තිබීම අවශ්‍ය විය.
  • විගණනය: අපි පහසු විශ්ලේෂණය සඳහා සවිස්තරාත්මක විමසුම් ක්‍රියාත්මක කිරීමේ තොරතුරු අඩංගු BigQuery stackdriver ලොග, BigQuery දත්ත කට්ටලයකට නිර්යාත කළෙමු.

Twitter පරිශීලකයින්ගේ පුද්ගලික දත්ත නිසි ලෙස හසුරුවන බව සහතික කිරීම සඳහා, අපි සියලුම BigQuery දත්ත කට්ටල ලියාපදිංචි කිරීම, පුද්ගලික දත්ත සටහන් කිරීම, නිසි ආචයනය පවත්වා ගැනීම සහ පරිශීලකයින් විසින් මකා දැමූ දත්ත මකා දැමීම (සීරීමට) කළ යුතුය.

අපි ගූගල් බැලුවා Cloud Data Loss Prevention API, සංවේදී දත්ත වර්ග කිරීමට සහ සංස්කරණය කිරීමට යන්ත්‍ර ඉගෙනීම භාවිතා කරන නමුත් නිරවද්‍යතාවය හේතුවෙන් දත්ත කට්ටලය අතින් සටහන් කිරීමට පක්ෂව තීරණය කර ඇත. අභිරුචි විවරණ වැඩි කිරීමට අපි Data Loss Prevention API භාවිතා කිරීමට සැලසුම් කරමු.

Twitter හි, අපි BigQuery හි දත්ත කට්ටල සඳහා රහස්‍යතා ප්‍රවර්ග හතරක් නිර්මාණය කර ඇත, මෙහි සංවේදීතාවයේ අවරෝහණ අනුපිළිවෙලට ලැයිස්තුගත කර ඇත:

  • ඉතා සංවේදී දත්ත කට්ටල අවම වරප්‍රසාද මූලධර්මය මත පදනම්ව අවශ්‍ය පදනම මත ලබා දෙනු ලැබේ. සෑම දත්ත කට්ටලයකටම වෙනම පාඨක කණ්ඩායමක් සිටින අතර, අපි තනි ගිණුම් මගින් භාවිතය නිරීක්ෂණය කරන්නෙමු.
  • මධ්‍යම සංවේදිතා දත්ත කට්ටල (ලුණු දැමූ හැෂිං භාවිතා කරන එක්-මාර්ග ව්‍යාජ නාමයන්) පුද්ගලිකව හඳුනාගත හැකි තොරතුරු (PII) අඩංගු නොවන අතර විශාල සේවක පිරිසකට ප්‍රවේශ විය හැක. මෙය රහස්‍යතා ගැටළු සහ දත්ත ප්‍රයෝජනය අතර හොඳ සමතුලිතතාවයකි. සැබෑ පරිශීලකයින් කවුරුන්ද යන්න නොදැන, විශේෂාංගයක් භාවිතා කළ පරිශීලකයින් සංඛ්‍යාව ගණනය කිරීම වැනි විශ්ලේෂණ කාර්යයන් කිරීමට සේවකයින්ට මෙය ඉඩ දෙයි.
  • සියලුම පරිශීලක හඳුනාගැනීමේ තොරතුරු සහිත අඩු සංවේදී දත්ත කට්ටල. මෙය පුද්ගලිකත්ව දෘෂ්ටිකෝණයකින් හොඳ ප්‍රවේශයක් වන නමුත් පරිශීලක මට්ටමේ විශ්ලේෂණය සඳහා භාවිතා කළ නොහැක.
  • පොදු දත්ත කට්ටල (Twitter වලින් පිටත නිකුත් කරන ලද) සියලුම Twitter සේවකයින්ට ලබා ගත හැක.

ලොග් වීම සම්බන්ධයෙන්, අපි BigQuery දත්ත කට්ටල ගණන් කිරීමට සහ ඒවා දත්ත ප්‍රවේශ ස්තරය සමඟ ලියාපදිංචි කිරීමට නියමිත කාර්යයන් භාවිතා කළෙමු (DAL), Twitter පාරදත්ත ගබඩාව. පරිශීලකයන් පුද්ගලිකත්ව තොරතුරු සමඟ දත්ත කට්ටල විවරණය කරන අතර රඳවා ගැනීමේ කාල සීමාවක් ද නියම කරයි. පිරිසිදු කිරීම සඳහා, අපි විකල්ප දෙකක කාර්ය සාධනය සහ පිරිවැය ඇගයීමට ලක් කරමු: 1. Scalding වැනි මෙවලම් භාවිතයෙන් GCS හි දත්ත කට්ටල පිරිසිදු කිරීම සහ ඒවා BigQuery වෙත පැටවීම; 2. BigQuery DML ප්‍රකාශ භාවිතා කරමින්. විවිධ කණ්ඩායම්වල සහ දත්තවල අවශ්‍යතා සපුරාලීම සඳහා අපි ක්‍රම දෙකේම එකතුවක් භාවිතා කරනු ඇත.

පද්ධතියේ ක්රියාකාරිත්වය

BigQuery කළමනාකරණය කළ සේවාවක් නිසා, පද්ධති කළමනාකරණය හෝ මේස රාජකාරි සඳහා Twitter හි SRE කණ්ඩායම සම්බන්ධ කර ගැනීමට අවශ්‍ය නොවීය. ගබඩා කිරීම සහ පරිගණනය යන දෙකටම වැඩි ධාරිතාවක් සැපයීම පහසු විය. Google සහාය ඇතිව ටිකට් පතක් සෑදීමෙන් අපට තව් වෙන්කිරීම වෙනස් කළ හැක. අපි ස්වයං-සේවා තව් වෙන් කිරීම සහ අධීක්ෂණය සඳහා උපකරණ පුවරු වැඩිදියුණු කිරීම් වැනි වැඩිදියුණු කළ හැකි ක්ෂේත්‍ර හඳුනාගෙන එම ඉල්ලීම් Google වෙත ඉදිරිපත් කළෙමු.

පිරිවැය

අපගේ මූලික විශ්ලේෂණය පෙන්නුම් කළේ BigQuery සහ Presto සඳහා විමසුම් පිරිවැය එකම මට්ටමක පවතින බවයි. සඳහා අපි තව් මිලදී ගත්තා ස්ථාවර ගෙවීම වෙනුවට ස්ථාවර මාසික පිරිවැයක් තිබීම සඳහා මිල ඉල්ලුම මත සැකසූ දත්තවල TB එකකට. මෙම තීරණය ද එක් එක් ඉල්ලීම කිරීමට පෙර පිරිවැය ගැන සිතීමට අකමැති පරිශීලකයින්ගේ ප්‍රතිපෝෂණ මත පදනම් විය.

BigQuery හි දත්ත ගබඩා කිරීම GCS පිරිවැයට අමතරව වියදම් ගෙන ආවේය. Scalding වැනි මෙවලම් සඳහා GCS හි දත්ත කට්ටල අවශ්‍ය වන අතර, BigQuery වෙත ප්‍රවේශ වීමට අපට එම දත්ත කට්ටල BigQuery ආකෘතියට පූරණය කිරීමට සිදු විය. ධාරිත්රකය. අපි GCS සහ BigQuery යන දෙකෙහිම දත්ත කට්ටල ගබඩා කිරීමේ අවශ්‍යතාවය ඉවත් කරන BigQuery දත්ත කට්ටල වෙත Scalding සම්බන්ධතාවයක් මත වැඩ කරමින් සිටිමු.

පෙටාබයිට් දස ගනනක කලාතුරකින් විමසීම් අවශ්‍ය වන දුර්ලභ අවස්ථා සඳහා, අපි BigQuery හි දත්ත කට්ටල ගබඩා කිරීම ලාභදායී නොවන බව තීරණය කළ අතර GCS හි දත්ත කට්ටලවලට සෘජුවම ප්‍රවේශ වීමට Presto භාවිතා කළෙමු. මෙය සිදු කිරීම සඳහා, අපි BigQuery බාහිර දත්ත මූලාශ්‍ර දෙස බලමින් සිටිමු.

ඊළඟ පියවර

ඇල්ෆා නිකුතුවේ සිට අපි BigQuery ගැන බොහෝ උනන්දුවක් දක්වමු. අපි BigQuery වෙත තවත් දත්ත කට්ටල සහ තවත් විධාන එක් කරමින් සිටිමු. අපි BigQuery ගබඩාව කියවීමට සහ ලිවීමට Scalding වැනි දත්ත විශ්ලේෂණ මෙවලම් සඳහා සම්බන්ධක සංවර්ධනය කරන්නෙමු. අපි BigQuery දත්ත කට්ටල භාවිතයෙන් ව්‍යවසාය තත්ත්ව වාර්තා සහ සටහන් නිර්මාණය කිරීම සඳහා Looker සහ Apache Zeppelin වැනි මෙවලම් දෙස බලමින් සිටිමු.

Google සමඟ අපගේ සහයෝගීතාවය ඉතා ඵලදායී වන අතර මෙම හවුල්කාරිත්වය දිගටම කරගෙන යාමට සහ වර්ධනය කිරීමට අපි සතුටු වෙමු. අපි අපේම ක්‍රියාවට නැංවීමට Google සමඟ වැඩ කළෙමු හවුල්කාර නිකුතු ට්රැකර්Google වෙත සෘජුවම විමසුම් යැවීමට. BigQuery Parquet loader වැනි ඒවායින් සමහරක් දැනටමත් Google විසින් ක්‍රියාත්මක කර ඇත.

Google සඳහා අපගේ ඉහළ ප්‍රමුඛතා විශේෂාංග ඉල්ලීම් කිහිපයක් මෙන්න:

  • පහසු දත්ත ලබා ගැනීම සඳහා මෙවලම් සහ LZO-Thrift ආකෘතිය සඳහා සහාය.
  • පැයකට බෙදීම
  • වගු, පේළි, සහ තීරු මට්ටමේ අවසර වැනි ප්‍රවේශ පාලන වැඩිදියුණු කිරීම්.
  • විශාල විමසුම බාහිර දත්ත මූලාශ්ර Hive Metastore ඒකාබද්ධ කිරීම සහ LZO-Thrift ආකෘතිය සඳහා සහාය.
  • BigQuery පරිශීලක අතුරුමුහුණත තුළ වැඩිදියුණු කළ දත්ත නාමාවලිය ඒකාබද්ධ කිරීම
  • තව් වෙන් කිරීම සහ අධීක්ෂණය සඳහා ස්වයං සේවා.

නිගමනය

දත්ත විශ්ලේෂණ, දෘශ්‍යකරණය සහ යන්ත්‍ර ඉගෙනීම ආරක්‍ෂිත ආකාරයෙන් ප්‍රජාතන්ත්‍රීකරණය කිරීම Data Platform කණ්ඩායම සඳහා ප්‍රමුඛතාවයකි. අපි Google BigQuery සහ Data Studio මෙම ඉලක්කය සපුරා ගැනීමට උපකාරී වන මෙවලම් ලෙස හඳුනාගෙන පසුගිය වසරේ BigQuery Alpha සමාගම පුරා නිකුත් කළෙමු.

අපි BigQuery හි විමසුම් සරල සහ කාර්යක්ෂම බව සොයා ගත්තෙමු. සරල නල මාර්ග සඳහා දත්ත ලබා ගැනීමට සහ පරිවර්තනය කිරීමට අපි Google මෙවලම් භාවිතා කළ නමුත් සංකීර්ණ නල මාර්ග සඳහා අපට අපගේම වායු ප්‍රවාහ රාමුවක් ගොඩනගා ගැනීමට සිදු විය. දත්ත කළමනාකරණ අවකාශය තුළ, සත්‍යාපනය, අවසරය සහ විගණනය සඳහා වන BigQuery සේවාවන් අපගේ අවශ්‍යතා සපුරාලයි. පාර-දත්ත කළමනාකරණය කිරීමට සහ පෞද්ගලිකත්වය පවත්වා ගැනීමට, අපට වඩාත් නම්‍යශීලී බවක් අවශ්‍ය වූ අතර අපගේම පද්ධති ගොඩනගා ගැනීමට සිදු විය. BigQuery, කළමනාකරණය කළ සේවාවක් වීම, භාවිතා කිරීමට පහසු විය. විමසුම් පිරිවැය පවතින මෙවලම් වලට සමාන විය. BigQuery හි දත්ත ගබඩා කිරීම GCS පිරිවැයට අමතරව වියදම් දරයි.

සමස්තයක් වශයෙන්, BigQuery සාමාන්‍ය SQL විශ්ලේෂණය සඳහා හොඳින් ක්‍රියා කරයි. අපි BigQuery ගැන බොහෝ උනන්දුවක් දකිමින් සිටින අතර, අපි තවත් දත්ත කට්ටල සංක්‍රමණය කිරීමට, තවත් කණ්ඩායම් ගෙන ඒමට සහ BigQuery සමඟ තවත් නල මාර්ග ගොඩනැගීමට කටයුතු කරමින් සිටිමු. Twitter Scalding, Spark, Presto සහ Druid වැනි මෙවලම් එකතුවක් අවශ්‍ය වන විවිධ දත්ත භාවිතා කරයි. අපගේ දත්ත විශ්ලේෂණ මෙවලම් ශක්තිමත් කිරීමට සහ අපගේ පිරිනැමීම් වඩාත් හොඳින් භාවිතා කරන්නේ කෙසේද යන්න පිළිබඳව අපගේ පරිශීලකයින්ට පැහැදිලි මග පෙන්වීමක් සැපයීමට අපි අදහස් කරමු.

කෘතඥතාවේ වචන

මෙම ව්‍යාපෘතිය සඳහා ඔවුන්ගේ විශාල සහයෝගීතාවය සහ වෙහෙස මහන්සි වී වැඩ කිරීම සඳහා මගේ සම-කර්තෘවරුන් සහ කණ්ඩායම් සගයන් වන Anju Jha සහ Will Pascucci හට ස්තුති කිරීමට මම කැමතියි. අපට උදව් කළ Twitter සහ Google හි කණ්ඩායම් කිහිපයක ඉංජිනේරුවන්ට සහ කළමනාකරුවන්ට සහ වටිනා ප්‍රතිපෝෂණ ලබා දුන් Twitter හි BigQuery පරිශීලකයින්ට මම ස්තූති කිරීමට ද කැමැත්තෙමි.

ඔබ මෙම ගැටළු විසඳීමට කැමති නම්, අපගේ පරීක්ෂා කරන්න පුරප්පාඩු Data Platform කණ්ඩායම තුළ.

DWH හි දත්ත ගුණාත්මකභාවය - දත්ත ගබඩා අනුකූලතාව

මූලාශ්රය: www.habr.com

අදහස් එක් කරන්න