හේයි හබ්ර්! නව පාඨමාලා ප්රවාහයක් සඳහා ලියාපදිංචි වීම දැන් OTUS හි විවෘතයි
දත්ත කළමනාකරණය
ශක්තිමත් දත්ත පාලනය යනු ට්විටර් ඉංජිනේරු විද්යාවේ මූලික මූලධර්මයකි. අපි BigQuery අපගේ වේදිකාවට ක්රියාත්මක කරන විට, අපි දත්ත සොයා ගැනීම, ප්රවේශ පාලනය, ආරක්ෂාව සහ පෞද්ගලිකත්වය කෙරෙහි අවධානය යොමු කරමු.
දත්ත සොයා ගැනීමට සහ කළමනාකරණය කිරීමට, අපි අපගේ දත්ත ප්රවේශ ස්තරය පුළුල් කර ඇත
BigQuery දත්ත හුවමාරු කර ගැනීම සහ ප්රවේශ වීම පහසු කරයි, නමුත් දත්ත පිටකිරීම වැලැක්වීම සඳහා අපට මෙය පාලනය කිරීමට අවශ්ය විය. වෙනත් මෙවලම් අතර, අපි කාර්යයන් දෙකක් තෝරා ගත්තෙමු:
වසම සීමා කළ බෙදාගැනීම : Twitter වෙතින් පිටත පරිශීලකයන් සමඟ BigQuery දත්ත කට්ටල බෙදාගැනීමෙන් පරිශීලකයන් වැළැක්වීමට බීටා විශේෂාංගය.VPC සේවා පාලනය : දත්ත පිටකිරීම වළක්වන පාලනයක් සහ දන්නා IP ලිපින පරාසයන්ගෙන් BigQuery වෙත ප්රවේශ වීමට පරිශීලකයින්ට අවශ්ය වේ.
අපි ආරක්ෂාව සඳහා සත්යාපනය, අවසරය සහ විගණන (AAA) අවශ්යතා පහත පරිදි ක්රියාත්මක කර ඇත:
- සත්යාපනය: අපි තාවකාලික ඉල්ලීම් සඳහා GCP පරිශීලක ගිණුම් සහ නිෂ්පාදන ඉල්ලීම් සඳහා සේවා ගිණුම් භාවිත කළෙමු.
- අවසරය: අපට සෑම දත්ත කට්ටලයක්ම හිමිකරු සේවා ගිණුමක් සහ පාඨක කණ්ඩායමක් තිබීම අවශ්ය විය.
- විගණනය: අපි පහසු විශ්ලේෂණය සඳහා සවිස්තරාත්මක විමසුම් ක්රියාත්මක කිරීමේ තොරතුරු අඩංගු BigQuery stackdriver ලොග, BigQuery දත්ත කට්ටලයකට නිර්යාත කළෙමු.
Twitter පරිශීලකයින්ගේ පුද්ගලික දත්ත නිසි ලෙස හසුරුවන බව සහතික කිරීම සඳහා, අපි සියලුම BigQuery දත්ත කට්ටල ලියාපදිංචි කිරීම, පුද්ගලික දත්ත සටහන් කිරීම, නිසි ආචයනය පවත්වා ගැනීම සහ පරිශීලකයින් විසින් මකා දැමූ දත්ත මකා දැමීම (සීරීමට) කළ යුතුය.
අපි ගූගල් බැලුවා
Twitter හි, අපි BigQuery හි දත්ත කට්ටල සඳහා රහස්යතා ප්රවර්ග හතරක් නිර්මාණය කර ඇත, මෙහි සංවේදීතාවයේ අවරෝහණ අනුපිළිවෙලට ලැයිස්තුගත කර ඇත:
- ඉතා සංවේදී දත්ත කට්ටල අවම වරප්රසාද මූලධර්මය මත පදනම්ව අවශ්ය පදනම මත ලබා දෙනු ලැබේ. සෑම දත්ත කට්ටලයකටම වෙනම පාඨක කණ්ඩායමක් සිටින අතර, අපි තනි ගිණුම් මගින් භාවිතය නිරීක්ෂණය කරන්නෙමු.
- මධ්යම සංවේදිතා දත්ත කට්ටල (ලුණු දැමූ හැෂිං භාවිතා කරන එක්-මාර්ග ව්යාජ නාමයන්) පුද්ගලිකව හඳුනාගත හැකි තොරතුරු (PII) අඩංගු නොවන අතර විශාල සේවක පිරිසකට ප්රවේශ විය හැක. මෙය රහස්යතා ගැටළු සහ දත්ත ප්රයෝජනය අතර හොඳ සමතුලිතතාවයකි. සැබෑ පරිශීලකයින් කවුරුන්ද යන්න නොදැන, විශේෂාංගයක් භාවිතා කළ පරිශීලකයින් සංඛ්යාව ගණනය කිරීම වැනි විශ්ලේෂණ කාර්යයන් කිරීමට සේවකයින්ට මෙය ඉඩ දෙයි.
- සියලුම පරිශීලක හඳුනාගැනීමේ තොරතුරු සහිත අඩු සංවේදී දත්ත කට්ටල. මෙය පුද්ගලිකත්ව දෘෂ්ටිකෝණයකින් හොඳ ප්රවේශයක් වන නමුත් පරිශීලක මට්ටමේ විශ්ලේෂණය සඳහා භාවිතා කළ නොහැක.
- පොදු දත්ත කට්ටල (Twitter වලින් පිටත නිකුත් කරන ලද) සියලුම Twitter සේවකයින්ට ලබා ගත හැක.
ලොග් වීම සම්බන්ධයෙන්, අපි BigQuery දත්ත කට්ටල ගණන් කිරීමට සහ ඒවා දත්ත ප්රවේශ ස්තරය සමඟ ලියාපදිංචි කිරීමට නියමිත කාර්යයන් භාවිතා කළෙමු (
පද්ධතියේ ක්රියාකාරිත්වය
BigQuery කළමනාකරණය කළ සේවාවක් නිසා, පද්ධති කළමනාකරණය හෝ මේස රාජකාරි සඳහා Twitter හි SRE කණ්ඩායම සම්බන්ධ කර ගැනීමට අවශ්ය නොවීය. ගබඩා කිරීම සහ පරිගණනය යන දෙකටම වැඩි ධාරිතාවක් සැපයීම පහසු විය. Google සහාය ඇතිව ටිකට් පතක් සෑදීමෙන් අපට තව් වෙන්කිරීම වෙනස් කළ හැක. අපි ස්වයං-සේවා තව් වෙන් කිරීම සහ අධීක්ෂණය සඳහා උපකරණ පුවරු වැඩිදියුණු කිරීම් වැනි වැඩිදියුණු කළ හැකි ක්ෂේත්ර හඳුනාගෙන එම ඉල්ලීම් Google වෙත ඉදිරිපත් කළෙමු.
පිරිවැය
අපගේ මූලික විශ්ලේෂණය පෙන්නුම් කළේ BigQuery සහ Presto සඳහා විමසුම් පිරිවැය එකම මට්ටමක පවතින බවයි. සඳහා අපි තව් මිලදී ගත්තා
BigQuery හි දත්ත ගබඩා කිරීම GCS පිරිවැයට අමතරව වියදම් ගෙන ආවේය. Scalding වැනි මෙවලම් සඳහා GCS හි දත්ත කට්ටල අවශ්ය වන අතර, BigQuery වෙත ප්රවේශ වීමට අපට එම දත්ත කට්ටල BigQuery ආකෘතියට පූරණය කිරීමට සිදු විය.
පෙටාබයිට් දස ගනනක කලාතුරකින් විමසීම් අවශ්ය වන දුර්ලභ අවස්ථා සඳහා, අපි BigQuery හි දත්ත කට්ටල ගබඩා කිරීම ලාභදායී නොවන බව තීරණය කළ අතර GCS හි දත්ත කට්ටලවලට සෘජුවම ප්රවේශ වීමට Presto භාවිතා කළෙමු. මෙය සිදු කිරීම සඳහා, අපි BigQuery බාහිර දත්ත මූලාශ්ර දෙස බලමින් සිටිමු.
ඊළඟ පියවර
ඇල්ෆා නිකුතුවේ සිට අපි BigQuery ගැන බොහෝ උනන්දුවක් දක්වමු. අපි BigQuery වෙත තවත් දත්ත කට්ටල සහ තවත් විධාන එක් කරමින් සිටිමු. අපි BigQuery ගබඩාව කියවීමට සහ ලිවීමට Scalding වැනි දත්ත විශ්ලේෂණ මෙවලම් සඳහා සම්බන්ධක සංවර්ධනය කරන්නෙමු. අපි BigQuery දත්ත කට්ටල භාවිතයෙන් ව්යවසාය තත්ත්ව වාර්තා සහ සටහන් නිර්මාණය කිරීම සඳහා Looker සහ Apache Zeppelin වැනි මෙවලම් දෙස බලමින් සිටිමු.
Google සමඟ අපගේ සහයෝගීතාවය ඉතා ඵලදායී වන අතර මෙම හවුල්කාරිත්වය දිගටම කරගෙන යාමට සහ වර්ධනය කිරීමට අපි සතුටු වෙමු. අපි අපේම ක්රියාවට නැංවීමට Google සමඟ වැඩ කළෙමු
Google සඳහා අපගේ ඉහළ ප්රමුඛතා විශේෂාංග ඉල්ලීම් කිහිපයක් මෙන්න:
- පහසු දත්ත ලබා ගැනීම සඳහා මෙවලම් සහ LZO-Thrift ආකෘතිය සඳහා සහාය.
- පැයකට බෙදීම
- වගු, පේළි, සහ තීරු මට්ටමේ අවසර වැනි ප්රවේශ පාලන වැඩිදියුණු කිරීම්.
- විශාල විමසුම
බාහිර දත්ත මූලාශ්ර Hive Metastore ඒකාබද්ධ කිරීම සහ LZO-Thrift ආකෘතිය සඳහා සහාය. - BigQuery පරිශීලක අතුරුමුහුණත තුළ වැඩිදියුණු කළ දත්ත නාමාවලිය ඒකාබද්ධ කිරීම
- තව් වෙන් කිරීම සහ අධීක්ෂණය සඳහා ස්වයං සේවා.
නිගමනය
දත්ත විශ්ලේෂණ, දෘශ්යකරණය සහ යන්ත්ර ඉගෙනීම ආරක්ෂිත ආකාරයෙන් ප්රජාතන්ත්රීකරණය කිරීම Data Platform කණ්ඩායම සඳහා ප්රමුඛතාවයකි. අපි Google BigQuery සහ Data Studio මෙම ඉලක්කය සපුරා ගැනීමට උපකාරී වන මෙවලම් ලෙස හඳුනාගෙන පසුගිය වසරේ BigQuery Alpha සමාගම පුරා නිකුත් කළෙමු.
අපි BigQuery හි විමසුම් සරල සහ කාර්යක්ෂම බව සොයා ගත්තෙමු. සරල නල මාර්ග සඳහා දත්ත ලබා ගැනීමට සහ පරිවර්තනය කිරීමට අපි Google මෙවලම් භාවිතා කළ නමුත් සංකීර්ණ නල මාර්ග සඳහා අපට අපගේම වායු ප්රවාහ රාමුවක් ගොඩනගා ගැනීමට සිදු විය. දත්ත කළමනාකරණ අවකාශය තුළ, සත්යාපනය, අවසරය සහ විගණනය සඳහා වන BigQuery සේවාවන් අපගේ අවශ්යතා සපුරාලයි. පාර-දත්ත කළමනාකරණය කිරීමට සහ පෞද්ගලිකත්වය පවත්වා ගැනීමට, අපට වඩාත් නම්යශීලී බවක් අවශ්ය වූ අතර අපගේම පද්ධති ගොඩනගා ගැනීමට සිදු විය. BigQuery, කළමනාකරණය කළ සේවාවක් වීම, භාවිතා කිරීමට පහසු විය. විමසුම් පිරිවැය පවතින මෙවලම් වලට සමාන විය. BigQuery හි දත්ත ගබඩා කිරීම GCS පිරිවැයට අමතරව වියදම් දරයි.
සමස්තයක් වශයෙන්, BigQuery සාමාන්ය SQL විශ්ලේෂණය සඳහා හොඳින් ක්රියා කරයි. අපි BigQuery ගැන බොහෝ උනන්දුවක් දකිමින් සිටින අතර, අපි තවත් දත්ත කට්ටල සංක්රමණය කිරීමට, තවත් කණ්ඩායම් ගෙන ඒමට සහ BigQuery සමඟ තවත් නල මාර්ග ගොඩනැගීමට කටයුතු කරමින් සිටිමු. Twitter Scalding, Spark, Presto සහ Druid වැනි මෙවලම් එකතුවක් අවශ්ය වන විවිධ දත්ත භාවිතා කරයි. අපගේ දත්ත විශ්ලේෂණ මෙවලම් ශක්තිමත් කිරීමට සහ අපගේ පිරිනැමීම් වඩාත් හොඳින් භාවිතා කරන්නේ කෙසේද යන්න පිළිබඳව අපගේ පරිශීලකයින්ට පැහැදිලි මග පෙන්වීමක් සැපයීමට අපි අදහස් කරමු.
කෘතඥතාවේ වචන
මෙම ව්යාපෘතිය සඳහා ඔවුන්ගේ විශාල සහයෝගීතාවය සහ වෙහෙස මහන්සි වී වැඩ කිරීම සඳහා මගේ සම-කර්තෘවරුන් සහ කණ්ඩායම් සගයන් වන Anju Jha සහ Will Pascucci හට ස්තුති කිරීමට මම කැමතියි. අපට උදව් කළ Twitter සහ Google හි කණ්ඩායම් කිහිපයක ඉංජිනේරුවන්ට සහ කළමනාකරුවන්ට සහ වටිනා ප්රතිපෝෂණ ලබා දුන් Twitter හි BigQuery පරිශීලකයින්ට මම ස්තූති කිරීමට ද කැමැත්තෙමි.
ඔබ මෙම ගැටළු විසඳීමට කැමති නම්, අපගේ පරීක්ෂා කරන්න
මූලාශ්රය: www.habr.com