Cloudera හි ඇති විශේෂත්වය සහ එය පිසින ආකාරය

බෙදා හරින ලද පරිගණක සහ විශාල දත්ත සඳහා වෙළඳපොළ, අනුව සංඛ්‍යාලේඛන, වසරකට 18-19% කින් වර්ධනය වේ. මෙයින් අදහස් කරන්නේ මෙම අරමුණු සඳහා මෘදුකාංග තෝරා ගැනීමේ ගැටළුව අදාළ වන බවයි. මෙම ලිපියෙන්, අපට බෙදා හරින ලද පරිගණකකරණය අවශ්‍ය වන්නේ මන්දැයි අපි ආරම්භ කරමු, මෘදුකාංග තේරීම පිළිබඳව අපි වඩාත් විස්තරාත්මකව වාසය කරමු, අපි ක්ලවුඩරා සමඟ Hadoop භාවිතා කිරීම ගැන කතා කරමු, අවසානයේ අපි දෘඩාංග තේරීම සහ එය කාර්ය සාධනයට බලපාන ආකාරය ගැන කතා කරමු. විවිධ ආකාරවලින්.

Cloudera හි ඇති විශේෂත්වය සහ එය පිසින ආකාරය
සාමාන්‍ය ව්‍යාපාරයකදී අපට බෙදා හරින ලද පරිගණක අවශ්‍ය වන්නේ ඇයි? සෑම දෙයක්ම එකවරම සරල හා සංකීර්ණ වේ. සරලයි - බොහෝ අවස්ථාවලදී අපි තොරතුරු ඒකකයකට සාපේක්ෂව සරල ගණනය කිරීම් සිදු කරන බැවිනි. දුෂ්කර - එවැනි තොරතුරු ගොඩක් ඇති නිසා. බොහෝ. ප්රතිවිපාකයක් ලෙස, කෙනෙකුට සිදු වේ නූල් 1000කින් ටෙරාබයිට් දත්ත සකසන්න. මේ අනුව, භාවිත අවස්ථා බෙහෙවින් විශ්වීය ය: ඊටත් වඩා විශාල දත්ත අරාවක ප්‍රමිතික විශාල සංඛ්‍යාවක් සැලකිල්ලට ගැනීමට අවශ්‍ය ඕනෑම තැනක ගණනය කිරීම් යෙදිය හැකිය.

එක් මෑත උදාහරණයක්: ඩෝඩෝ පීසා අර්ථ දක්වා ඇත පාරිභෝගික ඇණවුම් පදනමේ විශ්ලේෂණයක් මත පදනම්ව, අත්තනෝමතික ටොපිං සහිත පීසා තෝරාගැනීමේදී, පරිශීලකයන් සාමාන්‍යයෙන් ක්‍රියාත්මක වන්නේ මූලික අමුද්‍රව්‍ය කට්ටල හයක් සහ අහඹු ඒවා කිහිපයක් සමඟ පමණි. ඒ අනුව, pizzeria විසින් මිලදී ගැනීම් සකස් කරන ලදී. ඊට අමතරව, ඇණවුම් අදියරේදී පිරිනමන අතිරේක නිෂ්පාදන පරිශීලකයින්ට වඩා හොඳින් නිර්දේශ කිරීමට එය සමත් වූ අතර එමඟින් ලාභය වැඩි විය.

තවත් උදාහරණයක්: විශ්ලේෂණය විකුණුම් මට්ටම පවත්වා ගනිමින් තනි වෙළඳසැල්වල එකතුව 40% කින් අඩු කිරීමට H&M හට වෙළඳ භාණ්ඩ ඉඩ ලබා දුන්නේය. දුර්වල ලෙස අලෙවි වන ස්ථාන බැහැර කිරීමෙන් මෙය සාක්ෂාත් කර ගත් අතර, ගණනය කිරීම් වලදී සෘතුමයභාවය සැලකිල්ලට ගන්නා ලදී.

මෙවලම් තේරීම

මේ ආකාරයේ පරිගණකකරණය සඳහා කර්මාන්ත ප්‍රමිතිය Hadoop වේ. ඇයි? Hadoop යනු විශිෂ්ට, හොඳින් ලේඛනගත රාමුවක් වන නිසා (එම Habr මෙම මාතෘකාව පිළිබඳ සවිස්තරාත්මක ලිපි රාශියක් ඉදිරිපත් කරයි), එය සම්පූර්ණ උපයෝගිතා සහ පුස්තකාල සමූහයක් සමඟ ඇත. ඔබට ව්‍යුහගත සහ ව්‍යුහගත නොවන දත්ත විශාල කට්ටල ආදානය ලෙස ඉදිරිපත් කළ හැකි අතර, පද්ධතිය විසින්ම ඒවා පරිගණක බලය අතර බෙදා හරිනු ඇත. එපමනක් නොව, මෙම එකම ධාරිතා ඕනෑම වේලාවක වැඩි කිරීමට හෝ අක්‍රිය කිරීමට හැකිය - ක්‍රියාත්මක වන එකම තිරස් පරිමාණය.

2017 දී, බලගතු උපදේශන සමාගම ගාට්නර් නිගමනය කළාHadoop ඉක්මනින්ම යල්පැන යන බව. හේතුව තරමක් අශෝභන ය: විශ්ලේෂකයින් විශ්වාස කරන්නේ සමාගම් විශාල වශයෙන් වලාකුළට සංක්‍රමණය වනු ඇති බවයි, මන්ද එහිදී ඔවුන්ට පරිගණක බලය භාවිතා කිරීම මත පදනම්ව ගෙවීමට හැකි වනු ඇත. Hadoop "වැළලීමට" හැකි යැයි කියනු ලබන දෙවන වැදගත් සාධකය වන්නේ කාර්යයේ වේගයයි. Apache Spark හෝ Google Cloud DataFlow වැනි විකල්ප MapReduce යටින් පවතින Hadoop වලට වඩා වේගවත් නිසා.

Hadoop කුළුණු කිහිපයක් මත රැඳී ඇති අතර, ඒවායින් වඩාත් කැපී පෙනෙන වන්නේ MapReduce තාක්ෂණයන් (සේවාදායක අතර ගණනය කිරීම් සඳහා දත්ත බෙදා හැරීමේ පද්ධතියකි) සහ HDFS ගොනු පද්ධතියයි. දෙවැන්න විශේෂයෙන් නිර්මාණය කර ඇත්තේ පොකුරු නෝඩ් අතර බෙදා හරින ලද තොරතුරු ගබඩා කිරීම සඳහා ය: ස්ථාවර ප්‍රමාණයේ සෑම බ්ලොක් එකක්ම නෝඩ් කිහිපයක් මත තැබිය හැකි අතර, අනුකරණයට ස්තූතිවන්ත වන අතර, පද්ධතිය තනි නෝඩ් වල අසාර්ථකත්වයට ප්‍රතිරෝධී වේ. ගොනු වගුවක් වෙනුවට, NameNode නමින් විශේෂ සේවාදායකයක් භාවිතා වේ.

MapReduce ක්‍රියා කරන ආකාරය පහත නිදර්ශනය පෙන්වයි. පළමු අදියරේදී, දත්ත යම් ගුණාංගයකට අනුව බෙදී ඇත, දෙවන අදියරේදී එය පරිගණක බලයෙන් බෙදා හරිනු ලැබේ, තෙවන අදියරේදී ගණනය කිරීම සිදු වේ.

Cloudera හි ඇති විශේෂත්වය සහ එය පිසින ආකාරය
MapReduce මුලින්ම Google විසින් එහි සෙවුම් අවශ්‍යතා සඳහා නිර්මාණය කරන ලදී. පසුව MapReduce නිදහස් කේතයට ගිය අතර Apache ව්‍යාපෘතිය භාර ගත්තේය. හොඳයි, ගූගල් ක්‍රමයෙන් වෙනත් විසඳුම් වෙත සංක්‍රමණය විය. සිත්ගන්නා සුළු කරුණක්: මේ මොහොතේ, Google සතුව Google Cloud Dataflow නමින් ව්‍යාපෘතියක් ඇත, Hadoop ට පසු ඊළඟ පියවර ලෙස එහි ඉක්මන් ප්‍රතිස්ථාපනය ලෙස ස්ථානගත කර ඇත.

සමීපව බැලීමෙන් පෙනී යන්නේ Google Cloud Dataflow Apache Beam හි විචල්‍යයක් මත පදනම් වූවක් වන අතර Apache Beam හි හොඳින් ලේඛනගත කර ඇති Apache Spark රාමුව ඇතුළත් වන අතර එමඟින් විසඳුම් ක්‍රියාත්මක කිරීමේ එකම වේගය ගැන කතා කිරීමට අපට ඉඩ සලසයි. හොඳයි, Apache Spark HDFS ගොනු පද්ධතිය මත හොඳින් ක්‍රියා කරයි, එය ඔබට Hadoop සේවාදායකයන් මත යෙදවීමට ඉඩ සලසයි.

Google Cloud Dataflow වලට එරෙහිව Hadoop සහ Spark සඳහා ප්‍රලේඛන පරිමාව සහ සූදානම් කළ විසඳුම් මෙහි එක් කරන්න, එවිට මෙවලම තේරීම පැහැදිලි වේ. එපමනක් නොව, ඉංජිනේරුවන්ට තමන් විසින්ම තීරණය කළ හැක්කේ කුමන කේතය - Hadoop හෝ Spark යටතේ - ඔවුන් කාර්යය, පළපුරුද්ද සහ සුදුසුකම් කෙරෙහි අවධානය යොමු කරමින් ක්‍රියාත්මක කරන්නේද යන්නයි.

වලාකුළු හෝ දේශීය සේවාදායකය

වලාකුළට සාමාන්‍ය සංක්‍රාන්තිය දෙසට නැඹුරු වීම Hadoop-as-a-service වැනි රසවත් යෙදුමක් පවා ඇති කර ඇත. එවැනි තත්වයක් තුළ, සම්බන්ධිත සර්වර් පරිපාලනය ඉතා වැදගත් වී ඇත. මක්නිසාද යත්, අහෝ, එහි ජනප්‍රියතාවය තිබියදීත්, පිරිසිදු හැඩෝප් වින්‍යාස කිරීමට තරමක් අපහසු මෙවලමකි, මන්ද ඔබ අතින් බොහෝ දේ කළ යුතු බැවිනි. උදාහරණයක් ලෙස, ඔබට සේවාදායකයන් තනි තනිව වින්‍යාස කිරීමට, ඒවායේ ක්‍රියාකාරිත්වය නිරීක්ෂණය කිරීමට සහ බොහෝ පරාමිතීන් මනාව සකස් කිරීමට හැකිය. පොදුවේ, ආධුනිකයෙකු සඳහා වැඩ කරන අතර කොහේ හරි ඉස්කුරුප්පු කිරීමට හෝ යමක් මග හැරීමට විශාල අවස්ථාවක් තිබේ.

එබැවින්, විවිධ බෙදාහැරීම් ඉතා ජනප්රිය වී ඇති අතර, ඒවා මුලින් පහසු යෙදවීම සහ පරිපාලන මෙවලම් වලින් සමන්විත වේ. Spark සඳහා සහය දක්වන සහ දේවල් පහසු කරන වඩාත් ජනප්‍රිය බෙදාහැරීම්වලින් එකක් වන්නේ Cloudera වේ. එය ගෙවුම් සහ නිදහස් අනුවාද දෙකම ඇත - සහ අවසාන වශයෙන්, සියලු ප්රධාන ක්රියාකාරිත්වය ලබා ගත හැකි අතර, නෝඩ් ගණන සීමා නොකර.

Cloudera හි ඇති විශේෂත්වය සහ එය පිසින ආකාරය

පිහිටුවීම අතරතුර, Cloudera Manager SSH හරහා ඔබගේ සේවාදායකයන් වෙත සම්බන්ධ වනු ඇත. සිත්ගන්නා කරුණක්: ස්ථාපනය කරන විට, එය ඊනියා විසින් සිදු කළ යුතු බව සඳහන් කිරීම වඩා හොඳය පාර්සල්: විශේෂ පැකේජ, ඒ සෑම එකක්ම එකිනෙකා සමඟ වැඩ කිරීමට වින්‍යාස කර ඇති සියලුම අවශ්‍ය සංරචක අඩංගු වේ. ඇත්ත වශයෙන්ම, මෙය පැකේජ කළමනාකරුගේ වැඩිදියුණු කළ අනුවාදයකි.

ස්ථාපනය කිරීමෙන් පසු, අපට පොකුරු කළමනාකරණ කොන්සෝලයක් ලැබේ, එහිදී ඔබට පොකුරු සඳහා ටෙලිමෙට්‍රි, ස්ථාපිත සේවාවන් දැක ගත හැකි අතර, ඔබට සම්පත් එකතු කිරීමට / ඉවත් කිරීමට සහ පොකුරු වින්‍යාසය සංස්කරණය කිරීමට හැකිය.

Cloudera හි ඇති විශේෂත්වය සහ එය පිසින ආකාරය

එහි ප්‍රතිඵලයක් වශයෙන්, එම රොකට්ටුවේ කැපීම ඔබ ඉදිරියේ දිස්වන අතර, එය ඔබව BigData හි දීප්තිමත් අනාගතය වෙත ගෙන යනු ඇත. නමුත් අපි "යමු" කියන්නට පෙර, තොප්පිය යට වේගයෙන් ඉදිරියට යමු.

දෘඪාංග අවශ්යතා

ඔවුන්ගේ වෙබ් අඩවියේ, Cloudera විවිධ හැකි වින්‍යාසයන් සඳහන් කරයි. ඒවා ගොඩනඟා ඇති පොදු මූලධර්ම නිදර්ශනයේ දැක්වේ:

Cloudera හි ඇති විශේෂත්වය සහ එය පිසින ආකාරය
MapReduce හට මෙම ශුභවාදී පින්තූරය බොඳ කළ හැක. පෙර කොටසේ රූප සටහන දෙස නැවත බැලීමෙන්, සෑම අවස්ථාවකම පාහේ, MapReduce කාර්යයක් තැටියෙන් හෝ ජාලයෙන් දත්ත කියවීමේදී බාධාවක් විය හැකි බව පැහැදිලි වේ. මෙය Cloudera බ්ලොග් අඩවියේ ද සටහන් කර ඇත. එහි ප්‍රතිඵලයක් වශයෙන්, තත්‍ය කාලීන ගණනය කිරීම් සඳහා බොහෝ විට භාවිතා වන Spark හරහා ඇතුළුව ඕනෑම වේගවත් ගණනය කිරීම් සඳහා, I/O වේගය ඉතා වැදගත් වේ. එබැවින්, Hadoop භාවිතා කරන විට, සමතුලිත හා වේගවත් යන්ත්‍ර පොකුරට ඇතුළු වීම ඉතා වැදගත් වන අතර, එය මෘදු ලෙස කිවහොත්, සෑම විටම වලාකුළු යටිතල ව්‍යුහය තුළ සපයනු නොලැබේ.

ප්‍රබල බහු-core CPU සහිත සේවාදායකයන් මත Openstack අථත්‍යකරණය භාවිතයෙන් බර බෙදා හැරීමේ ශේෂය සාක්ෂාත් කරගනු ලැබේ. දත්ත නෝඩ් වලට ඔවුන්ගේම ප්‍රොසෙසර සම්පත් සහ ඇතැම් තැටි වෙන් කර ඇත. අපගේ තීරණය තුළ Atos Codex දත්ත ලේක් එන්ජිම පුළුල් අථත්‍යකරණය සාක්ෂාත් කරගනු ලැබේ, එබැවින් අපි කාර්ය සාධනය අනුව (ජාල යටිතල ව්‍යුහයේ බලපෑම අවම වේ) සහ TCO (අතිරේක භෞතික සේවාදායකයන් ඉවත් කරනු ලැබේ) යන දෙකම ජය ගනී.

Cloudera හි ඇති විශේෂත්වය සහ එය පිසින ආකාරය
BullSequana S200 සේවාදායකයන් භාවිතා කිරීමේදී, සමහර බාධක වලින් තොර ඉතා ඒකාකාරී බරක් අපට ලැබේ. අවම වින්‍යාසයට BullSequana S3 සේවාදායකයන් 200ක් ඇතුළත් වන අතර, ඒ සෑම එකක්ම JBOD දෙකකින් සමන්විත වන අතර දත්ත නෝඩ් හතරක් අඩංගු අමතර S200s විකල්ප වශයෙන් සම්බන්ධ කර ඇත. මෙන්න TeraGen පරීක්ෂණයක ආදර්ශ පැටවීමක්:

Cloudera හි ඇති විශේෂත්වය සහ එය පිසින ආකාරය

විවිධ දත්ත පරිමාවන් සහ අනුකරණ අගයන් සහිත පරීක්ෂණ පොකුරු නෝඩ් හරහා බර බෙදා හැරීම සම්බන්ධයෙන් එකම ප්‍රතිඵල පෙන්වයි. කාර්ය සාධන පරීක්ෂණ මගින් තැටි ප්‍රවේශය බෙදා හැරීමේ ප්‍රස්ථාරයක් පහත දැක්වේ.

Cloudera හි ඇති විශේෂත්වය සහ එය පිසින ආකාරය

ගණනය කිරීම් BullSequana S3 සේවාදායකයන් 200 ක අවම වින්‍යාසයක් මත පදනම් වේ. එයට දත්ත නෝඩ් 9 ක් සහ ප්‍රධාන නෝඩ් 3 ක් මෙන්ම OpenStack Virtualization මත පදනම්ව ආරක්ෂාව යෙදවීමේදී වෙන් කර ඇති අතථ්‍ය යන්ත්‍ර ඇතුළත් වේ. TeraSort පරීක්ෂණ ප්‍රතිඵලය: සංකේතනය සහිත තුනක අනුකරණ සාධකයක 512 MB වාරණ ප්‍රමාණය විනාඩි 23,1 කි.

පද්ධතිය පුළුල් කළ හැක්කේ කෙසේද? Data Lake එන්ජිම සඳහා විවිධ ආකාරයේ දිගු තිබේ:

  • දත්ත නෝඩ්: භාවිතා කළ හැකි සෑම TB 40කටම
  • GPU ස්ථාපනය කිරීමේ හැකියාව ඇති විශ්ලේෂණ නෝඩ්
  • ව්‍යාපාරික අවශ්‍යතා මත පදනම්ව වෙනත් විකල්ප (උදාහරණයක් ලෙස, ඔබට කෆ්කා සහ එවැනි දේ අවශ්‍ය නම්)

Cloudera හි ඇති විශේෂත්වය සහ එය පිසින ආකාරය

Atos Codex Data Lake Engine සංකීර්ණයට බලපත්‍රයක් සහිත Cloudera කට්ටලය ඇතුළුව සේවාදායකයන් සහ පෙර-ස්ථාපිත මෘදුකාංග යන දෙකම ඇතුළත් වේ; Hadoop විසින්ම, RedHat Enterprise Linux කර්නලය මත පදනම් වූ අතථ්‍ය යන්ත්‍ර සමඟ OpenStack, දත්ත අනුකරණය සහ උපස්ථ පද්ධති (බැකප් නෝඩයක් භාවිතා කිරීම සහ Cloudera BDR - උපස්ථ සහ ආපදා ප්‍රතිසාධනය ඇතුළුව). Atos Codex Data Lake Engine යනු සහතික කළ පළමු අථත්‍යකරණ විසඳුමයි ක්ලවුඩරා.

ඔබ විස්තර ගැන උනන්දුවක් දක්වන්නේ නම්, අදහස් දැක්වීමේදී අපගේ ප්රශ්නවලට පිළිතුරු දීමට අපි සතුටු වන්නෙමු.

මූලාශ්රය: www.habr.com

අදහස් එක් කරන්න