ስለ Cloudera ልዩ የሆነው እና እንዴት ማብሰል እንደሚቻል

የተከፋፈለው የኮምፒዩተር እና ትልቅ ዳታ ገበያው, እንደ ስታቲስቲክስበዓመት ከ18-19% እያደገ ነው። ይህ ማለት ለእነዚህ አላማዎች ሶፍትዌሮችን የመምረጥ ጉዳይ አሁንም ጠቃሚ ነው. በዚህ ልኡክ ጽሁፍ ለምን የተከፋፈለ ኮምፒውቲንግ እንደሚያስፈልግ እንጀምራለን፡ ስለ ሶፍትዌር ስለመምረጥ በበለጠ ዝርዝር ውስጥ እንገባለን፡ ክሎሬራ በመጠቀም ሃዱፕን ስለመጠቀም እንነጋገራለን እና በመጨረሻም ሃርድዌር ስለመምረጥ እና አፈፃፀሙን በተለያዩ መንገዶች እንዴት እንደሚጎዳ እንነጋገራለን።

ስለ Cloudera ልዩ የሆነው እና እንዴት ማብሰል እንደሚቻል
በመደበኛ ንግድ ውስጥ የተከፋፈለ ስሌት ለምን ያስፈልጋል? እዚህ ሁሉም ነገር ቀላል እና በተመሳሳይ ጊዜ የተወሳሰበ ነው. ቀላል - ምክንያቱም በአብዛኛዎቹ ሁኔታዎች በአንጻራዊነት ቀላል ስሌቶችን በአንድ የመረጃ ክፍል እናከናውናለን. በጣም ብዙ እንደዚህ ያሉ መረጃዎች ስላሉት አስቸጋሪ ነው. በጣም ብዙ. በውጤቱም, አስፈላጊ ነው በ 1000 ክሮች ውስጥ ቴራባይት መረጃን ማካሄድ. ስለዚህ የአጠቃቀም ጉዳዮች በጣም ዓለም አቀፋዊ ናቸው-ስሌቶች የበለጠ ትልቅ በሆነ የውሂብ ስብስብ ላይ ብዙ ልኬቶችን ግምት ውስጥ ማስገባት አስፈላጊ በሚሆንበት ቦታ ሁሉ ጥቅም ላይ ሊውሉ ይችላሉ።

ከቅርብ ጊዜ ምሳሌዎች አንዱ: የፒዛሪያ ሰንሰለት ዶዶ ፒዛ ተገልጿል በደንበኛ ማዘዣ ዳታቤዝ ትንተና ላይ በመመስረት፣ ፒዛን በዘፈቀደ መሙላት ሲመርጡ ተጠቃሚዎች ብዙውን ጊዜ የሚሰሩት በስድስት መሰረታዊ ንጥረ ነገሮች ስብስብ እና በዘፈቀደ ጥንድ ብቻ ነው። በዚህ መሠረት ፒዜሪያ ግዢውን አስተካክሏል. በተጨማሪም, በትዕዛዝ ደረጃ ላይ ለተጠቃሚዎች የሚቀርቡ ተጨማሪ ምርቶችን በተሻለ ሁኔታ ለመምከር ችላለች, ይህም ትርፍ ጨምሯል.

ሌላ ምሳሌ ትንታኔ የምርት እቃዎች የH&M ማከማቻ የሽያጭ ደረጃዎችን በሚጠብቅበት ጊዜ በግለሰብ መደብሮች ውስጥ ያለውን ልዩነት በ40% እንዲቀንስ ፈቅደዋል። ይህ የተገኘው በደንብ የማይሸጡ ዕቃዎችን በማግለል ነው, እና ወቅታዊነት በስሌቶቹ ውስጥ ግምት ውስጥ ገብቷል.

የመሳሪያ ምርጫ

የዚህ ዓይነቱ ስሌት የኢንዱስትሪ ደረጃ ሃዱፕ ነው። ለምን? ምክንያቱም ሃዱፕ እጅግ በጣም ጥሩ ፣ በደንብ የተመዘገበ ማዕቀፍ ነው (ተመሳሳይ ሀብር በዚህ ርዕስ ላይ ብዙ ዝርዝር ጽሁፎችን ይሰጣል) ፣ እሱም ከአጠቃላይ መገልገያዎች እና ቤተ-መጻሕፍት ጋር አብሮ ይመጣል። የሁለቱም የተዋቀሩ እና ያልተዋቀሩ ግዙፍ ስብስቦችን ማስገባት ይችላሉ, እና ስርዓቱ እራሱ በኮምፒዩተር ሃይል መካከል ያሰራጫል. ከዚህም በላይ እነዚህ ተመሳሳይ ችሎታዎች በማንኛውም ጊዜ ሊጨመሩ ወይም ሊሰናከሉ ይችላሉ - በድርጊት ውስጥ ተመሳሳይ አግድም መስፋፋት.

በ 2017 ተፅዕኖ ፈጣሪ አማካሪ ኩባንያ ጋርትነር የሚል መደምደሚያ ላይ ደርሷልHadoop በቅርቡ ጊዜ ያለፈበት ይሆናል. ምክንያቱ በጣም የተከለከለ ነው ተንታኞች ኩባንያዎች በጅምላ ወደ ደመና እንደሚሰደዱ ያምናሉ ፣ ምክንያቱም እዚያ የኮምፒዩተር ሃይልን ሲጠቀሙ መክፈል ይችላሉ። ሃዱፕ “መቅበር” ተብሎ የሚታሰበው ሁለተኛው አስፈላጊ ነገር ፍጥነቱ ነው። ምክንያቱም እንደ Apache Spark ወይም Google Cloud DataFlow ያሉ አማራጮች ከ MapReduce ፈጣን ናቸው፣ እሱም Hadoop ስር ነው።

ሃዱፕ በበርካታ ምሶሶዎች ላይ ያረፈ ሲሆን ከእነዚህም ውስጥ በጣም የሚታወቁት MapReduce ቴክኖሎጂዎች (በአገልጋዮች መካከል ያለውን ስሌት መረጃ የማሰራጨት ስርዓት) እና የኤችዲኤፍኤስ ፋይል ስርዓት ናቸው። የኋለኛው በልዩ ሁኔታ በክላስተር አንጓዎች መካከል የተሰራጨውን መረጃ ለማከማቸት የተነደፈ ነው-እያንዳንዱ ቋሚ መጠን ያለው እገዳ በበርካታ አንጓዎች ላይ ሊቀመጥ ይችላል ፣ እና ለማባዛት ምስጋና ይግባቸውና ስርዓቱ የግለሰብ አንጓዎች ውድቀቶችን የመቋቋም ችሎታ አለው። ከፋይል ሰንጠረዥ ይልቅ, NameNode የተባለ ልዩ አገልጋይ ጥቅም ላይ ይውላል.

ከታች ያለው ስእል MapReduce እንዴት እንደሚሰራ ያሳያል። በመጀመሪያ ደረጃ, መረጃው በተወሰነ መስፈርት መሰረት ይከፋፈላል, በሁለተኛው ደረጃ ደግሞ በኮምፒዩተር ሃይል መሰረት ይሰራጫል, በሶስተኛ ደረጃ ደግሞ ስሌቱ ይከናወናል.

ስለ Cloudera ልዩ የሆነው እና እንዴት ማብሰል እንደሚቻል
MapReduce በመጀመሪያ ለፍለጋ ፍላጎቶቹ በGoogle የተፈጠረ ነው። ከዚያ MapReduce ነፃ ኮድ ወጣ፣ እና Apache ፕሮጀክቱን ተቆጣጠረ። ደህና፣ Google ቀስ በቀስ ወደ ሌሎች መፍትሄዎች ተሰደደ። አንድ አስደሳች ትድቢት፡ ጎግል በአሁኑ ጊዜ ጎግል ክላውድ ዳታ ፍሰት የሚባል ፕሮጀክት አለው፣ ከሃዱፕ በኋላ እንደሚቀጥለው ደረጃ የተቀመጠ፣ ለሱ ፈጣን ምትክ።

ጠጋ ብለን ስንመለከተው የጎግል ክላውድ ዳታ ፍሰት በApache Beam ልዩነት ላይ የተመሰረተ ሲሆን Apache Beam በጥሩ ሁኔታ የተመዘገበውን Apache Spark ን ያካትታል፣ ይህም ስለ ተመሳሳይ የመፍትሄዎች አፈፃፀም ፍጥነት እንድንነጋገር ያስችለናል። ደህና, Apache Spark በኤችዲኤፍኤስ ፋይል ስርዓት ላይ በትክክል ይሰራል, ይህም በሃዱፕ አገልጋዮች ላይ እንዲሰራ ያስችለዋል.

ለHadoop እና Spark እና Google Cloud Dataflow የሰነድ መጠን እና ዝግጁ የሆኑ መፍትሄዎችን እዚህ ያክሉ፣ እና የመሳሪያው ምርጫ ግልጽ ይሆናል። ከዚህም በላይ መሐንዲሶች የትኛው ኮድ - ለሃዱፕ ወይም ስፓርክ - ሥራውን, ልምድን እና ብቃቶችን በማተኮር መሮጥ እንዳለባቸው ለራሳቸው መወሰን ይችላሉ.

ደመና ወይም የአካባቢ አገልጋይ

አጠቃላይ ወደ ደመና የመሸጋገር አዝማሚያ እንደ Hadoop-as-a-አገልግሎት ያለ አስደሳች ቃል እንዲፈጠር አድርጓል። በእንደዚህ ዓይነት ሁኔታ ውስጥ የተገናኙ አገልጋዮች አስተዳደር በጣም አስፈላጊ ሆነ. ምክንያቱም ፣ ወዮ ፣ ምንም እንኳን ተወዳጅነት ቢኖረውም ፣ ብዙ በእጅ መደረግ ስላለበት ንፁህ ሃዱፕ ለማዋቀር በጣም ከባድ መሳሪያ ነው። ለምሳሌ, አገልጋዮችን በተናጥል ያዋቅሩ, አፈፃፀማቸውን ይቆጣጠሩ እና ብዙ መለኪያዎችን በጥንቃቄ ያዋቅሩ. በአጠቃላይ, ስራው ለአማተር ነው እና የሆነ ቦታን ለመበከል ወይም የሆነ ነገር ለማጣት ትልቅ እድል አለ.

ስለዚህ, የተለያዩ ማከፋፈያዎች, መጀመሪያ ላይ ምቹ ማሰማራት እና የአስተዳደር መሳሪያዎች የተገጠመላቸው, በጣም ተወዳጅ እየሆኑ መጥተዋል. ስፓርክን የሚደግፉ እና ሁሉንም ነገር ቀላል የሚያደርግ በጣም ታዋቂ ከሆኑ ስርጭቶች አንዱ Cloudera ነው። ሁለቱም የሚከፈልባቸው እና ነጻ ስሪቶች አሉት - እና በኋለኛው ውስጥ ሁሉም መሰረታዊ ተግባራት ይገኛሉ, የአንጓዎችን ቁጥር ሳይገድቡ.

ስለ Cloudera ልዩ የሆነው እና እንዴት ማብሰል እንደሚቻል

በማዋቀር ጊዜ፣ Cloudera Manager በSSH በኩል ከአገልጋዮችዎ ጋር ይገናኛል። አንድ አስደሳች ነጥብ: በሚጭኑበት ጊዜ, በሚባሉት መከናወኑን መግለጽ ይሻላል parsels: ልዩ ጥቅሎች, እያንዳንዳቸው እርስ በርስ እንዲሰሩ የተዋቀሩ ሁሉንም አስፈላጊ ክፍሎች ይዟል. በመሠረቱ ይህ የተሻሻለ የጥቅል አስተዳዳሪ ስሪት ነው።

ከተጫነ በኋላ ክላስተር ቴሌሜትሪ፣ የተጫኑ አገልግሎቶችን ማየት የሚችሉበት የክላስተር ማኔጅመንት ኮንሶል እንቀበላለን።

ስለ Cloudera ልዩ የሆነው እና እንዴት ማብሰል እንደሚቻል

በውጤቱም፣ ወደ ቢግ ዳታ ብሩህ የወደፊት ጊዜ የሚወስድዎት የሮኬቱ ካቢኔ ከፊት ለፊትዎ ይታያል። ነገር ግን "እንሂድ" ከማለት በፊት, ከኮፈኑ ስር እንንቀሳቀስ.

የሃርድዌር መስፈርቶች

በድር ጣቢያው ላይ፣ Cloudera የተለያዩ ሊሆኑ የሚችሉ ውቅሮችን ይጠቅሳል። እነሱ የተገነቡባቸው አጠቃላይ መርሆዎች በምሳሌው ላይ ይታያሉ-

ስለ Cloudera ልዩ የሆነው እና እንዴት ማብሰል እንደሚቻል
MapReduce ይህን ብሩህ ምስል ሊያደበዝዝ ይችላል። ካለፈው ክፍል ስዕላዊ መግለጫውን እንደገና ከተመለከቱ ፣ በሁሉም ጉዳዮች ማለት ይቻላል ፣ MapReduce ሥራ ከዲስክ ወይም ከአውታረ መረቡ ላይ መረጃ ሲያነብ ማነቆ ሊያጋጥመው እንደሚችል ግልጽ ይሆናል። ይህ በCloudera ብሎግ ውስጥም ተጠቅሷል። በውጤቱም, ለማንኛውም ፈጣን ስሌቶች, በስፓርክ በኩል ጨምሮ, ብዙውን ጊዜ ለትክክለኛ ጊዜ ስሌት ጥቅም ላይ ይውላል, የ I / O ፍጥነት በጣም አስፈላጊ ነው. ስለዚህ, Hadoop በሚጠቀሙበት ጊዜ, ክላስተር ሚዛናዊ እና ፈጣን ማሽኖችን ማካተት በጣም አስፈላጊ ነው, ይህም በመጠኑ ለመናገር, ሁልጊዜ በደመና መሠረተ ልማት ውስጥ አይረጋገጥም.

በሎድ ስርጭት ውስጥ ሚዛን የሚገኘው ኃይለኛ ባለብዙ-ኮር ሲፒዩዎች ባላቸው አገልጋዮች ላይ በ Opentack ቨርቹዋልላይዜሽን በመጠቀም ነው። የውሂብ አንጓዎች የራሳቸው ፕሮሰሰር ሃብቶች እና የተወሰኑ ዲስኮች ይመደባሉ. በእኛ ውሳኔ Atos Codex Data Lake Engine ሰፊ ቨርቹዋልላይዜሽን ተሳክቷል፣ ለዚህም ነው በአፈጻጸም ረገድ ሁለቱንም የምንጠቀመው (የኔትዎርክ መሠረተ ልማት ተጽኖው ይቀንሳል) እና በTCO (ተጨማሪ አካላዊ አገልጋዮች ይወገዳሉ)።

ስለ Cloudera ልዩ የሆነው እና እንዴት ማብሰል እንደሚቻል
BullSequana S200 አገልጋዮችን ስንጠቀም አንዳንድ ማነቆዎች የሌሉበት በጣም ወጥ የሆነ ጭነት እናገኛለን። ዝቅተኛው ውቅር 3 BullSequana S200 አገልጋዮችን ያካትታል፣ እያንዳንዳቸው ሁለት JBOD አላቸው፣ በተጨማሪም ተጨማሪ S200ዎች አራት የውሂብ ኖዶችን የያዙ እንደ አማራጭ የተገናኙ ናቸው። በ TeraGen ሙከራ ውስጥ ያለው ጭነት ምሳሌ ይኸውና፡

ስለ Cloudera ልዩ የሆነው እና እንዴት ማብሰል እንደሚቻል

የተለያዩ የውሂብ መጠኖች እና የማባዛት እሴቶች ያላቸው ሙከራዎች በክላስተር ኖዶች መካከል ካለው ጭነት ስርጭት አንፃር ተመሳሳይ ውጤቶችን ያሳያሉ። ከታች በአፈጻጸም ሙከራዎች የዲስክ መዳረሻ ስርጭት ግራፍ ነው.

ስለ Cloudera ልዩ የሆነው እና እንዴት ማብሰል እንደሚቻል

ስሌቶች የተከናወኑት በትንሹ የ3 BullSequana S200 አገልጋዮች ውቅር ላይ በመመስረት ነው። በክፍት ስታክ ቨርቹዋልላይዜሽን ላይ የተመሰረተ ጥበቃ ሲሰማራ 9 ዳታ ኖዶች እና 3 ዋና ኖዶች እንዲሁም የተያዙ ምናባዊ ማሽኖችን ያካትታል። የTeraSort የሙከራ ውጤት፡ የማገጃ መጠን 512 ሜባ የማባዛት ምክንያት ከሶስት ጋር እኩል የሆነ ምስጠራ 23,1 ደቂቃ ነው።

ስርዓቱን እንዴት ማስፋፋት ይቻላል? ለዳታ ሃይቅ ሞተር የተለያዩ አይነት ቅጥያዎች አሉ፡-

  • የውሂብ አንጓዎች፡ ለእያንዳንዱ 40 ቴባ ሊጠቅም የሚችል ቦታ
  • ጂፒዩ የመጫን ችሎታ ያለው የትንታኔ ኖዶች
  • በንግድ ፍላጎቶች ላይ በመመስረት ሌሎች አማራጮች (ለምሳሌ ካፍካ ከፈለጉ እና የመሳሰሉት)

ስለ Cloudera ልዩ የሆነው እና እንዴት ማብሰል እንደሚቻል

የ Atos Codex Data Lake Engine ሁለቱንም አገልጋዮቹን እና ቀድሞ የተጫኑ ሶፍትዌሮችን ያካትታል፣ ፈቃድ ያለው Cloudera ኪት ጨምሮ። ሃዱፕ ራሱ፣ በ RedHat Enterprise Linux kernel፣ የውሂብ ማባዛት እና የመጠባበቂያ ስርዓቶች (መጠባበቂያ መስቀለኛ መንገድ እና Cloudera BDR - Backup and Disaster Recovery መጠቀምን ጨምሮ) በቨርቹዋል ማሽኖች ክፈት። Atos Codex Data Lake Engine የተረጋገጠ የመጀመሪያው የቨርችዋል መፍትሄ ሆነ ደመና.

ለዝርዝሮች ፍላጎት ካሎት በአስተያየቶቹ ውስጥ ለጥያቄዎቻችን መልስ ለመስጠት ደስተኞች ነን.

ምንጭ: hab.com

አስተያየት ያክሉ