Unsa ang espesyal bahin sa Cloudera ug kung giunsa kini pagluto

Ang merkado alang sa gipang-apod-apod nga kompyuter ug dagkong datos, sumala sa estadistika, nagatubo sa 18-19% kada tuig. Kini nagpasabot nga ang isyu sa pagpili sa software alang niini nga mga katuyoan nagpabilin nga may kalabutan. Sa kini nga post, magsugod kita kung ngano nga gikinahanglan ang giapod-apod nga kompyuter, pag-adto sa dugang nga detalye bahin sa pagpili sa software, paghisgot bahin sa paggamit sa Hadoop gamit ang Cloudera, ug sa katapusan hisgutan ang bahin sa pagpili sa hardware ug kung giunsa kini makaapekto sa pasundayag sa lainlaing mga paagi.

Unsa ang espesyal bahin sa Cloudera ug kung giunsa kini pagluto
Ngano nga gikinahanglan ang distributed computing sa regular nga negosyo? Ang tanan dinhi yano ug komplikado sa samang higayon. Yano - tungod kay sa kadaghanan sa mga kaso naghimo kami medyo yano nga mga kalkulasyon matag yunit sa impormasyon. Lisud kini tungod kay adunay daghang ingon nga kasayuran. Daghan kaayo. Ingon usa ka sangputanan, kini kinahanglan pagproseso sa mga terabytes sa datos sa 1000 ka mga hilo. Sa ingon, ang mga kaso sa paggamit kay unibersal: ang mga kalkulasyon mahimong magamit bisan asa nga gikinahanglan nga tagdon ang daghang gidaghanon sa mga sukatan sa mas dako nga han-ay sa datos.

Usa sa bag-o nga mga pananglitan: ang pizzeria chain nga Dodo Pizza gihubit base sa usa ka pagtuki sa customer order database, nga sa diha nga ang pagpili sa usa ka pizza uban sa usa ka random topping, ang mga tiggamit sa kasagaran operate uban lamang sa unom ka batakang mga set sa mga sagol plus sa usa ka magtiayon nga sa mga random. Subay niini, gi-adjust sa pizzeria ang mga gipamalit niini. Dugang pa, nakahimo siya sa mas maayo nga pagrekomenda sa dugang nga mga produkto nga gitanyag sa mga tiggamit sa panahon sa pag-order nga yugto, nga nagdugang kita.

Usa pa ka pananglitan: pagtuki Ang mga butang sa produkto nagtugot sa tindahan sa H&M nga makunhuran ang assortment sa indibidwal nga mga tindahan sa 40%, samtang gipadayon ang lebel sa pagbaligya. Nakab-ot kini pinaagi sa dili pag-apil sa dili maayo nga pagbaligya sa mga butang, ug ang seasonality gikonsiderar sa mga kalkulasyon.

Pagpili sa himan

Ang sumbanan sa industriya alang sa kini nga klase sa pag-compute mao ang Hadoop. Ngano man? Tungod kay ang Hadoop usa ka maayo kaayo, maayo nga dokumentado nga balangkas (ang parehas nga Habr naghatag daghang detalyado nga mga artikulo bahin niini nga hilisgutan), nga giubanan sa usa ka tibuuk nga hugpong sa mga gamit ug librarya. Mahimo nimong i-input ang daghang mga set sa parehas nga istruktura ug dili istruktura nga datos, ug ang sistema mismo ang mag-apod-apod niini taliwala sa gahum sa pag-compute. Dugang pa, kining parehas nga mga kapasidad mahimong madugangan o ma-disable sa bisan unsang oras - kanang parehas nga pinahigda nga scalability sa aksyon.

Sa 2017, ang impluwensyal nga kompanya sa pagkonsulta nga Gartner mitaposnga ang Hadoop sa dili madugay mahimong obsolete. Ang hinungdan mao ang medyo banal: ang mga analista nagtuo nga ang mga kompanya molalin sa kadaghanan sa panganod, tungod kay didto sila makabayad samtang gigamit nila ang gahum sa pag-compute. Ang ikaduha nga hinungdanon nga hinungdan nga mahimo kuno nga "ilubong" ang Hadoop mao ang katulin niini. Tungod kay ang mga kapilian sama sa Apache Spark o Google Cloud DataFlow mas paspas kay sa MapReduce, nga nagpailalom sa Hadoop.

Ang Hadoop nagsalig sa daghang mga haligi, ang labing ilado niini mao ang mga teknolohiya sa MapReduce (usa ka sistema sa pag-apod-apod sa datos alang sa mga kalkulasyon tali sa mga server) ug ang HDFS file system. Ang naulahi espesyal nga gidisenyo alang sa pagtipig sa kasayuran nga gipang-apod-apod tali sa mga cluster node: ang matag bloke sa usa ka piho nga gidak-on mahimong ibutang sa daghang mga node, ug salamat sa pagkopya, ang sistema lig-on sa mga kapakyasan sa indibidwal nga mga node. Imbis nga usa ka file table, usa ka espesyal nga server nga gitawag NameNode ang gigamit.

Ang ilustrasyon sa ubos nagpakita kung giunsa ang MapReduce nagtrabaho. Sa una nga yugto, ang datos gibahin sumala sa usa ka piho nga sukdanan, sa ikaduha nga yugto kini giapod-apod sumala sa gahum sa pagkalkula, ug sa ikatulo nga yugto ang pagkalkula mahitabo.

Unsa ang espesyal bahin sa Cloudera ug kung giunsa kini pagluto
Ang MapReduce orihinal nga gihimo sa Google alang sa mga panginahanglanon sa pagpangita niini. Dayon ang MapReduce miadto nga libre nga code, ug gikuha sa Apache ang proyekto. Aw, anam-anam nga migrate ang Google sa ubang mga solusyon. Usa ka makapaikag nga balita: Ang Google karon adunay usa ka proyekto nga gitawag Google Cloud Dataflow, nga gipahimutang ingon sunod nga lakang pagkahuman sa Hadoop, ingon usa ka dali nga kapuli niini.

Ang mas duol nga pagtan-aw nagpakita nga ang Google Cloud Dataflow gibase sa usa ka variation sa Apache Beam, samtang ang Apache Beam naglakip sa maayo nga dokumentado nga Apache Spark nga gambalay, nga nagtugot kanato sa paghisgot mahitungod sa halos parehas nga katulin sa pagpatuman sa mga solusyon. Aw, ang Apache Spark hingpit nga nagtrabaho sa HDFS file system, nga nagtugot niini nga ma-deploy sa mga server sa Hadoop.

Idugang dinhi ang gidaghanon sa dokumentasyon ug andam nga mga solusyon alang sa Hadoop ug Spark kumpara sa Google Cloud Dataflow, ug ang pagpili sa himan mahimong klaro. Dugang pa, ang mga inhenyero mahimong magdesisyon alang sa ilang kaugalingon kung unsang code - para sa Hadoop o Spark - kinahanglan sila modagan, nga nagpunting sa buluhaton, kasinatian ug kwalipikasyon.

Cloud o lokal nga server

Ang uso ngadto sa usa ka kinatibuk-ang transisyon ngadto sa panganod nakahatag pa gani ug usa ka makaiikag nga termino sama sa Hadoop-as-a-service. Sa ingon nga senaryo, ang pagdumala sa konektado nga mga server nahimong hinungdanon kaayo. Tungod kay, sayang, bisan pa sa pagkapopular niini, ang lunsay nga Hadoop usa ka lisud nga himan nga i-configure, tungod kay daghan ang kinahanglan buhaton pinaagi sa kamot. Pananglitan, i-configure ang mga server nga tagsa-tagsa, monitor sa ilang performance, ug maampingong i-configure ang daghang mga parameter. Sa kinatibuk-an, ang trabaho alang sa usa ka amateur ug adunay usa ka dako nga higayon nga magsamok sa usa ka lugar o nawala ang usa ka butang.

Busa, ang lainlaing mga kit sa pag-apod-apod, nga sa sinugdan nasangkapan sa dali nga pag-deploy ug mga himan sa pagdumala, nahimong popular kaayo. Usa sa labing inila nga pag-apod-apod nga nagsuporta sa Spark ug gipadali ang tanan mao ang Cloudera. Kini adunay duha nga bayad ug libre nga mga bersyon - ug sa ulahi ang tanan nga sukaranan nga pagpaandar magamit, nga wala gilimitahan ang gidaghanon sa mga node.

Unsa ang espesyal bahin sa Cloudera ug kung giunsa kini pagluto

Atol sa pag-setup, ang Cloudera Manager magkonektar pinaagi sa SSH sa imong mga server. Usa ka makapaikag nga punto: kung nag-install, mas maayo nga ipiho nga kini himuon sa gitawag nga mga parsel: espesyal nga mga pakete, nga ang matag usa naglangkob sa tanan nga gikinahanglan nga mga sangkap nga gi-configure aron magtrabaho sa usag usa. Sa tinuud kini usa ka gipaayo nga bersyon sa manager sa package.

Pagkahuman sa pag-install, nakadawat kami usa ka console sa pagdumala sa cluster, diin makita nimo ang cluster telemetry, mga serbisyo nga na-install, ug mahimo nimong idugang / tangtangon ang mga kapanguhaan ug i-edit ang configuration sa cluster.

Unsa ang espesyal bahin sa Cloudera ug kung giunsa kini pagluto

Ingon usa ka sangputanan, ang cabin sa rocket nga magdala kanimo sa masanag nga kaugmaon sa BigData makita sa imong atubangan. Apan sa dili pa kita moingon nga "mangadto na kita," molihok kita ubos sa tabon.

Mga kinahanglanon sa hardware

Sa website niini, ang Cloudera naghisgot sa lainlaing posible nga mga pag-configure. Ang kinatibuk-ang mga prinsipyo diin sila gitukod gipakita sa ilustrasyon:

Unsa ang espesyal bahin sa Cloudera ug kung giunsa kini pagluto
Ang MapReduce mahimong mabuak ang kini nga malaumon nga litrato. Kung imong tan-awon pag-usab ang diagram gikan sa miaging seksyon, kini mahimong tin-aw nga sa halos tanan nga mga kaso, ang usa ka trabaho sa MapReduce mahimong makasugat og bottleneck sa pagbasa sa data gikan sa disk o gikan sa network. Namatikdan usab kini sa Cloudera blog. Ingon usa ka sangputanan, alang sa bisan unsang paspas nga mga kalkulasyon, lakip ang pinaagi sa Spark, nga sagad gigamit alang sa mga kalkulasyon sa tinuud nga oras, ang katulin sa I/O hinungdanon kaayo. Busa, sa diha nga ang paggamit sa Hadoop, kini mao ang importante kaayo nga ang cluster naglakip sa balanse ug paspas nga mga makina, nga, sa pagbutang niini sa kalumo, dili kanunay masiguro sa cloud infrastructure.

Ang balanse sa pag-apod-apod sa load makab-ot pinaagi sa paggamit sa Openstack virtualization sa mga server nga adunay gamhanang multi-core nga mga CPU. Ang mga data node gigahin sa ilang kaugalingon nga mga kapanguhaan sa processor ug piho nga mga disk. Sa atong desisyon Atos Codex Data Lake Engine Nakab-ot ang halapad nga virtualization, mao nga nakabenepisyo kami sa mga termino sa pasundayag (ang epekto sa imprastraktura sa network giminusan) ug sa TCO (giwagtang ang mga ekstra nga pisikal nga server).

Unsa ang espesyal bahin sa Cloudera ug kung giunsa kini pagluto
Kung gigamit ang mga server sa BullSequana S200, nakakuha kami usa ka parehas nga pagkarga, nga wala’y mga bottleneck. Ang minimum nga configuration naglakip sa 3 BullSequana S200 servers, ang matag usa adunay duha ka JBODs, dugang pa nga S200s nga adunay upat ka data nodes ang opsyonal nga konektado. Ania ang usa ka pananglitan sa pagkarga sa pagsulay sa TeraGen:

Unsa ang espesyal bahin sa Cloudera ug kung giunsa kini pagluto

Ang mga pagsulay nga adunay lainlaing mga volume sa datos ug mga kantidad sa pagkopya nagpakita sa parehas nga mga resulta sa mga termino sa pag-apod-apod sa load tali sa mga cluster node. Sa ubos usa ka graph sa pag-apod-apod sa disk access pinaagi sa mga pagsulay sa pasundayag.

Unsa ang espesyal bahin sa Cloudera ug kung giunsa kini pagluto

Ang mga kalkulasyon gihimo base sa minimum nga configuration sa 3 BullSequana S200 servers. Naglakip kini sa 9 ka data nodes ug 3 ka master node, ingon man ang gireserba nga mga virtual machine kung adunay pag-deploy sa proteksyon base sa OpenStack Virtualization. Ang resulta sa pagsulay sa TeraSort: block nga gidak-on 512 MB replication factor nga katumbas sa tulo nga adunay encryption mao ang 23,1 ka minuto.

Sa unsang paagi mapalapdan ang sistema? Adunay lainlaing mga lahi sa mga extension nga magamit alang sa Data Lake Engine:

  • Data nodes: alang sa matag 40 TB sa magamit nga luna
  • Analytical nodes nga adunay abilidad sa pag-instalar sa usa ka GPU
  • Ang ubang mga kapilian depende sa panginahanglan sa negosyo (pananglitan, kung kinahanglan nimo ang Kafka ug uban pa)

Unsa ang espesyal bahin sa Cloudera ug kung giunsa kini pagluto

Ang Atos Codex Data Lake Engine naglakip sa mga server mismo ug pre-installed nga software, lakip ang usa ka lisensyado nga Cloudera kit; Ang Hadoop mismo, ang OpenStack nga adunay mga virtual nga makina nga gibase sa kernel sa RedHat Enterprise Linux, replikasyon sa datos ug mga sistema sa pag-backup (lakip ang paggamit sa backup node ug Cloudera BDR - Pag-backup ug Pagbawi sa Disaster). Ang Atos Codex Data Lake Engine nahimong unang solusyon sa virtualization nga na-certify cloudera.

Kung interesado ka sa mga detalye, malipay kami nga tubagon ang among mga pangutana sa mga komento.

Source: www.habr.com

Idugang sa usa ka comment