Ang merkado alang sa gipang-apod-apod nga kompyuter ug dagkong datos, sumala sa
Ngano nga gikinahanglan ang distributed computing sa regular nga negosyo? Ang tanan dinhi yano ug komplikado sa samang higayon. Yano - tungod kay sa kadaghanan sa mga kaso naghimo kami medyo yano nga mga kalkulasyon matag yunit sa impormasyon. Lisud kini tungod kay adunay daghang ingon nga kasayuran. Daghan kaayo. Ingon usa ka sangputanan, kini kinahanglan
Usa sa bag-o nga mga pananglitan: ang pizzeria chain nga Dodo Pizza
Usa pa ka pananglitan:
Pagpili sa himan
Ang sumbanan sa industriya alang sa kini nga klase sa pag-compute mao ang Hadoop. Ngano man? Tungod kay ang Hadoop usa ka maayo kaayo, maayo nga dokumentado nga balangkas (ang parehas nga Habr naghatag daghang detalyado nga mga artikulo bahin niini nga hilisgutan), nga giubanan sa usa ka tibuuk nga hugpong sa mga gamit ug librarya. Mahimo nimong i-input ang daghang mga set sa parehas nga istruktura ug dili istruktura nga datos, ug ang sistema mismo ang mag-apod-apod niini taliwala sa gahum sa pag-compute. Dugang pa, kining parehas nga mga kapasidad mahimong madugangan o ma-disable sa bisan unsang oras - kanang parehas nga pinahigda nga scalability sa aksyon.
Sa 2017, ang impluwensyal nga kompanya sa pagkonsulta nga Gartner
Ang Hadoop nagsalig sa daghang mga haligi, ang labing ilado niini mao ang mga teknolohiya sa MapReduce (usa ka sistema sa pag-apod-apod sa datos alang sa mga kalkulasyon tali sa mga server) ug ang HDFS file system. Ang naulahi espesyal nga gidisenyo alang sa pagtipig sa kasayuran nga gipang-apod-apod tali sa mga cluster node: ang matag bloke sa usa ka piho nga gidak-on mahimong ibutang sa daghang mga node, ug salamat sa pagkopya, ang sistema lig-on sa mga kapakyasan sa indibidwal nga mga node. Imbis nga usa ka file table, usa ka espesyal nga server nga gitawag NameNode ang gigamit.
Ang ilustrasyon sa ubos nagpakita kung giunsa ang MapReduce nagtrabaho. Sa una nga yugto, ang datos gibahin sumala sa usa ka piho nga sukdanan, sa ikaduha nga yugto kini giapod-apod sumala sa gahum sa pagkalkula, ug sa ikatulo nga yugto ang pagkalkula mahitabo.
Ang MapReduce orihinal nga gihimo sa Google alang sa mga panginahanglanon sa pagpangita niini. Dayon ang MapReduce miadto nga libre nga code, ug gikuha sa Apache ang proyekto. Aw, anam-anam nga migrate ang Google sa ubang mga solusyon. Usa ka makapaikag nga balita: Ang Google karon adunay usa ka proyekto nga gitawag Google Cloud Dataflow, nga gipahimutang ingon sunod nga lakang pagkahuman sa Hadoop, ingon usa ka dali nga kapuli niini.
Ang mas duol nga pagtan-aw nagpakita nga ang Google Cloud Dataflow gibase sa usa ka variation sa Apache Beam, samtang ang Apache Beam naglakip sa maayo nga dokumentado nga Apache Spark nga gambalay, nga nagtugot kanato sa paghisgot mahitungod sa halos parehas nga katulin sa pagpatuman sa mga solusyon. Aw, ang Apache Spark hingpit nga nagtrabaho sa HDFS file system, nga nagtugot niini nga ma-deploy sa mga server sa Hadoop.
Idugang dinhi ang gidaghanon sa dokumentasyon ug andam nga mga solusyon alang sa Hadoop ug Spark kumpara sa Google Cloud Dataflow, ug ang pagpili sa himan mahimong klaro. Dugang pa, ang mga inhenyero mahimong magdesisyon alang sa ilang kaugalingon kung unsang code - para sa Hadoop o Spark - kinahanglan sila modagan, nga nagpunting sa buluhaton, kasinatian ug kwalipikasyon.
Cloud o lokal nga server
Ang uso ngadto sa usa ka kinatibuk-ang transisyon ngadto sa panganod nakahatag pa gani ug usa ka makaiikag nga termino sama sa Hadoop-as-a-service. Sa ingon nga senaryo, ang pagdumala sa konektado nga mga server nahimong hinungdanon kaayo. Tungod kay, sayang, bisan pa sa pagkapopular niini, ang lunsay nga Hadoop usa ka lisud nga himan nga i-configure, tungod kay daghan ang kinahanglan buhaton pinaagi sa kamot. Pananglitan, i-configure ang mga server nga tagsa-tagsa, monitor sa ilang performance, ug maampingong i-configure ang daghang mga parameter. Sa kinatibuk-an, ang trabaho alang sa usa ka amateur ug adunay usa ka dako nga higayon nga magsamok sa usa ka lugar o nawala ang usa ka butang.
Busa, ang lainlaing mga kit sa pag-apod-apod, nga sa sinugdan nasangkapan sa dali nga pag-deploy ug mga himan sa pagdumala, nahimong popular kaayo. Usa sa labing inila nga pag-apod-apod nga nagsuporta sa Spark ug gipadali ang tanan mao ang Cloudera. Kini adunay duha nga bayad ug libre nga mga bersyon - ug sa ulahi ang tanan nga sukaranan nga pagpaandar magamit, nga wala gilimitahan ang gidaghanon sa mga node.
Atol sa pag-setup, ang Cloudera Manager magkonektar pinaagi sa SSH sa imong mga server. Usa ka makapaikag nga punto: kung nag-install, mas maayo nga ipiho nga kini himuon sa gitawag nga mga parsel: espesyal nga mga pakete, nga ang matag usa naglangkob sa tanan nga gikinahanglan nga mga sangkap nga gi-configure aron magtrabaho sa usag usa. Sa tinuud kini usa ka gipaayo nga bersyon sa manager sa package.
Pagkahuman sa pag-install, nakadawat kami usa ka console sa pagdumala sa cluster, diin makita nimo ang cluster telemetry, mga serbisyo nga na-install, ug mahimo nimong idugang / tangtangon ang mga kapanguhaan ug i-edit ang configuration sa cluster.
Ingon usa ka sangputanan, ang cabin sa rocket nga magdala kanimo sa masanag nga kaugmaon sa BigData makita sa imong atubangan. Apan sa dili pa kita moingon nga "mangadto na kita," molihok kita ubos sa tabon.
Mga kinahanglanon sa hardware
Sa website niini, ang Cloudera naghisgot sa lainlaing posible nga mga pag-configure. Ang kinatibuk-ang mga prinsipyo diin sila gitukod gipakita sa ilustrasyon:
Ang MapReduce mahimong mabuak ang kini nga malaumon nga litrato. Kung imong tan-awon pag-usab ang diagram gikan sa miaging seksyon, kini mahimong tin-aw nga sa halos tanan nga mga kaso, ang usa ka trabaho sa MapReduce mahimong makasugat og bottleneck sa pagbasa sa data gikan sa disk o gikan sa network. Namatikdan usab kini sa Cloudera blog. Ingon usa ka sangputanan, alang sa bisan unsang paspas nga mga kalkulasyon, lakip ang pinaagi sa Spark, nga sagad gigamit alang sa mga kalkulasyon sa tinuud nga oras, ang katulin sa I/O hinungdanon kaayo. Busa, sa diha nga ang paggamit sa Hadoop, kini mao ang importante kaayo nga ang cluster naglakip sa balanse ug paspas nga mga makina, nga, sa pagbutang niini sa kalumo, dili kanunay masiguro sa cloud infrastructure.
Ang balanse sa pag-apod-apod sa load makab-ot pinaagi sa paggamit sa Openstack virtualization sa mga server nga adunay gamhanang multi-core nga mga CPU. Ang mga data node gigahin sa ilang kaugalingon nga mga kapanguhaan sa processor ug piho nga mga disk. Sa atong desisyon Atos Codex Data Lake Engine Nakab-ot ang halapad nga virtualization, mao nga nakabenepisyo kami sa mga termino sa pasundayag (ang epekto sa imprastraktura sa network giminusan) ug sa TCO (giwagtang ang mga ekstra nga pisikal nga server).
Kung gigamit ang mga server sa BullSequana S200, nakakuha kami usa ka parehas nga pagkarga, nga walaβy mga bottleneck. Ang minimum nga configuration naglakip sa 3 BullSequana S200 servers, ang matag usa adunay duha ka JBODs, dugang pa nga S200s nga adunay upat ka data nodes ang opsyonal nga konektado. Ania ang usa ka pananglitan sa pagkarga sa pagsulay sa TeraGen:
Ang mga pagsulay nga adunay lainlaing mga volume sa datos ug mga kantidad sa pagkopya nagpakita sa parehas nga mga resulta sa mga termino sa pag-apod-apod sa load tali sa mga cluster node. Sa ubos usa ka graph sa pag-apod-apod sa disk access pinaagi sa mga pagsulay sa pasundayag.
Ang mga kalkulasyon gihimo base sa minimum nga configuration sa 3 BullSequana S200 servers. Naglakip kini sa 9 ka data nodes ug 3 ka master node, ingon man ang gireserba nga mga virtual machine kung adunay pag-deploy sa proteksyon base sa OpenStack Virtualization. Ang resulta sa pagsulay sa TeraSort: block nga gidak-on 512 MB replication factor nga katumbas sa tulo nga adunay encryption mao ang 23,1 ka minuto.
Sa unsang paagi mapalapdan ang sistema? Adunay lainlaing mga lahi sa mga extension nga magamit alang sa Data Lake Engine:
- Data nodes: alang sa matag 40 TB sa magamit nga luna
- Analytical nodes nga adunay abilidad sa pag-instalar sa usa ka GPU
- Ang ubang mga kapilian depende sa panginahanglan sa negosyo (pananglitan, kung kinahanglan nimo ang Kafka ug uban pa)
Ang Atos Codex Data Lake Engine naglakip sa mga server mismo ug pre-installed nga software, lakip ang usa ka lisensyado nga Cloudera kit; Ang Hadoop mismo, ang OpenStack nga adunay mga virtual nga makina nga gibase sa kernel sa RedHat Enterprise Linux, replikasyon sa datos ug mga sistema sa pag-backup (lakip ang paggamit sa backup node ug Cloudera BDR - Pag-backup ug Pagbawi sa Disaster). Ang Atos Codex Data Lake Engine nahimong unang solusyon sa virtualization nga na-certify
Kung interesado ka sa mga detalye, malipay kami nga tubagon ang among mga pangutana sa mga komento.
Source: www.habr.com