IzkliedÄtÄs skaitļoÅ”anas un lielo datu tirgus, saskaÅÄ ar
KÄpÄc parastajÄ biznesÄ ir nepiecieÅ”ama izkliedÄtÄ skaitļoÅ”ana? Å eit viss ir vienkÄrÅ”s un vienlaikus sarežģīts. VienkÄrÅ”i - jo vairumÄ gadÄ«jumu mÄs veicam salÄ«dzinoÅ”i vienkÄrÅ”us aprÄÄ·inus uz informÄcijas vienÄ«bu. Tas ir grÅ«ti, jo Å”Ädas informÄcijas ir daudz. Tik daudz. TÄ rezultÄtÄ tas ir nepiecieÅ”ams
Viens no jaunÄkajiem piemÄriem: picÄriju tÄ«kls Dodo Pizza
VÄl viens piemÄrs:
Instrumenta izvÄle
Å Äda veida skaitļoÅ”anas nozares standarts ir Hadoop. KÄpÄc? TÄ kÄ Hadoop ir lielisks, labi dokumentÄts ietvars (tas pats Habr sniedz daudz detalizÄtu rakstu par Å”o tÄmu), kam ir pievienots vesels utilÄ«tu un bibliotÄku komplekts. Varat ievadÄ«t milzÄ«gas gan strukturÄtu, gan nestrukturÄtu datu kopas, un pati sistÄma tos sadalÄ«s starp skaitļoÅ”anas jaudu. TurklÄt Ŕīs paÅ”as jaudas var palielinÄt vai atspÄjot jebkurÄ laikÄ ā tÄ pati horizontÄlÄ mÄrogojamÄ«ba darbÄ«bÄ.
2017. gadÄ ietekmÄ«gais konsultÄciju uzÅÄmums Gartner
Hadoop balstÄs uz vairÄkiem pÄ«lÄriem, no kuriem visievÄrojamÄkie ir MapReduce tehnoloÄ£ijas (sistÄma datu izplatÄ«Å”anai aprÄÄ·iniem starp serveriem) un HDFS failu sistÄma. PÄdÄjais ir Ä«paÅ”i izstrÄdÄts informÄcijas glabÄÅ”anai, kas sadalÄ«ta starp klastera mezgliem: katru fiksÄta izmÄra bloku var novietot uz vairÄkiem mezgliem, un, pateicoties replikÄcijai, sistÄma ir izturÄ«ga pret atseviŔķu mezglu kļūmÄm. Failu tabulas vietÄ tiek izmantots Ä«paÅ”s serveris ar nosaukumu NameNode.
TÄlÄk redzamajÄ ilustrÄcijÄ parÄdÄ«ts, kÄ MapReduce darbojas. PirmajÄ posmÄ dati tiek sadalÄ«ti pÄc noteikta kritÄrija, otrajÄ posmÄ tie tiek sadalÄ«ti pÄc skaitļoÅ”anas jaudas, un treÅ”ajÄ posmÄ notiek aprÄÄ·ins.
MapReduce sÄkotnÄji izveidoja Google savÄm meklÄÅ”anas vajadzÄ«bÄm. Tad MapReduce ieguva bezmaksas kodu, un Apache pÄrÅÄma projektu. Google pakÄpeniski pÄrgÄja uz citiem risinÄjumiem. Interesants sÄ«kums: Google paÅ”laik ir projekts ar nosaukumu Google Cloud Dataflow, kas tiek pozicionÄts kÄ nÄkamais solis pÄc Hadoop, kÄ Ätrs tÄ aizstÄjÄjs.
Paskatoties tuvÄk, redzams, ka Google Cloud Dataflow pamatÄ ir Apache Beam variÄcija, savukÄrt Apache Beam ietver labi dokumentÄtu Apache Spark ietvaru, kas ļauj runÄt par gandrÄ«z vienÄdu risinÄjumu izpildes Ätrumu. Apache Spark lieliski darbojas HDFS failu sistÄmÄ, kas ļauj to izvietot Hadoop serveros.
Pievienojiet Å”eit dokumentÄcijas apjomu un gatavus risinÄjumus Hadoop un Spark salÄ«dzinÄjumÄ ar Google Cloud Dataflow, un rÄ«ka izvÄle kļūs acÄ«mredzama. TurklÄt inženieri paÅ”i var izlemt, kurÅ” kods ā Hadoop vai Spark ā viÅiem jÄdarbojas, koncentrÄjoties uz uzdevumu, pieredzi un kvalifikÄciju.
MÄkonis vai vietÄjais serveris
Tendence uz vispÄrÄju pÄreju uz mÄkoni ir pat radÄ«jusi tik interesantu terminu kÄ Hadoop-as-a-service. Å ÄdÄ scenÄrijÄ pievienoto serveru administrÄÅ”ana kļuva ļoti svarÄ«ga. DiemžÄl, neskatoties uz savu popularitÄti, tÄ«rais Hadoop ir diezgan grÅ«ti konfigurÄjams rÄ«ks, jo daudz kas ir jÄdara manuÄli. PiemÄram, konfigurÄjiet serverus atseviŔķi, uzraugiet to veiktspÄju un rÅ«pÄ«gi konfigurÄjiet daudzus parametrus. VispÄr darbs ir amatierim un ir liela iespÄja kaut kur saputroties vai kaut ko nokavÄt.
TÄpÄc ļoti populÄri ir kļuvuÅ”i dažÄdi izplatÄ«Å”anas komplekti, kas sÄkotnÄji ir aprÄ«koti ar Ärtiem izvietoÅ”anas un administrÄÅ”anas rÄ«kiem. Viens no populÄrÄkajiem izplatÄ«jumiem, kas atbalsta Spark un padara visu vienkÄrÅ”u, ir Cloudera. Tam ir gan maksas, gan bezmaksas versijas - un pÄdÄjÄ ir pieejama visa pamata funkcionalitÄte, neierobežojot mezglu skaitu.
IestatÄ«Å”anas laikÄ Cloudera Manager izveidos savienojumu ar jÅ«su serveriem, izmantojot SSH. Interesants punkts: instalÄjot, labÄk norÄdÄ«t, ka to veic tÄ sauktais parseļi: Ä«paÅ”as pakotnes, no kurÄm katra satur visus nepiecieÅ”amos komponentus, kas konfigurÄti darbam viens ar otru. BÅ«tÄ«bÄ Å”Ä« ir uzlabota pakotÅu pÄrvaldnieka versija.
PÄc instalÄÅ”anas saÅemam klasteru pÄrvaldÄ«bas konsoli, kurÄ var redzÄt klasteru telemetriju, instalÄtos pakalpojumus, kÄ arÄ« pievienot/noÅemt resursus un rediÄ£Ät klastera konfigurÄciju.
RezultÄtÄ jÅ«su priekÅ”Ä parÄdÄs raÄ·etes kabÄ«ne, kas jÅ«s ievedÄ«s BigData gaiÅ”ajÄ nÄkotnÄ. Bet, pirms sakÄm āejamā, pacelsimies zem pÄrsega.
Aparatūras prasības
Cloudera savÄ vietnÄ min dažÄdas iespÄjamÄs konfigurÄcijas. VispÄrÄjie principi, pÄc kuriem tie tiek veidoti, ir parÄdÄ«ti attÄlÄ:
MapReduce var aizmiglot Å”o optimistisko attÄlu. Ja vÄlreiz aplÅ«kojat diagrammu no iepriekÅ”ÄjÄs sadaļas, kļūst skaidrs, ka gandrÄ«z visos gadÄ«jumos MapReduce darbs var saskarties ar vÄjo vietu, lasot datus no diska vai tÄ«kla. Tas atzÄ«mÄts arÄ« Cloudera emuÄrÄ. RezultÄtÄ jebkuriem Ätriem aprÄÄ·iniem, tostarp izmantojot Spark, ko bieži izmanto reÄllaika aprÄÄ·iniem, I/O Ätrums ir ļoti svarÄ«gs. TÄpÄc, lietojot Hadoop, ir ļoti svarÄ«gi, lai klasterÄ« bÅ«tu sabalansÄtas un Ätras maŔīnas, kas, maigi izsakoties, ne vienmÄr tiek nodroÅ”inÄts mÄkoÅu infrastruktÅ«rÄ.
LÄ«dzsvars slodzes sadalÄ«jumÄ tiek panÄkts, izmantojot Openstack virtualizÄciju serveros ar jaudÄ«giem daudzkodolu CPU. Datu mezgliem tiek pieŔķirti savi procesora resursi un konkrÄti diski. MÅ«su lÄmumÄ Atos Codex Data Lake Engine Tiek panÄkta plaÅ”a virtualizÄcija, tÄpÄc mÄs gÅ«stam labumu gan veiktspÄjÄ (tÄ«kla infrastruktÅ«ras ietekme tiek samazinÄta lÄ«dz minimumam), gan TCO (tiek likvidÄti papildu fiziskie serveri).
Lietojot BullSequana S200 serverus, mÄs iegÅ«stam ļoti vienmÄrÄ«gu slodzi, kurÄ nav zinÄmu vÄjo vietu. MinimÄlajÄ konfigurÄcijÄ ir iekļauti 3 BullSequana S200 serveri, katrs ar diviem JBOD, kÄ arÄ« papildu S200 ar Äetriem datu mezgliem ir pÄc izvÄles pievienoti. Å eit ir slodzes piemÄrs TeraGen testÄ:
Testi ar dažÄdiem datu apjomiem un replikÄcijas vÄrtÄ«bÄm parÄda vienÄdus rezultÄtus attiecÄ«bÄ uz slodzes sadalÄ«jumu starp klastera mezgliem. ZemÄk ir grafiks par diska piekļuves sadalÄ«jumu pÄc veiktspÄjas pÄrbaudÄm.
AprÄÄ·ini tika veikti, pamatojoties uz minimÄlo 3 BullSequana S200 serveru konfigurÄciju. Tas ietver 9 datu mezglus un 3 galvenos mezglus, kÄ arÄ« rezervÄtas virtuÄlÄs maŔīnas aizsardzÄ«bas izvietoÅ”anas gadÄ«jumÄ, pamatojoties uz OpenStack virtualizÄciju. TeraSort testa rezultÄts: bloka lielums 512 MB replikÄcijas koeficients, kas vienÄds ar trÄ«s ar Å”ifrÄÅ”anu, ir 23,1 minÅ«te.
KÄ sistÄmu var paplaÅ”inÄt? Programmai Data Lake Engine ir pieejami dažÄdi paplaÅ”inÄjumu veidi:
- Datu mezgli: par katriem 40 TB izmantojamÄs vietas
- AnalÄ«tiskie mezgli ar iespÄju instalÄt GPU
- Citas iespÄjas atkarÄ«bÄ no biznesa vajadzÄ«bÄm (piemÄram, ja jums nepiecieÅ”ama Kafka un tamlÄ«dzÄ«gi)
Atos Codex Data Lake Engine ietver gan paÅ”us serverus, gan iepriekÅ” instalÄtu programmatÅ«ru, tostarp licencÄtu Cloudera komplektu; Pats Hadoop, OpenStack ar virtuÄlajÄm maŔīnÄm, kuru pamatÄ ir RedHat Enterprise Linux kodols, datu replikÄcijas un dublÄÅ”anas sistÄmas (tostarp izmantojot rezerves mezglu un Cloudera BDR ā dublÄÅ”anu un avÄriju atkopÅ”anu). Atos Codex Data Lake Engine kļuva par pirmo virtualizÄcijas risinÄjumu, kas tika sertificÄts
Ja jÅ«s interesÄ sÄ«kÄka informÄcija, mÄs ar prieku atbildÄsim uz mÅ«su jautÄjumiem komentÄros.
Avots: www.habr.com