Apa khusus Cloudera lan carane masak

Pasar kanggo komputasi sing disebarake lan data gedhe, miturut statistik, mundhak 18-19% saben taun. Iki tegese masalah milih piranti lunak kanggo tujuan kasebut tetep relevan. Ing kirim iki, kita bakal miwiti karo ngapa komputasi sing disebarake, goleki luwih rinci babagan milih piranti lunak, pirembagan babagan nggunakake Hadoop nggunakake Cloudera, lan pungkasane ngomong babagan milih hardware lan carane mengaruhi kinerja kanthi cara sing beda-beda.

Apa khusus Cloudera lan carane masak
Napa komputasi terdistribusi dibutuhake ing bisnis reguler? Kabeh ing kene prasaja lan rumit ing wektu sing padha. Prasaja - amarga ing sawetara kasus, kita nindakake petungan sing relatif prasaja saben unit informasi. Iku angel amarga ana akeh informasi kasebut. akeh banget. Akibaté, iku perlu ngolah terabyte data ing 1000 utas. Mangkono, kasus panggunaan cukup universal: pitungan bisa digunakake ing ngendi wae yen perlu kanggo njupuk akeh metrik ing array data sing luwih gedhe.

Salah sawijining conto anyar: rantai pizza Dodo Pizza ditetepake adhedhasar analisis saka database pesenan customer, sing nalika milih pizza karo topping acak, pangguna biasane operate mung enem set dhasar saka úa plus saperangan acak. Selaras karo iki, pizzeria nyetel tumbas. Kajaba iku, dheweke bisa menehi rekomendasi produk tambahan sing ditawakake pangguna sajrone tahap pesenan, sing nambah bathi.

Conto liyane: nganalisa item produk ngidini toko H&M nyuda macem-macem ing toko individu kanthi 40%, nalika njaga tingkat penjualan. Iki digayuh kanthi ora kalebu barang sing adol sing kurang apik, lan musiman dianggep ing petungan.

Pilihan alat

Standar industri kanggo jinis komputasi iki yaiku Hadoop. Kenging punapa? Amarga Hadoop minangka kerangka kerja sing didokumentasikake kanthi apik (Habr sing padha nyedhiyakake akeh artikel rinci babagan topik iki), sing diiringi kabeh utilitas lan perpustakaan. Sampeyan bisa input set gedhe saka loro data kabentuk lan unstructured, lan sistem dhewe bakal mbagekke antarane daya komputerisasi. Kajaba iku, kapasitas sing padha bisa ditambah utawa dipateni sawayah-wayah - skalabilitas horisontal sing padha ing tumindak.

Ing taun 2017, perusahaan konsultasi berpengaruh Gartner rampungsing Hadoop bakal rauh dadi lungse. Alasane cukup banal: analis percaya manawa perusahaan bakal pindhah menyang awan, amarga ing kana dheweke bakal bisa mbayar amarga nggunakake daya komputasi. Faktor penting nomer loro sing mesthine bisa "ngubur" Hadoop yaiku kacepetan. Amarga opsi kaya Apache Spark utawa Google Cloud DataFlow luwih cepet tinimbang MapReduce, sing ndasari Hadoop.

Hadoop dumunung ing sawetara pilar, sing paling misuwur yaiku teknologi MapReduce (sistem kanggo nyebarake data kanggo petungan antarane server) lan sistem file HDFS. Sing terakhir dirancang khusus kanggo nyimpen informasi sing disebarake ing antarane kelenjar kluster: saben blok ukuran tetep bisa diselehake ing sawetara kelenjar, lan amarga replikasi, sistem kasebut tahan kanggo kegagalan node individu. Tinimbang tabel file, server khusus sing diarani NameNode digunakake.

Ilustrasi ing ngisor iki nuduhake cara kerja MapReduce. Ing tataran kapisan, data dipérang miturut kriteria tartamtu, ing tataran kapindho disebarake miturut daya komputasi, lan ing tataran katelu ana pitungan.

Apa khusus Cloudera lan carane masak
MapReduce wiwitane digawe dening Google kanggo kabutuhan panelusuran. Banjur MapReduce dadi kode gratis, lan Apache njupuk alih proyek kasebut. Inggih, Google mboko sithik migrasi menyang solusi liyane. Tidbit sing menarik: Google saiki duwe proyek sing diarani Google Cloud Dataflow, dipanggonke minangka langkah sabanjure sawise Hadoop, minangka panggantos cepet.

Deleng luwih cetha nuduhake yen Google Cloud Dataflow adhedhasar variasi Apache Beam, dene Apache Beam kalebu kerangka Apache Spark sing didokumentasikake kanthi apik, sing ngidini kita bisa ngomong babagan kecepatan eksekusi solusi sing meh padha. Ya, Apache Spark bisa digunakake kanthi sampurna ing sistem file HDFS, sing ngidini supaya bisa digunakake ing server Hadoop.

Tambah ing kene volume dokumentasi lan solusi sing wis siap kanggo Hadoop lan Spark versus Google Cloud Dataflow, lan pilihan alat dadi jelas. Kajaba iku, insinyur bisa mutusake dhewe kode endi - kanggo Hadoop utawa Spark - sing kudu ditindakake, fokus ing tugas, pengalaman lan kualifikasi.

Cloud utawa server lokal

Tren menyang transisi umum menyang maya malah nyebabake istilah sing menarik minangka Hadoop-as-a-service. Ing skenario kasebut, administrasi server sing disambungake dadi penting banget. Amarga, sayangé, sanajan popularitas, Hadoop murni minangka alat sing rada angel kanggo dikonfigurasi, amarga akeh sing kudu ditindakake kanthi tangan. Contone, ngatur server kanthi individu, ngawasi kinerja, lan kanthi ati-ati ngatur akeh paramèter. Umumé, karya iki kanggo amatir lan ana kemungkinan gedhe kanggo kekacoan nang endi wae utawa ilang soko.

Mulane, macem-macem kit distribusi, sing wiwitane dilengkapi karo panyebaran lan alat administrasi sing trep, dadi populer banget. Salah sawijining distribusi sing paling populer sing ndhukung Spark lan nggawe kabeh gampang yaiku Cloudera. Nduwe versi mbayar lan gratis - lan ing pungkasan kabeh fungsi dhasar kasedhiya, tanpa mbatesi jumlah kelenjar.

Apa khusus Cloudera lan carane masak

Sajrone persiyapan, Cloudera Manager bakal nyambung liwat SSH menyang server sampeyan. Titik sing menarik: nalika nginstal, luwih apik kanggo nemtokake manawa ditindakake dening sing diarani parsel: paket khusus, saben kang ngemot kabeh komponen perlu diatur kanggo bisa karo saben liyane. Ateges iki minangka versi apik saka manajer paket.

Sawise instalasi, kita nampa console Manajemen kluster, ngendi sampeyan bisa ndeleng telemetri kluster, layanan diinstal, plus sampeyan bisa nambah / mbusak sumber lan ngowahi konfigurasi kluster.

Apa khusus Cloudera lan carane masak

Akibaté, kabin roket sing bakal nggawa sampeyan menyang masa depan sing padhang BigData katon ing ngarep sampeyan. Nanging sadurunge kita ngomong "ayo pindhah," ayo pindhah ing hood.

Persyaratan hardware

Ing situs web, Cloudera nyebutake konfigurasi sing beda-beda. Prinsip umum sing dibangun ditampilake ing ilustrasi:

Apa khusus Cloudera lan carane masak
MapReduce bisa burem gambar optimis iki. Yen katon maneh ing diagram saka bagean sadurungé, dadi cetha ing meh kabeh kasus, proyek MapReduce bisa nemokke bottleneck nalika maca data saka disk utawa saka jaringan. Iki uga kacathet ing blog Cloudera. Akibaté, kanggo sembarang petungan cepet, kalebu liwat Spark, kang asring digunakake kanggo petungan nyata-wektu, I / O kacepetan penting banget. Mulane, nalika nggunakake Hadoop, iku penting banget yen kluster kalebu mesin imbang lan cepet, kang, kanggo sijine iku mildly, ora tansah mesthekake ing infrastruktur maya.

Balance ing distribusi mbukak wis ngrambah liwat nggunakake Openstack virtualization ing server karo CPU multi-inti kuat. Node data diparengake sumber daya prosesor dhewe lan disk tartamtu. Ing kaputusan kita Atos Codex Data Lake Engine Virtualisasi sing wiyar digayuh, mula kita entuk manfaat saka segi kinerja (dampak saka infrastruktur jaringan diminimalisir) lan ing TCO (server fisik ekstra diilangi).

Apa khusus Cloudera lan carane masak
Nalika nggunakake server BullSequana S200, kita entuk beban sing seragam, tanpa sawetara bottlenecks. Konfigurasi minimal kalebu 3 server BullSequana S200, saben karo loro JBODs, plus tambahan S200s ngemot papat simpul data sing optionally disambungake. Iki minangka conto beban ing tes TeraGen:

Apa khusus Cloudera lan carane masak

Tes kanthi volume data lan nilai replikasi sing beda-beda nuduhake asil sing padha babagan distribusi beban ing antarane simpul kluster. Ing ngisor iki ana grafik distribusi akses disk kanthi tes kinerja.

Apa khusus Cloudera lan carane masak

Petungan ditindakake adhedhasar konfigurasi minimal 3 server BullSequana S200. Iki kalebu 9 simpul data lan 3 simpul master, uga mesin virtual sing dilindhungi undhang-undhang yen ana panyebaran proteksi adhedhasar OpenStack Virtualization. Asil tes TeraSort: ukuran blok 512 MB faktor replikasi padha karo telung kanthi enkripsi 23,1 menit.

Kepiye sistem bisa ditambahi? Ana macem-macem jinis ekstensi sing kasedhiya kanggo Data Lake Engine:

  • Node data: kanggo saben 40 TB papan sing bisa digunakake
  • Kelenjar analitis kanthi kemampuan kanggo nginstal GPU
  • Pilihan liyane gumantung kabutuhan bisnis (contone, yen sampeyan butuh Kafka lan liya-liyane)

Apa khusus Cloudera lan carane masak

Atos Codex Data Lake Engine kalebu server dhewe lan piranti lunak sing wis diinstal, kalebu kit Cloudera sing dilisensi; Hadoop dhewe, OpenStack karo mesin virtual adhedhasar kernel RedHat Enterprise Linux, replikasi data lan sistem serep (kalebu nggunakake simpul serep lan Cloudera BDR - Serep lan Recovery Bencana). Atos Codex Data Lake Engine dadi solusi virtualisasi pisanan sing disertifikasi Cloudera.

Yen sampeyan kasengsem ing rincian, kita bakal seneng njawab pitakonan kita ing komentar.

Source: www.habr.com

Add a comment