Pandhuan Skala Paralel Amazon Redshift lan Asil Tes

Pandhuan Skala Paralel Amazon Redshift lan Asil Tes

Ing Skyeng, kita nggunakake Amazon Redshift, kalebu skala paralel, mula kita nemokake artikel iki dening Stefan Gromoll, pangadeg dotgo.com, kanggo intermix.io sing menarik. Sawise terjemahan, sethithik pengalaman kita saka insinyur data Daniyar Belkhodzhaev.

Amazon Redshift Arsitektur ngidini skala kanthi nambahake simpul anyar menyang kluster. Kebutuhan kanggo ngrampungake panjaluk sing paling akeh bisa nyebabake panyedhiya node. Concurrency Scaling, minangka lawan kanggo nambah simpul anyar, mundhak daya komputasi minangka needed.

Skala paralel Amazon Redshift menehi kluster Redshift kapasitas tambahan kanggo nangani volume panjalukan puncak. Kerjane kanthi mindhah panjalukan menyang klompok "paralel" anyar ing latar mburi. Panyuwunan dituntun adhedhasar konfigurasi lan aturan WLM.

Rega skala paralel adhedhasar model kredit kanthi undakan gratis. Ndhuwur kridit gratis, pambayaran adhedhasar wektu panjaluk Kluster Skala Paralel.

Penulis nguji skala paralel ing salah sawijining klompok internal. Ing kirim iki, dheweke bakal ngomong babagan asil tes lan menehi tips babagan carane miwiti.

Syarat kluster

Kanggo nggunakake skala paralel, kluster Amazon Redshift sampeyan kudu nyukupi syarat ing ngisor iki:

- platform: EC2-VPC;
- jinis node: dc2.8xlarge, ds2.8xlarge, dc2.large utawa ds2.xlarge;
- jumlah node: saka 2 kanggo 32 (klompok simpul siji ora didhukung).

Jinis panjalukan sing bisa ditampa

Skala paralel ora cocog kanggo kabeh jinis pitakon. Ing versi pisanan, mung ngolah panjaluk maca sing nyukupi telung syarat:

- PILIH pitakon mung diwaca (sanajan luwih akeh jinis sing direncanakake);
- pitakon ora ngrujuk tabel kanthi gaya ngurutake INTERLEAVED;
- Pitakonan ora nggunakake Amazon Redshift Spectrum kanggo referensi tabel eksternal.

Kanggo diarahake menyang Kluster Skala Paralel, panjaluk kasebut kudu antri. Kajaba iku, pitakon sing cocog kanggo antrian SQA (Short Query Acceleration), ora bakal mlaku ing klompok skala paralel.

Antrian lan SQA mbutuhake konfigurasi sing tepat Manajemen Beban Kerja Redshift (WLM). Disaranake ngoptimalake WLM sampeyan dhisik - iki bakal nyuda kabutuhan skala paralel. Lan iki penting amarga skala paralel mung gratis kanggo sawetara jam tartamtu. AWS pratelan manawa skala paralel bakal gratis kanggo 97% pelanggan, sing nggawa kita menyang masalah rega.

Biaya scaling paralel

AWS nawakake model kredit kanggo skala paralel. Saben klompok aktif Amazon RedShift Akumulasi kridit saben jam, nganti siji jam kridit skala paralel gratis saben dina.

Sampeyan mung mbayar nalika panggunaan Kluster Skala Paralel ngluwihi jumlah kridit sing ditampa.

Biaya diwilang ing tingkat on-demand saben detik kanggo kluster paralel sing digunakake ing ndhuwur tarif gratis. Sampeyan mung dikenani biaya sajrone panjaluk sampeyan, kanthi biaya minimal siji menit saben Kluster Skala Paralel diaktifake. Tingkat on-demand saben detik diitung adhedhasar prinsip rega umum Amazon RedShift, yaiku, gumantung saka jinis simpul lan jumlah simpul ing kluster sampeyan.

Nguripake Scaling Paralel

Skala podo micu kanggo saben antrian WLM. Pindhah menyang konsol AWS Redshift lan pilih Manajemen Beban Kerja saka menu navigasi kiwa. Pilih klompok parameter WLM kluster saka menu gulung mudhun ing ngisor iki.

Sampeyan bakal weruh kolom anyar sing diarani "Mode Skala Konkurensi" ing jejere saben antrian. Default iku "Disabled". Klik "Sunting" lan sampeyan bisa ngganti setelan kanggo saben antrian.

Pandhuan Skala Paralel Amazon Redshift lan Asil Tes

Konfigurasi

Skala paralel dianggo kanthi nerusake panjalukan sing cocog menyang klompok khusus sing anyar. Kluster anyar duwe ukuran sing padha (jinis lan jumlah simpul) karo kluster utama.

Jumlah kluster standar sing digunakake kanggo skala paralel yaiku siji (1), kanthi kemampuan kanggo ngatur nganti total sepuluh (10) kluster.
Jumlah total kluster kanggo skala paralel bisa disetel kanthi parameter max_concurrency_scaling_clusters. Nambah nilai parameter iki nyedhiyakake kluster keluwih tambahan.

Pandhuan Skala Paralel Amazon Redshift lan Asil Tes

Ngawasi

Ana sawetara grafik tambahan sing kasedhiya ing konsol AWS Redshift. Bagan Kluster Skala Konkurensi Konfigurasi Maks nampilake nilai kluster max_concurrency_scaling_cluster saka wektu.

Pandhuan Skala Paralel Amazon Redshift lan Asil Tes

Jumlah klompok skala aktif ditampilake ing antarmuka pangguna ing bagean "Kegiatan Penskalaan Konkurensi":

Pandhuan Skala Paralel Amazon Redshift lan Asil Tes

Ing tab Pitakonan, ana kolom sing nuduhake manawa query wis dieksekusi ing kluster utama utawa ing kluster skala paralel:

Pandhuan Skala Paralel Amazon Redshift lan Asil Tes

Preduli saka pitakonan tartamtu wis kaleksanan ing kluster utama utawa liwat kluster skala podo, iku disimpen ing stl_query.concurrency_scaling_status.

Pandhuan Skala Paralel Amazon Redshift lan Asil Tes

Nilai 1 nuduhake yen query dieksekusi ing kluster skala paralel, dene nilai liyane nuduhake yen dieksekusi ing kluster primer.

Conto:

Pandhuan Skala Paralel Amazon Redshift lan Asil Tes

Informasi skala konkurensi uga disimpen ing sawetara tabel lan tampilan liyane, kayata SVCS_CONCURRENCY_SCALING_USAGE. Kajaba iku, ana sawetara tabel katalog sing nyimpen informasi babagan skala paralel.

Π Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹

Penulis miwiti skala paralel kanggo siji antrian ing kluster internal kira-kira jam 18:30:00 GMT tanggal 29.03.2019/3/20. Ngganti parameter max_concurrency_scaling_clusters dadi 30 kira-kira jam 00:29.03.2019:XNUMX tanggal XNUMX/XNUMX/XNUMX.

Kanggo simulasi antrian request, kita suda jumlah slot kanggo antrian iki saka 15 kanggo 5.

Ing ngisor iki minangka grafik dasbor intermix.io sing nuduhake jumlah panjalukan sing mlaku lan antri sawise ngurangi jumlah slot.

Pandhuan Skala Paralel Amazon Redshift lan Asil Tes

We ndeleng sing wektu nunggu panjalukan ing antrian wis tambah, karo wektu maksimum luwih saka 5 menit.

Pandhuan Skala Paralel Amazon Redshift lan Asil Tes

Mangkene informasi sing cocog saka konsol AWS babagan kedadeyan sajrone wektu iki:

Pandhuan Skala Paralel Amazon Redshift lan Asil Tes

Redshift ngluncurake telung (3) kluster skala paralel kaya sing dikonfigurasi. Katon manawa kluster kasebut ora digunakake, sanajan akeh panjaluk ing kluster kita antri.

Grafik panggunaan ana hubungane karo grafik aktivitas skala:

Pandhuan Skala Paralel Amazon Redshift lan Asil Tes

Sawise sawetara jam, penulis mriksa antrian lan katon kaya 6 panjalukan mlaku kanthi skala paralel. Kita uga nyoba kanthi acak loro panjalukan liwat antarmuka panganggo. Kita durung mriksa cara nggunakake nilai kasebut nalika sawetara klompok paralel aktif bebarengan.

Pandhuan Skala Paralel Amazon Redshift lan Asil Tes

temonan

Skala paralel bisa nyuda panjalukan wektu ing antrian sajrone beban puncak.

Adhedhasar asil tes dhasar, pranyata kahanan kanthi panjaluk loading wis saya apik. Nanging, skala paralel mung ora ngrampungake kabeh masalah konkurensi.

Iki amarga watesan babagan jinis pitakon sing bisa nggunakake skala paralel. Contone, penulis duwe akeh tabel kanthi tombol urut interleaved, lan umume beban kerja kita nulis.

Senajan skala podo ora solusi universal kanggo nyetel WLM, nggunakake fitur iki prasaja lan langsung.

Mulane, penulis nyaranake nggunakake kanggo antrian WLM Panjenengan. Miwiti karo siji kluster paralel lan monitor beban puncak liwat konsol kanggo nemtokake manawa kluster anyar digunakake kanthi lengkap.

Minangka AWS nambahake dhukungan kanggo jinis pitakon lan tabel tambahan, skala paralel kudu mboko sithik dadi luwih efisien.

Komentar saka Daniyar Belkhodzhaev, Skyeng Data Engineer

Kita ing Skyeng uga langsung weruh kemungkinan munculΓ© skala paralel.
Fungsi kasebut narik banget, utamane amarga AWS ngira manawa umume pangguna ora kudu mbayar ekstra.

Kedaden ing pertengahan April, ana panjaluk sing ora biasa menyang klompok Redshift. Sajrone periode iki, kita asring nggunakake Concurrency Scaling; kadhangkala kluster tambahan bisa digunakake 24 jam saben dina tanpa mandheg.

Iki digawe iku bisa, yen ora rampung ngrampungake masalah karo antrian, banjur paling kanggo nggawe kahanan ditrima.

Pengamatan kita umume pas karo kesan wong lanang saka intermix.io.

Kita uga weruh manawa ana panjaluk sing nunggu ing antrian, ora kabeh panjaluk langsung diterusake menyang kluster paralel. Ketoke iki kedadeyan amarga kluster paralel isih butuh wektu kanggo miwiti. AkibatΓ©, sajrone beban puncak jangka pendek, kita isih duwe antrian cilik, lan weker sing cocog duwe wektu kanggo micu.

Sawise nyisihake beban sing ora normal ing wulan April, kita, kaya sing dikarepake AWS, mlebu mode panggunaan sok-sok - ing norma gratis.
Sampeyan bisa nglacak biaya skala paralel ing AWS Cost Explorer. Sampeyan kudu milih Service - Redshift, Tipe panggunaan - CS, contone USW2-CS: dc2.large.

Sampeyan bisa maca liyane babagan rega ing basa Rusia kene.

Source: www.habr.com

Add a comment