Panungtun Skala Paralel Amazon Redshift sareng Hasil Uji

Panungtun Skala Paralel Amazon Redshift sareng Hasil Uji

Di Skyeng kami nganggo Amazon Redshift, kalebet skala paralel, janten kami mendakan tulisan ieu ku Stefan Gromoll, pangadeg dotgo.com, pikeun intermix.io anu pikaresepeun. Saatos tarjamahan, sakedik pangalaman urang ti insinyur data Daniyar Belkhodzhaev.

Amazon Redshift Arsitéktur ngamungkinkeun skala ku nambahkeun titik anyar kana klaster. Kabutuhan pikeun ngarengsekeun sajumlah puncak paménta tiasa nyababkeun kaleuleuwihan node. Concurrency Scaling, sabalikna tina nambahkeun titik anyar, ngaronjatkeun daya komputasi sakumaha diperlukeun.

Skala paralel Amazon Redshift masihan kluster Redshift kapasitas tambahan pikeun nanganan volume paménta puncak. Gawéna ku mindahkeun pamundut ka klaster "paralel" anyar di latar tukang. Requests anu routed dumasar kana konfigurasi WLM jeung aturan.

Harga skala paralel dumasar kana modél kiridit kalayan tingkat gratis. Di luhur sks gratis, pamayaran dumasar kana waktos anu dipénta ku Kluster Skala Paralel.

Panulis nguji skala paralel dina salah sahiji klaster internal. Dina tulisan ieu, anjeunna bakal ngobrol ngeunaan hasil tés sareng masihan tip ngeunaan cara ngamimitian.

syarat klaster

Pikeun ngagunakeun skala paralel, klaster Amazon Redshift anjeun kedah nyumponan sarat ieu:

- platform: EC2-VPC;
- Jenis titik: dc2.8xlarge, ds2.8xlarge, dc2.large atawa ds2.xlarge;
- Jumlah titik: ti 2 ka 32 (cluster titik tunggal teu dirojong).

Jenis pamundut ditarima

Skala paralel henteu cocog pikeun sadaya jinis patarosan. Dina vérsi kahiji, éta ngan ukur ngolah pamundut maca anu nyugemakeun tilu kaayaan:

- Patarosan PILIH ngan ukur dibaca (sanaos langkung seueur jinis rencanana);
— query henteu ngarujuk kana méja kalayan gaya asihan INTERLEAVED;
- Paménta henteu nganggo Amazon Redshift Spectrum pikeun ngarujuk tabel éksternal.

Pikeun dialihkeun ka Kluster Skala Paralel, pamundutna kedah diantri. Salaku tambahan, patarosan cocog pikeun antrian SQA (Short Query Acceleration), moal dijalankeun dina klaster skala paralel.

Antrian jeung SQA merlukeun konfigurasi ditangtoskeun Redshift Workload Manajemén (WLM). Kami nyarankeun pikeun ngaoptimalkeun WLM anjeun heula - ieu bakal ngirangan kabutuhan skala paralel. Sareng ieu penting sabab skala paralel ngan gratis pikeun sababaraha jam. AWS nyatakeun yén skala paralel bakal gratis pikeun 97% palanggan, anu nyababkeun urang kana masalah harga.

Biaya skala paralel

AWS nawiskeun modél kiridit pikeun skala paralel. Unggal klaster aktip Amazon RedShift Akumulasi sks per jam, nepi ka hiji jam sks skala paralel gratis per poé.

Anjeun ngan ukur mayar nalika panggunaan Kluster Skala Paralel anjeun ngaleuwihan jumlah sks anu anjeun tampi.

Biaya diitung dina laju paménta per detik pikeun klaster paralel anu dianggo di luhur tingkat gratis. Anjeun ngan ditagihkeun pikeun durasi pamundut anjeun, kalayan biaya minimum hiji menit unggal waktos Kluster Skala Paralel diaktipkeun. Laju on-demand per detik diitung dumasar kana prinsip harga umum Amazon RedShift, nyaeta, gumantung kana jenis titik jeung jumlah titik dina klaster Anjeun.

Ngajalankeun Skala Paralel

Skala paralel dipicu pikeun tiap antrian WLM. Pindah ka konsol AWS Redshift sareng pilih Manajemén Beban Kerja tina ménu navigasi kénca. Pilih grup parameter WLM kluster anjeun tina menu turun-handap ieu.

Anjeun bakal ningali kolom anyar disebut "Concurrency Scaling Mode" gigireun tiap antrian. Standarna nyaéta "Tumpurkeun". Pencét "Édit" sareng anjeun tiasa ngarobih setélan pikeun unggal antrian.

Panungtun Skala Paralel Amazon Redshift sareng Hasil Uji

Konfigurasi

Skala paralel jalan ku diteruskeun requests luyu ka klaster dedicated anyar. Kluster anyar gaduh ukuran anu sami (jenis sareng jumlah titik) salaku kluster utama.

Jumlah standar klaster dipaké pikeun skala paralel hiji (1), kalawan kamampuhan pikeun ngonpigurasikeun nepi ka total sapuluh (10) klaster.
Jumlah total klaster pikeun skala paralel bisa diatur ku parameter max_concurrency_scaling_clusters. Ngaronjatkeun nilai parameter ieu nyadiakeun klaster kaleuleuwihan tambahan.

Panungtun Skala Paralel Amazon Redshift sareng Hasil Uji

Ngawaskeun

Aya sababaraha grafik tambahan anu aya dina konsol AWS Redshift. Bagan Kluster Skala Konkurensi Konfigurasi Maks mintonkeun nilai max_concurrency_scaling_clusters dina waktosna.

Panungtun Skala Paralel Amazon Redshift sareng Hasil Uji

Jumlah klaster skala aktip dipintonkeun dina panganteur pamaké dina bagian "Kagiatan Skala Concurrency":

Panungtun Skala Paralel Amazon Redshift sareng Hasil Uji

Dina tab Patarosan, aya kolom anu nunjukkeun naha query dieksekusi dina klaster utama atawa dina klaster skala paralel:

Panungtun Skala Paralel Amazon Redshift sareng Hasil Uji

Paduli naha query tinangtu dieksekusi dina klaster utama atawa ngaliwatan klaster skala paralel, éta disimpen dina stl_query.concurrency_scaling_status.

Panungtun Skala Paralel Amazon Redshift sareng Hasil Uji

Nilai 1 nunjukkeun yén query dieksekusi dina klaster skala paralel, sedengkeun nilai séjén nunjukkeun yén éta dieksekusi dina klaster primér.

contona:

Panungtun Skala Paralel Amazon Redshift sareng Hasil Uji

Inpormasi skala konkurensi ogé disimpen dina sababaraha tabel sareng tampilan sanés, sapertos SVCS_CONCURRENCY_SCALING_USAGE. Salaku tambahan, aya sababaraha tabel katalog anu nyimpen inpormasi ngeunaan skala paralel.

Hasil

Panulis ngamimitian skala paralel pikeun hiji antrian dina kluster internal kira-kira jam 18:30:00 GMT dina 29.03.2019/3/20. Ngarobah parameter max_concurrency_scaling_clusters ka 30 kira-kira jam 00:29.03.2019:XNUMX dina XNUMX/XNUMX/XNUMX.

Pikeun simulate antrian pamundut, urang ngurangan jumlah liang pikeun antrian ieu ti 15 ka 5.

Di handap ieu mangrupa grafik dasbor intermix.io némbongkeun jumlah requests ngajalankeun sarta antrian sanggeus ngurangan jumlah slot.

Panungtun Skala Paralel Amazon Redshift sareng Hasil Uji

Urang nempo yén waktu nungguan pikeun requests dina antrian geus ngaronjat, jeung waktu maksimum nu leuwih ti 5 menit.

Panungtun Skala Paralel Amazon Redshift sareng Hasil Uji

Ieu inpormasi anu relevan tina konsol AWS ngeunaan naon anu kajantenan salami ieu:

Panungtun Skala Paralel Amazon Redshift sareng Hasil Uji

Redshift ngaluncurkeun tilu (3) klaster skala paralel sakumaha dikonpigurasikeun. Nembongan yen klaster ieu underutilized, sanajan loba requests dina klaster urang anu antrian.

Grafik pamakean pakait sareng grafik kagiatan skala:

Panungtun Skala Paralel Amazon Redshift sareng Hasil Uji

Saatos sababaraha jam, panulis mariksa antrian sareng katingalina 6 pamundut dijalankeun dina skala paralel. Urang ogé diuji acak dua requests ngaliwatan panganteur pamaké. Kami henteu acan pariksa kumaha ngagunakeun nilai-nilai ieu nalika sababaraha klaster paralel aktip sakaligus.

Panungtun Skala Paralel Amazon Redshift sareng Hasil Uji

papanggihan

Skala paralel tiasa ngirangan paménta waktos dina antrian salami beban puncak.

Dumasar kana hasil tés dasar, tétéla yén kaayaan sareng panyumputan loading parantos ningkat sawaréh. Sanajan kitu, skala paralel nyalira teu ngajawab sakabéh masalah concurrency.

Ieu alatan larangan dina jenis queries nu bisa ngagunakeun skala paralel. Salaku conto, pangarang gaduh seueur tabel sareng konci sortir interleaved, sareng seueur beban kerja urang nyerat.

Sanajan skala paralel sanes solusi universal pikeun nyetel WLM, ngagunakeun fitur ieu basajan tur lugas.

Ku alatan éta, panulis nyarankeun ngagunakeun éta pikeun antrian WLM anjeun. Mimitian ku hiji klaster paralel jeung monitor beban puncak ngaliwatan konsol pikeun nangtukeun lamun klaster anyar keur pinuh garapan.

Nalika AWS nambihan dukungan pikeun jinis patarosan sareng tabel tambahan, skala paralel laun-laun janten langkung éfisién.

Komentar ti Daniyar Belkhodzhaev, Insinyur Data Skyeng

Kami di Skyeng ogé langsung perhatikeun kamungkinan munculna skala paralel.
Fungsionalitasna pikaresepeun pisan, khususna mertimbangkeun yén AWS ngira-ngira yén kalolobaan pangguna henteu kedah mayar tambahan pikeun éta.

Kajadian éta dina pertengahan April urang ngagaduhan pamenta anu teu biasa ka klaster Redshift. Salila periode ieu, urang sering nganggo Concurrency Scaling; sakapeung klaster tambahan damel 24 jam sadinten tanpa lirén.

Hal ieu ngamungkinkeun, upami henteu lengkep ngabéréskeun masalah sareng antrian, teras sahenteuna ngajantenkeun kaayaan tiasa ditampi.

Observasi kami sabagéan ageung coincide jeung tayangan ti guys ti intermix.io.

Urang ogé noticed nu najan aya requests ngantosan dina antrian, teu kabeh requests langsung diteruskeun kana klaster paralel. Tétéla ieu kajadian sabab klaster paralel masih butuh waktu pikeun ngamimitian. Hasilna, salila beban puncak jangka pondok urang masih boga antrian leutik, sarta alarm pakait boga waktu pikeun memicu.

Saatos ngaleungitkeun beban anu teu normal dina bulan April, kami, sakumaha anu diarepkeun AWS, asup kana modeu pamakean kalana - dina norma gratis.
Anjeun tiasa ngalacak biaya skala paralel anjeun dina AWS Cost Explorer. Anjeun kudu milih Service - Redshift, Tipe pamakéan - CS, contona USW2-CS: dc2.large.

Anjeun tiasa maca langkung seueur ngeunaan harga dina basa Rusia dieu.

sumber: www.habr.com

Tambahkeun komentar