Giya sa Amazon Redshift Parallel Scaling ug Resulta sa Pagsulay

Giya sa Amazon Redshift Parallel Scaling ug Resulta sa Pagsulay

Sa Skyeng gigamit namo ang Amazon Redshift, lakip ang parallel scaling, mao nga among nakit-an kini nga artikulo ni Stefan Gromoll, founder sa dotgo.com, alang sa intermix.io nga makapaikag. Human sa paghubad, gamay sa among kasinatian gikan sa data engineer nga si Daniyar Belkhodzhaev.

Amazon Redshift Arkitektura nagtugot sa scaling pinaagi sa pagdugang sa bag-ong mga node sa cluster. Ang panginahanglan sa pagsagubang sa usa ka peak nga gidaghanon sa mga hangyo mahimong mosangpot sa sobra nga paghatag sa mga node. Ang Concurrency Scaling, sukwahi sa pagdugang sa bag-ong mga node, nagdugang sa gahum sa pag-compute kung gikinahanglan.

Ang Amazon Redshift parallel scaling naghatag sa Redshift clusters og dugang nga kapasidad sa pagdumala sa peak request volume. Naglihok kini pinaagi sa pagbalhin sa mga hangyo sa bag-ong "parallel" nga mga cluster sa background. Ang mga hangyo giruta base sa WLM configuration ug mga lagda.

Ang parallel scaling nga presyo gibase sa usa ka modelo sa kredito nga adunay libre nga lebel. Labaw sa libre nga mga kredito, ang pagbayad gibase sa oras nga giproseso sa Parallel Scaling Cluster ang mga hangyo.

Gisulayan sa tagsulat ang parallel scaling sa usa sa mga internal nga cluster. Niini nga post, maghisgot siya bahin sa mga resulta sa pagsulay ug maghatag mga tip kung giunsa pagsugod.

Mga kinahanglanon sa cluster

Aron magamit ang parallel scaling, ang imong Amazon Redshift cluster kinahanglan nga makab-ot ang mosunod nga mga kinahanglanon:

- plataporma: EC2-VPC;
- matang sa node: dc2.8xlarge, ds2.8xlarge, dc2.large o ds2.xlarge;
- gidaghanon sa mga node: gikan sa 2 ngadto sa 32 (usa ka node clusters dili suportado).

Mga matang sa hangyo nga madawat

Ang parallel scaling dili angay alang sa tanang matang sa mga pangutana. Sa unang bersyon, giproseso lamang niini ang mga hangyo sa pagbasa nga makatagbaw sa tulo ka kondisyon:

β€” PILI nga mga pangutana kay read-only (bisan pa nga mas daghang tipo ang giplano);
β€” ang pangutana wala maghisgot ug lamesa nga adunay INTERLEAVED sorting style;
- Ang pangutana wala mogamit sa Amazon Redshift Spectrum sa paghisgot sa gawas nga mga lamesa.

Aron madala ngadto sa Parallel Scaling Cluster, ang hangyo kinahanglang ipila. Dugang pa, ang mga pangutana angayan alang sa pila SQA (Mubo nga Query Acceleration), dili modagan sa parallel scale clusters.

Ang mga pila ug SQA nanginahanglan husto nga pag-configure Redshift Workload Management (WLM). Among girekomendar ang pag-optimize una sa imong WLM - kini makapakunhod sa panginahanglan alang sa parallel scaling. Ug kini hinungdanon tungod kay ang parallel scaling libre lang sa pila ka oras. Giangkon sa AWS nga ang parallel scaling mahimong libre alang sa 97% sa mga kustomer, nga nagdala kanato sa isyu sa pagpresyo.

Gasto sa parallel scaling

Ang AWS nagtanyag usa ka modelo sa kredito alang sa parallel scaling. Ang matag aktibo nga cluster Amazon RedShift Makatigom og mga credit kada oras, hangtod sa usa ka oras nga libre nga parallel scaling credits kada adlaw.

Nagbayad ka lang kung ang imong paggamit sa Parallel Scaling Clusters milapas sa kantidad sa mga kredito nga imong nadawat.

Ang gasto kalkulado sa per-second on-demand rate para sa parallel cluster nga gigamit labaw sa free rate. Gisingil ka lang sa gidugayon sa imong mga hangyo, nga adunay minimum nga bayad nga usa ka minuto matag higayon nga ang usa ka Parallel Scaling Cluster gi-aktibo. Ang matag segundo nga on-demand nga rate gikalkulo base sa kinatibuk-ang mga prinsipyo sa pagpresyo Amazon RedShift, sa ato pa, nagdepende kini sa matang sa node ug sa gidaghanon sa mga node sa imong cluster.

Paglunsad sa Parallel Scaling

Ang parallel scaling ma-trigger para sa matag WLM queue. Adto sa AWS Redshift console ug pilia ang Workload Management gikan sa wala nga navigation menu. Pilia ang WLM parameter group sa imong cluster gikan sa mosunod nga drop-down menu.

Makita nimo ang bag-ong column nga gitawag og "Concurrency Scaling Mode" sunod sa matag pila. Ang default mao ang "Disabled". I-klik ang "Edit" ug mahimo nimong usbon ang mga setting sa matag pila.

Giya sa Amazon Redshift Parallel Scaling ug Resulta sa Pagsulay

Pagsalig

Ang parallel scaling nagtrabaho pinaagi sa pagpasa sa angay nga mga hangyo sa bag-ong gipahinungod nga mga cluster. Ang mga bag-ong cluster adunay parehas nga gidak-on (tipo ug gidaghanon sa mga node) ingon nga nag-unang cluster.

Ang default nga gidaghanon sa mga cluster nga gigamit alang sa parallel scaling mao ang usa (1), nga adunay abilidad sa pag-configure hangtod sa kinatibuk-an nga napulo (10) ka mga cluster.
Ang kinatibuk-ang gidaghanon sa mga cluster para sa parallel scaling mahimong itakda sa max_concurrency_scaling_clusters parameter. Ang pagdugang sa bili niini nga parameter naghatag og dugang nga mga pungpong nga sobra.

Giya sa Amazon Redshift Parallel Scaling ug Resulta sa Pagsulay

Pagbantay

Adunay daghang dugang nga mga graph nga magamit sa AWS Redshift console. Ang Max Configured Concurrency Scaling Clusters nga tsart nagpakita sa bili sa max_concurrency_scaling_clusters sa paglabay sa panahon.

Giya sa Amazon Redshift Parallel Scaling ug Resulta sa Pagsulay

Ang gidaghanon sa mga aktibong scaling clusters gipakita sa user interface sa "Concurrency Scaling Activity" nga seksyon:

Giya sa Amazon Redshift Parallel Scaling ug Resulta sa Pagsulay

Sa tab nga Mga Pangutana, adunay usa ka kolum nga nagpakita kung ang pangutana gipatuman sa panguna nga cluster o sa parallel scaling cluster:

Giya sa Amazon Redshift Parallel Scaling ug Resulta sa Pagsulay

Dili igsapayan kung ang usa ka partikular nga pangutana gipatuman sa punoan nga cluster o pinaagi sa usa ka parallel scaling cluster, kini gitipigan sa stl_query.concurrency_scaling_status.

Giya sa Amazon Redshift Parallel Scaling ug Resulta sa Pagsulay

Ang usa ka kantidad nga 1 nagpakita nga ang pangutana gipatuman sa parallel scale cluster, samtang ang uban nga mga kantidad nagpakita nga kini gipatuman sa nag-unang cluster.

Pananglitan:

Giya sa Amazon Redshift Parallel Scaling ug Resulta sa Pagsulay

Ang impormasyon sa pag-scale sa concurrency gitipigan usab sa ubang mga lamesa ug mga panglantaw, sama sa SVCS_CONCURRENCY_SCALING_USAGE. Dugang pa, adunay daghang mga lamesa sa katalogo nga nagtipig kasayuran bahin sa parallel scaling.

Π Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹

Gisugdan sa mga tagsulat ang parallel scaling alang sa usa ka pila sa internal nga cluster sa gibana-bana nga 18:30:00 GMT sa 29.03.2019/3/20. Giusab ang max_concurrency_scaling_clusters parameter ngadto sa 30 sa gibana-bana nga 00:29.03.2019:XNUMX sa XNUMX/XNUMX/XNUMX.

Aron ma-simulate ang usa ka hangyo nga pila, among gikunhoran ang gidaghanon sa mga slots alang niini nga pila gikan sa 15 ngadto sa 5.

Sa ubos usa ka intermix.io dashboard chart nga nagpakita sa gidaghanon sa mga hangyo nga nagdagan ug nagpila human sa pagkunhod sa gidaghanon sa mga slots.

Giya sa Amazon Redshift Parallel Scaling ug Resulta sa Pagsulay

Nakita namon nga ang oras sa paghulat alang sa mga hangyo sa pila nadugangan, nga ang labing taas nga oras labaw pa sa 5 minuto.

Giya sa Amazon Redshift Parallel Scaling ug Resulta sa Pagsulay

Ania ang may kalabutan nga impormasyon gikan sa AWS console bahin sa nahitabo niining panahona:

Giya sa Amazon Redshift Parallel Scaling ug Resulta sa Pagsulay

Ang Redshift naglunsad og tulo (3) ka parallel scaling clusters ingon nga gi-configure. Mopatim-aw nga kini nga mga cluster wala kaayo magamit, bisan kung daghang mga hangyo sa among cluster ang gipila.

Ang graph sa paggamit may kalabutan sa scaling activity graph:

Giya sa Amazon Redshift Parallel Scaling ug Resulta sa Pagsulay

Pagkahuman sa pila ka oras, gisusi sa mga tagsulat ang pila ug ingon og 6 nga mga hangyo ang nagdagan sa parallel scaling. Gisulayan usab namo nga random ang duha ka hangyo pinaagi sa user interface. Wala namon gisusi kung giunsa paggamit kini nga mga kantidad kung daghang mga parallel cluster ang aktibo sa usa ka higayon.

Giya sa Amazon Redshift Parallel Scaling ug Resulta sa Pagsulay

kaplag

Ang parallel scaling makapakunhod sa oras nga gigugol sa mga hangyo sa pila sa panahon sa peak load.

Pinasukad sa mga sangputanan sa sukaranan nga pagsulay, nahibal-an nga ang kahimtang sa mga hangyo sa pagkarga adunay bahin nga milambo. Bisan pa, ang parallel scaling lamang wala makasulbad sa tanan nga mga problema sa concurrency.

Kini tungod sa mga pagdili sa mga matang sa mga pangutana nga makagamit sa parallel scaling. Pananglitan, ang mga tagsulat adunay daghang mga lamesa nga adunay mga interleaved sort key, ug kadaghanan sa among workload mao ang pagsulat.

Bisan kung ang parallel scaling dili usa ka unibersal nga solusyon sa pag-set up sa WLM, ang paggamit niini nga bahin yano ug prangka.

Busa, girekomenda sa tagsulat ang paggamit niini alang sa imong WLM nga mga pila. Pagsugod sa usa ka parallel cluster ug monitor ang peak load pinaagi sa console aron mahibal-an kung ang bag-ong mga cluster hingpit nga gigamit.

Samtang ang AWS nagdugang suporta alang sa dugang nga mga tipo sa pangutana ug mga lamesa, ang parallel scaling kinahanglan nga anam-anam nga mahimong labi ka episyente.

Komento gikan ni Daniyar Belkhodzhaev, Skyeng Data Engineer

Kami sa Skyeng nakamatikod usab dayon sa mitumaw nga posibilidad sa parallel scaling.
Makadani kaayo ang pag-andar, labi na kung gikonsiderar nga gibanabana sa AWS nga kadaghanan sa mga tiggamit dili na kinahanglan magbayad dugang alang niini.

Nahitabo kini nga sa tungatunga sa Abril kami adunay usa ka dili kasagaran nga pagsamok sa mga hangyo sa Redshift cluster. Niining panahona, kanunay namong gigamit ang Concurrency Scaling; usahay ang dugang nga cluster nagtrabaho 24 oras sa usa ka adlaw nga walay paghunong.

Gihimo kini nga posible, kung dili aron hingpit nga masulbad ang problema sa mga pila, nan labing menos aron mahimo ang kahimtang nga madawat.

Ang among mga obserbasyon kadaghanan nahiuyon sa mga impresyon sa mga lalaki gikan sa intermix.io.

Namatikdan usab namo nga bisan kung adunay mga hangyo nga naghulat sa pila, dili tanan nga mga hangyo gipasa dayon sa parallel cluster. Dayag nga kini mahitabo tungod kay ang parallel cluster nagkinahanglan pa ug panahon sa pagsugod. Ingon usa ka sangputanan, sa mubo nga panahon nga peak load aduna pa kitay gagmay nga mga pila, ug ang katugbang nga mga alarma adunay panahon sa pag-trigger.

Sa pagtangtang sa dili normal nga mga karga sa Abril, kami, ingon sa gipaabut sa AWS, misulod sa panagsa nga mode sa paggamit - sulod sa libre nga pamatasan.
Mahimo nimong masubay ang imong parallel scaling nga gasto sa AWS Cost Explorer. Kinahanglan nimo nga pilion ang Serbisyo - Redshift, Usage Type - CS, pananglitan USW2-CS:dc2.large.

Mahimo nimong mabasa ang dugang bahin sa mga presyo sa Russian dinhi.

Source: www.habr.com

Idugang sa usa ka comment