Analizo de VM-efikeco en VMware vSphere. Parto 3: Stokado

Analizo de VM-efikeco en VMware vSphere. Parto 3: Stokado

Parto 1. Pri CPU
Parto 2. Pri Memoro

Hodiaŭ ni analizos la metrikojn de la disksubsistemo en vSphere. Stoka problemo estas la plej ofta kialo por malrapida virtuala maŝino. Se, en la kazo de CPU kaj RAM, solvo de problemoj finiĝas ĉe la hiperviziero-nivelo, tiam se estas problemoj kun la disko, vi eble devos trakti la datumreton kaj stokadosistemon.

Mi diskutos la temon uzante la ekzemplon de bloka aliro al stokadsistemoj, kvankam por dosiera aliro la nombriloj estas proksimume la samaj.

Iom teorio

Kiam oni parolas pri la agado de la disksubsistemo de virtualaj maŝinoj, homoj kutime atentas tri interrilatajn parametrojn:

  • nombro da enig/eligoperacioj (Enig/Eliga Operacioj por Sekundo, IOPS);
  • trairo;
  • prokrasto de enigo/eligoperacioj (Latenteco).

Nombro de IOPS kutime grava por hazardaj laborŝarĝoj: aliro al diskoblokoj situantaj en malsamaj lokoj. Ekzemplo de tia ŝarĝo povus esti datumbazoj, komercaj aplikoj (ERP, CRM), ktp.

Larĝa de bando grava por sinsekvaj ŝarĝoj: aliro al blokoj situantaj unu post alia. Ekzemple, dosierserviloj (sed ne ĉiam) kaj videogvatsistemoj povas generi tian ŝarĝon.

Trafluo rilatas al la nombro da I/O-operacioj jene:

Trapaso = IOPS * Blokograndeco, kie Blokgrandeco estas la blokgrandeco.

Blokograndeco estas sufiĉe grava trajto. Modernaj versioj de ESXi permesas blokojn ĝis 32 KB en grandeco. Se la bloko estas eĉ pli granda, ĝi estas dividita en plurajn. Ne ĉiuj stoksistemoj povas efike funkcii kun tiaj grandaj blokoj, do ekzistas parametro DiskMaxIOSize en ESXi Altnivelaj Agordoj. Uzante ĝin, vi povas redukti la maksimuman blokgrandecon transsaltita de la hiperviziero (pli da detaloj tie). Antaŭ ol ŝanĝi ĉi tiun parametron, mi rekomendas, ke vi konsultu la fabrikanton de stokado aŭ almenaŭ provi la ŝanĝojn sur laboratorio-benko. 

Granda blokgrandeco povas havi malutilan efikon al stokado-rendimento. Eĉ se la nombro da IOPS kaj trairo estas relative malgranda, altaj latentecoj povas esti observitaj kun granda blokgrandeco. Tial atentu ĉi tiun parametron.

atendotempo - la plej interesa agado-parametro. La I/O-latenteco por virtuala maŝino konsistas el:

  • malfruoj ene de la hiperviziero (KAVG, Average Kernel MilliSec/Read);
  • prokrasto provizita de la datumreto kaj stokadosistemo (DAVG, Average Driver MilliSec/Command).

La totala latenteco, kiu estas videbla en la gasta OS (GAVG, Meza Gasto MilliSec/Komando) estas la sumo de KAVG kaj DAVG.

GAVG kaj DAVG estas mezuritaj kaj KAVG estas kalkulita: GAVG–DAVG.

Analizo de VM-efikeco en VMware vSphere. Parto 3: Stokado
Fonto

Ni rigardu pli detale KAVG. Dum normala operacio, KAVG devus tendenci al nulo aŭ almenaŭ esti multe malpli ol DAVG. La nura kazo, pri kiu mi scias, kie KAVG estas atendite alta, estas la IOPS-limo sur la VM-disko. En ĉi tiu kazo, kiam vi provas superi la limon, KAVG pliiĝos.

La plej signifa komponento de KAVG estas QAVG - la pretiga vostotempo ene de la hiperviziero. La ceteraj komponentoj de KAVG estas nekonsiderindaj.

La vico en la diskadaptilo-ŝoforo kaj la vico al la lunoj havas fiksan grandecon. Por tre ŝarĝitaj medioj, povas esti utile pliigi ĉi tiun grandecon. estas priskribas kiel pliigi la vicojn en la adaptilo-ŝoforo (samtempe pliiĝos la vico al la lunoj). Ĉi tiu agordo funkcias kiam nur unu VM funkcias kun la luno, kio estas malofta. Se estas pluraj VM-oj sur la luno, vi ankaŭ devas pliigi la parametron Disk.SchedNumReqOutstanding (instrukcioj  tie). Pliigante la atendovicon, vi malpliigas QAVG kaj KAVG respektive.

Sed denove, unue legu la dokumentaron de la HBA-vendisto kaj provu la ŝanĝojn sur laboratorio-benko.

La grandeco de la atendovico al la luno povas esti trafita per la inkludo de la SIOC (Storage I/O Control) mekanismo. Ĝi disponigas unuforman aliron al la luno de ĉiuj serviloj en la areto dinamike ŝanĝante la atendovicon al la luno sur la serviloj. Tio estas, se unu el la gastigantoj prizorgas VM kiu postulas neproporcian kvanton de efikeco (brua najbaro VM), SIOC reduktas la vicolongon al la luno sur ĉi tiu gastiganto (DQLEN). Pli da detaloj tie.

Ni ordigis KAVG, nun iom pri DAVG. Ĉio estas simpla ĉi tie: DAVG estas la prokrasto enkondukita de la ekstera medio (datumreto kaj stokadosistemo). Ĉiu moderna kaj ne tiel moderna stokadsistemo havas siajn proprajn rendimentajn nombrilojn. Por analizi problemojn kun DAVG, estas senco rigardi ilin. Se ĉio estas en ordo ĉe la ESXi kaj stokado, kontrolu la datumreton.

Por eviti rendimentajn problemojn, elektu la ĝustan Path Selection Policy (PSP) por via stoksistemo. Preskaŭ ĉiuj modernaj stokadsistemoj subtenas PSP Round-Robin (kun aŭ sen ALUA, Asymmetric Logical Unit Access). Ĉi tiu politiko permesas al vi uzi ĉiujn disponeblajn vojojn al la stokadsistemo. En la kazo de ALUA, nur la vojoj al la regilo kiu posedas la lunon estas uzataj. Ne ĉiuj stoksistemoj sur ESXi havas defaŭltajn regulojn, kiuj starigas la Round-Robin-politikon. Se ne ekzistas regulo por via stokadsistemo, uzu kromprogramon de la stokadsistemo-fabrikisto, kiu kreos respondan regulon ĉe ĉiuj gastigantoj en la areto, aŭ kreos regulon mem. Detaloj tie

Ankaŭ iuj fabrikantoj de stokadsistemoj rekomendas ŝanĝi la nombron da IOPS per vojo de la norma valoro de 1000 al 1. En nia praktiko, ĉi tio ebligis "premi" pli da rendimento el la stokadsistemo kaj signife redukti la tempon necesan por malsukceso. en kazo de fiasko de regilo aŭ ĝisdatigo. Kontrolu la rekomendojn de la vendisto, kaj se ne ekzistas kontraŭindikoj, provu ŝanĝi ĉi tiun parametron. Detaloj tie.

Bazaj virtualaj maŝinaj diskaj subsistemaj rendimentokalkuliloj

Diskaj subsistemaj rendimentokalkuliloj en vCenter estas kolektitaj en la Datumvendejo, Disko, Virtuala Disko-sekcioj:

Analizo de VM-efikeco en VMware vSphere. Parto 3: Stokado

sekcio Datumbutiko ekzistas metrikoj por vSphere-diskostokoj (datumbutikoj) sur kiuj la VM-diskoj situas. Ĉi tie vi trovos normajn nombrilojn por:

  • IOPS (Averaĝaj leg-/skribaj petoj je sekundo), 
  • trairo (Legado/Skriba indico), 
  • prokrastoj (Legi/Skribi/Plej alta latenteco).

Principe ĉio estas klara el la nomoj de la nombriloj. Permesu al mi atentigi vin denove pri tio, ke la statistikoj ĉi tie ne estas por specifa VM (aŭ VM-disko), sed ĝeneralaj statistikoj por la tuta datumvendejo. Laŭ mi, estas pli oportune rigardi ĉi tiujn statistikojn en ESXTOP, almenaŭ surbaze de la fakto, ke la minimuma mezura periodo estas 2 sekundoj.

sekcio disko estas metrikoj pri blokaj aparatoj uzataj de la VM. Estas nombriloj por IOPS de la sumiga tipo (la nombro da enig/eligoperacioj dum la mezurperiodo) kaj pluraj nombriloj rilataj al blokado de aliro (Komandoj ĉesigitaj, Bus-rekomencigitaj). Laŭ mi, estas ankaŭ pli oportune vidi ĉi tiujn informojn en ESXTOP.

Sekcio Virtuala Disko – la plej utila el la vidpunkto de trovado de agadoproblemoj de la VM-diska subsistemo. Ĉi tie vi povas vidi la agadon por ĉiu virtuala disko. Estas ĉi tiu informo necesa por kompreni ĉu aparta virtuala maŝino havas problemon. Aldone al la normaj nombriloj por la nombro da I/O-operacioj, legado/skriba volumo kaj prokrastoj, ĉi tiu sekcio enhavas utilajn nombrilojn kiuj montras la blokgrandecon: Legu/Skribu peton grandeco.

La suba bildo montras grafikon de VM-diska rendimento, kie vi povas vidi la nombron da IOPS, latencia kaj blokgrandeco. 

Analizo de VM-efikeco en VMware vSphere. Parto 3: Stokado

Vi ankaŭ povas vidi rendimentajn metrikojn por la tuta datumvendejo se SIOC estas ebligita. Jen bazaj informoj averaĝe Latenteco kaj IOPS. Defaŭlte, ĉi tiuj informoj nur povas esti viditaj en reala tempo.

Analizo de VM-efikeco en VMware vSphere. Parto 3: Stokado

ESXTOP

ESXTOP havas plurajn ekranojn kiuj disponigas informojn pri la mastro-diska subsistemo kiel tutaĵo, individuajn virtualajn maŝinojn kaj iliajn diskojn.

Ni komencu per informoj pri virtualaj maŝinoj. La ekrano "Disk VM" estas alvokita per la "v" klavo:

Analizo de VM-efikeco en VMware vSphere. Parto 3: Stokado

NVDISK estas la nombro da VM-diskoj. Por vidi informojn por ĉiu disko, premu "e" kaj enigu la GID de la interesa VM.

La signifo de la ceteraj parametroj sur ĉi tiu ekrano estas klara de iliaj nomoj.

Alia utila ekrano dum solvi problemojn estas Diska adaptilo. Vokita per la klavo "d" (kampoj A,B,C,D,E,G estas elektitaj en la suba bildo):

Analizo de VM-efikeco en VMware vSphere. Parto 3: Stokado

NPTH – la nombro da vojoj al la lunoj kiuj estas videblaj de ĉi tiu adaptilo. Por akiri informojn pri ĉiu vojo sur la adaptilo, premu "e" kaj enigu la nomon de la adaptilo:

Analizo de VM-efikeco en VMware vSphere. Parto 3: Stokado

AQLEN - maksimuma vostograndeco sur la adaptilo.

Ankaŭ sur ĉi tiu ekrano estas la prokrastkalkuliloj, pri kiuj mi parolis supre: KAVG/cmd, GAVG/cmd, DAVG/cmd, QAVG/cmd.

La ekrano de Diska aparato, kiu estas alvokita per premado de la klavo "u", provizas informojn pri individuaj blokaj aparatoj - lunoj (kampoj A, B, F, G, I estas elektitaj en la suba bildo). Ĉi tie vi povas vidi la staton de la atendovico por la lunoj.

Analizo de VM-efikeco en VMware vSphere. Parto 3: Stokado

DQLEN - vostograndeco por bloka aparato.
ACTV – nombro da I/O-komandoj en la ESXi-kerno.
QUED – nombro da I/O-komandoj en la atendovico.
%USONA DOLARO – ACTV / DQLEN × 100%.
LAŬDU – (ACTV + QUED) / DQLEN.

Se %USD estas alta, vi devus konsideri pliigi la voston. Ju pli da komandoj en la atendovico, des pli alta la QAVG kaj, sekve, la KAVG.

Vi ankaŭ povas vidi sur la Disk-aparato-ekrano ĉu VAAI (vStorage API por Array Integration) funkcias en la stokadsistemo. Por fari tion, elektu kampojn A kaj O.

La VAAI-mekanismo permesas translokigi parton de la laboro de la hiperviziero rekte al la stokada sistemo, ekzemple, nuligante, kopiante blokojn aŭ blokante.

Analizo de VM-efikeco en VMware vSphere. Parto 3: Stokado

Kiel vi povas vidi en la supra bildo, VAAI funkcias sur ĉi tiu stokada sistemo: Nulo kaj ATS-primitivoj estas aktive uzataj.

Konsiloj por optimumigi laboron kun la disksubsistemo sur ESXi

  • Atentu la grandecon de la bloko.
  • Agordu la optimuman atendovicgrandon sur la HBA.
  • Ne forgesu ebligi SIOC en datumvendejoj.
  • Elektu PSP laŭ la rekomendoj de la fabrikanto de la stokadsistemo.
  • Certigu, ke VAAI funkcias.

Utilaj artikoloj pri la temo:http://www.yellow-bricks.com/2011/06/23/disk-schednumreqoutstanding-the-story/
http://www.yellow-bricks.com/2009/09/29/whats-that-alua-exactly/
http://www.yellow-bricks.com/2019/03/05/dqlen-changes-what-is-going-on/
https://www.codyhosterman.com/2017/02/understanding-vmware-esxi-queuing-and-the-flasharray/
https://www.codyhosterman.com/2018/03/what-is-the-latency-stat-qavg/
https://kb.vmware.com/s/article/1267
https://kb.vmware.com/s/article/1268
https://kb.vmware.com/s/article/1027901
https://kb.vmware.com/s/article/2069356
https://kb.vmware.com/s/article/2053628
https://kb.vmware.com/s/article/1003469
https://www.vmware.com/content/dam/digitalmarketing/vmware/en/pdf/techpaper/performance/vsphere-esxi-vcenter-server-67-performance-best-practices.pdf

fonto: www.habr.com

Aldoni komenton