Analyse fan VM prestaasjes yn VMware vSphere. Diel 3: Opslach

Analyse fan VM prestaasjes yn VMware vSphere. Diel 3: Opslach

Diel 1. Oer CPU
Diel 2. Oer ûnthâld

Hjoed sille wy analysearje de metriken fan it skiif subsysteem yn vSphere. In opslachprobleem is de meast foarkommende reden foar in trage firtuele masine. As, yn 't gefal fan CPU en RAM, it oplossen fan problemen op it hypervisornivo einiget, dan as d'r problemen binne mei de skiif, kinne jo te krijen hawwe mei it gegevensnetwurk en opslachsysteem.

Ik sil it ûnderwerp beprate mei it foarbyld fan blok tagong ta opslachsystemen, hoewol foar triemtagong binne de tellers sawat itselde.

In bytsje teory

As it praat oer de prestaasjes fan it skiifsubsysteem fan firtuele masines, jouwe minsken meastentiids omtinken oan trije ûnderling relatearre parameters:

  • oantal ynfier- / útfier operaasjes (Ynput / útfier operaasjes per sekonde, IOPS);
  • throughput;
  • fertraging fan ynfier / útfier operaasjes (Latency).

Oantal IOPS meastentiids wichtich foar willekeurige workloads: tagong ta skiif blokken leit op ferskate plakken. In foarbyld fan sa'n lading kin databases, saaklike applikaasjes (ERP, CRM), ensfh.

Trochput wichtich foar sekwinsjele loads: tagong ta blokken dy't ien nei de oare lizze. Bygelyks, triemservers (mar net altyd) en fideotafersjochsystemen kinne sa'n lading generearje.

Trochfier is relatearre oan it oantal I/O-operaasjes as folget:

Trochfier = IOPS * Blokgrutte, wêr't Blokgrutte de blokgrutte is.

Blokgrutte is in frij wichtige eigenskip. Moderne ferzjes fan ESXi tastean blokken oant 32 KB yn grutte. As it blok noch grutter is, wurdt it ferdield yn ferskate. Net alle opslach systemen kinne effisjint wurkje mei sokke grutte blokken, dus der is in DiskMaxIOSize parameter yn ESXi Avansearre ynstellings. Mei it brûken kinne jo de maksimale blokgrutte ferminderje dy't troch de hypervisor oerslein is (mear details hjir). Foardat jo dizze parameter feroarje, ried ik oan dat jo rieplachtsje mei de fabrikant fan opslachsysteem of op syn minst de wizigingen op in laboratoariumbank testje. 

In grutte blokgrutte kin in skealik effekt hawwe op opslachprestaasjes. Sels as it oantal IOPS en trochfier relatyf lyts binne, kinne hege latencies wurde waarnommen mei in grutte blokgrutte. Dêrom, betelje omtinken oan dizze parameter.

Latency - de meast ynteressante prestaasjeparameter. De I/O latency foar in firtuele masine bestiet út:

  • fertragingen binnen de hypervisor (KAVG, Gemiddelde Kernel MilliSec / Read);
  • fertraging levere troch de gegevens netwurk en opslach systeem (DAVG, Gemiddelde Driver MilliSec / Kommando).

De totale latency dy't sichtber is yn 'e gast OS (GAVG, Gemiddelde gast MilliSec / Kommando) is de som fan KAVG en DAVG.

GAVG en DAVG wurde metten en KAVG wurdt berekkene: GAVG–DAVG.

Analyse fan VM prestaasjes yn VMware vSphere. Diel 3: Opslach
Boarne

Litte we ris neier sjen KAVG. Under normale operaasje moat KAVG nei nul of op syn minst folle minder wêze as DAVG. It ienige gefal dat ik wit wêr't KAVG ferwachte heech is, is de IOPS-limyt op 'e VM-skiif. Yn dit gefal, as jo besykje de limyt te oerwinnen, sil KAVG ferheegje.

De meast wichtige komponint fan KAVG is QAVG - de ferwurkingswachtrige tiid binnen de hypervisor. De oerbleaune ûnderdielen fan KAVG binne negligible.

De wachtrige yn 'e skiifadapterbestjoerder en de wachtrige nei de moannen hat in fêste grutte. Foar heul laden omjouwings kin it nuttich wêze om dizze grutte te fergrutsjen. it is beskriuwt hoe't jo de wachtrijen yn 'e adapterbestjoerder ferheegje (tagelyk sil de wachtrige nei de moannen tanimme). Dizze ynstelling wurket as mar ien VM wurket mei de moanne, wat seldsum is. As d'r ferskate VM's op 'e moanne binne, moatte jo ek de parameter ferheegje Disk.SchedNumReqOutstanding (ynstruksjes  hjir). Troch de wachtrige te fergrutsjen, ferminderje jo respektivelik QAVG en KAVG.

Mar nochris, lês earst de dokumintaasje fan 'e HBA-ferkeaper en test de wizigingen op in laboratoarium.

De grutte fan 'e wachtrige nei de moanne kin beynfloede wurde troch it opnimmen fan it SIOC (Storage I / O Control) meganisme. It jout unifoarme tagong ta de moanne fan alle tsjinners yn it kluster troch dynamysk feroarjen fan de wachtrige nei de moanne op 'e tsjinners. Dat is, as ien fan de hosts rint in VM dy't fereasket in ûnevenredige hoemannichte prestaasjes (lûdsinnige buorman VM), ferleget SIOC de wachtrige lingte nei de moanne op dizze host (DQLEN). Mear details hjir.

Wy hawwe sortearre út KAVG, no in bytsje oer DAVG. Alles is hjir ienfâldich: DAVG is de fertraging yntrodusearre troch de eksterne omjouwing (datanetwurk en opslachsysteem). Elk modern en net sa moderne opslachsysteem hat syn eigen prestaasjestellers. Om problemen mei DAVG te analysearjen, makket it sin om nei har te sjen. As alles is goed op de ESXi en opslach kant, kontrolearje de gegevens netwurk.

Om prestaasjesproblemen te foarkommen, kies it juste Path Selection Policy (PSP) foar jo opslachsysteem. Hast alle moderne opslachsystemen stypje PSP Round-Robin (mei of sûnder ALUA, Asymmetric Logical Unit Access). Dit belied lit jo alle beskikbere paden nei it opslachsysteem brûke. Yn it gefal fan ALUA wurde allinich de paden brûkt nei de kontrôler dy't de moanne hat. Net alle opslachsystemen op ESXi hawwe standertregels dy't it Round-Robin-belied ynstelle. As d'r gjin regel is foar jo opslachsysteem, brûk dan in plugin fan 'e fabrikant fan opslachsysteem, dy't in oerienkommende regel sil meitsje op alle hosts yn it kluster, of sels in regel meitsje. Details hjir

Ek riede guon fabrikanten fan opslachsysteem oan om it oantal IOPS per paad te feroarjen fan 'e standertwearde fan 1000 nei 1. Yn ús praktyk makke dit it mooglik om mear prestaasjes út it opslachsysteem te "squeeze" en de tiid nedich foar failover signifikant te ferminderjen yn it gefal fan controller flater of update. Kontrolearje de oanbefellings fan 'e ferkeaper, en as d'r gjin kontraindikaasjes binne, besykje dan dizze parameter te feroarjen. Details hjir.

Basic firtuele masine skiif subsysteem prestaasjes tellers

Disk subsysteem prestaasjestellers yn vCenter wurde sammele yn 'e Datastore, Disk, Virtual Disk-seksjes:

Analyse fan VM prestaasjes yn VMware vSphere. Diel 3: Opslach

section data winkel der binne metriken foar vSphere skiif opslach (datastores) dêr't de VM skiven lizze. Hjir fine jo standert tellers foar:

  • IOPS (Gemiddelde lês-/skriuwfersiken per sekonde), 
  • trochset (lês-/skriuwsnelheid), 
  • fertragingen (Lês / Skriuw / Heechste latency).

Yn prinsipe is alles dúdlik út de nammen fan de loketten. Lit my jo oandacht nochris op it feit dat de statistiken hjir net binne foar in spesifike VM (of VM-skiif), mar algemiene statistiken foar de hiele datastore. Yn myn miening, it is handiger om te sjen op dizze statistiken yn ESXTOP, op syn minst basearre op it feit dat de minimale mjitting perioade is der 2 sekonden.

section skiif d'r binne metriken op blokapparaten dy't wurde brûkt troch de VM. D'r binne tellers foar IOPS fan it opsommingstype (it oantal ynfier- / útfieroperaasjes yn 'e mjitperioade) en ferskate tellers relatearre oan blokkearjende tagong (Opdrachten ôfbrutsen, Bus weromsette). Yn myn miening is it ek handiger om dizze ynformaasje te besjen yn ESXTOP.

Seksje Firtuele skiif - it meast brûkber út it eachpunt fan it finen fan prestaasjesproblemen fan it VM-skiifsubsysteem. Hjir kinne jo de prestaasjes sjen foar elke firtuele skiif. It is dizze ynformaasje dy't nedich is om te begripen oft in bepaalde firtuele masine in probleem hat. Neist de standert tellers foar it oantal I / O operaasjes, lêzen / skriuwe folume en fertraging, befettet dizze seksje brûkbere tellers dy't sjen litte de blok grutte: Lês / Skriuw fersyk grutte.

Op de foto hjirûnder is in grafyk fan VM skiif prestaasjes, wêr kinne jo sjen it oantal IOPS, latency en blok grutte. 

Analyse fan VM prestaasjes yn VMware vSphere. Diel 3: Opslach

Jo kinne ek prestaasjesmetriken besjen foar de heule datastore as SIOC ynskeakele is. Hjir is basisynformaasje oer gemiddelde latency en IOPS. Standert kin dizze ynformaasje allinich yn realtime besjoen wurde.

Analyse fan VM prestaasjes yn VMware vSphere. Diel 3: Opslach

ESXTOP

ESXTOP hat ferskate skermen dy't jouwe ynformaasje oer de host skiif subsysteem as gehiel, yndividuele firtuele masines en harren skiven.

Litte wy begjinne mei ynformaasje oer firtuele masines. It skerm "Disk VM" wurdt oproppen mei de "v" kaai:

Analyse fan VM prestaasjes yn VMware vSphere. Diel 3: Opslach

NVDISK is it oantal VM skiven. Om ynformaasje foar elke skiif te besjen, druk op "e" en fier de GID fan 'e VM fan belang yn.

De betsjutting fan 'e oerbleaune parameters op dit skerm is dúdlik út har nammen.

In oar nuttich skerm by it oplossen fan problemen is Skiifadapter. Oanroppen troch de "d" kaai (fjilden A, B, C, D, E, G binne selektearre yn de ôfbylding hjirûnder):

Analyse fan VM prestaasjes yn VMware vSphere. Diel 3: Opslach

NPTH - it oantal paden nei de moannen dy't sichtber binne fan dizze adapter. Om ynformaasje te krijen foar elk paad op 'e adapter, druk op "e" en fier de namme fan 'e adapter yn:

Analyse fan VM prestaasjes yn VMware vSphere. Diel 3: Opslach

AQLEN - maksimale wachtrige grutte op 'e adapter.

Ek op dit skerm binne de fertragingstellers wêr't ik hjirboppe oer praat: KAVG/cmd, GAVG/cmd, DAVG/cmd, QAVG/cmd.

It skerm fan 'e skiifapparaat, dat wurdt oproppen troch op de "u"-toets te drukken, jout ynformaasje oer yndividuele blokapparaten - moannen (fjilden A, B, F, G, I binne selektearre yn 'e ôfbylding hjirûnder). Hjir kinne jo de status sjen fan 'e wachtrige foar de moannen.

Analyse fan VM prestaasjes yn VMware vSphere. Diel 3: Opslach

DQLEN - wachtrige grutte foar in blok apparaat.
ACTV - oantal I / O-kommando's yn 'e ESXi-kearn.
QUED - oantal I/O-kommando's yn 'e wachtrige.
%USD – ACTV / DQLEN × 100%.
load – (ACTV + QUED) / DQLEN.

As % USD heech is, moatte jo beskôgje it fergrutsjen fan de wachtrige. Hoe mear kommando's yn 'e wachtrige, hoe heger de QAVG en, dus, de KAVG.

Jo kinne ek sjen op 'e Skiif apparaat skerm oft VAAI (vStorage API foar Array Integration) rint op it opslach systeem. Om dit te dwaan, selektearje de fjilden A en O.

It VAAI-meganisme lit jo in diel fan it wurk fan 'e hypervisor direkt oerjaan nei it opslachsysteem, bygelyks nulearje, kopiearje blokken of blokkearje.

Analyse fan VM prestaasjes yn VMware vSphere. Diel 3: Opslach

Lykas jo kinne sjen yn 'e ôfbylding hjirboppe, wurket VAAI op dit opslachsysteem: nul- en ATS-primitiven wurde aktyf brûkt.

Tips foar it optimalisearjen fan wurk mei de skiif subsysteem op ESXi

  • Soarch omtinken foar de blokgrutte.
  • Stel de optimale wachtrige grutte op de HBA.
  • Ferjit net SIOC yn te skeakeljen op datastores.
  • Kies in PSP yn oerienstimming mei de oanbefellings fan de fabrikant fan it opslachsysteem.
  • Soargje derfoar dat VAAI wurket.

Nuttige artikels oer it ûnderwerp:http://www.yellow-bricks.com/2011/06/23/disk-schednumreqoutstanding-the-story/
http://www.yellow-bricks.com/2009/09/29/whats-that-alua-exactly/
http://www.yellow-bricks.com/2019/03/05/dqlen-changes-what-is-going-on/
https://www.codyhosterman.com/2017/02/understanding-vmware-esxi-queuing-and-the-flasharray/
https://www.codyhosterman.com/2018/03/what-is-the-latency-stat-qavg/
https://kb.vmware.com/s/article/1267
https://kb.vmware.com/s/article/1268
https://kb.vmware.com/s/article/1027901
https://kb.vmware.com/s/article/2069356
https://kb.vmware.com/s/article/2053628
https://kb.vmware.com/s/article/1003469
https://www.vmware.com/content/dam/digitalmarketing/vmware/en/pdf/techpaper/performance/vsphere-esxi-vcenter-server-67-performance-best-practices.pdf

Boarne: www.habr.com

Add a comment