Analiza zmogljivosti VM v VMware vSphere. 3. del: Shranjevanje

Analiza zmogljivosti VM v VMware vSphere. 3. del: Shranjevanje

1. del. O procesorju
2. del. O spominu

Danes bomo analizirali metrike diskovnega podsistema v vSphere. Težava s shranjevanjem je najpogostejši razlog za počasen virtualni stroj. Če se v primeru procesorja in RAM-a odpravljanje težav konča na ravni hipervizorja, se boste morda morali ukvarjati s podatkovnim omrežjem in sistemom za shranjevanje, če so težave z diskom.

Temo bom razpravljal na primeru blokovnega dostopa do sistemov za shranjevanje, čeprav so števci za dostop do datotek približno enaki.

Malo teorije

Ko govorimo o zmogljivosti diskovnega podsistema virtualnih strojev, so ljudje običajno pozorni na tri med seboj povezane parametre:

  • število vhodno/izhodnih operacij (Input/Output Operations Per Second, IOPS);
  • pretočnost;
  • zakasnitev vhodno/izhodnih operacij (Latency).

Število IOPS običajno pomembno za naključne delovne obremenitve: dostop do diskovnih blokov, ki se nahajajo na različnih mestih. Primer takšne obremenitve so lahko baze podatkov, poslovne aplikacije (ERP, CRM) itd.

Prepustnost pomembno za zaporedne obremenitve: dostop do blokov, ki se nahajajo drug za drugim. Na primer, datotečni strežniki (vendar ne vedno) in videonadzorni sistemi lahko ustvarijo takšno obremenitev.

Prepustnost je povezana s številom V/I operacij na naslednji način:

Prepustnost = IOPS * velikost bloka, kjer je velikost bloka velikost bloka.

Velikost bloka je precej pomembna lastnost. Sodobne različice ESXi omogočajo bloke do velikosti 32 KB. Če je blok še večji, ga razdelimo na več. Vsi sistemi za shranjevanje ne morejo učinkovito delati s tako velikimi bloki, zato obstaja parameter DiskMaxIOSize v naprednih nastavitvah ESXi. Z njim lahko zmanjšate največjo velikost bloka, ki ga hipervizor preskoči (več podrobnosti tukaj). Preden spremenite ta parameter, priporočam, da se posvetujete s proizvajalcem sistema za shranjevanje ali vsaj preizkusite spremembe na laboratorijski mizi. 

Velika velikost bloka lahko negativno vpliva na zmogljivost shranjevanja. Tudi če sta število IOPS in prepustnost razmeroma majhna, lahko pri veliki velikosti bloka opazimo visoke zakasnitve. Zato bodite pozorni na ta parameter.

Latenca – najbolj zanimiv parameter uspešnosti. V/I zakasnitev za virtualni stroj je sestavljena iz:

  • zamude znotraj hipervizorja (KAVG, Average Kernel MilliSec/Read);
  • zakasnitev, ki jo zagotavlja podatkovno omrežje in sistem za shranjevanje (DAVG, Average Driver MilliSec/Command).

Skupna zakasnitev, ki je vidna v OS za goste (GAVG, Average Guest MilliSec/Command), je vsota KAVG in DAVG.

Izmerita se GAVG in DAVG in izračuna KAVG: GAVG–DAVG.

Analiza zmogljivosti VM v VMware vSphere. 3. del: Shranjevanje
Vir

Oglejmo si pobližje KAVG. Med normalnim delovanjem bi moral KAVG težiti k ničli ali vsaj biti veliko manjši od DAVG. Edini primer, za katerega vem, da je KAVG pričakovano visok, je omejitev IOPS na disku VM. V tem primeru, ko poskušate preseči omejitev, se KAVG poveča.

Najpomembnejša komponenta KAVG je QAVG - čas obdelave v čakalni vrsti znotraj hipervizorja. Preostale komponente KAVG so zanemarljive.

Čakalna vrsta v gonilniku diskovnega adapterja in čakalna vrsta do lun imata fiksno velikost. Za zelo obremenjena okolja je morda koristno povečati to velikost. Tukaj opisuje, kako povečati čakalne vrste v gonilniku adapterja (hkrati se bo povečala čakalna vrsta do lun). Ta nastavitev deluje, ko z luno deluje samo en VM, kar je redko. Če je na luni več virtualnih strojev, morate povečati tudi parameter Disk.SchedNumReqOutstanding (navodila  tukaj). S povečanjem čakalne vrste zmanjšate QAVG oziroma KAVG.

Ampak še enkrat, najprej preberite dokumentacijo prodajalca HBA in preizkusite spremembe na laboratorijski mizi.

Na velikost čakalne vrste do lune lahko vpliva vključitev mehanizma SIOC (Storage I/O Control). Omogoča enoten dostop do lune z vseh strežnikov v gruči z dinamičnim spreminjanjem čakalne vrste do lune na strežnikih. To pomeni, da če eden od gostiteljev izvaja VM, ki zahteva nesorazmerno veliko zmogljivosti (hrupni sosednji VM), SIOC zmanjša dolžino čakalne vrste do lune na tem gostitelju (DQLEN). Več podrobnosti tukaj.

KAVG smo uredili, zdaj pa malo o tem DAVG. Tukaj je vse preprosto: DAVG je zakasnitev, ki jo uvede zunanje okolje (podatkovno omrežje in sistem za shranjevanje). Vsak sodoben in manj sodoben skladiščni sistem ima svoje števce zmogljivosti. Za analizo težav z DAVG jih je smiselno pogledati. Če je na strani ESXi in pomnilnika vse v redu, preverite podatkovno omrežje.

Da bi se izognili težavam z zmogljivostjo, izberite pravilno politiko izbire poti (PSP) za vaš sistem za shranjevanje. Skoraj vsi sodobni sistemi za shranjevanje podpirajo PSP Round-Robin (z ali brez ALUA, Asymmetric Logical Unit Access). Ta pravilnik vam omogoča uporabo vseh razpoložljivih poti do sistema za shranjevanje. V primeru ALUA se uporabljajo samo poti do krmilnika, ki ima v lasti luno. Vsi sistemi za shranjevanje na ESXi nimajo privzetih pravil, ki določajo pravilnik Round-Robin. Če za vaš sistem za shranjevanje ni pravila, uporabite vtičnik proizvajalca sistema za shranjevanje, ki bo ustvaril ustrezno pravilo na vseh gostiteljih v gruči, ali pa ustvarite pravilo sami. Podrobnosti tukaj

Prav tako nekateri proizvajalci sistemov za shranjevanje priporočajo spremembo števila IOPS na pot s standardne vrednosti 1000 na 1. V naši praksi je to omogočilo, da smo iz sistema za shranjevanje "iztisnili" več zmogljivosti in znatno zmanjšali čas, potreben za preklop v primeru napake. v primeru okvare krmilnika ali posodobitve. Preverite priporočila prodajalca in če ni kontraindikacij, poskusite spremeniti ta parameter. Podrobnosti tukaj.

Osnovni števci zmogljivosti diskovnega podsistema navideznega stroja

Števci zmogljivosti diskovnega podsistema v vCenter so zbrani v razdelkih Datastore, Disk, Virtual Disk:

Analiza zmogljivosti VM v VMware vSphere. 3. del: Shranjevanje

V oddelku Trgovina podatkov obstajajo metrike za diskovne shrambe vSphere (datastore), na katerih se nahajajo diski VM. Tukaj boste našli standardne števce za:

  • IOPS (povprečno število zahtev za branje/pisanje na sekundo), 
  • prepustnost (hitrost branja/pisanja), 
  • zakasnitve (branje/pisanje/najvišja zakasnitev).

Načeloma je vse jasno iz imen števcev. Naj vas še enkrat opozorim na dejstvo, da statistika tukaj ni za določen VM (ali disk VM), ampak splošna statistika za celotno shrambo podatkov. Po mojem mnenju je to statistiko bolj priročno pogledati v ESXTOP, vsaj glede na dejstvo, da je tam minimalno obdobje merjenja 2 sekundi.

V oddelku Disk obstajajo meritve na blokovnih napravah, ki jih uporablja VM. Obstajajo števci za IOPS vrste seštevanja (število vhodno/izhodnih operacij v obdobju merjenja) in več števcev, povezanih z blokiranjem dostopa (ukazi prekinjeni, ponastavitev vodila). Po mojem mnenju je tudi bolj priročno videti te podatke v ESXTOP.

Oddelek Virtualni disk – najbolj uporaben z vidika iskanja težav z delovanjem diskovnega podsistema VM. Tukaj si lahko ogledate zmogljivost za vsak virtualni disk. Te informacije so potrebne za razumevanje, ali ima določen virtualni stroj težave. Poleg standardnih števcev za število V/I operacij, količino branja/pisanja in zakasnitve ta razdelek vsebuje uporabne števce, ki prikazujejo velikost bloka: velikost zahteve za branje/pisanje.

Na spodnji sliki je graf zmogljivosti diska VM, kjer lahko vidite število IOPS, zakasnitev in velikost bloka. 

Analiza zmogljivosti VM v VMware vSphere. 3. del: Shranjevanje

Ogledate si lahko tudi meritve zmogljivosti za celotno shrambo podatkov, če je SIOC omogočen. Tukaj so osnovne informacije o povprečni zakasnitvi in ​​IOPS. Privzeto si je te informacije mogoče ogledati samo v realnem času.

Analiza zmogljivosti VM v VMware vSphere. 3. del: Shranjevanje

ESXTOP

ESXTOP ima več zaslonov, ki ponujajo informacije o podsistemu gostiteljskega diska kot celoti, posameznih virtualnih strojih in njihovih diskih.

Začnimo z informacijami o virtualnih strojih. Zaslon »Disk VM« prikličete s tipko »v«:

Analiza zmogljivosti VM v VMware vSphere. 3. del: Shranjevanje

NVDISK je število diskov VM. Za ogled informacij za vsak disk pritisnite "e" in vnesite GID VM, ki vas zanima.

Pomen preostalih parametrov na tem zaslonu je razviden iz njihovih imen.

Drug uporaben zaslon pri odpravljanju težav je adapter diska. Prikličemo s tipko “d” (na spodnji sliki so izbrana polja A,B,C,D,E,G):

Analiza zmogljivosti VM v VMware vSphere. 3. del: Shranjevanje

NPTH – število poti do lun, ki so vidne s tega adapterja. Če želite pridobiti informacije za vsako pot na adapterju, pritisnite “e” in vnesite ime adapterja:

Analiza zmogljivosti VM v VMware vSphere. 3. del: Shranjevanje

AQLEN – največja velikost čakalne vrste na adapterju.

Na tem zaslonu so tudi števci zakasnitve, o katerih sem govoril zgoraj: KAVG/cmd, GAVG/cmd, DAVG/cmd, QAVG/cmd.

Na zaslonu Disk naprave, ki ga prikličemo s pritiskom na tipko “u”, so podani podatki o posameznih blok napravah – lunah (na spodnji sliki so izbrana polja A, B, F, G, I). Tukaj si lahko ogledate stanje čakalne vrste za lune.

Analiza zmogljivosti VM v VMware vSphere. 3. del: Shranjevanje

DQLEN – velikost čakalne vrste za blokovno napravo.
ACTV – število V/I ukazov v jedru ESXi.
QUED – število V/I ukazov v čakalni vrsti.
%AMERIŠKI DOLAR – ACTV / DQLEN × 100 %.
LOAD – (ACTV + QUED) / DQLEN.

Če je %USD visok, razmislite o povečanju čakalne vrste. Več ko je ukazov v čakalni vrsti, višji je QAVG in s tem KAVG.

Na zaslonu diskovne naprave lahko vidite tudi, ali se VAAI (vStorage API for Array Integration) izvaja v sistemu za shranjevanje. Če želite to narediti, izberite polji A in O.

Mehanizem VAAI vam omogoča prenos dela dela iz hipervizorja neposredno v sistem za shranjevanje, na primer ničlo, kopiranje blokov ali blokiranje.

Analiza zmogljivosti VM v VMware vSphere. 3. del: Shranjevanje

Kot lahko vidite na zgornji sliki, VAAI deluje na tem sistemu za shranjevanje: primitivi Zero in ATS se aktivno uporabljajo.

Nasveti za optimizacijo dela z diskovnim podsistemom na ESXi

  • Bodite pozorni na velikost bloka.
  • Nastavite optimalno velikost čakalne vrste na HBA.
  • Ne pozabite omogočiti SIOC v podatkovnih shrambah.
  • Izberite PSP v skladu s priporočili proizvajalca sistema za shranjevanje.
  • Prepričajte se, da VAAI deluje.

Koristni članki na to temo:http://www.yellow-bricks.com/2011/06/23/disk-schednumreqoutstanding-the-story/
http://www.yellow-bricks.com/2009/09/29/whats-that-alua-exactly/
http://www.yellow-bricks.com/2019/03/05/dqlen-changes-what-is-going-on/
https://www.codyhosterman.com/2017/02/understanding-vmware-esxi-queuing-and-the-flasharray/
https://www.codyhosterman.com/2018/03/what-is-the-latency-stat-qavg/
https://kb.vmware.com/s/article/1267
https://kb.vmware.com/s/article/1268
https://kb.vmware.com/s/article/1027901
https://kb.vmware.com/s/article/2069356
https://kb.vmware.com/s/article/2053628
https://kb.vmware.com/s/article/1003469
https://www.vmware.com/content/dam/digitalmarketing/vmware/en/pdf/techpaper/performance/vsphere-esxi-vcenter-server-67-performance-best-practices.pdf

Vir: www.habr.com

Dodaj komentar