Anàlisi del rendiment de VM a VMware vSphere. Part 3: Emmagatzematge

Anàlisi del rendiment de VM a VMware vSphere. Part 3: Emmagatzematge

Part 1. Sobre la CPU
Part 2. Sobre la memòria

Avui analitzarem les mètriques del subsistema de disc a vSphere. Un problema d'emmagatzematge és el motiu més comú d'una màquina virtual lenta. Si, en el cas de la CPU i la RAM, la resolució de problemes acaba al nivell d'hipervisor, llavors si hi ha problemes amb el disc, és possible que hàgiu de tractar amb la xarxa de dades i el sistema d'emmagatzematge.

Debatré el tema utilitzant l'exemple d'accés de blocs als sistemes d'emmagatzematge, encara que per a l'accés a fitxers els comptadors són aproximadament els mateixos.

Una mica de teoria

Quan es parla del rendiment del subsistema de disc de les màquines virtuals, la gent sol prestar atenció a tres paràmetres interrelacionats:

  • nombre d'operacions d'entrada/sortida (operacions d'entrada/sortida per segon, IOPS);
  • rendiment;
  • retard de les operacions d'entrada/sortida (latència).

Nombre d'IOPS generalment important per a càrregues de treball aleatòries: accés a blocs de disc situats en diferents llocs. Un exemple d'aquesta càrrega podrien ser bases de dades, aplicacions empresarials (ERP, CRM), etc.

Ample de banda important per a càrregues seqüencials: accés a blocs situats un darrere l'altre. Per exemple, els servidors de fitxers (però no sempre) i els sistemes de videovigilància poden generar aquesta càrrega.

El rendiment està relacionat amb el nombre d'operacions d'E/S de la següent manera:

Rendiment = IOPS * Mida del bloc, on la mida del bloc és la mida del bloc.

La mida del bloc és una característica força important. Les versions modernes d'ESXi permeten blocs de fins a 32 KB de mida. Si el bloc és encara més gran, es divideix en diversos. No tots els sistemes d'emmagatzematge poden funcionar de manera eficient amb blocs tan grans, de manera que hi ha un paràmetre DiskMaxIOSize a la configuració avançada d'ESXi. Utilitzant-lo, podeu reduir la mida màxima del bloc que omet l'hipervisor (més detalls aquí). Abans de canviar aquest paràmetre, us recomano que consulteu amb el fabricant del sistema d'emmagatzematge o com a mínim proveu els canvis en un banc de laboratori. 

Una mida de bloc gran pot tenir un efecte perjudicial en el rendiment de l'emmagatzematge. Fins i tot si el nombre d'IOPS i el rendiment són relativament petits, es poden observar altes latències amb una mida de bloc gran. Per tant, presteu atenció a aquest paràmetre.

Latència – el paràmetre de rendiment més interessant. La latència d'E/S d'una màquina virtual consta de:

  • retards dins de l'hipervisor (KAVG, Average Kernel MilliSec/Read);
  • retard proporcionat per la xarxa de dades i el sistema d'emmagatzematge (DAVG, Average Driver MilliSec/Command).

La latència total que és visible al sistema operatiu convidat (GAVG, MilliSec/Command convidat mitjà) és la suma de KAVG i DAVG.

Es mesuren GAVG i DAVG i es calcula KAVG: GAVG–DAVG.

Anàlisi del rendiment de VM a VMware vSphere. Part 3: Emmagatzematge
Font

Fem una ullada més de prop KAVG. Durant el funcionament normal, KAVG hauria de tendir a zero o almenys ser molt inferior a DAVG. L'únic cas que conec d'on s'espera que KAVG sigui alt és el límit d'IOPS al disc de la màquina virtual. En aquest cas, quan intenteu superar el límit, KAVG augmentarà.

El component més important de KAVG és QAVG: el temps de cua de processament dins de l'hipervisor. La resta de components de KAVG són insignificants.

La cua del controlador de l'adaptador de disc i la cua de les llunes tenen una mida fixa. Per a entorns molt carregats, pot ser útil augmentar aquesta mida. Aquí descriu com augmentar les cues al controlador de l'adaptador (al mateix temps augmentarà la cua a les llunes). Aquesta configuració funciona quan només una màquina virtual està treballant amb la lluna, cosa rara. Si hi ha diverses VM a la lluna, també heu d'augmentar el paràmetre Disk.SchedNumReqOutstanding (instruccions  aquí). En augmentar la cua, disminuïu QAVG i KAVG respectivament.

Però de nou, primer llegiu la documentació del venedor de l'HBA i proveu els canvis en un banc de laboratori.

La mida de la cua fins a la lluna es pot veure afectada per la inclusió del mecanisme SIOC (Storage I/O Control). Proporciona un accés uniforme a la lluna des de tots els servidors del clúster canviant dinàmicament la cua a la lluna dels servidors. És a dir, si un dels amfitrions està executant una màquina virtual que requereix una quantitat desproporcionada de rendiment (VM veïna sorollosa), SIOC redueix la longitud de la cua a la lluna en aquest amfitrió (DQLEN). Més detalls aquí.

Hem resolt KAVG, ara una mica sobre DAVG. Aquí tot és senzill: DAVG és el retard introduït per l'entorn extern (xarxa de dades i sistema d'emmagatzematge). Cada sistema d'emmagatzematge modern i no tan modern té els seus propis comptadors de rendiment. Per analitzar problemes amb DAVG, té sentit mirar-los. Si tot està bé al costat de l'ESXi i de l'emmagatzematge, comproveu la xarxa de dades.

Per evitar problemes de rendiment, trieu la política de selecció de ruta (PSP) correcta per al vostre sistema d'emmagatzematge. Gairebé tots els sistemes d'emmagatzematge moderns admeten PSP Round-Robin (amb o sense ALUA, Accés a la unitat lògica asimètrica). Aquesta política us permet utilitzar tots els camins disponibles al sistema d'emmagatzematge. En el cas d'ALUA, només s'utilitzen els camins al controlador propietari de la lluna. No tots els sistemes d'emmagatzematge a ESXi tenen regles predeterminades que estableixen la política Round-Robin. Si no hi ha cap regla per al vostre sistema d'emmagatzematge, utilitzeu un connector del fabricant del sistema d'emmagatzematge, que crearà una regla corresponent a tots els amfitrions del clúster, o creeu una regla vosaltres mateixos. Detalls aquí

A més, alguns fabricants de sistemes d'emmagatzematge recomanen canviar el nombre d'IOPS per camí del valor estàndard de 1000 a 1. A la nostra pràctica, això va permetre "extreure" més rendiment del sistema d'emmagatzematge i reduir significativament el temps necessari per a la migració per error. en cas de fallada o actualització del controlador. Comproveu les recomanacions del venedor i, si no hi ha contraindicacions, proveu de canviar aquest paràmetre. Detalls aquí.

Comptadors bàsics de rendiment del subsistema del disc de la màquina virtual

Els comptadors de rendiment del subsistema de disc a vCenter es recullen a les seccions Datastore, Disk, Virtual Disk:

Anàlisi del rendiment de VM a VMware vSphere. Part 3: Emmagatzematge

A la secció Magatzem de dades hi ha mètriques per als emmagatzematges de discs de vSphere (magatzems de dades) on es troben els discs de la màquina virtual. Aquí trobareu comptadors estàndard per a:

  • IOPS (mitjana de sol·licituds de lectura/escriptura per segon), 
  • rendiment (taxa de lectura/escriptura), 
  • retards (lectura/escriptura/latència màxima).

En principi, tot queda clar pels noms dels comptadors. Permeteu-me cridar la vostra atenció una vegada més sobre el fet que les estadístiques aquí no són per a una màquina virtual (o disc de màquina virtual) específica, sinó estadístiques generals per a tot el magatzem de dades. Al meu entendre, és més convenient mirar aquestes estadístiques a ESXTOP, almenys basant-se en el fet que el període mínim de mesura és de 2 segons.

A la secció Disc hi ha mètriques en dispositius de bloc que utilitza la màquina virtual. Hi ha comptadors per a IOPS del tipus de suma (el nombre d'operacions d'entrada/sortida durant el període de mesura) i diversos comptadors relacionats amb l'accés de bloqueig (ordres avortades, restabliment de bus). Al meu entendre, també és més convenient veure aquesta informació a ESXTOP.

Secció Disc virtual – el més útil des del punt de vista de trobar problemes de rendiment del subsistema de disc VM. Aquí podeu veure el rendiment de cada disc virtual. Aquesta informació és la que es necessita per entendre si una màquina virtual concreta té un problema. A més dels comptadors estàndard per al nombre d'operacions d'E/S, el volum de lectura/escriptura i els retards, aquesta secció conté comptadors útils que mostren la mida del bloc: Mida de la sol·licitud de lectura/escriptura.

A la imatge següent hi ha un gràfic del rendiment del disc VM, on podeu veure el nombre d'IOPS, la latència i la mida del bloc. 

Anàlisi del rendiment de VM a VMware vSphere. Part 3: Emmagatzematge

També podeu veure les mètriques de rendiment de tot el magatzem de dades si SIOC està habilitat. Aquí hi ha informació bàsica sobre latència mitjana i IOPS. Per defecte, aquesta informació només es pot visualitzar en temps real.

Anàlisi del rendiment de VM a VMware vSphere. Part 3: Emmagatzematge

ESXTOP

ESXTOP té diverses pantalles que proporcionen informació sobre el subsistema del disc amfitrió en conjunt, les màquines virtuals individuals i els seus discs.

Comencem amb la informació sobre les màquines virtuals. La pantalla "Disk VM" es crida amb la tecla "v":

Anàlisi del rendiment de VM a VMware vSphere. Part 3: Emmagatzematge

NVDISK és el nombre de discos VM. Per visualitzar la informació de cada disc, premeu "e" i introduïu el GID de la VM d'interès.

El significat dels paràmetres restants d'aquesta pantalla és clar a partir dels seus noms.

Una altra pantalla útil per resoldre problemes és l'adaptador de disc. Es crida amb la tecla "d" (els camps A, B, C, D, E, G es seleccionen a la imatge següent):

Anàlisi del rendiment de VM a VMware vSphere. Part 3: Emmagatzematge

NPTH – el nombre de camins cap a les llunes que són visibles des d'aquest adaptador. Per obtenir informació per a cada camí de l'adaptador, premeu "e" i introduïu el nom de l'adaptador:

Anàlisi del rendiment de VM a VMware vSphere. Part 3: Emmagatzematge

AQLEN – mida màxima de la cua a l'adaptador.

També en aquesta pantalla hi ha els comptadors de retard dels quals he parlat anteriorment: KAVG/cmd, GAVG/cmd, DAVG/cmd, QAVG/cmd.

La pantalla del dispositiu de disc, que s'obre prement la tecla "u", proporciona informació sobre dispositius de bloc individuals: llunes (els camps A, B, F, G, I estan seleccionats a la imatge següent). Aquí podeu veure l'estat de la cua de les llunes.

Anàlisi del rendiment de VM a VMware vSphere. Part 3: Emmagatzematge

DQLEN – mida de la cua per a un dispositiu de bloc.
ACTV – nombre d'ordres d'E/S al nucli ESXi.
QUED – nombre d'ordres d'E/S a la cua.
%USD – ACTV / DQLEN × 100%.
CARGO – (ACTV + QUED) / DQLEN.

Si %USD és alt, hauríeu de considerar augmentar la cua. Com més ordres hi hagi a la cua, més alt serà el QAVG i, en conseqüència, el KAVG.

També podeu veure a la pantalla del dispositiu de disc si VAAI (vStorage API for Array Integration) s'està executant al sistema d'emmagatzematge. Per fer-ho, seleccioneu els camps A i O.

El mecanisme VAAI permet transferir part del treball de l'hipervisor directament al sistema d'emmagatzematge, per exemple, posar a zero, copiar blocs o bloquejar.

Anàlisi del rendiment de VM a VMware vSphere. Part 3: Emmagatzematge

Com podeu veure a la imatge de dalt, VAAI treballa en aquest sistema d'emmagatzematge: s'utilitzen activament els primitius zero i ATS.

Consells per optimitzar el treball amb el subsistema de disc a ESXi

  • Preste atenció a la mida del bloc.
  • Estableix la mida òptima de la cua a l'HBA.
  • No oblideu habilitar SIOC als magatzems de dades.
  • Trieu una PSP d'acord amb les recomanacions del fabricant del sistema d'emmagatzematge.
  • Assegureu-vos que VAAI funcioni.

Articles útils sobre el tema:http://www.yellow-bricks.com/2011/06/23/disk-schednumreqoutstanding-the-story/
http://www.yellow-bricks.com/2009/09/29/whats-that-alua-exactly/
http://www.yellow-bricks.com/2019/03/05/dqlen-changes-what-is-going-on/
https://www.codyhosterman.com/2017/02/understanding-vmware-esxi-queuing-and-the-flasharray/
https://www.codyhosterman.com/2018/03/what-is-the-latency-stat-qavg/
https://kb.vmware.com/s/article/1267
https://kb.vmware.com/s/article/1268
https://kb.vmware.com/s/article/1027901
https://kb.vmware.com/s/article/2069356
https://kb.vmware.com/s/article/2053628
https://kb.vmware.com/s/article/1003469
https://www.vmware.com/content/dam/digitalmarketing/vmware/en/pdf/techpaper/performance/vsphere-esxi-vcenter-server-67-performance-best-practices.pdf

Font: www.habr.com

Afegeix comentari