Analýza výkonu VM vo VMware vSphere. Časť 3: Skladovanie

Analýza výkonu VM vo VMware vSphere. Časť 3: Skladovanie

Časť 1. O CPU
Časť 2. O pamäti

Dnes si rozoberieme metriky diskového subsystému vo vSphere. Problém s úložiskom je najčastejším dôvodom pomalého virtuálneho počítača. Ak sa v prípade CPU a RAM riešenie problémov končí na úrovni hypervízora, tak ak sa vyskytnú problémy s diskom, možno budete musieť riešiť dátovú sieť a úložný systém.

Tému budem diskutovať na príklade blokového prístupu k úložným systémom, hoci pre prístup k súborom sú počítadlá približne rovnaké.

Niektoré teórie

Keď hovoríme o výkone diskového subsystému virtuálnych strojov, ľudia zvyčajne venujú pozornosť trom navzájom súvisiacim parametrom:

  • počet vstupných/výstupných operácií (Input/Output Operations Per Second, IOPS);
  • priepustnosť;
  • oneskorenie vstupných/výstupných operácií (latencia).

Počet IOPS zvyčajne dôležité pre náhodné pracovné zaťaženie: prístup k blokom disku umiestneným na rôznych miestach. Príkladom takejto záťaže môžu byť databázy, obchodné aplikácie (ERP, CRM) atď.

kapacita dôležité pre sekvenčné zaťaženie: prístup k blokom umiestneným jeden po druhom. Takéto zaťaženie môžu generovať napríklad súborové servery (ale nie vždy) a systémy sledovania videa.

Priepustnosť súvisí s počtom I/O operácií takto:

Priepustnosť = IOPS * Veľkosť bloku, kde Veľkosť bloku je veľkosť bloku.

Veľkosť bloku je pomerne dôležitá vlastnosť. Moderné verzie ESXi umožňujú bloky až do veľkosti 32 767 KB. Ak je blok ešte väčší, je rozdelený na niekoľko. Nie všetky úložné systémy dokážu efektívne pracovať s takýmito veľkými blokmi, preto je v rozšírených nastaveniach ESXi parameter DiskMaxIOSize. Pomocou neho môžete zmenšiť maximálnu veľkosť bloku vynechaného hypervízorom (ďalšie podrobnosti tu). Pred zmenou tohto parametra odporúčam poradiť sa s výrobcom úložného systému alebo aspoň vyskúšať zmeny na laboratórnom stole. 

Veľká veľkosť bloku môže mať škodlivý vplyv na výkon úložiska. Aj keď sú počet IOPS a priepustnosť relatívne malé, pri veľkej veľkosti bloku možno pozorovať vysoké latencie. Preto venujte pozornosť tomuto parametru.

latencia – najzaujímavejší výkonový parameter. I/O latencia pre virtuálny počítač pozostáva z:

  • oneskorenia vo vnútri hypervízora (KAVG, Average Kernel MilliSec/Read);
  • oneskorenie poskytované dátovou sieťou a úložným systémom (DAVG, Average Driver MilliSec/Command).

Celková latencia, ktorá je viditeľná v hosťujúcom OS (GAVG, Average Guest MilliSec/Command) je súčtom KAVG a DAVG.

Meria sa GAVG a DAVG a vypočíta sa KAVG: GAVG–DAVG.

Analýza výkonu VM vo VMware vSphere. Časť 3: Skladovanie
Zdroj

Poďme sa na to pozrieť bližšie KAVG. Počas normálnej prevádzky by mal mať KAVG sklon k nule alebo by mal byť aspoň oveľa nižší ako DAVG. Jediný prípad, o ktorom viem, že KAVG je očakávane vysoký, je limit IOPS na disku VM. V tomto prípade, keď sa pokúsite prekročiť limit, KAVG sa zvýši.

Najvýznamnejšou zložkou KAVG je QAVG - čas spracovania vo fronte v hypervízore. Zvyšné zložky KAVG sú zanedbateľné.

Fronta v ovládači diskového adaptéra a fronta na mesiace má pevnú veľkosť. Pre vysoko zaťažené prostredia môže byť užitočné túto veľkosť zväčšiť. Tu popisuje, ako zvýšiť fronty v ovládači adaptéra (súčasne sa zvýši front na mesiace). Toto nastavenie funguje, keď s mesiacom pracuje iba jeden VM, čo je zriedkavé. Ak je na mesiaci niekoľko virtuálnych počítačov, musíte tiež zvýšiť parameter Disk.SchedNumReqOutstanding (inštrukcie  tu). Zvýšením frontu znížite QAVG a KAVG.

Opäť si však najprv prečítajte dokumentáciu od dodávateľa HBA a otestujte zmeny na laboratórnom stole.

Veľkosť frontu na Mesiac môže byť ovplyvnená zahrnutím mechanizmu SIOC (Storage I/O Control). Poskytuje jednotný prístup k Mesiacu zo všetkých serverov v klastri dynamickou zmenou frontu na Mesiac na serveroch. To znamená, že ak jeden z hostiteľov prevádzkuje VM, ktorý vyžaduje neúmerné množstvo výkonu (hlučný susedný VM), SIOC zníži dĺžku frontu na mesiac na tomto hostiteľovi (DQLEN). Viac informácií tu.

Vyriešili sme KAVG, teraz trochu o DAVG. Všetko je tu jednoduché: DAVG je oneskorenie spôsobené vonkajším prostredím (dátová sieť a úložný systém). Každý moderný a nie tak moderný úložný systém má svoje vlastné počítadlá výkonu. Ak chcete analyzovať problémy s DAVG, má zmysel sa na ne pozrieť. Ak je všetko v poriadku na strane ESXi a úložiska, skontrolujte dátovú sieť.

Ak sa chcete vyhnúť problémom s výkonom, vyberte správnu politiku výberu cesty (PSP) pre váš úložný systém. Takmer všetky moderné úložné systémy podporujú PSP Round-Robin (s alebo bez ALUA, Asymmetric Logical Unit Access). Táto politika vám umožňuje použiť všetky dostupné cesty k úložnému systému. V prípade ALUA sa používajú iba cesty k ovládaču, ktorý vlastní mesiac. Nie všetky úložné systémy na ESXi majú predvolené pravidlá, ktoré nastavujú politiku Round-Robin. Ak pre váš úložný systém neexistuje žiadne pravidlo, použite doplnok od výrobcu úložného systému, ktorý vytvorí zodpovedajúce pravidlo na všetkých hostiteľoch v klastri, alebo si pravidlo vytvorte sami. Podrobnosti tu

Niektorí výrobcovia úložných systémov tiež odporúčajú zmeniť počet IOPS na cestu zo štandardnej hodnoty 1000 na 1. V našej praxi to umožnilo „vyžmýkať“ z úložného systému viac výkonu a výrazne skrátiť čas potrebný na prepnutie pri zlyhaní. v prípade poruchy alebo aktualizácie ovládača. Skontrolujte odporúčania predajcu a ak neexistujú žiadne kontraindikácie, skúste tento parameter zmeniť. Podrobnosti tu.

Základné počítadlá výkonu diskového subsystému virtuálneho stroja

Počítadlá výkonu diskového subsystému vo vCenter sa zhromažďujú v sekciách Úložisko údajov, Disk, Virtuálny disk:

Analýza výkonu VM vo VMware vSphere. Časť 3: Skladovanie

V sekcii Uloženie údajov existujú metriky pre diskové úložiská (úložiská údajov) vSphere, na ktorých sú umiestnené disky VM. Tu nájdete štandardné počítadlá pre:

  • IOPS (priemerné požiadavky na čítanie/zápis za sekundu), 
  • priepustnosť (rýchlosť čítania/zápisu), 
  • oneskorenia (čítanie/zápis/najvyššia latencia).

V zásade je všetko jasné z názvov počítadiel. Dovoľte mi ešte raz upozorniť na skutočnosť, že štatistiky tu nie sú pre konkrétny VM (alebo VM disk), ale všeobecné štatistiky pre celé dátové úložisko. Podla mna je vyhodnejsie si pozriet tieto statistiky v ESXTOP, aspon na zaklade toho, ze minimalna doba merania tam su 2 sekundy.

V sekcii Disk existujú metriky na blokových zariadeniach, ktoré používa VM. Existujú počítadlá pre IOPS sumačného typu (počet operácií vstupu/výstupu počas obdobia merania) a niekoľko počítadiel súvisiacich s blokovým prístupom (Príkazy zrušené, Resety zbernice). Podľa môjho názoru je tiež pohodlnejšie zobraziť tieto informácie v ESXTOP.

časť Virtuálny disk – najužitočnejšie z hľadiska hľadania výkonnostných problémov diskového subsystému VM. Tu môžete vidieť výkon každého virtuálneho disku. Práve tieto informácie sú potrebné na pochopenie toho, či má konkrétny virtuálny stroj problém. Okrem štandardných počítadiel počtu I/O operácií, objemu čítania/zápisu a oneskorení táto časť obsahuje užitočné počítadlá, ktoré zobrazujú veľkosť bloku: Veľkosť požiadavky na čítanie/zápis.

Na obrázku nižšie je graf výkonu VM disku, kde vidíte počet IOPS, latenciu a veľkosť bloku. 

Analýza výkonu VM vo VMware vSphere. Časť 3: Skladovanie

Môžete tiež zobraziť metriky výkonu pre celé úložisko údajov, ak je povolené SIOC. Tu sú základné informácie o priemernej latencii a IOPS. V predvolenom nastavení je možné tieto informácie zobraziť iba v reálnom čase.

Analýza výkonu VM vo VMware vSphere. Časť 3: Skladovanie

ESXTOP

ESXTOP má niekoľko obrazoviek, ktoré poskytujú informácie o hostiteľskom diskovom subsystéme ako celku, jednotlivých virtuálnych strojoch a ich diskoch.

Začnime informáciami o virtuálnych strojoch. Obrazovka „Disk VM“ sa vyvolá pomocou klávesu „v“:

Analýza výkonu VM vo VMware vSphere. Časť 3: Skladovanie

NVDISK je počet diskov VM. Ak chcete zobraziť informácie pre každý disk, stlačte „e“ a zadajte GID požadovaného virtuálneho počítača.

Význam zostávajúcich parametrov na tejto obrazovke je jasný z ich názvov.

Ďalšou užitočnou obrazovkou pri riešení problémov je Diskový adaptér. Vyvolané klávesom „d“ (polia A,B,C,D,E,G sú vybrané na obrázku nižšie):

Analýza výkonu VM vo VMware vSphere. Časť 3: Skladovanie

NPTH – počet ciest k mesiacom, ktoré sú viditeľné z tohto adaptéra. Ak chcete získať informácie pre každú cestu na adaptéri, stlačte „e“ a zadajte názov adaptéra:

Analýza výkonu VM vo VMware vSphere. Časť 3: Skladovanie

AQLEN – maximálna veľkosť frontu na adaptéri.

Na tejto obrazovke sú aj počítadlá oneskorenia, o ktorých som hovoril vyššie: KAVG/cmd, GAVG/cmd, DAVG/cmd, QAVG/cmd.

Obrazovka Diskové zariadenie, ktorá sa vyvolá stlačením klávesu „u“, poskytuje informácie o jednotlivých blokových zariadeniach – mesiacoch (na obrázku nižšie sú vybrané polia A, B, F, G, I). Tu môžete vidieť stav frontu na mesiace.

Analýza výkonu VM vo VMware vSphere. Časť 3: Skladovanie

DQLEN – veľkosť frontu pre blokové zariadenie.
ACTV – počet I/O príkazov v jadre ESXi.
QUED – počet I/O príkazov vo fronte.
%AMERICKÝ DOLÁR – ACTV / DQLEN × 100 %.
LOAD – (ACTV + QUED) / DQLEN.

Ak je %USD vysoké, mali by ste zvážiť zvýšenie frontu. Čím viac príkazov vo fronte, tým vyššie je QAVG a teda aj KAVG.

Na obrazovke diskového zariadenia môžete tiež vidieť, či je na úložnom systéme spustené VAAI (vStorage API for Array Integration). Ak to chcete urobiť, vyberte polia A a O.

Mechanizmus VAAI vám umožňuje preniesť časť práce z hypervízora priamo do úložného systému, napríklad nulovanie, kopírovanie blokov alebo blokovanie.

Analýza výkonu VM vo VMware vSphere. Časť 3: Skladovanie

Ako vidíte na obrázku vyššie, VAAI pracuje na tomto úložnom systéme: aktívne sa používajú primitívy Zero a ATS.

Tipy na optimalizáciu práce s diskovým podsystémom na ESXi

  • Venujte pozornosť veľkosti bloku.
  • Nastavte optimálnu veľkosť frontu na HBA.
  • Nezabudnite povoliť SIOC na dátových úložiskách.
  • Vyberte si PSP v súlade s odporúčaniami výrobcu úložného systému.
  • Uistite sa, že VAAI funguje.

Užitočné články na túto tému:http://www.yellow-bricks.com/2011/06/23/disk-schednumreqoutstanding-the-story/
http://www.yellow-bricks.com/2009/09/29/whats-that-alua-exactly/
http://www.yellow-bricks.com/2019/03/05/dqlen-changes-what-is-going-on/
https://www.codyhosterman.com/2017/02/understanding-vmware-esxi-queuing-and-the-flasharray/
https://www.codyhosterman.com/2018/03/what-is-the-latency-stat-qavg/
https://kb.vmware.com/s/article/1267
https://kb.vmware.com/s/article/1268
https://kb.vmware.com/s/article/1027901
https://kb.vmware.com/s/article/2069356
https://kb.vmware.com/s/article/2053628
https://kb.vmware.com/s/article/1003469
https://www.vmware.com/content/dam/digitalmarketing/vmware/en/pdf/techpaper/performance/vsphere-esxi-vcenter-server-67-performance-best-practices.pdf

Zdroj: hab.com

Pridať komentár