Analýza výkonu VM ve VMware vSphere. Část 3: Skladování

Analýza výkonu VM ve VMware vSphere. Část 3: Skladování

Část 1. O CPU
Část 2. O paměti

Dnes si rozebereme metriky diskového subsystému ve vSphere. Problém s úložištěm je nejčastějším důvodem pomalého virtuálního stroje. Pokud v případě CPU a RAM končí odstraňování problémů na úrovni hypervizoru, pak pokud jsou problémy s diskem, možná budete muset řešit datovou síť a úložný systém.

Téma budu diskutovat na příkladu blokového přístupu k úložným systémům, i když pro přístup k souborům jsou čítače přibližně stejné.

Některé teorie

Když mluvíme o výkonu diskového subsystému virtuálních strojů, lidé obvykle věnují pozornost třem vzájemně souvisejícím parametrům:

  • počet vstupně/výstupních operací (Input/Output Operations Per Second, IOPS);
  • propustnost;
  • zpoždění vstupních/výstupních operací (Latency).

Počet IOPS obvykle důležité pro náhodné úlohy: přístup k diskovým blokům umístěným na různých místech. Příkladem takového zatížení mohou být databáze, podnikové aplikace (ERP, CRM) atd.

Propustnost důležité pro sekvenční zatížení: přístup k blokům umístěným jeden po druhém. Takovou zátěž mohou generovat například souborové servery (ale ne vždy) a video monitorovací systémy.

Propustnost souvisí s počtem I/O operací následovně:

Propustnost = IOPS * Velikost bloku, kde Velikost bloku je velikost bloku.

Velikost bloku je poměrně důležitá vlastnost. Moderní verze ESXi umožňují bloky o velikosti až 32 767 KB. Pokud je blok ještě větší, je rozdělen na několik. Ne všechny úložné systémy dokážou efektivně pracovat s tak velkými bloky, proto je v ESXi Advanced Settings parametr DiskMaxIOSize. Pomocí něj můžete zmenšit maximální velikost bloku vynechaného hypervizorem (další podrobnosti zde). Před změnou tohoto parametru doporučuji konzultovat s výrobcem úložného systému nebo si změny alespoň vyzkoušet na laboratorním stole. 

Velká velikost bloku může mít škodlivý vliv na výkon úložiště. I když jsou počet IOPS a propustnost relativně malé, lze při velké velikosti bloku pozorovat vysoké latence. Věnujte proto tomuto parametru pozornost.

Latence – nejzajímavější výkonový parametr. I/O latence pro virtuální počítač se skládá z:

  • zpoždění uvnitř hypervizoru (KAVG, Average Kernel MilliSec/Read);
  • zpoždění způsobené datovou sítí a úložným systémem (DAVG, Average Driver MilliSec/Command).

Celková latence, která je viditelná v hostujícím OS (GAVG, Average Guest MilliSec/Command) je součet KAVG a DAVG.

GAVG a DAVG se měří a KAVG se vypočítá: GAVG–DAVG.

Analýza výkonu VM ve VMware vSphere. Část 3: Skladování
Zdroj

Pojďme se na to blíže podívat KAVG. Během normálního provozu by KAVG měl mít tendenci k nule nebo alespoň být mnohem nižší než DAVG. Jediný případ, o kterém vím, kdy je KAVG očekávaně vysoké, je limit IOPS na disku VM. V tomto případě, když se pokusíte překročit limit, KAVG se zvýší.

Nejvýznamnější složkou KAVG je QAVG - doba zpracování fronty uvnitř hypervizoru. Zbývající složky KAVG jsou zanedbatelné.

Fronta v ovladači diskového adaptéru a fronta na měsíce má pevnou velikost. Pro vysoce zatížená prostředí může být užitečné tuto velikost zvětšit. Zde popisuje, jak zvýšit fronty v ovladači adaptéru (současně se zvýší fronta na měsíce). Toto nastavení funguje, když s měsícem pracuje pouze jeden virtuální počítač, což je vzácné. Pokud je na Měsíci několik virtuálních počítačů, musíte také zvýšit parametr Disk.SchedNumReqOutstanding (instrukce  zde). Zvýšením fronty snížíte QAVG a KAVG.

Opět si ale nejprve přečtěte dokumentaci od dodavatele HBA a otestujte změny na laboratorním stole.

Velikost fronty na Měsíc může být ovlivněna zahrnutím mechanismu SIOC (Storage I/O Control). Poskytuje jednotný přístup k Měsíci ze všech serverů v clusteru dynamickou změnou fronty na Měsíc na serverech. To znamená, že pokud jeden z hostitelů provozuje virtuální počítač, který vyžaduje nepřiměřené množství výkonu (hlučný sousední virtuální počítač), SIOC zkrátí délku fronty na měsíc na tomto hostiteli (DQLEN). Více informací zde.

Vyřešili jsme KAVG, teď něco málo o DAVG. Zde je vše jednoduché: DAVG je zpoždění způsobené vnějším prostředím (datová síť a úložný systém). Každý moderní i nepříliš moderní úložný systém má svá vlastní počítadla výkonu. Chcete-li analyzovat problémy s DAVG, má smysl se na ně podívat. Pokud je vše v pořádku na straně ESXi a úložiště, zkontrolujte datovou síť.

Abyste se vyhnuli problémům s výkonem, zvolte správnou Zásadu výběru cesty (PSP) pro váš úložný systém. Téměř všechny moderní úložné systémy podporují PSP Round-Robin (s nebo bez ALUA, Asymmetric Logical Unit Access). Tato zásada vám umožňuje používat všechny dostupné cesty k systému úložiště dat. V případě ALUA se používají pouze cesty k ovladači, který vlastní měsíc. Ne všechny úložné systémy na ESXi mají výchozí pravidla, která nastavují zásadu Round-Robin. Pokud pro váš úložný systém neexistuje žádné pravidlo, použijte plugin od výrobce úložného systému, který vytvoří odpovídající pravidlo na všech hostitelích v clusteru, nebo si pravidlo vytvořte sami. Podrobnosti zde

Někteří výrobci úložných systémů také doporučují změnit počet IOPS na cestu ze standardní hodnoty 1000 na 1. V naší praxi to umožnilo „vymáčknout“ z úložného systému více výkonu a výrazně zkrátit dobu potřebnou pro převzetí služeb při selhání. v případě poruchy nebo aktualizace ovladače. Zkontrolujte doporučení dodavatele a pokud neexistují žádné kontraindikace, zkuste tento parametr změnit. Podrobnosti zde.

Základní čítače výkonu diskového subsystému virtuálního stroje

Čítače výkonu diskového subsystému ve vCenter se shromažďují v sekcích Úložiště dat, Disk, Virtuální disk:

Analýza výkonu VM ve VMware vSphere. Část 3: Skladování

V sekci Úložiště dat existují metriky pro disková úložiště vSphere (datová úložiště), na kterých jsou umístěny disky virtuálních počítačů. Zde najdete standardní počítadla pro:

  • IOPS (průměrné požadavky na čtení/zápis za sekundu), 
  • propustnost (rychlost čtení/zápisu), 
  • zpoždění (čtení/zápis/nejvyšší latence).

V zásadě je vše jasné z názvů pultů. Dovolte mi ještě jednou upozornit na skutečnost, že statistiky zde nejsou pro konkrétní VM (nebo VM disk), ale obecné statistiky pro celé datové úložiště. Podle mého názoru je pohodlnější se na tyto statistiky podívat v ESXTOP, alespoň podle toho, že minimální doba měření je tam 2 sekundy.

V sekci Disk na blokových zařízeních jsou metriky, které používá virtuální počítač. K dispozici jsou čítače pro IOPS sumačního typu (počet operací vstupu/výstupu během doby měření) a několik čítačů souvisejících s blokovým přístupem (Příkazy zrušeny, Resety sběrnice). Podle mého názoru je také pohodlnější tyto informace zobrazit v ESXTOP.

Část Virtuální disk – nejužitečnější z hlediska hledání problémů s výkonem diskového subsystému VM. Zde můžete vidět výkon pro každý virtuální disk. Právě tyto informace jsou potřebné k pochopení, zda má konkrétní virtuální stroj problém. Kromě standardních čítačů počtu I/O operací, objemu čtení/zápisu a zpoždění obsahuje tato část užitečné čítače, které ukazují velikost bloku: Velikost požadavku čtení/zápis.

Na obrázku níže je graf výkonu disku VM, kde vidíte počet IOPS, latenci a velikost bloku. 

Analýza výkonu VM ve VMware vSphere. Část 3: Skladování

Pokud je povoleno SIOC, můžete také zobrazit metriky výkonu pro celé úložiště dat. Zde jsou základní informace o průměrné latenci a IOPS. Ve výchozím nastavení lze tyto informace zobrazit pouze v reálném čase.

Analýza výkonu VM ve VMware vSphere. Část 3: Skladování

ESXTOP

ESXTOP má několik obrazovek, které poskytují informace o hostitelském diskovém subsystému jako celku, jednotlivých virtuálních strojích a jejich discích.

Začněme informacemi o virtuálních strojích. Obrazovka „Disk VM“ se vyvolá klávesou „v“:

Analýza výkonu VM ve VMware vSphere. Část 3: Skladování

NVDISK je počet disků VM. Chcete-li zobrazit informace pro každý disk, stiskněte „e“ a zadejte GID požadovaného virtuálního počítače.

Význam zbývajících parametrů na této obrazovce je zřejmý z jejich názvů.

Další užitečnou obrazovkou při odstraňování problémů je Diskový adaptér. Vyvoláno klávesou „d“ (pole A,B,C,D,E,G jsou vybrána na obrázku níže):

Analýza výkonu VM ve VMware vSphere. Část 3: Skladování

NPTH – počet cest k měsícům, které jsou viditelné z tohoto adaptéru. Chcete-li získat informace pro každou cestu na adaptéru, stiskněte „e“ a zadejte název adaptéru:

Analýza výkonu VM ve VMware vSphere. Část 3: Skladování

AQLEN – maximální velikost fronty na adaptéru.

Na této obrazovce jsou také čítače zpoždění, o kterých jsem mluvil výše: KAVG/cmd, GAVG/cmd, DAVG/cmd, QAVG/cmd.

Obrazovka Diskové zařízení, která se vyvolá stisknutím klávesy „u“, poskytuje informace o jednotlivých blokových zařízeních - měsících (na obrázku níže jsou vybrána pole A, B, F, G, I). Zde můžete vidět stav fronty na měsíce.

Analýza výkonu VM ve VMware vSphere. Část 3: Skladování

DQLEN – velikost fronty pro blokové zařízení.
ACTV – počet I/O příkazů v jádře ESXi.
QUED – počet I/O příkazů ve frontě.
%AMERICKÝ DOLAR – ACTV / DQLEN × 100 %.
ZATÍŽENÍ – (ACTV + QUED) / DQLEN.

Pokud je %USD vysoké, měli byste zvážit zvýšení fronty. Čím více příkazů ve frontě, tím vyšší je QAVG a tím i KAVG.

Na obrazovce Diskové zařízení můžete také vidět, zda na úložném systému běží VAAI (vStorage API for Array Integration). Chcete-li to provést, vyberte pole A a O.

Mechanismus VAAI umožňuje přenést část práce z hypervizoru přímo do úložného systému, například nulování, kopírování bloků nebo blokování.

Analýza výkonu VM ve VMware vSphere. Část 3: Skladování

Jak můžete vidět na obrázku výše, VAAI pracuje na tomto úložném systému: aktivně se používají primitiva Zero a ATS.

Tipy pro optimalizaci práce s diskovým subsystémem na ESXi

  • Věnujte pozornost velikosti bloku.
  • Nastavte optimální velikost fronty na HBA.
  • Nezapomeňte povolit SIOC na datových úložištích.
  • Vyberte PSP v souladu s doporučeními výrobce úložného systému.
  • Ujistěte se, že VAAI funguje.

Užitečné články na toto téma:http://www.yellow-bricks.com/2011/06/23/disk-schednumreqoutstanding-the-story/
http://www.yellow-bricks.com/2009/09/29/whats-that-alua-exactly/
http://www.yellow-bricks.com/2019/03/05/dqlen-changes-what-is-going-on/
https://www.codyhosterman.com/2017/02/understanding-vmware-esxi-queuing-and-the-flasharray/
https://www.codyhosterman.com/2018/03/what-is-the-latency-stat-qavg/
https://kb.vmware.com/s/article/1267
https://kb.vmware.com/s/article/1268
https://kb.vmware.com/s/article/1027901
https://kb.vmware.com/s/article/2069356
https://kb.vmware.com/s/article/2053628
https://kb.vmware.com/s/article/1003469
https://www.vmware.com/content/dam/digitalmarketing/vmware/en/pdf/techpaper/performance/vsphere-esxi-vcenter-server-67-performance-best-practices.pdf

Zdroj: www.habr.com

Přidat komentář