VM našumo VMware vSphere analizė. 3 dalis: saugojimas

VM našumo VMware vSphere analizė. 3 dalis: saugojimas

1 dalis. Apie centrinį procesorių
2 dalis. Apie atmintį

Šiandien mes analizuosime vSphere disko posistemio metrikas. Saugojimo problema yra dažniausia lėtos virtualios mašinos priežastis. Jei procesoriaus ir RAM atveju trikčių šalinimas baigiasi hipervizoriaus lygiu, tada, jei kyla problemų su disku, gali tekti spręsti duomenų tinklo ir saugojimo sistemos problemas.

Aptarsiu temą naudodamas blokinės prieigos prie saugojimo sistemų pavyzdį, nors prieigai prie failų skaitikliai yra maždaug vienodi.

Teorijos tiek

Kalbėdami apie virtualių mašinų disko posistemio našumą, žmonės dažniausiai atkreipia dėmesį į tris tarpusavyje susijusius parametrus:

  • įvesties/išvesties operacijų skaičius (Input/Output Operations Per Second, IOPS);
  • pralaidumas;
  • įvesties/išvesties operacijų vėlavimas (Latency).

IOPS skaičius paprastai svarbu atsitiktiniams darbo krūviams: prieiga prie disko blokų, esančių skirtingose ​​vietose. Tokios apkrovos pavyzdys galėtų būti duomenų bazės, verslo programos (ERP, CRM) ir kt.

Bandwidth svarbu nuoseklioms apkrovoms: prieiga prie blokų, esančių vienas po kito. Pavyzdžiui, failų serveriai (bet ne visada) ir vaizdo stebėjimo sistemos gali generuoti tokią apkrovą.

Pralaidumas yra susijęs su įvesties / išvesties operacijų skaičiumi taip:

Pralaidumas = IOPS * Bloko dydis, kur Bloko dydis yra bloko dydis.

Bloko dydis yra gana svarbi savybė. Šiuolaikinės ESXi versijos leidžia blokuoti iki 32 767 KB dydžio. Jei blokas dar didesnis, jis padalinamas į keletą. Ne visos saugojimo sistemos gali efektyviai dirbti su tokiais dideliais blokais, todėl ESXi Advanced Settings yra parametras DiskMaxIOSize. Naudodamiesi juo galite sumažinti maksimalų hipervizoriaus praleistą bloko dydį (daugiau informacijos čia). Prieš keičiant šį parametrą rekomenduoju pasikonsultuoti su saugojimo sistemos gamintoju arba bent jau išbandyti pakeitimus laboratoriniame stende. 

Didelis bloko dydis gali turėti neigiamos įtakos saugojimo našumui. Net jei IOPS skaičius ir pralaidumas yra santykinai mažas, esant dideliam bloko dydžiui, galima pastebėti didelį delsą. Todėl atkreipkite dėmesį į šį parametrą.

Uždelsimas – įdomiausias veikimo parametras. Virtualios mašinos įvesties / išvesties delsą sudaro:

  • delsos hipervizoriaus viduje (KAVG, Average Kernel MilliSec/Read);
  • delsa, kurią suteikia duomenų tinklas ir saugojimo sistema (DAVG, Average Driver MilliSec/Command).

Bendra svečių OS matoma delsa (GAVG, Average Guest MilliSec/Command) yra KAVG ir DAVG suma.

Matuojamas GAVG ir DAVG, o KAVG apskaičiuojamas: GAVG–DAVG.

VM našumo VMware vSphere analizė. 3 dalis: saugojimas
šaltinis

Pažvelkime atidžiau KAVG. Įprasto veikimo metu KAVG turėtų būti nulinis arba bent jau daug mažesnis nei DAVG. Vienintelis atvejis, kurį žinau, kai tikėtina, kad KAVG yra didelis, yra IOPS riba VM diske. Tokiu atveju, kai bandysite viršyti limitą, KAVG padidės.

Svarbiausias KAVG komponentas yra QAVG – apdorojimo eilės laikas hipervizoriuje. Likę KAVG komponentai yra nereikšmingi.

Eilė disko adapterio tvarkyklėje ir eilė į mėnulius yra fiksuoto dydžio. Labai apkrautoje aplinkoje gali būti naudinga padidinti šį dydį. Čia aprašoma, kaip padidinti eiles adapterio tvarkyklėje (tuo pačiu padidės eilė į mėnulius). Šis nustatymas veikia, kai tik viena VM dirba su mėnuliu, o tai yra reta. Jei Mėnulyje yra keletas VM, taip pat turite padidinti parametrą Disk.SchedNumReqOutstanding (instrukcijos  čia). Padidindami eilę, atitinkamai sumažinate QAVG ir KAVG.

Bet vėlgi, pirmiausia perskaitykite HBA pardavėjo dokumentus ir išbandykite pakeitimus laboratorijos stende.

Eilės į mėnulį dydį gali paveikti SIOC (Storage I/O Control) mechanizmo įtraukimas. Tai suteikia vienodą prieigą prie mėnulio iš visų klasterio serverių, dinamiškai keičiant eilę į mėnulį serveriuose. Tai yra, jei viename iš pagrindinių kompiuterių veikia VM, kuriai reikalingas neproporcingas našumas (triukšmingas kaimyninis VM), SIOC sumažina eilės ilgį iki mėnulio šiame pagrindiniame kompiuteryje (DQLEN). Daugiau informacijos čia.

Sutvarkėme KAVG, dabar šiek tiek apie tai DAVG. Čia viskas paprasta: DAVG yra išorinės aplinkos (duomenų tinklo ir saugojimo sistemos) įvestas delsimas. Kiekviena moderni ir ne tokia moderni saugojimo sistema turi savo našumo skaitiklius. Norint išanalizuoti DAVG problemas, prasminga į jas pažvelgti. Jei ESXi ir saugyklos pusėje viskas gerai, patikrinkite duomenų tinklą.

Norėdami išvengti našumo problemų, pasirinkite tinkamą saugyklos sistemos kelio pasirinkimo strategiją (PSP). Beveik visos šiuolaikinės saugojimo sistemos palaiko PSP Round-Robin (su arba be ALUA, Asymmetric Logical Unit Access). Ši politika leidžia naudoti visus galimus kelius į saugojimo sistemą. ALUA atveju naudojami tik keliai į valdiklį, kuriam priklauso mėnulis. Ne visos ESXi saugojimo sistemos turi numatytąsias taisykles, kurios nustato „Round-Robin“ politiką. Jei jūsų saugojimo sistemai nėra taisyklės, naudokite saugojimo sistemos gamintojo įskiepį, kuris sukurs atitinkamą taisyklę visuose klasterio pagrindiniuose kompiuteriuose, arba sukurkite taisyklę patys. Detalės čia

Be to, kai kurie saugojimo sistemų gamintojai rekomenduoja pakeisti IOPS skaičių viename kelyje nuo standartinės reikšmės 1000 iki 1. Mūsų praktikoje tai leido „išspausti“ didesnį našumą iš saugojimo sistemos ir žymiai sutrumpinti laiką, reikalingą pertrūkiui. valdiklio gedimo ar atnaujinimo atveju. Patikrinkite pardavėjo rekomendacijas ir, jei nėra kontraindikacijų, pabandykite pakeisti šį parametrą. Detalės čia.

Pagrindiniai virtualios mašinos disko posistemio našumo skaitikliai

Disko posistemio našumo skaitikliai vCenter renkami duomenų saugyklos, disko, virtualiojo disko skyriuose:

VM našumo VMware vSphere analizė. 3 dalis: saugojimas

Skyriuje Duomenų saugykla yra „vSphere“ diskų saugyklų (duomenų saugyklų), kuriose yra VM diskai, metrikos. Čia rasite standartinius skaitiklius:

  • IOPS (vidutinis skaitymo / rašymo užklausų skaičius per sekundę), 
  • pralaidumas (skaitymo / rašymo greitis), 
  • vėlavimai (skaitymas / rašymas / didžiausia delsa).

Iš principo viskas aišku iš skaitiklių pavadinimų. Leiskite dar kartą atkreipti jūsų dėmesį į tai, kad čia pateikiama ne konkrečios VM (ar VM disko), o bendra visos duomenų saugyklos statistika. Mano nuomone, patogiau į šią statistiką žiūrėti ESXTOP, bent jau remiantis tuo, kad ten minimalus matavimo laikotarpis yra 2 sekundės.

Skyriuje Diskas yra blokinių įrenginių metrikos, kurias naudoja VM. Yra sumavimo tipo IOPS skaitikliai (įvesties/išvesties operacijų skaičius matavimo laikotarpiu) ir keli skaitikliai, susiję su blokine prieiga (komandos nutrauktos, magistralės atstatymas). Mano nuomone, šią informaciją taip pat patogiau peržiūrėti ESXTOP.

Skyrius Virtualus diskas – naudingiausias ieškant VM disko posistemio veikimo problemų. Čia galite pamatyti kiekvieno virtualaus disko našumą. Būtent ši informacija reikalinga norint suprasti, ar konkreti virtuali mašina turi problemų. Be standartinių įvesties / išvesties operacijų skaičiaus, skaitymo / rašymo apimties ir vėlavimų skaitiklių, šiame skyriuje yra naudingų skaitiklių, rodančių bloko dydį: Skaitymo / rašymo užklausos dydis.

Žemiau esančiame paveikslėlyje yra VM disko veikimo grafikas, kuriame galite matyti IOPS skaičių, delsą ir bloko dydį. 

VM našumo VMware vSphere analizė. 3 dalis: saugojimas

Taip pat galite peržiūrėti visos duomenų saugyklos našumo metriką, jei įjungtas SIOC. Čia yra pagrindinė informacija apie vidutinį delsą ir IOPS. Pagal numatytuosius nustatymus šią informaciją galima peržiūrėti tik realiuoju laiku.

VM našumo VMware vSphere analizė. 3 dalis: saugojimas

ESXTOP

ESXTOP turi kelis ekranus, kuriuose pateikiama informacija apie pagrindinio disko posistemį kaip visumą, atskiras virtualias mašinas ir jų diskus.

Pradėkime nuo informacijos apie virtualias mašinas. Ekranas „Disk VM“ iškviečiamas mygtuku „v“:

VM našumo VMware vSphere analizė. 3 dalis: saugojimas

NVDISK yra VM diskų skaičius. Norėdami peržiūrėti kiekvieno disko informaciją, paspauskite „e“ ir įveskite dominančio VM GID.

Likusių parametrų reikšmė šiame ekrane yra aiški iš jų pavadinimų.

Kitas naudingas ekranas šalinant triktis yra Disko adapteris. Iškviečiamas „d“ klavišu (žemiau esančiame paveikslėlyje pasirinkti laukai A, B, C, D, E, G):

VM našumo VMware vSphere analizė. 3 dalis: saugojimas

NPTH – kelių į mėnulius, matomų iš šio adapterio, skaičius. Norėdami gauti informaciją apie kiekvieną adapterio kelią, paspauskite „e“ ir įveskite adapterio pavadinimą:

VM našumo VMware vSphere analizė. 3 dalis: saugojimas

AQLEN – maksimalus adapterio eilės dydis.

Taip pat šiame ekrane yra delsos skaitikliai, apie kuriuos kalbėjau aukščiau: KAVG/cmd, GAVG/cmd, DAVG/cmd, QAVG/cmd.

Disko įrenginio ekrane, kuris iškviečiamas paspaudus „u“ klavišą, pateikiama informacija apie atskirus blokinius įrenginius - mėnulius (paveikslėlyje pasirinkti laukai A, B, F, G, I). Čia galite pamatyti eilės į mėnulius būseną.

VM našumo VMware vSphere analizė. 3 dalis: saugojimas

DQLEN – blokinio įrenginio eilės dydis.
ACTV – įvesties/išvesties komandų skaičius ESXi branduolyje.
QUED – įvesties/išvesties komandų skaičius eilėje.
% USD – ACTV / DQLEN × 100%.
LOAD – (ACTV + QUED) / DQLEN.

Jei %USD yra didelis, turėtumėte apsvarstyti galimybę padidinti eilę. Kuo daugiau komandų eilėje, tuo didesnis QAVG ir atitinkamai KAVG.

Taip pat disko įrenginio ekrane galite matyti, ar saugojimo sistemoje veikia VAAI (vStorage API, skirta masyvo integracijai). Norėdami tai padaryti, pasirinkite A ir O laukus.

VAAI mechanizmas leidžia perkelti dalį darbo iš hipervizoriaus tiesiai į saugojimo sistemą, pavyzdžiui, nulinį, blokų kopijavimą ar blokavimą.

VM našumo VMware vSphere analizė. 3 dalis: saugojimas

Kaip matote aukščiau esančiame paveikslėlyje, VAAI dirba su šia saugojimo sistema: aktyviai naudojami Zero ir ATS primityvai.

Patarimai, kaip optimizuoti darbą su ESXi disko posistemiu

  • Atkreipkite dėmesį į bloko dydį.
  • Nustatykite optimalų eilės dydį HBA.
  • Nepamirškite įjungti SIOC duomenų saugyklose.
  • Pasirinkite PSP pagal saugojimo sistemos gamintojo rekomendacijas.
  • Įsitikinkite, kad VAAI veikia.

Naudingi straipsniai šia tema:http://www.yellow-bricks.com/2011/06/23/disk-schednumreqoutstanding-the-story/
http://www.yellow-bricks.com/2009/09/29/whats-that-alua-exactly/
http://www.yellow-bricks.com/2019/03/05/dqlen-changes-what-is-going-on/
https://www.codyhosterman.com/2017/02/understanding-vmware-esxi-queuing-and-the-flasharray/
https://www.codyhosterman.com/2018/03/what-is-the-latency-stat-qavg/
https://kb.vmware.com/s/article/1267
https://kb.vmware.com/s/article/1268
https://kb.vmware.com/s/article/1027901
https://kb.vmware.com/s/article/2069356
https://kb.vmware.com/s/article/2053628
https://kb.vmware.com/s/article/1003469
https://www.vmware.com/content/dam/digitalmarketing/vmware/en/pdf/techpaper/performance/vsphere-esxi-vcenter-server-67-performance-best-practices.pdf

Šaltinis: www.habr.com

Добавить комментарий