Proč je důležité ověřit software na vašem úložišti s vysokou dostupností (99,9999 %)

Proč je důležité ověřit software na vašem úložišti s vysokou dostupností (99,9999 %)

Která verze firmwaru je nejvíce „správná“ a „funkční“? Pokud úložný systém zaručuje odolnost proti chybám 99,9999 %, znamená to, že bude fungovat bez přerušení i bez aktualizace softwaru? Nebo naopak, abyste získali maximální odolnost proti chybám, měli byste vždy nainstalovat nejnovější firmware? Na tyto otázky se pokusíme odpovědět na základě našich zkušeností.

Malý úvod

Všichni chápeme, že každá verze softwaru, ať už se jedná o operační systém nebo ovladač pro zařízení, často obsahuje vady/chyby a další „funkce“, které se nemusí „objevit“ až do konce životnosti zařízení nebo „otevřené“ pouze za určitých podmínek. Počet a význam takových nuancí závisí na složitosti (funkčnosti) softwaru a na kvalitě testování při jeho vývoji. 

Uživatelé často zůstávají na „firmwaru z továrny“ (slavné „funguje, tak se s ním nehrabejte“) nebo vždy instalují nejnovější verzi (podle jejich chápání nejnovější znamená nejfunkčnější). Používáme jiný přístup – díváme se na poznámky k vydání u všeho použitého v cloudu mClouds zařízení a pečlivě vyberte vhodný firmware pro každý kus zařízení.

K tomuto závěru jsme dospěli, jak se říká, se zkušenostmi. Na našem příkladu fungování vám řekneme, proč slibovaná 99,9999% spolehlivost úložných systémů nic neznamená, pokud nebudete promptně sledovat aktualizace a popisy softwaru. Naše pouzdro je vhodné pro uživatele úložných systémů od jakéhokoli výrobce, protože podobná situace může nastat s hardwarem jakéhokoli výrobce.

Výběr nového úložného systému

Koncem loňského roku do naší infrastruktury přibyl zajímavý systém pro ukládání dat: juniorský model z řady IBM FlashSystem 5000, který se v době nákupu jmenoval Storwize V5010e. Nyní se prodává pod názvem FlashSystem 5010, ale ve skutečnosti se jedná o stejný hardwarový základ se stejným Spectrum Virtualize uvnitř. 

Přítomnost jednotného systému správy je mimochodem hlavním rozdílem mezi IBM FlashSystem. U modelů mladší řady se prakticky neliší od modelů produktivnějších. Výběr konkrétního modelu poskytuje pouze vhodnou hardwarovou základnu, jejíž vlastnosti umožňují používat tu či onu funkcionalitu nebo poskytují vyšší úroveň škálovatelnosti. Software identifikuje hardware a poskytuje potřebnou a dostatečnou funkčnost pro tuto platformu.

Proč je důležité ověřit software na vašem úložišti s vysokou dostupností (99,9999 %)IBM FlashSystem 5010

Stručně o našem modelu 5010. Jedná se o základní blokový úložný systém se dvěma ovladači. Pojme disky NLSAS, SAS, SSD. Umístění NVMe v něm není k dispozici, protože tento model úložiště je umístěn tak, aby řešil problémy, které nevyžadují výkon jednotek NVMe.

Úložný systém byl zakoupen za účelem uložení archivních informací nebo dat, ke kterým se často nepřistupuje. Stačila nám tedy standardní sada jeho funkcionality: Tiering (Easy Tier), Thin Provision. Výkon na NLSAS discích na úrovni 1000-2000 IOPS byl pro nás také vcelku uspokojivý.

Naše zkušenost - jak jsme neaktualizovali firmware včas

Nyní o samotné aktualizaci softwaru. V době nákupu měl systém již mírně zastaralou verzi softwaru Spectrum Virtualize, a to 8.2.1.3.

Prostudovali jsme popisy firmwaru a naplánovali aktualizaci 8.2.1.9. Kdybychom byli trochu efektivnější, tento článek by neexistoval – chyba by se nevyskytla na novějším firmwaru. Z určitých důvodů však byla aktualizace tohoto systému odložena.

V důsledku toho mírné zpoždění aktualizace vedlo k extrémně nepříjemnému obrázku, jako v popisu na odkazu: https://www.ibm.com/support/pages/node/6172341

Ano, ve firmwaru této verze byl relevantní tzv. APAR (Authorized Program Analysis Report) HU02104. Vypadá to následovně. Při zatížení se za určitých okolností mezipaměť začne přeplňovat, poté systém přejde do ochranného režimu, ve kterém zakáže I/O pro fond. V našem případě to vypadalo na odpojení 3 disků pro RAID skupinu v režimu RAID 6. K odpojení dochází po dobu 6 minut. Dále bude obnoven přístup ke svazkům ve fondu.

Pokud někdo není obeznámen se strukturou a pojmenováním logických entit v kontextu IBM Spectrum Virtualize, nyní stručně vysvětlím.

Proč je důležité ověřit software na vašem úložišti s vysokou dostupností (99,9999 %)Struktura logických prvků úložného systému

Disky se shromažďují do skupin nazývaných MDisk (Managed Disk). MDisk může být klasický RAID (0,1,10,5,6) nebo virtualizovaný - DRAID (Distributed RAID). Použití DRAID umožňuje zvýšit výkon pole, protože... Budou použity všechny disky ve skupině a doba přestavby se zkrátí, protože bude potřeba obnovit pouze určité bloky a ne všechna data z disku, který selhal.

Proč je důležité ověřit software na vašem úložišti s vysokou dostupností (99,9999 %)Distribuce datových bloků mezi disky při použití distribuovaného pole RAID (DRAID) v režimu RAID-5.

A tento diagram ukazuje logiku toho, jak funguje přestavba DRAID v případě selhání jednoho disku:

Proč je důležité ověřit software na vašem úložišti s vysokou dostupností (99,9999 %)Logika obnovy DRAID, když jeden disk selže

Dále jeden nebo více MDisek tvoří takzvaný Pool. V rámci stejného fondu se nedoporučuje používat MDisk s různými úrovněmi RAID/DRAID na discích stejného typu. Nebudeme to rozebírat příliš do hloubky, protože... to plánujeme pokrýt v některém z následujících článků. Ve skutečnosti je fond rozdělen na svazky, které jsou hostitelům prezentovány pomocí jednoho nebo druhého protokolu blokového přístupu.

Takže my, v důsledku situace popsané v APAR HU02104MDisk přestal být v důsledku logického selhání tří disků funkční, což mělo následně za následek selhání Pool a odpovídajících svazků.

Protože jsou tyto systémy docela chytré, lze je připojit ke cloudovému monitorovacímu systému IBM Storage Insights, který v případě problému automaticky odešle servisní požadavek na podporu IBM. Vytvoří se aplikace a specialisté IBM na dálku provedou diagnostiku a kontaktují uživatele systému. 

Díky tomu byl problém poměrně rychle vyřešen a od podpůrné služby bylo obdrženo rychlé doporučení aktualizovat náš systém na dříve zvolený firmware 8.2.1.9, který byl v té době již opraven. To potvrzuje odpovídající poznámka k vydání.

Výsledky a naše doporučení

Jak se říká: "Všechno dobře, co dobře končí." Chyba ve firmwaru nezpůsobila vážné problémy - servery byly obnoveny co nejdříve a bez ztráty dat. Někteří klienti museli restartovat virtuální stroje, ale obecně jsme byli připraveni na negativnější důsledky, protože provádíme každodenní zálohy všech prvků infrastruktury a klientských strojů. 

Obdrželi jsme potvrzení, že i spolehlivé systémy s 99,9999% slíbenou dostupností vyžadují pozornost a včasnou údržbu. Na základě situace jsme pro sebe vyvodili řadu závěrů a sdílíme naše doporučení:

  • Je nezbytné sledovat vydávání aktualizací, studovat poznámky k vydání kvůli opravám potenciálně kritických problémů a provádět plánované aktualizace včas.

    To je organizační a dokonce zcela zřejmý bod, na který, jak se zdá, nemá cenu se zaměřovat. Na této „rovině“ však můžete poměrně snadno klopýtnout. Ve skutečnosti to byl tento okamžik, který přidal výše popsané potíže. Při sestavování aktualizačních předpisů buďte velmi opatrní a neméně pečlivě sledujte jejich dodržování. Tento bod souvisí spíše s pojmem „kázeň“.

  • Vždy je lepší udržovat systém s nejnovější verzí softwaru. Ta aktuální navíc není ta, která má větší číselné označení, ale spíše ta s pozdějším datem vydání. 

    IBM například aktualizuje alespoň dvě verze softwaru pro své úložné systémy. V době psaní tohoto článku se jedná o 8.2 a 8.3. Aktualizace pro 8.2 vyjdou dříve. Podobná aktualizace pro 8.3 je obvykle vydána s mírným zpožděním.

    Verze 8.3 má řadu funkčních výhod, například možnost rozšířit MDisk (v režimu DRAID) přidáním jednoho nebo více nových disků (tato funkce se objevuje od verze 8.3.1). Jedná se o poměrně základní funkcionalitu, ale ve verzi 8.2 bohužel žádná taková není.

  • Pokud z nějakého důvodu není možné aktualizovat, pak pro verze softwaru Spectrum Virtualize starší než verze 8.2.1.9 a 8.3.1.0 (kde se výše popsaná chyba týká), aby se snížilo riziko jejího výskytu, technická podpora IBM doporučuje omezení výkonu systému na úrovni fondu, jak je znázorněno na obrázku níže (obrázek byl pořízen v rusifikované verzi GUI). Hodnota 10000 IOPS je uvedena jako příklad a je vybrána podle charakteristik vašeho systému.

Proč je důležité ověřit software na vašem úložišti s vysokou dostupností (99,9999 %)Omezení výkonu úložiště IBM

  • Je nutné správně vypočítat zatížení skladovacích systémů a vyhnout se přetížení. K tomu můžete použít buď IBM sizer (pokud k němu máte přístup), nebo pomoc partnerů nebo zdroje třetích stran. Je nezbytné porozumět profilu zatížení úložného systému, protože Výkon v MB/s a IOPS se značně liší v závislosti alespoň na následujících parametrech:

    • typ operace: čtení nebo zápis,

    • velikost operačního bloku,

    • procento operací čtení a zápisu v celkovém toku I/O.

    Rychlost operací je také ovlivněna tím, jak jsou datové bloky čteny: sekvenčně nebo v náhodném pořadí. Při provádění více operací přístupu k datům na straně aplikace existuje koncept závislých operací. I s tím je vhodné počítat. To vše může pomoci vidět souhrn dat z počítadel výkonu operačního systému, úložného systému, serverů/hypervizorů, stejně jako pochopení provozních funkcí aplikací, DBMS a dalších „spotřebitelů“ diskových prostředků.

  • A nakonec se ujistěte, že máte zálohy aktuální a funkční. Plán zálohování by měl být konfigurován na základě přijatelných hodnot RPO pro podnik a měly by být ověřeny pravidelné kontroly integrity záloh (mnoho dodavatelů zálohovacího softwaru má ve svých produktech implementováno automatické ověřování), aby byla zajištěna přijatelná hodnota RTO.

Děkuji, že jste dočetli až do konce.
Jsme připraveni zodpovědět vaše dotazy a komentáře v komentářích. Taky Zveme vás k odběru našeho telegramového kanálu, ve které pořádáme pravidelné promo akce (slevy na IaaS a dárkové poukazy na propagační kódy až 100 % na VPS), píšeme zajímavé novinky a oznamujeme nové články na blogu Habr.

Zdroj: www.habr.com

Přidat komentář