Jak vybrat úložiště, aniž byste se střelili do nohy

úvod

Je čas koupit úložiště. Kterého vzít, koho poslouchat? Prodejce A mluví o prodejci B a pak je tu integrátor C, který tvrdí opak a radí prodejci D. V takové situaci se i zkušenému storage architektovi zatočí hlava, zvláště u všech nových prodejců a SDS a hyperkonvergencí, které jsou v módě dnes.

Jak tedy na to všechno přijít a neskončit z toho hlupák? My (AntonVirtual Anton Žbankov a tělo Evgeniy Elizarov), zkusme si o tom promluvit v jednoduché ruštině.
Článek má mnoho podobností a je vlastně rozšířením „Návrh virtualizovaného datového centra“, pokud jde o výběr úložných systémů a přezkoumání úložných technologií. Krátce se podíváme na obecnou teorii, ale doporučujeme si přečíst i tento článek.

Proč

Často se můžete setkat se situací, kdy nový člověk přijde na fórum nebo na specializovaný chat, jako jsou Diskuse o úložišti, a zeptá se: „zde mi nabízejí dvě možnosti úložiště - ABC SuperStorage S600 a XYZ HyperOcean 666v4, co doporučujete ?"

A začíná zmatek, kdo má jaké rysy implementace hrozných a nepochopitelných rysů, které jsou pro nepřipraveného člověka zcela čínské.

Takže klíčová a úplně první otázka, kterou si musíte položit dlouho před porovnáváním specifikací v komerčních návrzích, je PROČ? Proč je tento úložný systém potřebný?

Jak vybrat úložiště, aniž byste se střelili do nohy

Odpověď bude nečekaná a ve stylu Tonyho Robbinse – ukládat data. Děkuji, kapitáne! A přesto se někdy dostáváme tak hluboko do porovnávání detailů, že zapomínáme, proč to všechno vůbec děláme.

Úkolem systému pro ukládání dat je tedy ukládat a poskytovat přístup k DATA s daným výkonem. Začneme daty.

Data

Datový typ

Jaký druh dat plánujeme ukládat? Velmi důležitá otázka, která může vyřadit mnoho úložných systémů z rovnoměrného uvažování. Plánujete například ukládat videa a fotografie. Okamžitě můžete vyškrtnout systémy navržené pro náhodný přístup v malých blocích nebo systémy s proprietárními funkcemi v kompresi / deduplikaci. Mohou to být prostě vynikající systémy, nechceme říkat nic špatného. V tomto případě však jejich silné stránky buď zeslábnou (video a fotografie nejsou komprimovány), nebo jednoduše výrazně zvýší náklady na systém.

Naopak, pokud je zamýšleným použitím rušná transakční DBMS, pak budou vynikající multimediální streamovací systémy schopné dodávat gigabajty za sekundu špatnou volbou.

Objem dat

Kolik dat plánujeme ukládat? Kvantita se vždy vyvine v kvalitu, na to by se nikdy nemělo zapomínat, zvláště v naší době exponenciálního růstu objemu dat. Systémy třídy petabajtů již nejsou neobvyklé, ale čím větší je kapacita petabajtů, tím specifičtější bude systém, tím méně budou dostupné obvyklé funkce malých a středně velkých systémů s náhodným přístupem. Je to triviální, protože samotné tabulky statistik blokového přístupu jsou větší než dostupné množství paměti RAM na řadičích. O kompresi/tieringu nemluvě. Řekněme, že chceme přepnout kompresní algoritmus na výkonnější a zkomprimovat 20 petabajtů dat. Jak dlouho to bude trvat: šest měsíců, rok?

Na druhou stranu, proč se obtěžovat, když potřebujete uložit a zpracovat 500 GB dat? Pouze 500. SSD pro domácnost (s nízkým DWPD) této velikosti nic nestojí. Proč stavět továrnu na Fibre Channel a kupovat špičkové externí úložné systémy, které stojí ekvivalent litinového mostu?

Jaké procento z celkového počtu jsou horká data? Jak nerovnoměrné je zatížení z hlediska objemu dat? Zde může být velmi užitečná technologie vrstveného úložiště nebo Flash Cache, pokud je množství horkých dat malé ve srovnání s celkovým počtem. Nebo naopak, s rovnoměrným zatížením v celém objemu, které se často vyskytuje u streamovacích systémů (video dohled, některé analytické systémy), takové technologie nic neposkytnou a pouze zvýší cenu/složitost systému.

IP

Druhou stranou dat je informační systém, který data využívá. IS má sadu požadavků, které dědí data. Další informace o IS naleznete v části „Návrh virtualizovaného datového centra“.

Požadavky na odolnost/dostupnost

Požadavky na odolnost proti chybám / dostupnost dat se dědí z IS pomocí nich a jsou vyjádřeny třemi číslicemi - RPO, RTO, dostupnost.

Dostupnost — podíl za dané časové období, během kterého jsou k dispozici údaje pro práci s nimi. Obvykle se vyjadřuje jako číslo 9. Například dvě devítky za rok znamenají, že dostupnost je 99 %, jinak je povoleno 95 hodin nedostupnosti za rok. Tři devítky – 9,5 hodiny ročně.

RPO / RTO nejsou celkové ukazatele, ale pro každý incident (nehodu), na rozdíl od dostupnosti.

RPO — množství dat ztracených během nehody (v hodinách). Pokud například zálohování probíhá jednou denně, pak RPO = 24 hodin. Tito. V případě havárie a úplné ztráty úložného systému může dojít ke ztrátě dat až 24 hodin (od okamžiku zálohy). Na základě RPO specifikovaného pro IS se např. sepisují záložní předpisy. Na základě RPO také můžete pochopit, kolik synchronní/asynchronní replikace dat je potřeba.

RTO — čas na obnovení služby (přístup k datům) po katastrofě. Na základě zadané hodnoty RTO můžeme pochopit, zda je potřeba metropolitní cluster, nebo zda stačí jednosměrná replikace. Potřebujete špičkový úložný systém s více ovladači?

Jak vybrat úložiště, aniž byste se střelili do nohy

Požadavky na výkon

Ačkoli je to velmi zřejmá otázka, právě zde vzniká většina obtíží. V závislosti na tom, zda již nějakou infrastrukturu máte nebo ne, se budou budovat způsoby sběru potřebných statistik.

Již máte úložný systém a hledáte náhradu nebo si chcete koupit jiný pro rozšíření. Všechno je zde jednoduché. Chápete, jaké služby již máte a které plánujete implementovat v blízké budoucnosti. Na základě aktuálních služeb máte možnost sbírat statistiky výkonu. Rozhodněte se o aktuálním počtu IOPS a aktuální latenci – jaké jsou tyto ukazatele a jsou dostatečné pro vaše úkoly? To lze provést jak na samotném systému ukládání dat, tak na hostitelích, kteří jsou k němu připojeni.

Navíc se musíte dívat nejen na aktuální zatížení, ale za určité období (nejlépe měsíc). Podívejte se, jaké jsou maximální špičky během dne, jaké zatížení záloha vytváří atd. Pokud vám váš úložný systém nebo jeho software neposkytuje kompletní sadu těchto dat, můžete použít bezplatný nástroj RRDtool, který umí pracovat s většinou nejoblíbenějších úložných systémů a přepínačů a může vám poskytnout podrobné statistiky výkonu. Vyplatí se také podívat na zatížení hostitelů, kteří pracují s tímto úložným systémem, pro konkrétní virtuální stroje nebo co přesně na tomto hostiteli běží.

Jak vybrat úložiště, aniž byste se střelili do nohy

Samostatně stojí za zmínku, že pokud se zpoždění na svazku a datovém úložišti, které se na tomto svazku nachází, poměrně výrazně liší, měli byste věnovat pozornost své síti SAN, je zde vysoká pravděpodobnost, že s ní jsou problémy a před zakoupením nového systém, stojí za to se tímto problémem zabývat, protože existuje velmi vysoká pravděpodobnost zvýšení výkonu současného systému.

Budujete infrastrukturu od nuly nebo kupujete systém pro nějakou novou službu, o které nevíte. Existuje několik možností: komunikujte s kolegy na specializovaných zdrojích a pokuste se zjistit a předvídat zatížení, kontaktujte integrátora, který má zkušenosti s implementací podobných služeb a který vám může spočítat zatížení. A třetí možností (většinou nejobtížnější, zvláště pokud se týká podomácku psaných nebo vzácných aplikací) je pokusit se zjistit požadavky na výkon od vývojářů systému.

A pozor, nejsprávnější možností z hlediska praktického použití je pilot na současném zařízení, nebo zařízení poskytnutém k testování dodavatelem/integrátorem.

Speciální požadavky

Speciálními požadavky je vše, co nespadá pod požadavky na výkon, chybovost a funkčnost pro přímé zpracování a poskytování dat.

Jeden z nejjednodušších speciálních požadavků na systém ukládání dat lze nazvat „zcizitelná paměťová média“. A okamžitě je jasné, že tento systém pro ukládání dat musí obsahovat páskovou knihovnu nebo jednoduše páskovou jednotku, na kterou se uloží záložní kopie. Načež speciálně vyškolená osoba pásku podepíše a hrdě ji odnese do speciálního trezoru.
Dalším příkladem speciálního požadavku je chráněné provedení odolné proti nárazům.

Kde

Druhou hlavní složkou při výběru konkrétního úložného systému je informace o tom, KDE bude tento úložný systém umístěn. Počínaje geografií nebo klimatickými podmínkami a konče personálem.

Zákazník

Pro koho je tento úložný systém plánován? Otázka má následující důvody:

Vládní zákazník/obchodník.
Komerční zákazník nemá žádná omezení a není ani povinen konat výběrová řízení, s výjimkou podle vlastních vnitřních předpisů.

Státní zákazník je jiná věc. 44 Federální zákon a další požitky s výběrovými řízeními a technickými specifikacemi, které lze napadnout.

Zákazník je pod sankcemi
Otázka je zde velmi jednoduchá – výběr je omezen pouze nabídkami, které má daný zákazník k dispozici.

Interní předpisy / prodejci / modely povoleny ke koupi
Otázka je také velmi jednoduchá, ale musíte si ji zapamatovat.

Kde fyzicky

V této části se zabýváme všemi otázkami geografie, komunikačních kanálů a mikroklimatu v ubytovacích prostorách.

zaměstnanci

Kdo bude s tímto úložným systémem pracovat? To není o nic méně důležité než to, co umí samotný úložný systém.
Bez ohledu na to, jak slibný, skvělý a úžasný je úložný systém od dodavatele A, pravděpodobně nemá smysl jej instalovat, pokud zaměstnanci vědí, jak pracovat pouze s dodavatelem B, a nejsou žádné plány na další nákupy a pokračující spolupráci s A.

A samozřejmě druhá strana otázky je, jak moc je k dispozici vyškolený personál v dané geografické lokalitě přímo ve firmě a potenciálně na trhu práce. Pro regiony může mít velký smysl výběr úložných systémů s jednoduchým rozhraním nebo možností vzdálené centralizace správy. Jinak to může být v určitém okamžiku nesnesitelně bolestivé. Internet je plný příběhů o tom, jak nový zaměstnanec, který přišel, včerejší student, nakonfiguroval takovou věc, že ​​byla zničena celá kancelář.

Jak vybrat úložiště, aniž byste se střelili do nohy

Prostředí

A samozřejmě důležitou otázkou je, v jakém prostředí bude tento úložný systém fungovat.

  • A co napájení/chlazení?
  • Jaké spojení
  • Kde se bude instalovat?
  • A tak dále.

Často jsou tyto otázky považovány za samozřejmé a nejsou nijak zvlášť zvažovány, ale někdy jsou to právě ony, které mohou vše zvrátit.

Co

Prodejce

K dnešnímu dni (polovina roku 2019) lze ruský trh úložiště rozdělit do 5 kategorií:

  1. Nejvyšší divizí jsou zavedené společnosti s širokou nabídkou diskových poliček od těch nejjednodušších až po hi-end (HPE, DellEMC, Hitachi, NetApp, IBM / Lenovo)
  2. Druhá divize – společnosti s omezenou řadou, specializovaní hráči, seriózní prodejci SDS nebo začínající nováčci (Fujitsu, Datacore, Infinidat, Huawei, Pure atd.)
  3. Třetí divize - specializovaná řešení v low end ranku, levné SDS, pokročilé produkty založené na ceph a dalších otevřených projektech (Infortrend, Starwind atd.)
  4. SOHO segment - malé a ultra-malé úložné systémy na úrovni domácnosti/malé kanceláře (Synology, QNAP atd.)
  5. Dovozem substituované úložné systémy - sem patří jak hardware první divize s přeznačenými štítky, tak vzácní zástupci druhé (RAIDIX, druhé dáme předem), ale hlavně se jedná o třetí divizi (Aerodisk, Baum, Depo atd.)

Rozdělení je zcela libovolné a vůbec neznamená, že třetí nebo SOHO segment je špatný a nelze jej použít. V konkrétních projektech s jasně definovanou datovou sadou a profilem zátěže mohou velmi dobře fungovat, daleko předčí první divizi v poměru cena/kvalita. Je důležité nejprve rozhodnout o svých cílech, perspektivách růstu a požadované funkčnosti – a poté vám bude Synology věrně sloužit a vaše vlasy budou jemné a hedvábné.

Jedním z důležitých faktorů při výběru dodavatele je aktuální prostředí. Kolik úložných systémů již máte a s jakými úložnými systémy mohou vaši technici pracovat. Potřebujete jiného dodavatele, další kontaktní místo, budete postupně migrovat celý náklad od dodavatele A k dodavateli B?

Člověk by neměl produkovat entity nad rámec toho, co je nutné.

iSCSI/FC/soubor

Mezi inženýry nepanuje shoda v otázce přístupových protokolů a debata připomíná spíše teologické diskuse než ty inženýrské. Ale obecně lze poznamenat následující body:

FCoE více mrtvých než živých.

FC vs iSCSI. Jedna z klíčových výhod FC v roce 2019 oproti úložišti IP, vyhrazené továrně pro přístup k datům, je kompenzována vyhrazenou sítí IP. FC nemá žádné globální výhody oproti IP sítím a IP lze použít k vybudování úložných systémů jakékoli úrovně zatížení, až po systémy pro těžké DBMS pro základní bankovní systém velké banky. Na druhou stranu, smrt FC se prorokuje už několik let, ale neustále tomu něco brání. Dnes například někteří hráči na trhu úložiště aktivně vyvíjejí standard NVMEoF. Zda bude sdílet osud FCoE - čas ukáže.

Přístup k souboru také není něco nehodného pozornosti. NFS/CIFS funguje dobře v produktivních prostředích a pokud je správně navržen, nemá o nic víc stížností než blokové protokoly.

Hybridní / All Flash Array

Klasické úložné systémy se dodávají ve 2 typech:

  1. AFA (All Flash Array) - systémy optimalizované pro použití SSD.
  2. Hybridní – umožňuje používat HDD i SSD nebo jejich kombinaci.

Jejich hlavním rozdílem jsou podporované technologie účinnosti úložiště a maximální úroveň výkonu (vysoké IOPS a nízká latence). Oba systémy (ve většině svých modelů, nepočítaje segment nižší třídy) mohou fungovat jako bloková i souborová zařízení. Podporovaná funkcionalita závisí na úrovni systému a u mladších modelů je nejčastěji redukována na minimální úroveň. To stojí za to věnovat pozornost, když studujete vlastnosti konkrétního modelu, a ne pouze schopnosti celé řady jako celku. Také jeho technické vlastnosti, jako je procesor, množství paměti, cache, počet a typy portů atd., závisí také na úrovni systému. Z pohledu správy se AFA liší od hybridních (diskových) systémů pouze implementací mechanismů pro práci s SSD disky, a i když použijete SSD v hybridním systému, vůbec to neznamená, že budete moci dosáhnout úrovně výkonu na úrovni systému AFA. Ve většině případů jsou také na hybridních systémech deaktivovány inline efektivní úložné mechanismy a jejich zahrnutí vede ke ztrátě výkonu.

Speciální skladovací systémy

Kromě univerzálních úložných systémů, zaměřených především na provozní zpracování dat, existují speciální úložné systémy s klíčovými principy, které se zásadně liší od těch běžných (nízká latence, vysoké IOPS):

Média.

Tyto systémy jsou určeny pro ukládání a zpracování velkých mediálních souborů. Resp. zpoždění se stává prakticky nedůležitým a do popředí se dostává možnost odesílat a přijímat data v širokém pásmu v mnoha paralelních tocích.

Deduplikace úložných systémů pro zálohování.

Vzhledem k tomu, že záložní kopie se vyznačují vzájemnou podobností, což je za normálních podmínek vzácné (průměrná záložní kopie se liší od včerejší kopie o 1–2 %), tato třída systémů extrémně efektivně sbalí data na nich zaznamenaná v rámci poměrně malého rozsahu. počet fyzických médií. Například v některých případech může poměr komprese dat dosáhnout 200:1.

Systémy ukládání objektů.

Tyto úložné systémy nemají obvyklé svazky s blokovým přístupem a sdílení souborů a ze všeho nejvíc připomínají obrovskou databázi. Přístup k objektu uloženému v takovém systému se provádí pomocí jedinečného identifikátoru nebo metadat (například všechny objekty formátu JPEG s datem vytvoření mezi XX-XX-XXXX a YY-YY-YYYY).

Systém shody.

V Rusku dnes nejsou tak běžné, ale stojí za zmínku. Účelem takových úložných systémů je zaručené ukládání dat v souladu s bezpečnostními politikami nebo regulačními požadavky. Některé systémy (například EMC Centera) mají implementovanou funkci pro zákaz mazání dat – jakmile se otočí klíčkem a systém přejde do tohoto režimu, nemůže správce ani nikdo jiný fyzicky smazat již zaznamenaná data.

Proprietární technologie

Flash cache

Flash Cache je společný název pro všechny proprietární technologie pro použití flash paměti jako mezipaměti druhé úrovně. Při použití flash mezipaměti je úložný systém obvykle vypočítán tak, aby poskytoval stálé zatížení z magnetických disků, zatímco vrchol je obsluhován mezipamětí.

V tomto případě je nutné porozumět profilu zatížení a stupni lokalizace přístupu k blokům úložných svazků. Flash cache je technologie pro pracovní zátěže s vysoce lokalizovanými dotazy a je prakticky nepoužitelná pro jednotně načtené svazky (například pro analytické systémy).

Na trhu jsou k dispozici dvě implementace flash cache:

  • Pouze ke čtení. V tomto případě se do mezipaměti ukládají pouze čtená data a zápis jde přímo na disky. Někteří výrobci, jako je NetApp, se domnívají, že zápis do jejich úložných systémů je již optimální a cache nepomůže vůbec.
  • Číst psát. Do mezipaměti se ukládá nejen čtení, ale i zápis, což vám umožňuje ukládat stream do vyrovnávací paměti a snížit dopad penalizace RAID a v důsledku toho zvýšit celkový výkon pro úložné systémy s méně optimálním mechanismem zápisu.

Vrstvení

Víceúrovňové úložiště (únavné) je technologie pro kombinování úrovní s různými úrovněmi výkonu, jako je SSD a HDD, do jednoho diskového fondu. V případě výrazné nerovnoměrnosti přístupu k datovým blokům bude systém schopen automaticky vyrovnávat datové bloky tak, že načtené přesune na výkonnou úroveň a studené naopak na pomalejší.

Hybridní systémy nižší a střední třídy využívají víceúrovňové úložiště s přesuny dat mezi úrovněmi podle plánu. Velikost víceúrovňového úložného bloku u nejlepších modelů je přitom 256 MB. Tyto vlastnosti nám neumožňují považovat technologii vrstveného úložiště za technologii pro zvýšení produktivity, jak se mnoho lidí mylně domnívá. Víceúrovňové úložiště v systémech nízké a střední třídy je technologie pro optimalizaci nákladů na úložiště pro systémy s výraznou nerovnoměrností zatížení.

Momentka

Bez ohledu na to, jak moc mluvíme o spolehlivosti úložných systémů, existuje mnoho příležitostí ke ztrátě dat, které nezávisí na problémech s hardwarem. Mohou to být viry, hackeři nebo jakékoli jiné neúmyslné vymazání/poškození dat. Z tohoto důvodu je zálohování výrobních dat nedílnou součástí práce inženýra.

Snímek je snímek svazku v určitém okamžiku. Při práci s většinou systémů, jako je virtualizace, databáze atd. musíme pořídit takový snímek, ze kterého zkopírujeme data do záložní kopie, přičemž náš IS bude moci s tímto svazkem bezpečně dále pracovat. Je však třeba si uvědomit, že ne všechny snímky jsou stejně užitečné. Různí dodavatelé mají různé přístupy k vytváření snímků souvisejících s jejich architekturou.

CoW (Copy-On-Write). Když se pokusíte zapsat datový blok, jeho původní obsah se zkopíruje do speciální oblasti, po které zápis pokračuje normálně. Tím se zabrání poškození dat uvnitř snímku. Všechny tyto „parazitní“ manipulace s daty přirozeně způsobují dodatečné zatížení úložného systému az tohoto důvodu prodejci s podobnými implementacemi nedoporučují používat více než tucet snímků a vůbec je nepoužívat na vysoce zatížených svazcích.

RoW (přesměrování při zápisu). V tomto případě původní svazek přirozeně zamrzne a při pokusu o zápis datového bloku úložný systém zapíše data do speciální oblasti ve volném prostoru, čímž změní umístění tohoto bloku v tabulce metadat. To umožňuje snížit počet přepisovacích operací, což v konečném důsledku eliminuje pokles výkonu a odstraňuje omezení na snímky a jejich počet.

Snímky jsou také dvou typů ve vztahu k aplikacím:

Konzistence aplikace. V okamžiku vytvoření snímku úložiště stáhne agenta v operačním systému zákazníka, který násilně vyprázdní mezipaměť disku z paměti na disk a přinutí aplikaci, aby to udělala. V tomto případě při obnově ze snímku budou data konzistentní.

Crash konzistentní. V tomto případě se nic takového nestane a snímek je vytvořen tak, jak je. V případě obnovy z takového snímku je obrázek totožný s tím, co by se stalo, kdyby bylo náhle vypnuto napájení a je možná ztráta dat, uvízla v mezipaměti a nikdy se nedostala na disk. Takové snímky se snadněji implementují a nezpůsobují snížení výkonu v aplikacích, ale jsou méně spolehlivé.

Proč jsou na úložných systémech potřebné snímky?

  • Zálohování bez agenta přímo z úložného systému
  • Vytvářejte testovací prostředí na základě reálných dat
  • V případě systémů ukládání souborů jej lze použít k vytvoření prostředí VDI pomocí snímků systému úložiště namísto hypervizoru.
  • Zajistěte nízké RPO vytvářením plánovaných snímků s frekvencí výrazně vyšší, než je frekvence zálohování

Klonování

Klonování svazku - funguje na podobném principu jako snapshoty, ale nevyužívá se jen pro čtení dat, ale pro plnou práci s nimi. Jsme schopni získat přesnou kopii našeho svazku se všemi daty na něm, aniž bychom museli vytvářet fyzickou kopii, což ušetří místo. Klonování objemu se obvykle používá buď v Test&Dev, nebo pokud chcete zkontrolovat funkčnost některých aktualizací na vašem IS. Klonování vám to umožní co nejrychleji a nejhospodárněji z hlediska diskových prostředků, protože Budou zapsány pouze změněné datové bloky.

Replikace / žurnálování

Replikace je mechanismus pro vytváření kopie dat na jiném fyzickém úložném systému. Každý prodejce má obvykle vlastní technologii, která funguje pouze v rámci jeho vlastní řady. Existují však také řešení třetích stran, včetně těch, která fungují na úrovni hypervizoru, jako je VMware vSphere Replication.

Funkčnost proprietárních technologií a jejich snadnost použití jsou obvykle mnohem lepší než univerzální, ale ukazují se jako nepoužitelné, když je například nutné vytvořit repliku z NetApp na HP MSA.

Replikace se dělí na dva podtypy:

Synchronní. V případě synchronní replikace je operace zápisu odeslána do druhého úložného systému okamžitě a provedení není potvrzeno, dokud vzdálený úložný systém nepotvrdí. Kvůli tomu se prodlouží přístupová prodleva, ale máme přesnou zrcadlovou kopii dat. Tito. RPO = 0 v případě ztráty hlavního skladovacího systému.

asynchronní. Operace zápisu se provádějí pouze na hlavním úložném systému a jsou okamžitě potvrzeny, přičemž se současně shromažďují ve vyrovnávací paměti pro dávkový přenos do vzdáleného úložného systému. Tento typ replikace je relevantní pro méně cenná data nebo pro kanály s nízkou šířkou pásma nebo vysokou latencí (typické pro vzdálenosti nad 100 km). V souladu s tím RPO = frekvence odesílání paketů.

Často spolu s replikací existuje mechanismus protokolování diskové operace. V tomto případě je vyhrazena speciální oblast pro protokolování a ukládají se operace záznamu určité hloubky v čase nebo omezené objemem protokolu. Pro určité proprietární technologie, jako je EMC RecoverPoint, existuje integrace se systémovým softwarem, která umožňuje propojit určité záložky s konkrétní položkou protokolu. Díky tomu je možné vrátit stav svazku (nebo vytvořit klon) nejen na 23. duben, 11 hodin 59 sekund 13 milisekund, ale do okamžiku před „DROP ALL TABLES; SPÁCHAT."

Metro cluster

Metro cluster je technologie, která umožňuje vytvořit obousměrnou synchronní replikaci mezi dvěma úložnými systémy tak, že zvenčí tato dvojice vypadá jako jeden úložný systém. Používá se k vytváření shluků s geograficky oddělenými rameny ve vzdálenostech metra (méně než 100 km).

Na příkladu použití ve virtualizačním prostředí umožňuje metrocluster vytvořit datové úložiště s virtuálními stroji, přístupné pro záznam ze dvou datových center najednou. V tomto případě je na úrovni hypervizoru vytvořen cluster skládající se z hostitelů v různých fyzických datových centrech připojených k tomuto datovému úložišti. Což vám umožňuje provádět následující:

  • Plná automatizace procesu obnovy po smrti jednoho z datových center. Bez dalších finančních prostředků budou všechny virtuální počítače běžící v zesnulém datovém centru automaticky restartovány ve zbývajícím. RTO = časový limit clusteru s vysokou dostupností (15 sekund pro VMware) + čas pro načtení operačního systému a spuštění služeb.
  • Vyhýbání se katastrofám nebo v ruštině vyhýbání se katastrofám. Pokud jsou v datovém centru 1 plánovány práce s napájením, pak máme možnost migrovat celou důležitou zátěž do datového centra 2 nonstop předem, ještě před zahájením prací.

Virtualizace

Virtualizace úložiště je technicky využití svazků z jiného úložného systému jako disků. Virtualizér úložiště může jednoduše přenést svazek někoho jiného ke spotřebiteli jako svůj vlastní a současně jej zrcadlit do jiného úložného systému nebo dokonce vytvořit RAID z externích svazků.
Klasickými zástupci ve třídě virtualizace úložiště jsou EMC VPLEX a IBM SVC. A samozřejmě úložné systémy s virtualizační funkcí - NetApp, Hitachi, IBM / Lenovo Storwize.

Proč by to mohlo být potřeba?

  • Redundance na úrovni úložného systému. Mezi svazky je vytvořeno zrcadlo a jedna polovina může být na HP 3Par a druhá na NetApp. A virtualizér je od EMC.
  • Přesouvejte data s minimálními prostoji mezi úložnými systémy od různých výrobců. Předpokládejme, že je potřeba migrovat data ze starého 3Par, který bude odepsán, do nového Dellu. V tomto případě jsou spotřebitelé odpojeni od 3Par, objemy jsou převedeny pod VPLEX a jsou znovu prezentovány spotřebitelům. Protože se na hlasitosti nezměnilo ani trochu, práce pokračují. Proces zrcadlení svazku do nového Dellu začíná na pozadí a po dokončení se zrcadlení přeruší a 3Par je deaktivováno.
  • Organizace metroclusterů.

Komprese/deduplikace

Komprese a deduplikace jsou technologie, které vám umožňují šetřit místo na disku ve vašem úložném systému. Hned je třeba zmínit, že ne všechna data v zásadě podléhají kompresi a/nebo deduplikaci, zatímco některé typy dat jsou komprimovány a deduplikovány lépe a některé naopak.

Existují 2 typy komprese a deduplikace:

V souladu — před zápisem těchto dat na disk dochází ke kompresi a deduplikaci datových bloků. Systém tedy pouze vypočítá hash bloku a porovná jej v tabulce se stávajícími. Za prvé je to rychlejší než jen zápis na disk a za druhé neplýtváme místem na disku navíc.

Post - když jsou tyto operace prováděny na již zaznamenaných datech umístěných na discích. V souladu s tím jsou data nejprve zapsána na disk a teprve poté je vypočítán hash a nepotřebné bloky jsou odstraněny a prostředky disku jsou uvolněny.

Stojí za zmínku, že většina prodejců používá oba typy, což jim umožňuje optimalizovat tyto procesy a tím zvýšit jejich efektivitu. Většina dodavatelů úložiště má nástroje, které vám umožňují analyzovat vaše datové sady. Tyto utility fungují podle stejné logiky, která je implementována v úložném systému, takže odhadovaná úroveň efektivity bude stejná. Mějte také na paměti, že mnoho dodavatelů má programy záruky výkonu, které slibují minimálně stejně dobrý výkon pro určité (nebo všechny) datové typy. A tento program byste neměli zanedbávat, protože výpočtem systému pro vaše úkoly, s přihlédnutím k koeficientu účinnosti konkrétního systému, můžete ušetřit na objemu. Za úvahu také stojí, že tyto programy jsou určeny pro AFA systémy, ale díky nákupu menšího objemu SSD než HDD v klasických systémech se tím sníží jejich cena, a pokud se nebude rovnat ceně diskového systému, tak dostat se k tomu docela blízko.

model

A tady se dostáváme ke správné otázce.

"Nabízejí mi dvě možnosti úložiště - ABC SuperStorage S600 a XYZ HyperOcean 666v4, co doporučujete?"

Změní se na „Tady mi nabízejí dvě možnosti úložiště – ABC SuperStorage S600 a XYZ HyperOcean 666v4, co doporučujete?

Cílovou zátěží jsou smíšené virtuální stroje VMware s produkčními/testovacími/vývojovými smyčkami. Test = produktivní. 150 TB každý se špičkovým výkonem 80 000 IOPS 8 kb blok 50 % náhodný přístup 80/20 čtení a zápis. 300 TB na vývoj, 50 000 IOPS stačí, 80 náhodných, 80 zápis.

Produktivita pravděpodobně v metroklastru RPO = 15 minut RTO = 1 hodina, vývoj v asynchronní replikaci RPO = 3 hodiny, test na jednom místě.

Bude tam 50TB DBMS, logování by se jim hodilo.

Všude máme servery Dell, staré úložné systémy Hitachi, stěží si poradí, plánujeme zvýšit zátěž o 50 %, pokud jde o objem a výkon.“

Jak se říká, správně formulovaná otázka obsahuje 80 % odpovědi.

doplňující informace

Co byste si podle autorů měli přečíst dodatečně

knihy

  • Olifer a Olifer „Počítačové sítě“. Kniha pomůže systematizovat a možná lépe pochopit, jak funguje médium pro přenos dat pro úložné systémy IP / Ethernet
  • "EMC Information Storage and Management." Výborná kniha o základech úložných systémů, proč, jak a proč.

Fóra a chaty

Obecná doporučení

Ceny

Nyní k cenám - obecně platí, že pokud existují ceny za úložné systémy, jsou to většinou ceníkové ceny, ze kterých každý zákazník dostává individuální slevu. Velikost slevy se skládá z velkého množství parametrů, takže bez dotazu distributora jednoduše nelze předvídat, jakou konečnou cenu vaše společnost dostane. Zároveň se ale v poslední době začínají v běžných počítačových obchodech objevovat low-end modely, jako je kupř nix.ru nebo xcom-shop.ru. Zde si můžete okamžitě zakoupit systém, o který máte zájem, za pevnou cenu, jako jakékoli počítačové komponenty.

Ale hned bych rád poznamenal, že přímé srovnání podle TB/$ není správné. Pokud k tomu přistoupíme z tohoto pohledu, pak nejlevnějším řešením bude jednoduchý server JBOD +, který nebude poskytovat flexibilitu ani spolehlivost, jakou poskytuje plnohodnotný, dvouřadičový úložný systém. To vůbec neznamená, že JBOD je nechutný a ošklivý špinavý trik, jen musíte znovu velmi jasně pochopit, jak a pro jaké účely budete toto řešení používat. Často můžete slyšet, že v JBOD není co rozbít, je tam jen jedna backplane. Zadní desky však také někdy selžou. Všechno se dříve nebo později zlomí.

Celkem

Systémy je nutné mezi sebou porovnávat nejen cenou, nebo nejen výkonem, ale souhrnem všech ukazatelů.

HDD kupujte pouze v případě, že jste si jisti, že HDD potřebujete. V případě nízké zátěže a nestlačitelných datových typů se v opačném případě vyplatí obrátit se na programy zaručující efektivitu úložiště SSD, které nyní většina prodejců má (a skutečně fungují, dokonce i v Rusku), ale vše závisí na aplikacích a datech, která budou umístěna na tomto úložném systému.

Nechoďte na levné. Někdy se v nich skrývá spousta nepříjemných momentů, z nichž jeden popsal Evgeniy Elizarov ve svých článcích Infortrend. A že se vám nakonec tato lacinost může obrátit proti. Nezapomeňte – „lakomec platí dvakrát“.

Zdroj: www.habr.com

Přidat komentář