Csökkentse az állásidő kockázatát a Shared Nothing architektúrával

Az adattároló rendszerek hibatűrésének témája mindig aktuális, hiszen a széles körben elterjedt virtualizáció és az erőforrások konszolidációja korában a tárolórendszerek jelentik azt a láncszemet, amelynek meghibásodása nem csupán egy hétköznapi balesethez, hanem a szolgáltatások hosszú távú leállásához is vezet. Ezért a modern tárolórendszerek sok duplikált komponenst (akár vezérlőket is) tartalmaznak. De vajon elegendő-e ez a védelem?

Csökkentse az állásidő kockázatát a Shared Nothing architektúrával

Abszolút minden gyártó a tárolórendszerek jellemzőinek felsorolásakor mindig megemlíti megoldásaik magas hibatűrő képességét, mindig hozzáadva az „egyetlen hibapont nélkül” kifejezést. Nézzünk meg közelebbről egy tipikus tárolórendszert. A karbantartási leállások elkerülése érdekében a tárolórendszer megkettőzi a tápegységeket, a hűtőmodulokat, a bemeneti/kimeneti portokat, a meghajtókat (RAID-re gondolunk) és természetesen a vezérlőket. Ha alaposan megvizsgálja ezt az architektúrát, legalább két lehetséges hibapontot fog észrevenni, amelyeket szerényen elhallgatnak:

  1. Egyetlen hátlap elérhetősége
  2. Az adatok egy példánya

A hátlap egy technikailag összetett eszköz, amelyet a gyártás során komoly tesztelésnek kell alávetni. Ezért vannak rendkívül ritka esetek, amikor teljesen meghiúsul. Azonban még részleges problémák, például nem működő meghajtóhely esetén is ki kell cserélni a tárolórendszer teljes leállításával.

Az adatok több másolatának készítése első pillantásra sem jelent problémát. Például meglehetősen elterjedt a tárolórendszerek klónozása, amely lehetővé teszi az adatok teljes másolatának bizonyos időközönkénti frissítését. Ha azonban ugyanazzal a visszajátszással kapcsolatos problémák merülnek fel, a másolat ugyanúgy elérhetetlen lesz, mint az eredeti.

Egy teljesen kézenfekvő megoldás ezeknek a hiányosságoknak a kiküszöbölésére a replikáció egy másik tárolórendszerre. Ha becsukjuk a szemünket a hardverköltség várható megduplázódása előtt (még mindig azt feltételezzük, hogy az ilyen döntést választó emberek megfelelően gondolkodnak és ezt a tényt előre elfogadják), akkor is felmerülhetnek a replikáció megszervezésének költségei licenc formájában, további szoftver és hardver. És ami a legfontosabb, valahogyan biztosítania kell a replikált adatok konzisztenciáját. Azok. készítsünk egy tárvirtualizálót/vSAN/stb.-t, ami szintén pénz- és időforrást igényel.

AccelStor High Availability rendszereink megalkotásakor célul tűztük ki a fent említett hiányosságok megszüntetését. Így jelent meg a Shared Nothing technológia értelmezése, ami lazán lefordítva azt jelenti, hogy „megosztott eszközök használata nélkül”.

koncepció Megosztott semmi Az architektúra két független csomópont (vezérlő) használatát jelenti, amelyek mindegyike saját adatkészlettel rendelkezik. A csomópontok között a szinkron replikáció az InfiniBand 56G interfészen keresztül történik, teljesen átlátszó a tárolórendszer tetején futó szoftver számára. Ennek eredményeként nincs szükség tárolóvirtualizátorok, szoftverügynökök stb. használatára.

Fizikailag az AccelStor két csomópontos megoldása két modellben valósítható meg:

  • H510 — ikerszerverek alapján 2U-s tokban, ha mérsékelt teljesítményre és 22TB-ig terjedő kapacitásra van szükség;
  • H710 — egyedi 2U-s szerverek alapján, ha nagy teljesítményre és nagy kapacitásra (57TB-ig) van szükség.

Csökkentse az állásidő kockázatát a Shared Nothing architektúrával

H510 modell ikerszerveren alapul

Csökkentse az állásidő kockázatát a Shared Nothing architektúrával

A H710 modell egyedi szervereken alapul

A különböző formai tényezők használata annak köszönhető, hogy egy adott kötet és teljesítmény eléréséhez különböző számú SSD-re van szükség. Ráadásul a Twin platform olcsóbb, és megfizethetőbb megoldásokat tesz lehetővé, bár némi feltételes „hátránnyal” egyetlen hátlap formájában. Minden más, beleértve a működési elveket is, teljesen azonos mindkét modellnél.

Az egyes csomópontokhoz tartozó adatkészletnek két csoportja van FlexiRemap, plusz 2 meleg tartalék. Mindegyik csoport képes ellenállni egy SSD meghibásodásának. Minden bejövő kérést rögzíteni egy csomópont szerint ideológia A FlexiRemap 4 KB-os blokkokat szekvenciális láncokká épít át, amelyeket aztán a számukra legkényelmesebb módban (szekvenciális rögzítés) ír az SSD-re. Sőt, a fogadó csak azután kap rögzítési visszaigazolást, hogy az adatok fizikailag az SSD-re kerültek, pl. gyorsítótár nélkül a RAM-ban. Az eredmény rendkívül lenyűgöző teljesítmény, akár 600K IOPS írási és 1M+ IOPS olvasási teljesítmény (H710 modell).

Mint korábban említettük, az adatkészletek valós időben szinkronizálódnak az InfiniBand 56G interfészen keresztül, amely nagy áteresztőképességgel és alacsony késleltetéssel rendelkezik. A kommunikációs csatorna leghatékonyabb kihasználása érdekében kis csomagok továbbításakor. Mert csak egy kommunikációs csatorna van; egy dedikált 1GbE kapcsolat a pulzusszám további ellenőrzésére szolgál. Csak a szívverés továbbítódik rajta, így a sebességjellemzőkre nincs követelmény.

Növekvő rendszerkapacitás esetén (akár 400+TB) miatt bővítő polcok párban is kapcsolódnak a „nincs egyetlen kudarcpont” koncepció fenntartása érdekében.

A további adatvédelem érdekében (amellett, hogy az AccelStornak már van két példánya) egy speciális viselkedési algoritmust alkalmaznak bármely SSD meghibásodása esetén. Ha az SSD meghibásodik, a csomópont megkezdi az adatok újraépítését az egyik forró tartalék meghajtóra. A leromlott állapotban lévő FlexiRemap csoport csak olvasható módba vált. Ennek célja a biztonsági mentési lemez írási és újraépítési műveletei közötti interferencia kiküszöbölése, ami végső soron felgyorsítja a helyreállítási folyamatot, és csökkenti azt az időt, amikor a rendszer potenciálisan sebezhetővé válik. Az újraépítés befejeztével a csomópont visszatér normál olvasási-írási módba.

Csökkentse az állásidő kockázatát a Shared Nothing architektúrával

Természetesen a többi rendszerhez hasonlóan az átépítés során az összteljesítmény csökken (elvégre az egyik FlexiRemap csoport nem működik a rögzítéshez). Maga a helyreállítási folyamat azonban a lehető leggyorsabban megtörténik, ami megkülönbözteti az AccelStor rendszereket a többi gyártótól származó megoldásoktól.

A Nothing Shared architektúra technológia másik hasznos tulajdonsága a csomópontok úgynevezett valódi aktív-aktív módban való működése. Ellentétben a „klasszikus” architektúrával, ahol csak az egyik vezérlő birtokol egy adott kötetet/készletet, a második pedig egyszerűen csak I/O műveleteket hajt végre a rendszerekben. AccelStor minden csomópont a saját adatkészletével működik, és nem továbbít kéréseket a „szomszédjának”. Ennek eredményeként a rendszer általános teljesítménye javul az I/O kérések csomópontok általi párhuzamos feldolgozása és a meghajtókhoz való hozzáférés miatt. Gyakorlatilag nincs is olyan, hogy feladatátvétel, mivel egyszerűen nincs szükség a kötetek vezérlésének átadására egy másik csomópontra hiba esetén.

Ha összehasonlítjuk a Nothing Shared architektúra technológiáját a teljes értékű tárolórendszer-duplikációval, akkor első pillantásra kissé alacsonyabb lesz a rugalmasságban a katasztrófa-helyreállítás teljes megvalósításánál. Ez különösen igaz a tárolórendszerek közötti kommunikációs vonal megszervezésére. Így a H710 modellben a nem túl olcsó InfiniBand aktív optikai kábelek segítségével akár 100 méteres távolságra is el lehet osztani a csomópontokat. De még ha összehasonlítjuk is a szokásos módon, más gyártók szinkron replikációját egy elérhető FibreChannel segítségével, még nagyobb távolságokon is, az AccelStor megoldása olcsóbb és könnyebben telepíthető/üzemeltethető lesz, mert nincs szükség tárvirtualizátorok telepítésére és/vagy szoftveres integrációra (ami elvileg nem mindig lehetséges). Ezenkívül ne felejtse el, hogy az AccelStor megoldások olyan Flash-tömbök, amelyek teljesítménye nagyobb, mint a csak SSD-vel rendelkező „klasszikus” tárolórendszereké.

Csökkentse az állásidő kockázatát a Shared Nothing architektúrával

Az AccelStor Nothing Shared architektúrájának használata esetén a tárolórendszer 99.9999%-os rendelkezésre állása elérhető nagyon ésszerű költségek mellett. A megoldás nagy megbízhatósága mellett, beleértve a két adatmásolat használatát, és lenyűgöző teljesítményt a szabadalmaztatott algoritmusoknak köszönhetően FlexiRemap, megoldások től AccelStor kiváló jelöltek kulcspozíciókra egy modern adatközpont építésekor.

Forrás: will.com

Hozzászólás