Verminder de risico's van downtime met de Shared Nothing-architectuur

Het onderwerp fouttolerantie in gegevensopslagsystemen is altijd relevant, omdat in onze tijd van wijdverbreide virtualisatie en consolidatie van hulpbronnen opslagsystemen de schakel vormen waarvan het falen niet alleen tot een gewoon ongeluk zal leiden, maar ook tot langdurige uitval van diensten. Daarom bevatten moderne opslagsystemen veel dubbele componenten (zelfs controllers). Maar is deze bescherming voldoende?

Verminder de risico's van downtime met de Shared Nothing-architectuur

Absoluut alle leveranciers vermelden bij het opsommen van de kenmerken van opslagsystemen altijd de hoge fouttolerantie van hun oplossingen, waarbij ze altijd de term ‘zonder een enkel storingspunt’ toevoegen. Laten we een typisch opslagsysteem eens nader bekijken. Om downtime bij onderhoud te voorkomen, dupliceert het opslagsysteem voedingen, koelmodules, invoer-/uitvoerpoorten, schijven (we bedoelen RAID) en natuurlijk controllers. Als je deze architectuur goed bekijkt, zul je minstens twee potentiële faalpunten opmerken, die bescheiden worden verzwegen:

  1. Beschikbaarheid van één enkele backplane
  2. Eén kopie van de gegevens hebben

De backplane is een technisch complex apparaat dat tijdens de productie serieus getest moet worden. En daarom zijn er uiterst zeldzame gevallen waarin het volledig mislukt. Maar zelfs in het geval van gedeeltelijke problemen, zoals een niet-functionerend schijfslot, zal dit vervangen moeten worden door een volledige uitschakeling van het opslagsysteem.

Ook het maken van meerdere kopieën van gegevens is op het eerste gezicht geen probleem. De Clone-functionaliteit in opslagsystemen, waarmee u met bepaalde tussenpozen een volledige kopie van gegevens kunt bijwerken, is bijvoorbeeld vrij wijdverbreid. In geval van problemen met dezelfde backplay zal de kopie echter net zo onbeschikbaar zijn als het origineel.

Een volkomen voor de hand liggende oplossing om deze tekortkomingen te ondervangen is replicatie naar een ander opslagsysteem. Als we onze ogen sluiten voor de verwachte verdubbeling van de kosten van hardware (we gaan er nog steeds van uit dat mensen die voor een dergelijke beslissing kiezen goed nadenken en dit feit op voorhand accepteren), zullen er nog steeds mogelijke kosten zijn voor het organiseren van replicatie in de vorm van licenties, extra software en hardware. En het allerbelangrijkste: u moet op de een of andere manier de consistentie van de gerepliceerde gegevens garanderen. Die. bouw een opslagvirtualizer/vSAN/etc., waarvoor ook geld en tijd nodig zijn.

AccelStor Bij het creëren van onze High Availability-systemen hebben we ons ten doel gesteld om bovengenoemde tekortkomingen weg te werken. Zo verscheen de interpretatie van de Shared Nothing-technologie, wat vrij vertaald ‘zonder het gebruik van gedeelde apparaten’ betekent.

Concept Niets gedeeld architectuur vertegenwoordigt het gebruik van twee onafhankelijke knooppunten (controllers), die elk hun eigen set gegevens hebben. Synchrone replicatie vindt plaats tussen knooppunten via de InfiniBand 56G-interface, volledig transparant voor de software die bovenop het opslagsysteem draait. Hierdoor is het gebruik van opslagvirtualizers, softwareagents etc. niet vereist.

Fysiek kan de oplossing met twee knooppunten van AccelStor in twee modellen worden geïmplementeerd:

  • H510 — gebaseerd op Twin-servers in een 2U-behuizing, als matige prestaties en capaciteit tot 22TB vereist zijn;
  • H710 — gebaseerd op individuele 2U-servers, als hoge prestaties en grote capaciteit (tot 57TB) vereist zijn.

Verminder de risico's van downtime met de Shared Nothing-architectuur

Model H510 gebaseerd op Twin-server

Verminder de risico's van downtime met de Shared Nothing-architectuur

Model H710 gebaseerd op individuele servers

Het gebruik van verschillende vormfactoren is te wijten aan de behoefte aan verschillende aantallen SSD's om een ​​bepaald volume en bepaalde prestaties te bereiken. Bovendien is het Twin-platform goedkoper en kunt u goedkopere oplossingen aanbieden, zij het met een voorwaardelijk ‘nadeel’ in de vorm van een enkele backplane. Al het overige, inclusief de werkingsprincipes, is voor beide modellen volledig identiek.

De dataset voor elk knooppunt bestaat uit twee groepen FlexiRemap, plus 2 warme reserveonderdelen. Elke groep is in staat om het falen van één SSD te weerstaan. Alle inkomende verzoeken om een ​​knooppunt op te nemen in overeenstemming met ideologie FlexiRemap herbouwt blokken van 4 KB in sequentiële ketens, die vervolgens naar de SSD worden geschreven in de voor hen meest comfortabele modus (sequentiële opname). Bovendien ontvangt de host pas een opnamebevestiging nadat de gegevens fysiek op de SSD zijn geplaatst, d.w.z. zonder caching in RAM. Het resultaat zijn zeer indrukwekkende prestaties van maximaal 600K IOPS bij schrijven en 1M+ IOPS bij lezen (model H710).

Zoals eerder vermeld worden datasets in realtime gesynchroniseerd via de InfiniBand 56G-interface, die een hoge doorvoer en lage latentie heeft. Om het communicatiekanaal zo efficiënt mogelijk te gebruiken bij het verzenden van kleine pakketten. Omdat er is slechts één communicatiekanaal; een speciale 1GbE-link wordt gebruikt voor extra hartslagcontrole. Er wordt alleen hartslag doorheen verzonden, dus er zijn geen vereisten voor snelheidskarakteristieken.

In het geval van een toenemende systeemcapaciteit (tot 400+TB) als gevolg van uitbreiding planken ze zijn ook in paren verbonden om het ‘no single point of fail’-concept te behouden.

Voor extra gegevensbescherming (naast het feit dat AccelStor al twee exemplaren heeft) wordt een speciaal gedragsalgoritme gebruikt in het geval van een SSD-storing. Als de SSD uitvalt, begint het knooppunt met het opnieuw opbouwen van gegevens op een van de hot spare-schijven. De FlexiRemap-groep, die zich in een gedegradeerde staat bevindt, zal overschakelen naar de alleen-lezen-modus. Dit wordt gedaan om interferentie tussen schrijf- en herbouwbewerkingen op de back-upschijf te elimineren, wat uiteindelijk het herstelproces versnelt en de tijd verkort waarin het systeem mogelijk kwetsbaar is. Na voltooiing van het opnieuw opbouwen keert het knooppunt terug naar de normale lees-schrijfmodus.

Verminder de risico's van downtime met de Shared Nothing-architectuur

Natuurlijk nemen, net als bij andere systemen, tijdens het opnieuw opbouwen de algehele prestaties af (een van de FlexiRemap-groepen werkt immers niet voor opname). Maar het herstelproces zelf vindt zo snel mogelijk plaats, wat AccelStor-systemen onderscheidt van oplossingen van andere leveranciers.

Een andere nuttige eigenschap van de Nothing Shared-architectuurtechnologie is de werking van knooppunten in de zogenaamde echte actief-actieve modus. In tegenstelling tot de ‘klassieke’ architectuur, waarbij slechts één controller eigenaar is van een specifiek volume/pool, en de tweede eenvoudigweg I/O-bewerkingen uitvoert, kunnen systemen AccelStor elk knooppunt werkt met zijn eigen gegevensset en verzendt geen verzoeken naar zijn “buurman”. Als gevolg hiervan worden de algehele systeemprestaties verbeterd dankzij de parallelle verwerking van I/O-verzoeken door knooppunten en toegang tot schijven. Er bestaat ook vrijwel niet zoiets als failover, omdat het eenvoudigweg niet nodig is om de controle over de volumes over te dragen aan een ander knooppunt in het geval van een storing.

Als we de Nothing Shared-architectuurtechnologie vergelijken met volwaardige duplicatie van opslagsystemen, dan zal deze op het eerste gezicht iets inferieur zijn aan de volledige implementatie van disaster recovery in flexibiliteit. Dit geldt met name voor het organiseren van een communicatielijn tussen opslagsystemen. In het H710-model is het dus mogelijk om knooppunten over een afstand van maximaal 100 meter te verspreiden door het gebruik van niet erg goedkope InfiniBand actieve optische kabels. Maar zelfs in vergelijking met de gebruikelijke implementatie van synchrone replicatie van andere leveranciers via een beschikbaar FibreChannel, zelfs over langere afstanden, zal de oplossing van AccelStor goedkoper en gemakkelijker te installeren/bedienen zijn, omdat het is niet nodig om opslagvirtualizers te installeren en/of te integreren met software (wat in principe niet altijd mogelijk is). Vergeet bovendien niet dat AccelStor-oplossingen All Flash-arrays zijn met hogere prestaties dan die van “klassieke” opslagsystemen met alleen SSD.

Verminder de risico's van downtime met de Shared Nothing-architectuur

Wanneer u de Nothing Shared-architectuur van AccelStor gebruikt, is het mogelijk om tegen zeer redelijke kosten een beschikbaarheid van het opslagsysteem van 99.9999% te realiseren. Samen met de hoge betrouwbaarheid van de oplossing, onder meer door het gebruik van twee kopieën van gegevens, en indrukwekkende prestaties dankzij eigen algoritmen FlexiRemap, oplossingen van AccelStor zijn uitstekende kandidaten voor sleutelposities bij het bouwen van een modern datacenter.

Bron: www.habr.com

Voeg een reactie