Hoe je opbergruimte kiest zonder jezelf in de voet te schieten

Introductie

Het is tijd om opslag te kopen. Welke moet je meenemen, naar wie moet je luisteren? Leverancier A heeft het over leverancier B, en dan is er integrator C, die het tegenovergestelde vertelt en leverancier D adviseert. In zo'n situatie draait zelfs het hoofd van een ervaren opslagarchitect, vooral met alle nieuwe leveranciers en SDS en hyperconvergentie die in de mode zijn. Vandaag.

Dus, hoe kom je er allemaal achter, zonder uiteindelijk een dwaas te worden? Wij (AntonVirtueel Anton Zhbankov en lichaam Evgeni Elizarov) laten we proberen hierover in gewoon Russisch te praten.
Het artikel heeft veel overeenkomsten en is eigenlijk een uitbreiding van “Gevirtualiseerd datacenterontwerp” in termen van het kiezen van opslagsystemen en het beoordelen van opslagtechnologieën. We gaan kort in op de algemene theorie, maar we raden je aan ook dit artikel te lezen.

Wat voor

Je ziet vaak een situatie waarin een nieuw persoon naar een forum of een gespecialiseerde chat komt, zoals Storage Discussions, en de vraag stelt: “hier bieden ze mij twee opslagopties aan: ABC SuperStorage S600 en XYZ HyperOcean 666v4, wat raad je aan ?”

En de verwarring begint over wie welke kenmerken heeft van de implementatie van vreselijke en onbegrijpelijke kenmerken, die voor een onvoorbereid persoon volledig Chinees zijn.

De belangrijkste en allereerste vraag die u uzelf moet stellen, lang voordat u specificaties in commerciële voorstellen vergelijkt, is WAAROM? Waarom is dit opslagsysteem nodig?

Hoe je opbergruimte kiest zonder jezelf in de voet te schieten

Het antwoord zal onverwacht zijn, en in de stijl van Tony Robbins: gegevens opslaan. Bedankt, kapitein! En toch gaan we soms zo diep in het vergelijken van details dat we vergeten waarom we dit allemaal eigenlijk doen.

De taak van een gegevensopslagsysteem is dus het opslaan en toegankelijk maken van DATA met een bepaalde prestatie. We beginnen met gegevens.

Gegevens

Data type

Wat voor soort gegevens zijn we van plan op te slaan? Een zeer belangrijke vraag die veel opslagsystemen zelfs buiten beschouwing kan laten. U bent bijvoorbeeld van plan video's en foto's op te slaan. U kunt onmiddellijk systemen doorstrepen die zijn ontworpen voor willekeurige toegang in kleine blokken, of systemen met eigen functies op het gebied van compressie / deduplicatie. Dit kunnen gewoon uitstekende systemen zijn, we willen er niets slechts over zeggen. Maar in dit geval zullen hun sterke punten zwak worden (video en foto's zijn niet gecomprimeerd) of eenvoudigweg de kosten van het systeem aanzienlijk verhogen.

Omgekeerd, als het beoogde gebruik een druk transactioneel DBMS is, zullen uitstekende multimediastreamingsystemen die gigabytes per seconde kunnen leveren een slechte keuze zijn.

Gegevensvolume

Hoeveel gegevens zijn we van plan op te slaan? Kwantiteit ontwikkelt zich altijd tot kwaliteit; dit mag nooit vergeten worden, zeker niet in onze tijd van exponentiële groei van de hoeveelheid data. Systemen van petabyteklasse zijn niet langer ongebruikelijk, maar hoe groter de petabytecapaciteit, hoe specifieker het systeem wordt, hoe minder toegankelijk de gebruikelijke functionaliteit van kleine en middelgrote systemen voor willekeurige toegang zal zijn. Het is triviaal omdat alleen al de tabellen met bloktoegangsstatistieken groter worden dan de beschikbare hoeveelheid RAM op de controllers. Om nog maar te zwijgen over compressie/tiering. Laten we zeggen dat we het compressie-algoritme naar een krachtiger algoritme willen overschakelen en 20 petabytes aan gegevens willen comprimeren. Hoe lang zal het duren: zes maanden, een jaar?

Aan de andere kant, waarom zou u zich druk maken als u 500 GB aan gegevens moet opslaan en verwerken? Slechts 500. Huishoudelijke SSD's (met lage DWPD) van dit formaat kosten niets. Waarom een ​​Fibre Channel-fabriek bouwen en hoogwaardige externe opslagsystemen kopen die het equivalent kosten van een gietijzeren brug?

Welk percentage van het totaal bestaat uit ‘hot data’? Hoe ongelijk is de belasting in termen van datavolume? Dit is waar gelaagde opslagtechnologie of Flash Cache zeer nuttig kunnen zijn als de hoeveelheid actuele gegevens klein is vergeleken met het totaal. Of andersom, met een uniforme belasting over het hele volume, wat vaak wordt aangetroffen in streamingsystemen (videobewaking, sommige analysesystemen), zullen dergelijke technologieën niets opleveren en zullen ze alleen maar de kosten/complexiteit van het systeem verhogen.

IC

De andere kant van de data is het informatiesysteem dat de data gebruikt. Een IS heeft een reeks vereisten die gegevens erven. Zie 'Gevirtualiseerd datacenterontwerp' voor meer informatie over de IS.

Vereisten voor veerkracht/beschikbaarheid

Vereisten voor fouttolerantie/beschikbaarheid van gegevens worden overgenomen van de IS die deze gebruikt en worden uitgedrukt in drie cijfers: RPO, RTO, beschikbaarheid.

Beschikbaarheid — het aandeel gedurende een bepaalde periode waarin gegevens beschikbaar zijn om ermee te werken. Meestal uitgedrukt als een getal van 9. Twee negens per jaar betekent bijvoorbeeld dat de beschikbaarheid 99% is, anders is 95 uur onbeschikbaarheid per jaar toegestaan. Drie negens - 9,5 uur per jaar.

RPO/RTO zijn geen totaalindicatoren, maar per incident (ongeval), in tegenstelling tot beschikbaarheid.

RPO — de hoeveelheid gegevens die tijdens een ongeval verloren is gegaan (in uren). Als back-ups bijvoorbeeld één keer per dag plaatsvinden, dan is RPO = 24 uur. Die. Bij een calamiteit en volledig verlies van het opslagsysteem kunnen gegevens tot 24 uur verloren gaan (vanaf het moment van de backup). Op basis van de voor de IS gespecificeerde RPO worden bijvoorbeeld back-upregels geschreven. Bovendien kunt u op basis van RPO begrijpen hoeveel synchrone/asynchrone gegevensreplicatie nodig is.

RTO — tijd om de service (gegevenstoegang) te herstellen na een ramp. Op basis van de gegeven RTO-waarde kunnen we begrijpen of een metrocluster nodig is, of dat unidirectionele replicatie voldoende is. Heeft u een opslagsysteem met meerdere controllers van topklasse nodig?

Hoe je opbergruimte kiest zonder jezelf in de voet te schieten

Prestatie-eisen

Hoewel dit een zeer voor de hand liggende vraag is, doen zich hier de meeste problemen voor. Afhankelijk van of je al over een bepaalde infrastructuur beschikt of niet, zullen er manieren worden ontwikkeld om de nodige statistieken te verzamelen.

U heeft al een opslagsysteem en bent op zoek naar vervanging of wilt een nieuw exemplaar aanschaffen ter uitbreiding. Alles is hier eenvoudig. U begrijpt welke diensten u al heeft en welke u in de nabije toekomst wilt implementeren. Op basis van de huidige dienstverlening heeft u de mogelijkheid om prestatiestatistieken te verzamelen. Bepaal het huidige aantal IOPS en de huidige latentie - wat zijn deze indicatoren en zijn ze voldoende voor uw taken? Dit kan zowel op het dataopslagsysteem zelf als vanaf de hosts die daarop zijn aangesloten.

Bovendien moet je niet alleen naar de huidige belasting kijken, maar over een bepaalde periode (bij voorkeur een maand). Bekijk wat de maximale pieken zijn gedurende de dag, welke belasting de backup met zich meebrengt etc. Als uw opslagsysteem of de bijbehorende software u niet over een volledige set van deze gegevens beschikt, kunt u de gratis RRDtool gebruiken, die met de meeste van de meest populaire opslagsystemen en switches kan werken en u gedetailleerde prestatiestatistieken kan bieden. Het is ook de moeite waard om te kijken naar de belasting van de hosts die met dit opslagsysteem werken, voor specifieke virtuele machines, of wat er precies op deze host draait.

Hoe je opbergruimte kiest zonder jezelf in de voet te schieten

Het is de moeite waard om afzonderlijk op te merken dat als de vertragingen op het volume en de datastore die zich op dit volume bevindt aanzienlijk verschillen, u op uw SAN-netwerk moet letten, de kans is groot dat er problemen mee zijn en voordat u een nieuw apparaat aanschaft systeem, het is de moeite waard om dit probleem te onderzoeken, omdat de kans groot is dat de prestaties van het huidige systeem worden verbeterd.

U bouwt een infrastructuur vanaf het begin op, of koopt een systeem voor een nieuwe dienst, waarvan u de lasten niet kent. Er zijn verschillende opties: communiceer met collega's over gespecialiseerde bronnen om te proberen de belasting te achterhalen en te voorspellen, neem contact op met een integrator die ervaring heeft met het implementeren van soortgelijke diensten en die de belasting voor u kan berekenen. En de derde optie (meestal de moeilijkste, vooral als het om zelfgeschreven of zeldzame applicaties gaat) is proberen de prestatie-eisen van de systeemontwikkelaars te achterhalen.

En let op: de meest correcte optie vanuit het oogpunt van praktische toepassing is een pilot met huidige apparatuur, of apparatuur die wordt aangeboden om te worden getest door een leverancier/integrator.

Speciale vereisten

Speciale eisen zijn alles wat niet valt onder de eisen op het gebied van performance, fouttolerantie en functionaliteit voor de directe verwerking en terbeschikkingstelling van gegevens.

Een van de eenvoudigste speciale vereisten voor een gegevensopslagsysteem kan ‘vervreemdbare opslagmedia’ worden genoemd. En het wordt meteen duidelijk dat dit gegevensopslagsysteem een ​​tapebibliotheek moet bevatten, of eenvoudigweg een tapedrive waarop de back-upkopie wordt gedumpt. Waarna een speciaal opgeleid persoon de tape signeert en deze trots naar een speciale kluis draagt.
Een ander voorbeeld van een bijzondere eis is een beschermd schokbestendig ontwerp.

Где

Het tweede hoofdbestanddeel bij het kiezen van een bepaald opslagsysteem is informatie over WAAR dit opslagsysteem zal worden geplaatst. Beginnend met geografie of klimatologische omstandigheden, en eindigend met personeel.

Klant

Voor wie is dit opslagsysteem bedoeld? De vraag heeft de volgende redenen:

Overheidsklant/commercieel.
De commerciële klant kent geen beperkingen en is zelfs niet verplicht tot het houden van aanbestedingen, behalve in overeenstemming met zijn eigen interne regelgeving.

Een overheidsklant is een andere zaak. 44 Federale wetgeving en andere geneugten met aanbestedingen en technische specificaties die kunnen worden aangevochten.

De klant staat onder sancties
Welnu, de vraag hier is heel eenvoudig: de keuze wordt alleen beperkt door de aanbiedingen die voor een bepaalde klant beschikbaar zijn.

Interne regelgeving / verkopers / modellen toegestaan ​​voor aankoop
De vraag is ook uiterst eenvoudig, maar je moet hem onthouden.

Waar fysiek

In dit deel beschouwen we alle problemen met geografie, communicatiekanalen en microklimaat in de accommodatie.

personeel

Wie gaat met dit opbergsysteem werken? Dit is niet minder belangrijk dan wat het opslagsysteem zelf kan doen.
Hoe veelbelovend, cool en geweldig het opslagsysteem van leverancier A ook is, het heeft waarschijnlijk weinig zin om het te installeren als het personeel alleen weet hoe het met leverancier B moet werken en er geen plannen zijn voor verdere aankopen en voortdurende samenwerking met A.

En natuurlijk is de andere kant van de vraag hoe beschikbaar geschoold personeel op een bepaalde geografische locatie, direct in het bedrijf en mogelijk op de arbeidsmarkt. Voor regio's kan het kiezen van opslagsystemen met eenvoudige interfaces of de mogelijkheid om het beheer op afstand te centraliseren zinvol zijn. Anders kan het op een gegeven moment ondraaglijk pijnlijk worden. Het internet staat vol met verhalen over hoe een nieuwe medewerker die arriveerde, de student van gisteren, zoiets configureerde dat het hele kantoor omkwam.

Hoe je opbergruimte kiest zonder jezelf in de voet te schieten

omgeving

En een belangrijke vraag is natuurlijk in welke omgeving dit opslagsysteem zal functioneren.

  • Hoe zit het met de voeding/koeling?
  • Welke verbinding
  • Waar wordt het geïnstalleerd?
  • Enz.

Vaak worden deze vragen als vanzelfsprekend beschouwd en wordt er niet echt over nagedacht, maar soms zijn het juist de vragen die alles kunnen veranderen.

Wat

Leverancier

Vanaf vandaag (medio 2019) kan de Russische opslagmarkt worden onderverdeeld in 5 categorieën:

  1. De hoogste divisie bestaat uit gevestigde bedrijven met een breed scala aan schijfplanken, van de eenvoudigste tot de meest geavanceerde (HPE, DellEMC, Hitachi, NetApp, IBM / Lenovo)
  2. Tweede divisie - bedrijven met een beperkt assortiment, nichespelers, serieuze SDS-leveranciers of opkomende nieuwkomers (Fujitsu, Datacore, Infinidat, Huawei, Pure, etc.)
  3. Derde divisie - nicheoplossingen in de lagere klasse, goedkope SDS, geavanceerde producten gebaseerd op ceph en andere open projecten (Infortrend, Starwind, enz.)
  4. SOHO-segment - kleine en ultrakleine opslagsystemen op thuis-/kleinkantoorniveau (Synology, QNAP, enz.)
  5. Import-gesubstitueerde opslagsystemen - dit omvat zowel hardware van de eerste divisie met opnieuw gelabelde labels, als zeldzame vertegenwoordigers van de tweede (RAIDIX, we geven ze van tevoren de tweede), maar dit is vooral de derde divisie (Aerodisk, Baum, Depo, enz.)

De indeling is nogal willekeurig en betekent helemaal niet dat het derde of SOHO-segment slecht is en niet kan worden gebruikt. In specifieke projecten met een duidelijk gedefinieerde dataset en belastingsprofiel kunnen ze heel goed werken, waarbij ze de eerste divisie ver overtreffen in termen van prijs-kwaliteitverhouding. Het is belangrijk om eerst uw doelen, groeivooruitzichten en vereiste functionaliteit te bepalen - en dan zal Synology u trouw van dienst zijn en zal uw haar zacht en zijdeachtig worden.

Een van de belangrijke factoren bij het kiezen van een leverancier is de huidige omgeving. Hoeveel opslagsystemen u al heeft en met welke opslagsystemen uw engineers kunnen werken. Heeft u een andere leverancier nodig, een ander aanspreekpunt, migreert u stapsgewijs de gehele lading van leverancier A naar leverancier B?

Men mag geen entiteiten voortbrengen die verder gaan dan nodig is.

iSCSI/FC/Bestand

Er bestaat geen consensus onder ingenieurs over de kwestie van toegangsprotocollen, en het debat lijkt meer op theologische discussies dan op technische discussies. Maar over het algemeen kunnen de volgende punten worden opgemerkt:

FCoE meer dood dan levend.

FC versus iSCSI. Een van de belangrijkste voordelen van FC in 2019 ten opzichte van IP-opslag, een speciale fabriek voor gegevenstoegang, wordt gecompenseerd door een speciaal IP-netwerk. FC heeft geen mondiale voordelen ten opzichte van IP-netwerken, en IP kan worden gebruikt om opslagsystemen van elk belastingsniveau te bouwen, tot aan systemen voor zware DBMS voor het kernbanksysteem van een grote bank. Aan de andere kant wordt de dood van FC al enkele jaren voorspeld, maar iets verhindert dit voortdurend. Tegenwoordig zijn sommige spelers op de opslagmarkt bijvoorbeeld actief bezig met de ontwikkeling van de NVMEoF-standaard. Of hij het lot van FCoE zal delen, zal de tijd leren.

Toegang tot bestanden is ook niet iets dat de aandacht niet waard is. NFS/CIFS presteert goed in productiviteitsomgevingen en heeft, indien correct ontworpen, niet meer klachten dan blokprotocollen.

Hybride / All Flash-array

Klassieke opbergsystemen zijn er in 2 soorten:

  1. AFA (All Flash Array) - systemen geoptimaliseerd voor SSD-gebruik.
  2. Hybride - zodat u zowel HDD als SSD of een combinatie daarvan kunt gebruiken.

Hun belangrijkste verschil zijn de ondersteunde technologieën voor opslagefficiëntie en het maximale prestatieniveau (hoge IOPS en lage latentie). Beide systemen (in de meeste van hun modellen, het lagere segment niet meegerekend) kunnen zowel als blok- als bestandsapparaat werken. De ondersteunde functionaliteit is afhankelijk van het niveau van het systeem en wordt voor jongere modellen meestal tot een minimumniveau teruggebracht. Dit is de moeite waard om op te letten als je de kenmerken van een bepaald model bestudeert, en niet alleen de mogelijkheden van de hele lijn als geheel. Ook zijn de technische kenmerken, zoals processor, hoeveelheid geheugen, cache, aantal en soorten poorten, enz. Natuurlijk ook afhankelijk van het niveau van het systeem. Vanuit managementoogpunt verschillen AFA's alleen van hybride (schijf)systemen in de implementatie van mechanismen voor het werken met SSD-schijven, en zelfs als je een SSD in een hybride systeem gebruikt, betekent dit helemaal niet dat je in staat zult zijn om het prestatieniveau op het niveau van een AFA-systeem te bereiken. Bovendien zijn inline-efficiënte opslagmechanismen in de meeste gevallen uitgeschakeld op hybride systemen, en de integratie ervan leidt tot prestatieverlies.

Speciale opslagsystemen

Naast opslagsystemen voor algemene doeleinden, die vooral gericht zijn op operationele gegevensverwerking, zijn er speciale opslagsystemen met sleutelprincipes die fundamenteel verschillen van de gebruikelijke (lage latentie, hoge IOPS):

Media.

Deze systemen zijn ontworpen voor het opslaan en verwerken van grote mediabestanden. Resp. de vertraging wordt praktisch onbelangrijk, en de mogelijkheid om gegevens in een brede band in veel parallelle stromen te verzenden en te ontvangen komt naar voren.

Deduplicerende opslagsystemen voor back-ups.

Omdat back-upkopieën zich onderscheiden door hun gelijkenis met elkaar, wat onder normale omstandigheden zelden voorkomt (de gemiddelde back-upkopie verschilt van de kopie van gisteren met 1-2%), verpakt deze klasse van systemen de gegevens die daarop zijn vastgelegd uiterst efficiënt in een vrij kleine hoeveelheid. aantal fysieke media. In sommige gevallen kunnen de gegevenscompressieverhoudingen bijvoorbeeld 200 op 1 bereiken.

Objectopslagsystemen.

Deze opslagsystemen hebben niet de gebruikelijke volumes met bloktoegang en bestandsshares, en lijken vooral op een enorme database. Toegang tot een object dat in een dergelijk systeem is opgeslagen, vindt plaats via een unieke identificatie of via metagegevens (bijvoorbeeld alle objecten in JPEG-formaat met een aanmaakdatum tussen XX-XX-XXXX en YY-YY-YYYY).

Compliance-systeem.

Ze komen tegenwoordig niet zo vaak voor in Rusland, maar ze zijn het vermelden waard. Het doel van dergelijke opslagsystemen is gegarandeerde gegevensopslag om te voldoen aan het beveiligingsbeleid of de wettelijke vereisten. Sommige systemen (bijvoorbeeld EMC Centera) hebben een functie geïmplementeerd om het verwijderen van gegevens te verbieden - zodra de sleutel wordt omgedraaid en het systeem naar deze modus gaat, kan noch de beheerder, noch iemand anders fysiek gegevens verwijderen die al zijn vastgelegd.

Eigen technologieën

Flash-cache

Flash Cache is een algemene naam voor alle eigen technologieën voor het gebruik van flash-geheugen als cache op het tweede niveau. Bij gebruik van een flash-cache wordt het opslagsysteem doorgaans berekend op een constante belasting van magnetische schijven, terwijl de piek wordt opgevangen door de cache.

In dit geval is het noodzakelijk om het belastingsprofiel en de mate van lokalisatie van toegang tot blokken met opslagvolumes te begrijpen. Flash-cache is een technologie voor workloads met sterk gelokaliseerde queries, en is praktisch niet toepasbaar voor uniform geladen volumes (zoals voor analysesystemen).

Er zijn twee flash-cache-implementaties op de markt beschikbaar:

  • Alleen lezen. In dit geval worden alleen leesgegevens in de cache opgeslagen en gaat het schrijven rechtstreeks naar de schijven. Sommige fabrikanten, zoals NetApp, zijn van mening dat het schrijven naar hun opslagsystemen al optimaal is en dat de cache helemaal niet zal helpen.
  • Lezen schrijven. Niet alleen lezen, maar ook schrijven wordt in de cache opgeslagen, waardoor u de stream kunt bufferen en de impact van RAID Penalty kunt verminderen, en als resultaat de algehele prestaties kunt verhogen voor opslagsystemen met een minder optimaal schrijfmechanisme.

Laagjes

Multi-level storage (vermoeid) is een technologie voor het combineren van niveaus met verschillende prestatieniveaus, zoals SSD en HDD, in één schijvenpool. In het geval van uitgesproken ongelijkheid in de toegang tot datablokken, zal het systeem in staat zijn om datablokken automatisch in evenwicht te brengen, waarbij geladen blokken naar een hoog prestatieniveau worden verplaatst, en koude, integendeel, naar een langzamer niveau.

Hybride systemen uit de lagere en middenklasse maken gebruik van opslag op meerdere niveaus, waarbij gegevens volgens een schema tussen niveaus worden verplaatst. Tegelijkertijd is de grootte van het opslagblok met meerdere niveaus voor de beste modellen 256 MB. Deze kenmerken laten ons niet toe om gelaagde opslagtechnologie te beschouwen als een technologie voor het verhogen van de productiviteit, zoals veel mensen ten onrechte denken. Opslag op meerdere niveaus in systemen uit de lage en middenklasse is een technologie voor het optimaliseren van de opslagkosten voor systemen met uitgesproken ongelijkmatige ladingen.

Momentopname

Hoeveel we ook praten over de betrouwbaarheid van opslagsystemen, er zijn veel mogelijkheden om gegevens te verliezen die niet afhankelijk zijn van hardwareproblemen. Dit kunnen virussen, hackers of andere onbedoelde verwijdering/corruptie van gegevens zijn. Om deze reden is het maken van back-ups van productiegegevens een integraal onderdeel van het werk van een ingenieur.

Een momentopname is een momentopname van een volume op een bepaald moment. Bij het werken met de meeste systemen, zoals virtualisatie, databases, enz. we moeten zo'n momentopname maken waarvan we de gegevens naar een back-up kopiëren, terwijl onze IS veilig met dit volume kan blijven werken. Maar het is de moeite waard om te onthouden dat niet alle snapshots even nuttig zijn. Verschillende leveranciers hebben verschillende benaderingen voor het maken van snapshots die verband houden met hun architectuur.

CoW (kopiëren-op-schrijven). Wanneer u een datablok probeert te schrijven, wordt de originele inhoud ervan naar een speciaal gebied gekopieerd, waarna het schrijven normaal verloopt. Dit voorkomt gegevenscorruptie binnen de momentopname. Uiteraard veroorzaken al deze ‘parasitaire’ gegevensmanipulaties extra belasting van het opslagsysteem en om deze reden raden leveranciers met vergelijkbare implementaties niet aan om meer dan een dozijn snapshots te gebruiken, en deze helemaal niet te gebruiken op zwaarbelaste volumes.

RoW (omleiden bij schrijven). In dit geval loopt het oorspronkelijke volume op natuurlijke wijze vast, en wanneer wordt geprobeerd een datablok te schrijven, schrijft het opslagsysteem gegevens naar een speciaal gebied in de vrije ruimte, waardoor de locatie van dit blok in de metadatatabel wordt gewijzigd. Hierdoor kunt u het aantal herschrijfbewerkingen verminderen, waardoor uiteindelijk de prestatiedaling wordt geëlimineerd en de beperkingen op snapshots en hun aantal worden opgeheven.

Er zijn ook twee soorten momentopnamen met betrekking tot toepassingen:

Consistentie van toepassingen. Op het moment dat een momentopname wordt gemaakt, haalt het opslagsysteem een ​​agent uit het besturingssysteem van de consument, die schijfcaches met geweld van geheugen naar schijf leegmaakt en de applicatie hiertoe dwingt. In dit geval zullen de gegevens consistent zijn bij het herstellen vanaf een momentopname.

Crash consistent. In dit geval gebeurt er niets dergelijks en wordt de momentopname gemaakt zoals deze is. In het geval van herstel van een dergelijke momentopname is het beeld identiek aan wat er zou gebeuren als de stroom plotseling zou worden uitgeschakeld en enig verlies van gegevens mogelijk zou zijn, vast zou zitten in caches en nooit de schijf zou bereiken. Dergelijke snapshots zijn eenvoudiger te implementeren en veroorzaken geen prestatieverlies in applicaties, maar zijn minder betrouwbaar.

Waarom zijn snapshots nodig op opslagsystemen?

  • Agentless back-up rechtstreeks vanuit het opslagsysteem
  • Creëer testomgevingen op basis van echte data
  • In het geval van bestandsopslagsystemen kan het worden gebruikt om VDI-omgevingen te creëren door het gebruik van snapshots van het opslagsysteem in plaats van een hypervisor
  • Zorg voor lage RPO's door geplande snapshots te maken met een frequentie die aanzienlijk hoger is dan de back-upfrequentie

Klonen

Volumeklonen - werkt volgens een soortgelijk principe als snapshots, maar wordt niet alleen gebruikt voor het lezen van gegevens, maar ook om er volledig mee te werken. We kunnen een exacte kopie krijgen van ons volume, met alle gegevens erop, zonder een fysieke kopie te maken, wat ruimte bespaart. Normaal gesproken wordt volumeklonen gebruikt in Test&Dev of als u de functionaliteit van sommige updates op uw IS wilt controleren. Met klonen kunt u dit zo snel en economisch mogelijk doen in termen van schijfbronnen, omdat Alleen gewijzigde datablokken worden geschreven.

Replicatie / Journaliseren

Replicatie is een mechanisme voor het maken van een kopie van gegevens op een ander fysiek opslagsysteem. Normaal gesproken heeft elke leverancier een eigen technologie die alleen binnen zijn eigen lijn werkt. Maar er zijn ook oplossingen van derden, waaronder oplossingen die op hypervisorniveau werken, zoals VMware vSphere Replication.

De functionaliteit van propriëtaire technologieën en het gebruiksgemak ervan zijn doorgaans veel beter dan universele technologieën, maar blijken niet toepasbaar wanneer het bijvoorbeeld nodig is om een ​​replica te maken van NetApp naar HP MSA.

Replicatie is onderverdeeld in twee subtypen:

Synchronisch. In het geval van synchrone replicatie wordt de schrijfbewerking onmiddellijk naar het tweede opslagsysteem verzonden en wordt de uitvoering pas bevestigd nadat het externe opslagsysteem dit heeft bevestigd. Hierdoor neemt de toegangsvertraging toe, maar we hebben een exacte spiegelkopie van de gegevens. Die. RPO = 0 bij verlies van het hoofdopslagsysteem.

asynchroon. Schrijfbewerkingen worden alleen op het hoofdopslagsysteem uitgevoerd en onmiddellijk bevestigd, terwijl ze tegelijkertijd worden verzameld in een buffer voor batchverzending naar het externe opslagsysteem. Dit type replicatie is relevant voor minder waardevolle gegevens of voor kanalen met een lage bandbreedte of hoge latentie (typisch voor afstanden van meer dan 100 km). Dienovereenkomstig is RPO = pakketverzendfrequentie.

Naast replicatie is er vaak ook een mechanisme loggen schijfbewerkingen. In dit geval wordt een speciaal gebied toegewezen voor het loggen en worden opnamebewerkingen van een bepaalde diepte in de tijd, of beperkt door het volume van het log, opgeslagen. Voor bepaalde eigen technologieën, zoals EMC RecoverPoint, is er integratie met systeemsoftware waarmee u bepaalde bladwijzers aan een specifieke logvermelding kunt koppelen. Dankzij dit is het mogelijk om de status van een volume terug te draaien (of een kloon te maken) niet alleen naar 23 april, 11 uur 59 seconden en 13 milliseconden, maar naar het moment vóór “DROP ALL TABLES; VERBINDEN."

Metrocluster

Metrocluster is een technologie waarmee u bidirectionele synchrone replicatie tussen twee opslagsystemen kunt creëren, zodanig dat dit paar er van buitenaf uitziet als één opslagsysteem. Het wordt gebruikt om clusters te creëren met geografisch gescheiden armen op metroafstanden (minder dan 100 km).

Gebaseerd op het voorbeeld van gebruik in een virtualisatieomgeving, kunt u met het metrocluster een datastore met virtuele machines creëren, toegankelijk voor opname vanuit twee datacenters tegelijk. In dit geval wordt op hypervisorniveau een cluster aangemaakt, bestaande uit hosts in verschillende fysieke datacenters, verbonden met deze datastore. Hiermee kunt u het volgende doen:

  • Volledige automatisering van het herstelproces na het overlijden van één van de datacenters. Zonder extra geld worden alle VM's die in het overleden datacenter draaien automatisch opnieuw opgestart in het resterende datacenter. RTO = clustertime-out met hoge beschikbaarheid (15 seconden voor VMware) + tijd om het besturingssysteem te laden en services te starten.
  • Het vermijden van rampen of, in het Russisch, het vermijden van rampen. Als er stroomvoorzieningswerkzaamheden gepland zijn in datacenter 1, dan hebben wij de mogelijkheid om de gehele belangrijke belasting vooraf non-stop naar datacenter 2 te migreren, voordat de werkzaamheden beginnen.

Virtualisatie

Opslagvirtualisatie is technisch gezien het gebruik van volumes uit een ander opslagsysteem als schijven. Een opslagvirtualizer kan eenvoudig het volume van iemand anders als zijn eigen volume naar de consument overbrengen en het tegelijkertijd naar een ander opslagsysteem spiegelen, of zelfs een RAID van externe volumes creëren.
Klassieke vertegenwoordigers in de opslagvirtualisatieklasse zijn EMC VPLEX en IBM SVC. En natuurlijk opslagsystemen met virtualisatiefunctionaliteit - NetApp, Hitachi, IBM / Lenovo Storwize.

Waarom zou het nodig kunnen zijn?

  • Redundantie op opslagsysteemniveau. Er wordt een spiegel gemaakt tussen de volumes, waarbij de ene helft op HP 3Par kan staan ​​en de andere op NetApp. En de virtualizer is van EMC.
  • Verplaats gegevens met minimale downtime tussen opslagsystemen van verschillende fabrikanten. Laten we aannemen dat er gegevens moeten worden gemigreerd van de oude 3Par, die wordt afgeschreven, naar de nieuwe Dell. In dit geval worden consumenten losgekoppeld van 3Par, worden de volumes onder VPLEX overgedragen en opnieuw aan consumenten gepresenteerd. Omdat er aan het volume niets is veranderd, wordt er verder gewerkt. Het proces van het spiegelen van het volume naar de nieuwe Dell begint op de achtergrond en na voltooiing wordt de spiegel afgebroken en wordt 3Par uitgeschakeld.
  • Organisatie van metroclusters.

Compressie/deduplicatie

Compressie en deduplicatie zijn technologieën waarmee u schijfruimte op uw opslagsysteem kunt besparen. Het is de moeite waard om meteen te vermelden dat niet alle gegevens in principe onderhevig zijn aan compressie en/of deduplicatie, terwijl sommige soorten gegevens beter gecomprimeerd en gededupliceerd kunnen worden, en andere juist omgekeerd.

Er zijn 2 soorten compressie en deduplicatie:

In lijn — compressie en deduplicatie van datablokken vindt plaats voordat deze gegevens naar schijf worden geschreven. Het systeem berekent dus alleen de hash van het blok en vergelijkt deze in de tabel met de bestaande. Ten eerste is het sneller dan alleen maar naar schijf schrijven, en ten tweede verspillen we geen extra schijfruimte.

Post - wanneer deze bewerkingen worden uitgevoerd op reeds opgenomen gegevens op schijven. Dienovereenkomstig worden de gegevens eerst naar schijf geschreven en pas daarna wordt de hash berekend en worden onnodige blokken verwijderd en worden schijfbronnen vrijgemaakt.

Het is de moeite waard om te zeggen dat de meeste leveranciers beide typen gebruiken, waardoor ze deze processen kunnen optimaliseren en daardoor hun efficiëntie kunnen verhogen. De meeste opslagleveranciers hebben hulpprogramma's waarmee u uw datasets kunt analyseren. Deze hulpprogramma's werken volgens dezelfde logica die in het opslagsysteem is geïmplementeerd, dus het geschatte efficiëntieniveau zal hetzelfde zijn. Houd er ook rekening mee dat veel leveranciers prestatiegarantieprogramma's hebben die minstens even goede prestaties beloven voor bepaalde (of alle) gegevenstypen. En u mag dit programma niet verwaarlozen, want door het systeem voor uw taken te berekenen, rekening houdend met de efficiëntiecoëfficiënt van een bepaald systeem, kunt u volume besparen. Het is ook de moeite waard om te overwegen dat deze programma's zijn ontworpen voor AFA-systemen, maar dankzij de aanschaf van een kleiner volume SSD's dan HDD's in klassieke systemen, zal dit hun kosten verlagen, en zo niet gelijk zijn aan de kosten van een schijfsysteem, dan kom er heel dichtbij.

Model

En hier komen we bij de juiste vraag.

"Ze bieden mij twee opslagopties: ABC SuperStorage S600 en XYZ HyperOcean 666v4, wat raden jullie aan?"

Verandert in “Hier bieden ze mij twee opslagopties: ABC SuperStorage S600 en XYZ HyperOcean 666v4, wat raden jullie aan?

De doelbelasting bestaat uit gemengde virtuele VMware-machines met productie-/test-/ontwikkelingslussen. Testen = productief. 150 TB elk met een piekprestatie van 80 IOPS 000 kb blok 8% willekeurige toegang 50/80 lezen-schrijven. 20 TB voor ontwikkeling, 300 IOPS is genoeg, 50 willekeurig, 000 schrijven.

Productiviteit vermoedelijk in het metrocluster RPO = 15 minuten RTO = 1 uur, ontwikkeling in asynchrone replicatie RPO = 3 uur, test op één site.

Er komt een DBMS van 50 TB, loggen zou leuk voor ze zijn.

We hebben overal Dell-servers, oude Hitachi-opslagsystemen, die kunnen het nauwelijks aan, we zijn van plan de belasting met 50% te verhogen in termen van volume en prestaties.”

Zoals ze zeggen: een correct geformuleerde vraag bevat 80% van het antwoord.

aanvullende informatie

Wat je volgens de auteurs extra moet lezen

books

  • Olifer en Olifer “Computernetwerken”. Het boek zal helpen bij het systematiseren en misschien beter begrijpen hoe het datatransmissiemedium voor IP / Ethernet-opslagsystemen werkt
  • "EMC-informatieopslag en -beheer." Een uitstekend boek over de basisprincipes van opslagsystemen, het waarom, hoe en waarvoor.

Forums en chats

Algemene aanbevelingen

Prijzen

Wat de prijzen betreft: als er prijzen voor opslagsystemen zijn, zijn dit meestal catalogusprijzen, waarvan elke klant een individuele korting krijgt. De hoogte van de korting bestaat uit een groot aantal parameters, dus het is simpelweg onmogelijk om te voorspellen welke uiteindelijke prijs uw bedrijf zal ontvangen zonder dit aan de distributeur te vragen. Maar tegelijkertijd zijn er onlangs low-end modellen verschenen in reguliere computerwinkels, zoals bijvoorbeeld nix.ru of xcom-shop.ru. Hier kunt u, net als alle computeronderdelen, direct het systeem waarin u geïnteresseerd bent, tegen een vaste prijs aanschaffen.

Maar ik wil meteen opmerken dat een directe vergelijking op basis van TB/$ niet correct is. Als we het vanuit dit gezichtspunt benaderen, zal de goedkoopste oplossing een eenvoudige JBOD+-server zijn, die niet de flexibiliteit of betrouwbaarheid zal bieden die een volwaardig opslagsysteem met dubbele controllers biedt. Dit betekent helemaal niet dat JBOD walgelijk is en een vervelende vuile truc, je hoeft alleen maar heel duidelijk te begrijpen hoe en voor welke doeleinden je deze oplossing gaat gebruiken. Vaak hoor je dat er niets te breken valt in JBOD, er is maar één backplane. Backplanes falen echter soms ook. Alles gaat vroeg of laat kapot.

In totaal

Het is noodzakelijk om systemen niet alleen met elkaar te vergelijken op basis van prijs, of niet alleen op basis van prestaties, maar op basis van het geheel van alle indicatoren.

Koop alleen een HDD als u zeker weet dat u een HDD nodig heeft. Voor lage belastingen en onsamendrukbare gegevenstypen is het anders de moeite waard om gebruik te maken van SSD-opslagefficiëntie-garantieprogramma's, die de meeste leveranciers nu hebben (en die werken echt, zelfs in Rusland), maar het hangt allemaal af van de applicaties en gegevens die zullen worden gelokaliseerd op dit opslagsysteem.

Ga niet voor goedkoop. Soms verbergen deze veel onaangename momenten, waarvan Evgeniy Elizarov er één in zijn artikelen over beschreef infotrend. En dat deze goedkope prijs uiteindelijk een averechts effect op u kan hebben. Vergeet niet: "de vrek betaalt twee keer."

Bron: www.habr.com

Voeg een reactie