Come scegliere lo storage senza darsi la zappa sui piedi

Introduzione

È ora di acquistare spazio di archiviazione. Quale prendere, chi ascoltare? Il fornitore A parla del fornitore B, e poi c'è l'integratore C, che dice il contrario e consiglia il fornitore D. In una situazione del genere, anche un architetto di storage esperto girerà la testa, soprattutto con tutti i nuovi fornitori, SDS e iperconvergenza che sono di moda Oggi.

Quindi, come fai a capire tutto e non finire per essere uno stupido? Noi (AntonVirtual Anton Zhbankov e corpo Evgeniy Elizarov) proviamo a parlarne in russo semplice.
L’articolo ha molte somiglianze ed è in realtà un’estensione di “Progettazione di data center virtualizzati" in termini di scelta dei sistemi di storage e revisione delle tecnologie di storage. Tratteremo brevemente la teoria generale, ma vi consigliamo di leggere anche questo articolo.

Per cosa?

Spesso puoi vedere una situazione in cui una nuova persona arriva in un forum o in una chat specializzata, come Discussioni sull'archiviazione, e pone la domanda: "qui mi offrono due opzioni di archiviazione: ABC SuperStorage S600 e XYZ HyperOcean 666v4, cosa mi consigliate?" ?”

E inizia la confusione su chi ha quali caratteristiche dell'implementazione di caratteristiche terribili e incomprensibili, che per una persona impreparata sono completamente cinesi.

Quindi, la prima e fondamentale domanda che bisogna porsi molto prima di confrontare le specifiche nelle proposte commerciali è PERCHÉ? Perché è necessario questo sistema di archiviazione?

Come scegliere lo storage senza darsi la zappa sui piedi

La risposta sarà inaspettata, e molto in stile Tony Robbins: archiviare i dati. Grazie, capitano! Eppure, a volte entriamo così in profondità nel confrontare i dettagli che dimentichiamo innanzitutto il motivo per cui stiamo facendo tutto questo.

Pertanto, il compito di un sistema di archiviazione dati è archiviare e fornire accesso ai DATI con una determinata prestazione. Inizieremo con i dati.

Dati

Tipo di dati

Che tipo di dati intendiamo archiviare? Una questione molto importante che può escludere molti sistemi di storage dalla considerazione. Ad esempio, prevedi di archiviare video e foto. È possibile depennare immediatamente i sistemi progettati per l'accesso casuale in piccoli blocchi, oppure i sistemi con funzionalità proprietarie in compressione/deduplicazione. Potrebbero essere semplicemente ottimi sistemi, non vogliamo dire niente di negativo. Ma in questo caso, i loro punti di forza diventeranno deboli (video e foto non sono compressi) o semplicemente aumenteranno in modo significativo il costo del sistema.

Al contrario, se l'uso previsto è un DBMS transazionale, allora eccellenti sistemi di streaming multimediale in grado di fornire gigabyte al secondo saranno una scelta sbagliata.

Volume di dati

Quanti dati intendiamo archiviare? La quantità si trasforma sempre in qualità; questo non dovrebbe mai essere dimenticato, soprattutto nel nostro tempo di crescita esponenziale del volume dei dati. I sistemi di classe petabyte non sono più rari, ma maggiore è la capacità di petabyte, più specifico diventa il sistema, meno accessibile sarà la normale funzionalità dei sistemi ad accesso casuale di piccole e medie dimensioni. È banale perché le tabelle delle statistiche di accesso ai blocchi da sole diventano più grandi della quantità di RAM disponibile sui controller. Per non parlare della compressione/tiering. Diciamo che vogliamo cambiare l'algoritmo di compressione con uno più potente e comprimere 20 petabyte di dati. Quanto tempo ci vorrà: sei mesi, un anno?

D'altra parte, perché preoccuparsi se è necessario archiviare ed elaborare 500 GB di dati? Solo 500. Gli SSD domestici (con DWPD basso) di queste dimensioni non costano nulla. Perché costruire una fabbrica Fibre Channel e acquistare sistemi di storage esterni di fascia alta che costano l'equivalente di un ponte in ghisa?

Quale percentuale del totale è costituita da dati caldi? Quanto è irregolare il carico in termini di volume di dati? È qui che la tecnologia di archiviazione a più livelli o Flash Cache può essere molto utile se la quantità di dati attivi è ridotta rispetto al totale. O viceversa, con un carico uniforme su tutto il volume, che spesso si riscontra nei sistemi di streaming (videosorveglianza, alcuni sistemi di analisi), tali tecnologie non forniranno nulla e non faranno altro che aumentare il costo/complessità del sistema.

IC

L'altro lato dei dati è il sistema informativo che utilizza i dati. Un IS ha una serie di requisiti che ereditano i dati. Per ulteriori informazioni sull'IS, vedere "Progettazione di data center virtualizzati".

Requisiti di resilienza/disponibilità

I requisiti per la tolleranza agli errori/disponibilità dei dati vengono ereditati dall'IS che li utilizza e sono espressi in tre numeri: RPO, RTO, disponibilità.

Disponibilità — la quota per un dato periodo di tempo durante il quale i dati sono disponibili per lavorare con loro. Solitamente espresso come numero 9. Ad esempio, due nove all'anno significa che la disponibilità è del 99%, altrimenti sono consentite 95 ore di indisponibilità all'anno. Tre nove: 9,5 ore all'anno.

RPO/RTO non sono indicatori totali, ma per ciascun incidente (incidente), a differenza della disponibilità.

RPO — la quantità di dati persi durante un incidente (in ore). Ad esempio, se i backup vengono eseguiti una volta al giorno, RPO = 24 ore. Quelli. In caso di incidente e perdita completa del sistema di archiviazione, i dati possono andare persi fino a 24 ore (dal momento del backup). Sulla base dell'RPO specificato per l'IS, ad esempio, vengono scritte le norme di backup. Inoltre, in base all'RPO, è possibile comprendere la quantità di replica dei dati sincrona/asincrona necessaria.

RTO — tempo necessario per ripristinare il servizio (accesso ai dati) dopo una catastrofe. In base al valore RTO fornito, possiamo capire se è necessario un metro cluster o se è sufficiente la replica unidirezionale. Hai bisogno di un sistema di storage multi-controller di fascia alta?

Come scegliere lo storage senza darsi la zappa sui piedi

Requisiti di prestazione

Sebbene questa sia una domanda molto ovvia, è qui che sorgono la maggior parte delle difficoltà. A seconda che si disponga già di qualche tipo di infrastruttura o meno, verranno creati modi per raccogliere le statistiche necessarie.

Hai già un sistema di storage e stai cercando un sostituto o vuoi acquistarne un altro per l'espansione. Tutto è semplice qui. Comprendi quali servizi disponi già e quali intendi implementare nel prossimo futuro. Sulla base dei servizi attuali, hai la possibilità di raccogliere statistiche sulle prestazioni. Decidi il numero attuale di IOPS e la latenza attuale: quali sono questi indicatori e sono sufficienti per le tue attività? Questo può essere fatto sia sul sistema di archiviazione dei dati stesso che dagli host ad esso collegati.

Inoltre, è necessario considerare non solo il carico attuale, ma per un certo periodo (preferibilmente un mese). Scopri quali sono i picchi massimi durante il giorno, quale carico crea il backup, ecc. Se il tuo sistema di storage o il relativo software non ti forniscono un set completo di questi dati, puoi utilizzare lo strumento gratuito RRDtool, che può funzionare con la maggior parte dei sistemi di storage e degli switch più diffusi e può fornirti statistiche dettagliate sulle prestazioni. Vale anche la pena esaminare il carico sugli host che funzionano con questo sistema di archiviazione, per macchine virtuali specifiche o cosa è esattamente in esecuzione su questo host.

Come scegliere lo storage senza darsi la zappa sui piedi

Vale la pena notare separatamente che se i ritardi sul volume e sull'archivio dati che si trova su questo volume differiscono in modo abbastanza significativo, dovresti prestare attenzione alla tua rete SAN, c'è un'alta probabilità che ci siano problemi con essa e prima di acquistarne una nuova sistema, vale la pena esaminare questo problema, perché esiste un'altissima probabilità di aumentare le prestazioni del sistema attuale.

Stai costruendo un'infrastruttura da zero o acquistando un sistema per qualche nuovo servizio, di cui non sei consapevole dei carichi. Esistono diverse opzioni: comunicare con colleghi su risorse specializzate per cercare di scoprire e prevedere il carico, contattare un integratore che abbia esperienza nell'implementazione di servizi simili e che possa calcolare il carico per te. E la terza opzione (di solito la più difficile, soprattutto se si tratta di applicazioni rare o scritte in casa) è cercare di scoprire i requisiti prestazionali dagli sviluppatori di sistema.

Inoltre, si tenga presente che l'opzione più corretta dal punto di vista dell'applicazione pratica è un progetto pilota sulle apparecchiature attuali o sulle apparecchiature fornite per il test da un fornitore/integratore.

Requisiti speciali

Requisiti speciali sono tutto ciò che non rientra nei requisiti di prestazione, tolleranza agli errori e funzionalità per l'elaborazione diretta e la fornitura dei dati.

Uno dei requisiti speciali più semplici per un sistema di archiviazione dati può essere chiamato “supporto di archiviazione alienabile”. E diventa subito chiaro che questo sistema di archiviazione dei dati deve includere una libreria di nastri o semplicemente un'unità nastro su cui viene scaricata la copia di backup. Dopo di che una persona appositamente addestrata firma il nastro e lo trasporta con orgoglio in una cassaforte speciale.
Un altro esempio di requisito speciale è un design protetto antiurto.

Где

Il secondo componente principale nella scelta di un particolare sistema di storage sono le informazioni su DOVE verrà posizionato questo sistema di storage. A partire dalla geografia o dalle condizioni climatiche, per finire con il personale.

Cliente

Per chi è previsto questo sistema di accumulo? La domanda ha i seguenti motivi:

Cliente governativo/commerciale.
Il cliente commerciale non ha vincoli e non è nemmeno obbligato a indire gare, se non in conformità con il proprio regolamento interno.

Un cliente governativo è una questione diversa. 44 Legge federale e altre delizie con offerte e specifiche tecniche impugnabili.

Il cliente è soggetto a sanzioni
Bene, la domanda qui è molto semplice: la scelta è limitata solo dalle offerte disponibili per un determinato cliente.

Regolamenti interni/venditori/modelli ammessi all'acquisto
Anche la domanda è estremamente semplice, ma è necessario ricordarla.

Dove fisicamente

In questa parte consideriamo tutte le questioni relative alla geografia, ai canali di comunicazione e al microclima nelle strutture ricettive.

personale

Chi lavorerà con questo sistema di storage? Questo non è meno importante di ciò che può fare il sistema di storage stesso.
Non importa quanto promettente, interessante e meraviglioso sia il sistema di storage del fornitore A, probabilmente non ha molto senso installarlo se il personale sa come lavorare solo con il fornitore B e non sono previsti ulteriori acquisti o una cooperazione continua con A.

E naturalmente, l'altro lato della questione è quanto sia disponibile personale formato in una determinata posizione geografica direttamente in azienda e potenzialmente sul mercato del lavoro. Per le regioni, può avere molto senso scegliere sistemi di storage con interfacce semplici o la possibilità di centralizzare la gestione da remoto. Altrimenti, ad un certo punto, potrebbe diventare terribilmente doloroso. Internet è piena di storie su come un nuovo dipendente arrivato, lo studente di ieri, ha configurato una cosa tale che l'intero ufficio è stato ucciso.

Come scegliere lo storage senza darsi la zappa sui piedi

dintorni

E, naturalmente, una domanda importante è in quale ambiente funzionerà questo sistema di storage.

  • E per quanto riguarda l'alimentazione/raffreddamento?
  • Che connessione
  • Dove verrà installato?
  • E così via.

Spesso queste domande vengono date per scontate e non particolarmente considerate, ma a volte sono quelle che possono ribaltare tutto.

Che

Venditore

Ad oggi (metà 2019), il mercato russo dello stoccaggio può essere suddiviso in 5 categorie:

  1. La divisione più alta è costituita da aziende affermate con un'ampia gamma di scaffali di dischi, dai più semplici a quelli di fascia alta (HPE, DellEMC, Hitachi, NetApp, IBM / Lenovo)
  2. Seconda divisione: aziende con una linea limitata, operatori di nicchia, venditori seri di SDS o nuovi arrivati ​​​​in ascesa (Fujitsu, Datacore, Infinidat, Huawei, Pure, ecc.)
  3. Terza divisione: soluzioni di nicchia di fascia bassa, SDS economici, prodotti avanzati basati su Ceph e altri progetti aperti (Infortrend, Starwind, ecc.)
  4. Segmento SOHO - sistemi di archiviazione piccoli e ultra-piccoli a livello di casa/piccolo ufficio (Synology, QNAP, ecc.)
  5. Sistemi di archiviazione sostituiti dall'importazione - questo include sia l'hardware della prima divisione con etichette rietichettate, sia rari rappresentanti della seconda (RAIDIX, daremo loro il secondo in anticipo), ma principalmente questa è la terza divisione (Aerodisk, Baum, Depo, ecc.)

La divisione è abbastanza arbitraria e non significa affatto che il terzo segmento o SOHO sia difettoso e non possa essere utilizzato. In progetti specifici con un set di dati e un profilo di carico ben definiti, possono funzionare molto bene, superando di gran lunga la prima divisione in termini di rapporto qualità/prezzo. È importante decidere prima i tuoi obiettivi, le prospettive di crescita e la funzionalità richiesta, quindi Synology ti servirà fedelmente e i tuoi capelli diventeranno morbidi e setosi.

Uno dei fattori importanti nella scelta di un fornitore è l’ambiente attuale. Quanti sistemi di storage possiedi già e con quali sistemi di storage possono lavorare i tuoi ingegneri. Hai bisogno di un altro fornitore, di un altro punto di contatto, migrerai gradualmente l'intero carico dal fornitore A al fornitore B?

Non si dovrebbero produrre entità oltre ciò che è necessario.

iSCSI/FC/File

Non esiste consenso tra gli ingegneri sulla questione dei protocolli di accesso e il dibattito assomiglia più a discussioni teologiche che a discussioni ingegneristiche. Ma in generale si possono notare i seguenti punti:

FCoE più morto che vivo.

FC rispetto a iSCSI. Uno dei principali vantaggi di FC nel 2019 rispetto allo storage IP, una fabbrica dedicata per l'accesso ai dati, è compensato da una rete IP dedicata. FC non presenta vantaggi globali rispetto alle reti IP e l'IP può essere utilizzato per costruire sistemi di storage di qualsiasi livello di carico, fino a sistemi per DBMS pesanti per il sistema bancario principale di una grande banca. D'altronde la morte dell'FC è stata profetizzata ormai da diversi anni, ma qualcosa lo impedisce costantemente. Oggi, ad esempio, alcuni attori del mercato dello storage stanno sviluppando attivamente lo standard NVMEoF. Se condividerà il destino di FCoE, il tempo lo dirà.

Accesso ai file inoltre non è qualcosa di indegno di attenzione. NFS/CIFS funziona bene negli ambienti di produttività e, se progettato correttamente, non presenta più lamentele rispetto ai protocolli a blocchi.

Array ibrido/all-flash

I sistemi di storage classici sono disponibili in 2 tipologie:

  1. AFA (All Flash Array) - sistemi ottimizzati per l'utilizzo di SSD.
  2. Ibrido: consente di utilizzare sia HDD che SSD o una combinazione di essi.

La loro principale differenza sono le tecnologie di efficienza dello storage supportate e il massimo livello di prestazioni (IOPS elevati e bassa latenza). Entrambi i sistemi (nella maggior parte dei loro modelli, senza contare il segmento di fascia bassa) possono funzionare sia come dispositivi a blocchi che come dispositivi file. La funzionalità supportata dipende dal livello del sistema e per i modelli più giovani è spesso ridotta al livello minimo. Vale la pena prestare attenzione quando si studiano le caratteristiche di un particolare modello e non solo le capacità dell'intera linea nel suo insieme. Naturalmente anche le sue caratteristiche tecniche, come processore, quantità di memoria, cache, numero e tipo di porte, ecc., dipendono dal livello del sistema. Dal punto di vista gestionale, gli AFA differiscono dai sistemi ibridi (disco) solo nell'implementazione dei meccanismi per lavorare con le unità SSD, e anche se utilizzi un SSD in un sistema ibrido, ciò non significa affatto che sarai in grado per raggiungere il livello di prestazione a livello di un sistema AFA. Inoltre, nella maggior parte dei casi, i meccanismi di storage efficienti in linea sono disabilitati sui sistemi ibridi e la loro inclusione porta a una perdita di prestazioni.

Sistemi di stoccaggio speciali

Oltre ai sistemi di archiviazione generici, focalizzati principalmente sull'elaborazione dei dati operativi, esistono sistemi di archiviazione speciali con principi chiave fondamentalmente diversi da quelli usuali (bassa latenza, IOPS elevato):

Media.

Questi sistemi sono progettati per archiviare ed elaborare file multimediali di grandi dimensioni. Risp. il ritardo diventa praticamente irrilevante e viene in primo piano la capacità di inviare e ricevere dati su una banda larga in molti flussi paralleli.

Deduplicazione dei sistemi di storage per i backup.

Poiché le copie di backup si distinguono per la loro somiglianza tra loro, cosa rara in condizioni normali (la copia di backup media differisce dell'1-2% dalla copia di ieri), questa classe di sistemi impacchetta in modo estremamente efficiente i dati registrati su di essi in un numero piuttosto ridotto numero di supporti fisici. Ad esempio, in alcuni casi, i rapporti di compressione dei dati possono raggiungere 200 a 1.

Sistemi di archiviazione di oggetti.

Questi sistemi di storage non hanno i soliti volumi con accesso a blocchi e condivisioni di file e soprattutto assomigliano a un enorme database. L'accesso a un oggetto archiviato in tale sistema viene effettuato tramite un identificatore univoco o tramite metadati (ad esempio, tutti gli oggetti in formato JPEG con una data di creazione compresa tra XX-XX-XXXX e YY-YY-YYYY).

Sistema di conformità.

Non sono così comuni in Russia oggi, ma vale la pena menzionarli. Lo scopo di tali sistemi di archiviazione è garantire l'archiviazione dei dati per conformarsi alle politiche di sicurezza o ai requisiti normativi. Alcuni sistemi (ad esempio EMC Centera) hanno implementato una funzione per vietare la cancellazione dei dati: non appena si gira la chiave e il sistema entra in questa modalità, né l'amministratore né nessun altro può eliminare fisicamente i dati che sono già stati registrati.

Tecnologie proprietarie

Cache flash

Flash Cache è un nome comune per tutte le tecnologie proprietarie per l'utilizzo della memoria flash come cache di secondo livello. Quando si utilizza una cache flash, il sistema di archiviazione viene solitamente calcolato per fornire un carico costante dai dischi magnetici, mentre il picco è servito dalla cache.

In questo caso è necessario comprendere il profilo di carico e il grado di localizzazione dell'accesso ai blocchi di volumi di stoccaggio. La cache flash è una tecnologia per carichi di lavoro con query altamente localizzate ed è praticamente inapplicabile per volumi caricati in modo uniforme (come per i sistemi di analisi).

Sul mercato sono disponibili due implementazioni di flash cache:

  • Sola lettura. In questo caso, solo i dati letti vengono memorizzati nella cache e la scrittura va direttamente sui dischi. Alcuni produttori, come NetApp, ritengono che la scrittura sui propri sistemi di archiviazione sia già ottimale e la cache non sarà affatto di aiuto.
  • Leggere scrivere. Non solo la lettura, ma anche la scrittura viene memorizzata nella cache, il che consente di bufferizzare il flusso e ridurre l'impatto della penalità RAID e di conseguenza aumentare le prestazioni complessive per i sistemi di archiviazione con un meccanismo di scrittura meno ottimale.

Livellamento

L'archiviazione multilivello (tiring) è una tecnologia per combinare livelli con diversi livelli di prestazioni, come SSD e HDD, in un unico pool di dischi. In caso di pronunciate irregolarità nell'accesso ai blocchi di dati, il sistema sarà in grado di bilanciare automaticamente i blocchi di dati, spostando quelli caricati a un livello ad alte prestazioni e quelli freddi, al contrario, a uno più lento.

I sistemi ibridi delle classi medio-basse utilizzano l'archiviazione multilivello con i dati che si spostano tra i livelli secondo una pianificazione. Allo stesso tempo, la dimensione del blocco di archiviazione multilivello per i migliori modelli è di 256 MB. Queste caratteristiche non ci consentono di considerare la tecnologia di storage a più livelli una tecnologia per aumentare la produttività, come molte persone credono erroneamente. Lo stoccaggio multilivello nei sistemi di classe bassa e media è una tecnologia per ottimizzare i costi di stoccaggio per sistemi con pronunciate irregolarità di carico.

Istantanea

Non importa quanto si parli dell'affidabilità dei sistemi di archiviazione, ci sono molte possibilità di perdere dati che non dipendono da problemi hardware. Potrebbero trattarsi di virus, hacker o qualsiasi altra cancellazione/corruzione involontaria di dati. Per questo motivo il backup dei dati di produzione è parte integrante del lavoro di un ingegnere.

Uno snapshot è uno snapshot di un volume in un determinato momento. Quando si lavora con la maggior parte dei sistemi, come virtualizzazione, database, ecc. dobbiamo scattare un'istantanea di questo tipo dalla quale copieremo i dati in una copia di backup, mentre il nostro IS potrà continuare a lavorare in sicurezza con questo volume. Ma vale la pena ricordare che non tutte le istantanee sono ugualmente utili. Diversi fornitori hanno approcci diversi alla creazione di snapshot relativi alla loro architettura.

CoW (copia su scrittura). Quando si tenta di scrivere un blocco dati, il suo contenuto originale viene copiato in un'apposita area, dopodiché la scrittura procede normalmente. Ciò impedisce il danneggiamento dei dati all'interno dello snapshot. Naturalmente, tutte queste manipolazioni “parassitarie” dei dati causano un carico aggiuntivo sul sistema di storage e per questo motivo i fornitori con implementazioni simili non consigliano di utilizzare più di una dozzina di snapshot e di non utilizzarli affatto su volumi altamente caricati.

RoW (reindirizzamento in scrittura). In questo caso, il volume originale si blocca naturalmente e, quando si tenta di scrivere un blocco di dati, il sistema di archiviazione scrive i dati in un'area speciale nello spazio libero, modificando la posizione di questo blocco nella tabella dei metadati. Ciò consente di ridurre il numero di operazioni di riscrittura, eliminando in definitiva il calo delle prestazioni e rimuovendo le restrizioni sugli snapshot e sul loro numero.

Anche gli snapshot sono di due tipi in relazione alle applicazioni:

Coerenza dell'applicazione. Al momento della creazione di uno snapshot, il sistema di storage inserisce un agente nel sistema operativo del consumatore, che scarica forzatamente le cache del disco dalla memoria al disco e forza l'applicazione a farlo. In questo caso, quando si ripristina da uno snapshot, i dati saranno coerenti.

Crash coerente. In questo caso, non accade nulla del genere e lo snapshot viene creato così com'è. In caso di ripristino da un'istantanea di questo tipo, l'immagine è identica a ciò che accadrebbe se l'alimentazione venisse improvvisamente interrotta e fosse possibile una certa perdita di dati, che rimanessero bloccati nelle cache e non raggiungessero mai il disco. Tali istantanee sono più facili da implementare e non causano un degrado delle prestazioni nelle applicazioni, ma sono meno affidabili.

Perché sono necessarie le istantanee sui sistemi di storage?

  • Backup senza agenti direttamente dal sistema di storage
  • Crea ambienti di test basati su dati reali
  • Nel caso dei sistemi di file storage, può essere utilizzato per creare ambienti VDI attraverso l'utilizzo di snapshot del sistema di storage invece di un hypervisor
  • Garantisci RPO bassi creando snapshot pianificati con una frequenza significativamente superiore alla frequenza di backup

Clonazione

Clonazione del volume: funziona secondo un principio simile alle istantanee, ma viene utilizzata non solo per leggere i dati, ma per lavorarci completamente. Possiamo ottenere una copia esatta del nostro volume, con tutti i dati al suo interno, senza fare una copia fisica, risparmiando spazio. In genere, la clonazione del volume viene utilizzata in Test&Dev o se desideri verificare la funzionalità di alcuni aggiornamenti sul tuo IS. La clonazione ti consentirà di farlo nel modo più rapido ed economico possibile in termini di risorse su disco, perché Verranno scritti solo i blocchi dati modificati.

Replica/inserimento nel journal

La replica è un meccanismo per creare una copia dei dati su un altro sistema di archiviazione fisico. In genere, ciascun fornitore dispone di una tecnologia proprietaria che funziona solo all'interno della propria linea. Ma esistono anche soluzioni di terze parti, comprese quelle che funzionano a livello di hypervisor, come VMware vSphere Replication.

La funzionalità delle tecnologie proprietarie e la facilità d'uso delle stesse sono generalmente molto superiori a quelle universali, ma risultano inapplicabili quando, ad esempio, è necessario effettuare una replica da NetApp a HP MSA.

La replica è divisa in due sottotipi:

Sincrono. In caso di replica sincrona, l'operazione di scrittura viene inviata immediatamente al secondo sistema di storage e l'esecuzione non viene confermata finché il sistema di storage remoto non conferma. Per questo motivo, il ritardo di accesso aumenta, ma disponiamo di una copia speculare esatta dei dati. Quelli. RPO = 0 in caso di perdita del sistema di accumulo principale.

asincrono. Le operazioni di scrittura vengono eseguite solo sul sistema di storage principale e vengono confermate immediatamente, contemporaneamente accumulate in un buffer per la trasmissione batch al sistema di storage remoto. Questo tipo di replica è rilevante per dati meno preziosi o per canali con larghezza di banda ridotta o latenza elevata (tipico per distanze superiori a 100 km). Di conseguenza, RPO = frequenza di invio dei pacchetti.

Spesso, insieme alla replica, esiste un meccanismo registrazione operazioni sul disco. In questo caso viene allocata un'area speciale per il logging e vengono archiviate operazioni di registrazione di una certa profondità nel tempo o limitate dal volume del log. Per alcune tecnologie proprietarie, come EMC RecoverPoint, è prevista l'integrazione con il software di sistema che consente di collegare determinati segnalibri a una voce di registro specifica. Grazie a ciò, è possibile ripristinare lo stato di un volume (o creare un clone) non solo al 23 aprile 11 ore 59 secondi 13 millisecondi, ma al momento prima di “DROP ALL TABLES; COMMETTERE."

Gruppo metropolitano

Metro cluster è una tecnologia che consente di creare una replica sincrona bidirezionale tra due sistemi di archiviazione in modo tale che dall'esterno questa coppia sembri un unico sistema di archiviazione. Viene utilizzato per creare cluster con bracci geograficamente separati a distanze metropolitane (meno di 100 km).

Basandosi sull'esempio di utilizzo in un ambiente di virtualizzazione, il metrocluster consente di creare un datastore con macchine virtuali, accessibile per la registrazione da due data center contemporaneamente. In questo caso viene creato un cluster a livello di hypervisor, composto da host in diversi data center fisici, collegati a questo datastore. Che ti consente di fare quanto segue:

  • Automazione completa del processo di ripristino dopo la morte di uno dei data center. Senza fondi aggiuntivi, tutte le VM in esecuzione nel data center deceduto verranno automaticamente riavviate in quello rimanente. RTO = timeout del cluster ad alta disponibilità (15 secondi per VMware) + tempo per caricare il sistema operativo e avviare i servizi.
  • Evitare i disastri o, in russo, evitare i disastri. Se nel data center 1 sono pianificati lavori di alimentazione elettrica, abbiamo la possibilità di migrare l'intero carico importante nel data center 2 ininterrottamente e in anticipo, prima dell'inizio dei lavori.

Virtualizzazione

La virtualizzazione dello storage è tecnicamente l'utilizzo di volumi di un altro sistema di storage come dischi. Un virtualizzatore di archiviazione può semplicemente trasferire il volume di qualcun altro al consumatore come se fosse il proprio, eseguendo contemporaneamente il mirroring su un altro sistema di archiviazione o persino creare un RAID da volumi esterni.
I rappresentanti classici nella classe di virtualizzazione dello storage sono EMC VPLEX e IBM SVC. E, naturalmente, sistemi di storage con funzionalità di virtualizzazione: NetApp, Hitachi, IBM / Lenovo Storwize.

Perché potrebbe essere necessario?

  • Ridondanza a livello del sistema di storage. Viene creato un mirror tra i volumi e metà può trovarsi su HP 3Par e l'altra su NetApp. E il virtualizzatore è di EMC.
  • Sposta i dati con tempi di inattività minimi tra sistemi di storage di diversi produttori. Supponiamo che i dati debbano essere migrati dal vecchio 3Par, che verrà cancellato, al nuovo Dell. In questo caso, i consumatori vengono disconnessi da 3Par, i volumi vengono trasferiti sotto VPLEX e vengono nuovamente presentati ai consumatori. Dato che il volume non è cambiato neanche un po', il lavoro continua. Il processo di mirroring del volume sul nuovo Dell inizia in background e, al termine, il mirroring viene interrotto e 3Par viene disabilitato.
  • Organizzazione dei metrocluster.

Compressione/deduplicazione

La compressione e la deduplicazione sono tecnologie che consentono di risparmiare spazio su disco nel sistema di storage. Vale subito la pena ricordare che in linea di principio non tutti i dati sono soggetti a compressione e/o deduplicazione, mentre alcuni tipi di dati vengono compressi e deduplicati meglio e altri viceversa.

Esistono 2 tipi di compressione e deduplicazione:

In linea — la compressione e la deduplicazione dei blocchi di dati avvengono prima di scrivere questi dati su disco. Pertanto il sistema calcola solo l'hash del blocco e lo confronta nella tabella con quelli esistenti. In primo luogo, è più veloce della semplice scrittura su disco e, in secondo luogo, non sprechiamo spazio aggiuntivo su disco.

Post - quando queste operazioni vengono eseguite su dati già registrati presenti su dischi. Di conseguenza, i dati vengono prima scritti sul disco e solo successivamente viene calcolato l'hash, i blocchi non necessari vengono eliminati e le risorse del disco liberate.

Vale la pena dire che la maggior parte dei fornitori utilizza entrambi i tipi, il che consente loro di ottimizzare questi processi e quindi di aumentare la loro efficienza. La maggior parte dei fornitori di storage dispone di utilità che consentono di analizzare i set di dati. Queste utenze funzionano secondo la stessa logica implementata nel sistema di accumulo, quindi il livello di efficienza stimato sarà lo stesso. Inoltre, tieni presente che molti fornitori dispongono di programmi di garanzia delle prestazioni che promettono prestazioni almeno altrettanto buone per alcuni (o tutti) tipi di dati. E non dovresti trascurare questo programma, perché calcolando il sistema per le tue attività, tenendo conto del coefficiente di efficienza di un particolare sistema, puoi risparmiare sul volume. Vale anche la pena considerare che questi programmi sono progettati per i sistemi AFA, ma grazie all'acquisto di un volume inferiore di SSD rispetto agli HDD nei sistemi classici, ciò ridurrà il loro costo e, se non uguale al costo di un sistema disco, quindi avvicinarsi parecchio ad esso.

Modello

E qui arriviamo alla domanda giusta.

"Mi offrono due opzioni di archiviazione: ABC SuperStorage S600 e XYZ HyperOcean 666v4, cosa mi consigliate?"

Si trasforma in “Qui mi offrono due opzioni di archiviazione: ABC SuperStorage S600 e XYZ HyperOcean 666v4, cosa mi consigliate?

Il carico di destinazione è costituito da macchine virtuali VMware miste con cicli di produzione/test/sviluppo. Prova = produttivo. 150 TB ciascuno con prestazioni di picco di 80 IOPS Blocco da 000 kb accesso casuale al 8% lettura-scrittura 50/80. 20 TB per lo sviluppo, 300 IOPS sono sufficienti, 50 casuali, 000 in scrittura.

Produttività presumibilmente nel metrocluster RPO = 15 minuti RTO = 1 ora, sviluppo in replica asincrona RPO = 3 ore, test su un sito.

Ci sarà un DBMS da 50 TB, la registrazione sarebbe utile per loro.

Abbiamo server Dell ovunque, vecchi sistemi di storage Hitachi, riescono a malapena a farcela, prevediamo di aumentare il carico del 50% in termini di volume e prestazioni”.

Come si suol dire, una domanda formulata correttamente contiene l'80% della risposta.

ulteriori informazioni

Cosa dovresti leggere in più secondo gli autori

libri

  • Olifer e Olifer “Reti di calcolatori”. Il libro aiuterà a sistematizzare e forse a comprendere meglio come funziona il mezzo di trasmissione dati per i sistemi di archiviazione IP/Ethernet
  • "Archiviazione e gestione delle informazioni EMC". Un ottimo libro sui fondamenti dei sistemi di storage, i perché, i come e i percome.

Forum e chat

Raccomandazioni generali

Prezzi

Ora, per quanto riguarda i prezzi, in generale, se ci sono prezzi per i sistemi di stoccaggio, di solito sono prezzi di listino, dai quali ogni cliente riceve uno sconto individuale. L'entità dello sconto è composta da un gran numero di parametri, quindi è semplicemente impossibile prevedere quale prezzo finale riceverà la tua azienda senza chiedere al distributore. Ma allo stesso tempo, recentemente nei normali negozi di computer hanno iniziato ad apparire modelli di fascia bassa, come ad esempio nix.ru o xcom-shop.ru. Qui puoi acquistare subito il sistema che ti interessa ad un prezzo fisso, come tutti i componenti del computer.

Ma vorrei subito sottolineare che un confronto diretto TB/$ non è corretto. Se lo affrontiamo da questo punto di vista, la soluzione più economica sarà un semplice server JBOD +, che non fornirà né la flessibilità né l'affidabilità fornite da un sistema di archiviazione a doppio controller completo. Ciò non significa affatto che JBOD sia disgustoso e un brutto scherzo, devi solo capire ancora una volta molto chiaramente come e per quali scopi utilizzerai questa soluzione. Spesso puoi sentire che non c'è nulla da rompere in JBOD, c'è solo un backplane. Tuttavia, anche i backplane a volte falliscono. Tutto si rompe prima o poi.

In totale

È necessario confrontare i sistemi tra loro non solo in base al prezzo, o non solo in termini di prestazioni, ma in base alla totalità di tutti gli indicatori.

Acquista l'HDD solo se sei sicuro di averne bisogno. Per carichi bassi e tipi di dati incomprimibili, altrimenti, vale la pena rivolgersi ai programmi di garanzia dell'efficienza dello storage SSD, che la maggior parte dei fornitori ora ha (e funzionano davvero, anche in Russia), ma tutto dipende dalle applicazioni e dai dati che verranno posizionati su questo sistema di archiviazione.

Non andare a buon mercato. A volte questi nascondono molti momenti spiacevoli, uno dei quali ha descritto Evgeniy Elizarov nei suoi articoli Infotrend. E che, alla fine, questa convenienza può ritorcersi contro di te. Non dimenticare: "l'avaro paga due volte".

Fonte: www.habr.com

Aggiungi un commento