Oggi parleremo di come archiviare al meglio i dati in un mondo in cui le reti di quinta generazione, gli scanner genomici e le auto a guida autonoma producono più dati al giorno di quanti ne generasse tutta l’umanità prima della rivoluzione industriale.
Il nostro mondo genera sempre più informazioni. Una parte di esso è fugace e si perde con la stessa rapidità con cui viene raccolta. Un altro dovrebbe essere conservato più a lungo, e un altro è addirittura progettato “per secoli” – almeno questo è quello che vediamo dal presente. I flussi di informazioni si depositano nei data center a una velocità tale che qualsiasi nuovo approccio, qualsiasi tecnologia progettata per soddisfare questa “domanda” infinita diventa rapidamente obsoleta.
40 anni di sviluppo di sistemi di storage distribuito
Il primo storage di rete nella forma a noi familiare è apparso negli anni '1980. Molti di voi si sono imbattuti in NFS (Network File System), AFS (Andrew File System) o Coda. Un decennio dopo, la moda e la tecnologia sono cambiate e i file system distribuiti hanno lasciato il posto a sistemi di storage in cluster basati su GPFS (General Parallel File System), CFS (Clustered File Systems) e StorNext. Come base è stato utilizzato lo storage a blocchi dell'architettura classica, sul quale è stato creato un unico file system utilizzando un livello software. Queste e soluzioni simili sono ancora utilizzate, occupano la loro nicchia e sono piuttosto richieste.
All’inizio del millennio, il paradigma dello storage distribuito è leggermente cambiato e i sistemi con architettura SN (Shared-Nothing) hanno preso le posizioni di comando. Si è verificata una transizione dallo storage in cluster allo storage su singoli nodi, che, di regola, erano server classici con software che fornivano storage affidabile; Su tali principi, ad esempio, sono costruiti HDFS (Hadoop Distributed File System) e GFS (Global File System).
Verso gli anni 2010, i concetti alla base dei sistemi di storage distribuito hanno iniziato a riflettersi sempre più in prodotti commerciali completi, come VMware vSAN, Dell EMC Isilon e il nostro
Operatori di telecomunicazioni
Forse uno dei più antichi consumatori di sistemi di storage distribuito sono gli operatori di telecomunicazioni. Il diagramma mostra quali gruppi di applicazioni producono la maggior parte dei dati. OSS (Operations Support Systems), MSS (Management Support Services) e BSS (Business Support Systems) rappresentano tre livelli software complementari necessari per fornire servizi agli abbonati, reporting finanziario al fornitore e supporto operativo agli ingegneri degli operatori.
Spesso i dati di questi livelli sono fortemente mescolati tra loro e, per evitare l'accumulo di copie non necessarie, viene utilizzato lo storage distribuito, che accumula l'intera quantità di informazioni provenienti dalla rete operativa. I depositi sono riuniti in un pool comune, a cui accedono tutti i servizi.
I nostri calcoli mostrano che il passaggio dai sistemi di storage classici ai sistemi di block storage consente di risparmiare fino al 70% del budget solo abbandonando i sistemi di storage hi-end dedicati e utilizzando server convenzionali con architettura classica (solitamente x86), lavorando in collaborazione con specialisti specializzati. Software. Gli operatori di telefonia mobile hanno iniziato da tempo ad acquistare tali soluzioni in grandi quantità. In particolare, gli operatori russi utilizzano tali prodotti Huawei da più di sei anni.
Sì, numerose attività non possono essere completate utilizzando sistemi distribuiti. Ad esempio, con maggiori requisiti di prestazione o compatibilità con protocolli precedenti. Ma almeno il 70% dei dati elaborati dall'operatore può trovarsi in un pool distribuito.
Settore bancario
In ogni banca esistono molti sistemi IT diversi, a partire dall'elaborazione e termina con un sistema bancario automatizzato. Questa infrastruttura funziona anche con un'enorme quantità di informazioni, mentre la maggior parte delle attività non richiede maggiori prestazioni e affidabilità dei sistemi di archiviazione, ad esempio sviluppo, test, automazione dei processi di ufficio, ecc. Qui è possibile l'uso di sistemi di archiviazione classici, ma ogni anno è sempre meno redditizio. Inoltre, in questo caso non vi è flessibilità nell'utilizzo delle risorse del sistema di storage, le cui prestazioni vengono calcolate in base al carico di punta.
Quando si utilizzano sistemi di archiviazione distribuiti, i loro nodi, che in realtà sono normali server, possono essere convertiti in qualsiasi momento, ad esempio, in una server farm e utilizzati come piattaforma informatica.
Laghi di dati
Il diagramma sopra mostra un elenco di consumatori tipici del servizio
L'utilizzo dei classici sistemi di archiviazione per risolvere tali problemi è inefficace, poiché richiede sia un accesso ad alte prestazioni ai database a blocchi sia un accesso regolare alle librerie di documenti scansionati archiviati come oggetti. Qui è possibile collegare ad esempio anche un sistema di ordinazione tramite un portale web. Per implementare tutto ciò su una piattaforma di archiviazione classica, avrai bisogno di un ampio set di attrezzature per vari compiti. Un sistema di stoccaggio universale orizzontale può coprire tutte le attività elencate in precedenza: è sufficiente creare diversi pool con caratteristiche di stoccaggio diverse al suo interno.
Generatori di nuove informazioni
La quantità di informazioni archiviate nel mondo cresce di circa il 30% all’anno. Questa è una buona notizia per i fornitori di storage, ma qual è e sarà la principale fonte di questi dati?
Dieci anni fa i social network sono diventati tali generatori, il che ha richiesto la creazione di un gran numero di nuovi algoritmi, soluzioni hardware, ecc. Ora ci sono tre fattori principali per la crescita dei volumi di archiviazione. Il primo è il cloud computing. Attualmente, circa il 70% delle aziende utilizza i servizi cloud in un modo o nell'altro. Questi possono essere sistemi di posta elettronica, copie di backup e altre entità virtualizzate.
Il secondo fattore trainante sono le reti di quinta generazione. Si tratta di nuove velocità e nuovi volumi di trasferimento dati. Secondo le nostre previsioni, l’adozione diffusa del 5G porterà ad un calo della domanda di schede di memoria flash. Non importa quanta memoria ci sia nel telefono, si esaurisce comunque e se il gadget ha un canale da 100 megabit, non è necessario archiviare le foto localmente.
Il terzo gruppo di motivi per cui la domanda di sistemi di storage è in crescita comprende il rapido sviluppo dell’intelligenza artificiale, il passaggio all’analisi dei big data e la tendenza verso l’automazione universale di tutto ciò che è possibile.
Una caratteristica del “nuovo traffico” è la sua
Oceano di dati non strutturati
Quali problemi comporta l’emergere di “nuovi dati”? Il primo di questi, ovviamente, è l'enorme volume di informazioni e il periodo stimato di conservazione. Una moderna automobile autonoma senza conducente genera ogni giorno fino a 60 terabyte di dati da tutti i suoi sensori e meccanismi. Per sviluppare nuovi algoritmi di movimento, queste informazioni devono essere elaborate entro lo stesso giorno, altrimenti inizieranno ad accumularsi. Allo stesso tempo, deve essere conservato per un tempo molto lungo: decenni. Solo allora sarà possibile in futuro trarre conclusioni sulla base di campioni analitici di grandi dimensioni.
Un dispositivo per decifrare le sequenze genetiche produce circa 6 TB al giorno. E i dati raccolti con il suo aiuto non implicano affatto la cancellazione, cioè, ipoteticamente, dovrebbero essere conservati per sempre.
Infine, le stesse reti di quinta generazione. Oltre alle informazioni effettivamente trasmesse, tale rete stessa è un enorme generatore di dati: registri delle attività, registri delle chiamate, risultati intermedi delle interazioni da macchina a macchina, ecc.
Tutto ciò richiede lo sviluppo di nuovi approcci e algoritmi per l’archiviazione e l’elaborazione delle informazioni. E tali approcci stanno emergendo.
Tecnologie della nuova era
Esistono tre gruppi di soluzioni progettate per far fronte alle nuove esigenze dei sistemi di archiviazione delle informazioni: l'introduzione dell'intelligenza artificiale, l'evoluzione tecnica dei supporti di archiviazione e le innovazioni nel campo dell'architettura del sistema. Cominciamo con l'intelligenza artificiale.
Nelle nuove soluzioni Huawei, l'intelligenza artificiale viene utilizzata a livello dello storage stesso, che è dotato di un processore AI che consente al sistema di analizzare autonomamente le sue condizioni e prevedere i guasti. Se il sistema di storage è collegato a un servizio cloud dotato di notevoli capacità di calcolo, l’intelligenza artificiale sarà in grado di elaborare più informazioni e aumentare la precisione delle sue ipotesi.
Oltre ai guasti, tale intelligenza artificiale può prevedere i futuri picchi di carico e il tempo rimanente fino all’esaurimento della capacità. Ciò consente di ottimizzare le prestazioni e scalare il sistema prima che si verifichino eventi indesiderati.
Ora sull'evoluzione dei supporti di memorizzazione. Le prime unità flash sono state realizzate utilizzando la tecnologia SLC (Single-Level Cell). I dispositivi basati su di esso erano veloci, affidabili, stabili, ma avevano una capacità ridotta ed erano molto costosi. L'aumento dei volumi e la riduzione dei prezzi sono stati ottenuti attraverso alcune concessioni tecniche, grazie alle quali sono state ridotte la velocità, l'affidabilità e la durata degli azionamenti. Tuttavia, la tendenza non ha influenzato i sistemi di stoccaggio stessi che, grazie a vari accorgimenti architettonici, sono diventati generalmente più produttivi e più affidabili.
Ma perché avevi bisogno di sistemi di storage All-Flash? Non bastava semplicemente sostituire i vecchi HDD in un sistema già operativo con nuovi SSD dello stesso fattore di forma? Ciò era necessario per utilizzare in modo efficace tutte le risorse delle nuove unità a stato solido, cosa semplicemente impossibile nei sistemi più vecchi.
Huawei, ad esempio, ha sviluppato una serie di tecnologie per risolvere questo problema, una delle quali è
L'identificazione intelligente ha permesso di scomporre i dati in diversi flussi e di far fronte a una serie di fenomeni indesiderati, come
Guasti, sovraffollamento, raccolta dei rifiuti: anche questi fattori non influiscono più sulle prestazioni del sistema di stoccaggio grazie a speciali modifiche ai controller.
E anche gli archivi di dati a blocchi si stanno preparando a incontrarsi
La prossima fase di sviluppo tecnologico a cui stiamo assistendo ora è l’uso di NVMe-oF (NVMe over Fabrics). Per quanto riguarda le tecnologie a blocchi Huawei, supportano già FC-NVMe (NVMe over Fibre Channel) e NVMe over RoCE (RDMA over Converged Ethernet) è in arrivo. I modelli in prova sono abbastanza funzionanti; mancano diversi mesi alla loro presentazione ufficiale. Si noti che tutto ciò apparirà nei sistemi distribuiti, dove “Ethernet senza perdite” sarà molto richiesto.
Un ulteriore modo per ottimizzare il funzionamento dello storage distribuito è stato il completo abbandono del mirroring dei dati. Le soluzioni Huawei non utilizzano più n copie, come nel solito RAID 1, e passano completamente al
I meccanismi di deduplicazione e compressione diventano obbligatori. Se nei sistemi di storage classici siamo limitati dal numero di processori installati nei controller, nei sistemi di storage distribuiti scalabili orizzontalmente ogni nodo contiene tutto il necessario: dischi, memoria, processori e interconnessione. Queste risorse sono sufficienti per garantire che la deduplicazione e la compressione abbiano un impatto minimo sulle prestazioni.
E sui metodi di ottimizzazione dell'hardware. Qui è stato possibile ridurre il carico sui processori centrali con l'aiuto di chip dedicati aggiuntivi (o blocchi dedicati nel processore stesso), che svolgono un ruolo
Nuovi approcci all’archiviazione dei dati sono incorporati in un’architettura disaggregata (distribuita). I sistemi di storage centralizzati dispongono di una fabbrica di server collegata tramite Fibre Channel
A differenza di quanto sopra, implica un'architettura disaggregata dividendo il sistema in un tessuto informatico e un sistema di storage orizzontale. Ciò offre i vantaggi di entrambe le architetture e consente un ridimensionamento quasi illimitato solo dell'elemento privo di prestazioni.
Dall'integrazione alla convergenza
Un compito classico, la cui rilevanza è cresciuta solo negli ultimi 15 anni, è la necessità di fornire contemporaneamente storage a blocchi, accesso ai file, accesso agli oggetti, funzionamento di una big data farm, ecc. La ciliegina sulla torta potrebbe anche essere, ad esempio, un sistema di backup su nastro magnetico.
In una prima fase potrebbe essere unificata solo la gestione di questi servizi. I sistemi eterogenei di archiviazione dei dati erano collegati ad alcuni software specializzati, attraverso i quali l'amministratore distribuiva le risorse dai pool disponibili. Ma poiché questi pool avevano hardware diverso, la migrazione del carico tra di loro era impossibile. A un livello di integrazione più elevato, l'aggregazione è avvenuta a livello di gateway. Se la condivisione dei file fosse disponibile, potrebbe essere servita attraverso diversi protocolli.
Il metodo di convergenza più avanzato attualmente a nostra disposizione prevede la creazione di un sistema ibrido universale. Esattamente quello che dovrebbe diventare il nostro
Il costo di archiviazione delle informazioni oggi determina molte decisioni relative all'architettura. E sebbene possa essere tranquillamente messo in primo piano, oggi parliamo di storage “live” con accesso attivo, quindi bisogna tenere conto anche delle prestazioni. Un'altra proprietà importante dei sistemi distribuiti di prossima generazione è l'unificazione. Dopotutto, nessuno vuole avere diversi sistemi disparati controllati da console diverse. Tutte queste qualità sono incarnate nella nuova serie di prodotti Huawei
Sistema di archiviazione di massa di nuova generazione
OceanStor Pacific soddisfa i requisiti di affidabilità sei-nove (99,9999%) e può essere utilizzato per creare data center di classe HyperMetro. Con una distanza tra due data center fino a 100 km, i sistemi dimostrano una latenza aggiuntiva di 2 ms, che rende possibile costruire sulla loro base qualsiasi soluzione resistente ai disastri, comprese quelle con server quorum.
I prodotti della nuova serie dimostrano la versatilità del protocollo. OceanStor 100D supporta già l'accesso a blocchi, l'accesso agli oggetti e l'accesso Hadoop. Nel prossimo futuro verrà implementato anche l'accesso ai file. Non è necessario archiviare più copie dei dati se possono essere emesse tramite protocolli diversi.
Sembrerebbe, cosa c'entra il concetto di "rete senza perdite" con i sistemi di storage? Il fatto è che i sistemi di archiviazione distribuita dei dati sono costruiti sulla base di una rete veloce che supporta gli algoritmi appropriati e il meccanismo RoCE. Il sistema di intelligenza artificiale supportato dai nostri switch aiuta ad aumentare ulteriormente la velocità della rete e a ridurre la latenza.
Cos'è il nuovo nodo di archiviazione distribuito OceanStor Pacific? La soluzione con fattore di forma 5U comprende 120 unità e può sostituire tre nodi classici, garantendo un risparmio più che doppio nello spazio rack. Non memorizzando copie, l'efficienza degli azionamenti aumenta significativamente (fino al +92%).
Siamo abituati al fatto che lo storage definito dal software è un software speciale installato su un server classico. Ma ora, per raggiungere parametri ottimali, questa soluzione architetturale richiede anche nodi speciali. È costituito da due server basati su processori ARM che gestiscono una serie di unità da tre pollici.
Questi server non sono adatti per soluzioni iperconvergenti. In primo luogo, esistono numerose applicazioni per ARM e, in secondo luogo, è difficile mantenere il bilanciamento del carico. Proponiamo il passaggio ad uno storage separato: un cluster informatico, rappresentato da server classici o rack, opera separatamente, ma è collegato ai nodi di storage OceanStor Pacific, che svolgono anche i loro compiti diretti. E si giustifica.
Ad esempio, prendiamo una classica soluzione di archiviazione di big data con un sistema iperconvergente che occupa 15 rack di server. Se distribuisci il carico tra server informatici separati e nodi di storage OceanStor Pacific, separandoli gli uni dagli altri, il numero di rack richiesti verrà dimezzato! Ciò riduce i costi operativi del data center e riduce il costo totale di proprietà. In un mondo in cui il volume delle informazioni archiviate cresce del 30% all’anno, tali vantaggi non vengono sprecati.
***
Puoi ottenere maggiori informazioni sulle soluzioni Huawei e sui relativi scenari applicativi sul nostro
Fonte: habr.com