Tendenze del settore nei sistemi di archiviazione di massa

Oggi parleremo di come archiviare al meglio i dati in un mondo in cui le reti di quinta generazione, gli scanner genomici e le auto a guida autonoma producono più dati al giorno di quanti ne generasse tutta l’umanità prima della rivoluzione industriale.

Tendenze del settore nei sistemi di archiviazione di massa

Il nostro mondo genera sempre più informazioni. Una parte di esso è fugace e si perde con la stessa rapidità con cui viene raccolta. Un altro dovrebbe essere conservato più a lungo, e un altro è addirittura progettato “per secoli” – almeno questo è quello che vediamo dal presente. I flussi di informazioni si depositano nei data center a una velocità tale che qualsiasi nuovo approccio, qualsiasi tecnologia progettata per soddisfare questa “domanda” infinita diventa rapidamente obsoleta.

Tendenze del settore nei sistemi di archiviazione di massa

40 anni di sviluppo di sistemi di storage distribuito

Il primo storage di rete nella forma a noi familiare è apparso negli anni '1980. Molti di voi si sono imbattuti in NFS (Network File System), AFS (Andrew File System) o Coda. Un decennio dopo, la moda e la tecnologia sono cambiate e i file system distribuiti hanno lasciato il posto a sistemi di storage in cluster basati su GPFS (General Parallel File System), CFS (Clustered File Systems) e StorNext. Come base è stato utilizzato lo storage a blocchi dell'architettura classica, sul quale è stato creato un unico file system utilizzando un livello software. Queste e soluzioni simili sono ancora utilizzate, occupano la loro nicchia e sono piuttosto richieste.

All’inizio del millennio, il paradigma dello storage distribuito è leggermente cambiato e i sistemi con architettura SN (Shared-Nothing) hanno preso le posizioni di comando. Si è verificata una transizione dallo storage in cluster allo storage su singoli nodi, che, di regola, erano server classici con software che fornivano storage affidabile; Su tali principi, ad esempio, sono costruiti HDFS (Hadoop Distributed File System) e GFS (Global File System).

Verso gli anni 2010, i concetti alla base dei sistemi di storage distribuito hanno iniziato a riflettersi sempre più in prodotti commerciali completi, come VMware vSAN, Dell EMC Isilon e il nostro Huawei Ocean Store. Dietro le piattaforme menzionate non c'è più una comunità di appassionati, ma fornitori specifici che sono responsabili della funzionalità, del supporto e del servizio del prodotto e ne garantiscono l'ulteriore sviluppo. Tali soluzioni sono più richieste in diversi settori.

Tendenze del settore nei sistemi di archiviazione di massa

Operatori di telecomunicazioni

Forse uno dei più antichi consumatori di sistemi di storage distribuito sono gli operatori di telecomunicazioni. Il diagramma mostra quali gruppi di applicazioni producono la maggior parte dei dati. OSS (Operations Support Systems), MSS (Management Support Services) e BSS (Business Support Systems) rappresentano tre livelli software complementari necessari per fornire servizi agli abbonati, reporting finanziario al fornitore e supporto operativo agli ingegneri degli operatori.

Spesso i dati di questi livelli sono fortemente mescolati tra loro e, per evitare l'accumulo di copie non necessarie, viene utilizzato lo storage distribuito, che accumula l'intera quantità di informazioni provenienti dalla rete operativa. I depositi sono riuniti in un pool comune, a cui accedono tutti i servizi.

I nostri calcoli mostrano che il passaggio dai sistemi di storage classici ai sistemi di block storage consente di risparmiare fino al 70% del budget solo abbandonando i sistemi di storage hi-end dedicati e utilizzando server convenzionali con architettura classica (solitamente x86), lavorando in collaborazione con specialisti specializzati. Software. Gli operatori di telefonia mobile hanno iniziato da tempo ad acquistare tali soluzioni in grandi quantità. In particolare, gli operatori russi utilizzano tali prodotti Huawei da più di sei anni.

Sì, numerose attività non possono essere completate utilizzando sistemi distribuiti. Ad esempio, con maggiori requisiti di prestazione o compatibilità con protocolli precedenti. Ma almeno il 70% dei dati elaborati dall'operatore può trovarsi in un pool distribuito.

Tendenze del settore nei sistemi di archiviazione di massa

Settore bancario

In ogni banca esistono molti sistemi IT diversi, a partire dall'elaborazione e termina con un sistema bancario automatizzato. Questa infrastruttura funziona anche con un'enorme quantità di informazioni, mentre la maggior parte delle attività non richiede maggiori prestazioni e affidabilità dei sistemi di archiviazione, ad esempio sviluppo, test, automazione dei processi di ufficio, ecc. Qui è possibile l'uso di sistemi di archiviazione classici, ma ogni anno è sempre meno redditizio. Inoltre, in questo caso non vi è flessibilità nell'utilizzo delle risorse del sistema di storage, le cui prestazioni vengono calcolate in base al carico di punta.

Quando si utilizzano sistemi di archiviazione distribuiti, i loro nodi, che in realtà sono normali server, possono essere convertiti in qualsiasi momento, ad esempio, in una server farm e utilizzati come piattaforma informatica.

Tendenze del settore nei sistemi di archiviazione di massa

Laghi di dati

Il diagramma sopra mostra un elenco di consumatori tipici del servizio lago dati. Potrebbero essere servizi di e-government (ad esempio “servizi governativi”), imprese digitalizzate, istituti finanziari, ecc. Tutti devono lavorare con grandi volumi di informazioni eterogenee.

L'utilizzo dei classici sistemi di archiviazione per risolvere tali problemi è inefficace, poiché richiede sia un accesso ad alte prestazioni ai database a blocchi sia un accesso regolare alle librerie di documenti scansionati archiviati come oggetti. Qui è possibile collegare ad esempio anche un sistema di ordinazione tramite un portale web. Per implementare tutto ciò su una piattaforma di archiviazione classica, avrai bisogno di un ampio set di attrezzature per vari compiti. Un sistema di stoccaggio universale orizzontale può coprire tutte le attività elencate in precedenza: è sufficiente creare diversi pool con caratteristiche di stoccaggio diverse al suo interno.

Tendenze del settore nei sistemi di archiviazione di massa

Generatori di nuove informazioni

La quantità di informazioni archiviate nel mondo cresce di circa il 30% all’anno. Questa è una buona notizia per i fornitori di storage, ma qual è e sarà la principale fonte di questi dati?

Dieci anni fa i social network sono diventati tali generatori, il che ha richiesto la creazione di un gran numero di nuovi algoritmi, soluzioni hardware, ecc. Ora ci sono tre fattori principali per la crescita dei volumi di archiviazione. Il primo è il cloud computing. Attualmente, circa il 70% delle aziende utilizza i servizi cloud in un modo o nell'altro. Questi possono essere sistemi di posta elettronica, copie di backup e altre entità virtualizzate.
Il secondo fattore trainante sono le reti di quinta generazione. Si tratta di nuove velocità e nuovi volumi di trasferimento dati. Secondo le nostre previsioni, l’adozione diffusa del 5G porterà ad un calo della domanda di schede di memoria flash. Non importa quanta memoria ci sia nel telefono, si esaurisce comunque e se il gadget ha un canale da 100 megabit, non è necessario archiviare le foto localmente.

Il terzo gruppo di motivi per cui la domanda di sistemi di storage è in crescita comprende il rapido sviluppo dell’intelligenza artificiale, il passaggio all’analisi dei big data e la tendenza verso l’automazione universale di tutto ciò che è possibile.

Una caratteristica del “nuovo traffico” è la sua mancanza di struttura. Dobbiamo archiviare questi dati senza definirne il formato in alcun modo. È necessario solo per la lettura successiva. Ad esempio, per determinare l'importo del prestito disponibile, un sistema di punteggio bancario esaminerà le foto che pubblichi sui social network, determinerà se vai spesso al mare e al ristorante e allo stesso tempo studierà gli estratti dei tuoi documenti medici disponibili ad esso. Questi dati, da un lato, sono completi, ma dall’altro mancano di omogeneità.

Tendenze del settore nei sistemi di archiviazione di massa

Oceano di dati non strutturati

Quali problemi comporta l’emergere di “nuovi dati”? Il primo di questi, ovviamente, è l'enorme volume di informazioni e il periodo stimato di conservazione. Una moderna automobile autonoma senza conducente genera ogni giorno fino a 60 terabyte di dati da tutti i suoi sensori e meccanismi. Per sviluppare nuovi algoritmi di movimento, queste informazioni devono essere elaborate entro lo stesso giorno, altrimenti inizieranno ad accumularsi. Allo stesso tempo, deve essere conservato per un tempo molto lungo: decenni. Solo allora sarà possibile in futuro trarre conclusioni sulla base di campioni analitici di grandi dimensioni.

Un dispositivo per decifrare le sequenze genetiche produce circa 6 TB al giorno. E i dati raccolti con il suo aiuto non implicano affatto la cancellazione, cioè, ipoteticamente, dovrebbero essere conservati per sempre.

Infine, le stesse reti di quinta generazione. Oltre alle informazioni effettivamente trasmesse, tale rete stessa è un enorme generatore di dati: registri delle attività, registri delle chiamate, risultati intermedi delle interazioni da macchina a macchina, ecc.

Tutto ciò richiede lo sviluppo di nuovi approcci e algoritmi per l’archiviazione e l’elaborazione delle informazioni. E tali approcci stanno emergendo.

Tendenze del settore nei sistemi di archiviazione di massa

Tecnologie della nuova era

Esistono tre gruppi di soluzioni progettate per far fronte alle nuove esigenze dei sistemi di archiviazione delle informazioni: l'introduzione dell'intelligenza artificiale, l'evoluzione tecnica dei supporti di archiviazione e le innovazioni nel campo dell'architettura del sistema. Cominciamo con l'intelligenza artificiale.

Tendenze del settore nei sistemi di archiviazione di massa

Nelle nuove soluzioni Huawei, l'intelligenza artificiale viene utilizzata a livello dello storage stesso, che è dotato di un processore AI che consente al sistema di analizzare autonomamente le sue condizioni e prevedere i guasti. Se il sistema di storage è collegato a un servizio cloud dotato di notevoli capacità di calcolo, l’intelligenza artificiale sarà in grado di elaborare più informazioni e aumentare la precisione delle sue ipotesi.

Oltre ai guasti, tale intelligenza artificiale può prevedere i futuri picchi di carico e il tempo rimanente fino all’esaurimento della capacità. Ciò consente di ottimizzare le prestazioni e scalare il sistema prima che si verifichino eventi indesiderati.

Tendenze del settore nei sistemi di archiviazione di massa

Ora sull'evoluzione dei supporti di memorizzazione. Le prime unità flash sono state realizzate utilizzando la tecnologia SLC (Single-Level Cell). I dispositivi basati su di esso erano veloci, affidabili, stabili, ma avevano una capacità ridotta ed erano molto costosi. L'aumento dei volumi e la riduzione dei prezzi sono stati ottenuti attraverso alcune concessioni tecniche, grazie alle quali sono state ridotte la velocità, l'affidabilità e la durata degli azionamenti. Tuttavia, la tendenza non ha influenzato i sistemi di stoccaggio stessi che, grazie a vari accorgimenti architettonici, sono diventati generalmente più produttivi e più affidabili.

Ma perché avevi bisogno di sistemi di storage All-Flash? Non bastava semplicemente sostituire i vecchi HDD in un sistema già operativo con nuovi SSD dello stesso fattore di forma? Ciò era necessario per utilizzare in modo efficace tutte le risorse delle nuove unità a stato solido, cosa semplicemente impossibile nei sistemi più vecchi.

Huawei, ad esempio, ha sviluppato una serie di tecnologie per risolvere questo problema, una delle quali è FlashLink, che ha permesso di ottimizzare al massimo le interazioni “disco-controller”.

L'identificazione intelligente ha permesso di scomporre i dati in diversi flussi e di far fronte a una serie di fenomeni indesiderati, come WA (scrivere amplificazione). Allo stesso tempo, nuovi algoritmi di recupero, in particolare RAID 2.0+, ha aumentato la velocità della ricostruzione, riducendone i tempi a importi del tutto insignificanti.

Guasti, sovraffollamento, raccolta dei rifiuti: anche questi fattori non influiscono più sulle prestazioni del sistema di stoccaggio grazie a speciali modifiche ai controller.

Tendenze del settore nei sistemi di archiviazione di massa

E anche gli archivi di dati a blocchi si stanno preparando a incontrarsi NVMe. Ricordiamo che lo schema classico per organizzare l'accesso ai dati funzionava in questo modo: il processore accedeva al controller RAID tramite il bus PCI Express. Questo, a sua volta, interagiva con i dischi meccanici tramite SCSI o SAS. L'uso di NVMe sul backend ha accelerato notevolmente l'intero processo, ma presentava uno svantaggio: le unità dovevano essere collegate direttamente al processore per fornirgli accesso diretto alla memoria.

La prossima fase di sviluppo tecnologico a cui stiamo assistendo ora è l’uso di NVMe-oF (NVMe over Fabrics). Per quanto riguarda le tecnologie a blocchi Huawei, supportano già FC-NVMe (NVMe over Fibre Channel) e NVMe over RoCE (RDMA over Converged Ethernet) è in arrivo. I modelli in prova sono abbastanza funzionanti; mancano diversi mesi alla loro presentazione ufficiale. Si noti che tutto ciò apparirà nei sistemi distribuiti, dove “Ethernet senza perdite” sarà molto richiesto.

Tendenze del settore nei sistemi di archiviazione di massa

Un ulteriore modo per ottimizzare il funzionamento dello storage distribuito è stato il completo abbandono del mirroring dei dati. Le soluzioni Huawei non utilizzano più n copie, come nel solito RAID 1, e passano completamente al EC (Codifica di cancellazione). Uno speciale pacchetto matematico calcola i blocchi di controllo con una certa periodicità, che consentono di ripristinare i dati intermedi in caso di perdita.

I meccanismi di deduplicazione e compressione diventano obbligatori. Se nei sistemi di storage classici siamo limitati dal numero di processori installati nei controller, nei sistemi di storage distribuiti scalabili orizzontalmente ogni nodo contiene tutto il necessario: dischi, memoria, processori e interconnessione. Queste risorse sono sufficienti per garantire che la deduplicazione e la compressione abbiano un impatto minimo sulle prestazioni.

E sui metodi di ottimizzazione dell'hardware. Qui è stato possibile ridurre il carico sui processori centrali con l'aiuto di chip dedicati aggiuntivi (o blocchi dedicati nel processore stesso), che svolgono un ruolo TOE (TCP/IP Offload Engine) o assumersi i compiti matematici di EC, deduplicazione e compressione.

Tendenze del settore nei sistemi di archiviazione di massa

Nuovi approcci all’archiviazione dei dati sono incorporati in un’architettura disaggregata (distribuita). I sistemi di storage centralizzati dispongono di una fabbrica di server collegata tramite Fibre Channel SAN con molti array. Gli svantaggi di questo approccio sono la difficoltà di scalare e garantire un livello di servizio garantito (in termini di prestazioni o latenza). I sistemi iperconvergenti utilizzano gli stessi host sia per archiviare che per elaborare le informazioni. Ciò offre possibilità di scalabilità virtualmente illimitate, ma comporta costi elevati per il mantenimento dell’integrità dei dati.

A differenza di quanto sopra, implica un'architettura disaggregata dividendo il sistema in un tessuto informatico e un sistema di storage orizzontale. Ciò offre i vantaggi di entrambe le architetture e consente un ridimensionamento quasi illimitato solo dell'elemento privo di prestazioni.

Tendenze del settore nei sistemi di archiviazione di massa

Dall'integrazione alla convergenza

Un compito classico, la cui rilevanza è cresciuta solo negli ultimi 15 anni, è la necessità di fornire contemporaneamente storage a blocchi, accesso ai file, accesso agli oggetti, funzionamento di una big data farm, ecc. La ciliegina sulla torta potrebbe anche essere, ad esempio, un sistema di backup su nastro magnetico.

In una prima fase potrebbe essere unificata solo la gestione di questi servizi. I sistemi eterogenei di archiviazione dei dati erano collegati ad alcuni software specializzati, attraverso i quali l'amministratore distribuiva le risorse dai pool disponibili. Ma poiché questi pool avevano hardware diverso, la migrazione del carico tra di loro era impossibile. A un livello di integrazione più elevato, l'aggregazione è avvenuta a livello di gateway. Se la condivisione dei file fosse disponibile, potrebbe essere servita attraverso diversi protocolli.

Il metodo di convergenza più avanzato attualmente a nostra disposizione prevede la creazione di un sistema ibrido universale. Esattamente quello che dovrebbe diventare il nostro OceanStor 100D. L'accesso universale utilizza le stesse risorse hardware, suddivise logicamente in pool diversi, ma consentendo la migrazione del carico. Tutto questo può essere fatto attraverso un'unica console di gestione. In questo modo siamo stati in grado di implementare il concetto di “un data center – un sistema di storage”.

Tendenze del settore nei sistemi di archiviazione di massa

Il costo di archiviazione delle informazioni oggi determina molte decisioni relative all'architettura. E sebbene possa essere tranquillamente messo in primo piano, oggi parliamo di storage “live” con accesso attivo, quindi bisogna tenere conto anche delle prestazioni. Un'altra proprietà importante dei sistemi distribuiti di prossima generazione è l'unificazione. Dopotutto, nessuno vuole avere diversi sistemi disparati controllati da console diverse. Tutte queste qualità sono incarnate nella nuova serie di prodotti Huawei OceanStor Pacifico.

Sistema di archiviazione di massa di nuova generazione

OceanStor Pacific soddisfa i requisiti di affidabilità sei-nove (99,9999%) e può essere utilizzato per creare data center di classe HyperMetro. Con una distanza tra due data center fino a 100 km, i sistemi dimostrano una latenza aggiuntiva di 2 ms, che rende possibile costruire sulla loro base qualsiasi soluzione resistente ai disastri, comprese quelle con server quorum.

Tendenze del settore nei sistemi di archiviazione di massa

I prodotti della nuova serie dimostrano la versatilità del protocollo. OceanStor 100D supporta già l'accesso a blocchi, l'accesso agli oggetti e l'accesso Hadoop. Nel prossimo futuro verrà implementato anche l'accesso ai file. Non è necessario archiviare più copie dei dati se possono essere emesse tramite protocolli diversi.

Tendenze del settore nei sistemi di archiviazione di massa

Sembrerebbe, cosa c'entra il concetto di "rete senza perdite" con i sistemi di storage? Il fatto è che i sistemi di archiviazione distribuita dei dati sono costruiti sulla base di una rete veloce che supporta gli algoritmi appropriati e il meccanismo RoCE. Il sistema di intelligenza artificiale supportato dai nostri switch aiuta ad aumentare ulteriormente la velocità della rete e a ridurre la latenza. Tessuto AI. Il guadagno in termini di prestazioni di archiviazione quando si attiva AI Fabric può raggiungere il 20%.

Tendenze del settore nei sistemi di archiviazione di massa

Cos'è il nuovo nodo di archiviazione distribuito OceanStor Pacific? La soluzione con fattore di forma 5U comprende 120 unità e può sostituire tre nodi classici, garantendo un risparmio più che doppio nello spazio rack. Non memorizzando copie, l'efficienza degli azionamenti aumenta significativamente (fino al +92%).

Siamo abituati al fatto che lo storage definito dal software è un software speciale installato su un server classico. Ma ora, per raggiungere parametri ottimali, questa soluzione architetturale richiede anche nodi speciali. È costituito da due server basati su processori ARM che gestiscono una serie di unità da tre pollici.

Tendenze del settore nei sistemi di archiviazione di massa

Questi server non sono adatti per soluzioni iperconvergenti. In primo luogo, esistono numerose applicazioni per ARM e, in secondo luogo, è difficile mantenere il bilanciamento del carico. Proponiamo il passaggio ad uno storage separato: un cluster informatico, rappresentato da server classici o rack, opera separatamente, ma è collegato ai nodi di storage OceanStor Pacific, che svolgono anche i loro compiti diretti. E si giustifica.

Ad esempio, prendiamo una classica soluzione di archiviazione di big data con un sistema iperconvergente che occupa 15 rack di server. Se distribuisci il carico tra server informatici separati e nodi di storage OceanStor Pacific, separandoli gli uni dagli altri, il numero di rack richiesti verrà dimezzato! Ciò riduce i costi operativi del data center e riduce il costo totale di proprietà. In un mondo in cui il volume delle informazioni archiviate cresce del 30% all’anno, tali vantaggi non vengono sprecati.

***

Puoi ottenere maggiori informazioni sulle soluzioni Huawei e sui relativi scenari applicativi sul nostro sito web oppure contattando direttamente i rappresentanti dell'azienda.

Fonte: habr.com

Aggiungi un commento