Huawei Dorado V6: il calore del Sichuan

Huawei Dorado V6: il calore del Sichuan
L'estate a Mosca quest'anno è stata, a dire il vero, non molto bella. È iniziato troppo presto e velocemente, non tutti hanno avuto il tempo di reagire, ed è finito già alla fine di giugno. Pertanto, quando Huawei mi ha invitato ad andare in Cina, nella città di Chengdu, dove si trova il loro centro RnD, dopo aver visto le previsioni meteo di +34 gradi all'ombra, ho subito accettato. Dopotutto non ho più la stessa età e ho bisogno di scaldarmi un po’ le ossa. Ma vorrei sottolineare che è stato possibile riscaldare non solo le ossa, ma anche le viscere, perché la provincia del Sichuan, in cui si trova effettivamente Chengdu, è famosa per il suo amore per il cibo piccante. Tuttavia, questo non è un blog sui viaggi, quindi torniamo all'obiettivo principale del nostro viaggio: una nuova linea di sistemi di archiviazione: Huawei Dorado V6. Questo articolo ti riporta un po' dal passato, perché... è stato scritto prima dell'annuncio ufficiale, ma pubblicato solo dopo l'uscita. E così oggi daremo uno sguardo più da vicino a tutto ciò che è interessante e gustoso che Huawei ha preparato per noi.

Huawei Dorado V6: il calore del Sichuan
Saranno 5 i modelli della nuova linea. Tutti i modelli tranne il 3000V6 sono disponibili in due versioni: SAS e NVMe. La scelta determina l'interfaccia dei dischi che è possibile utilizzare in questo sistema, le porte Back-End e il numero di unità disco che è possibile installare nel sistema. Per NVMe vengono utilizzati SSD palmari, che sono più sottili dei classici SSD SAS da 2.5" e possono essere installati fino a 36 pezzi. La nuova linea è All Flash e non sono previste configurazioni con dischi.

Huawei Dorado V6: il calore del Sichuan
SSD Palm NVMe

A mio avviso, i modelli più interessanti sembrano Dorado 8000 e 18000. Huawei li posiziona come sistemi di fascia alta e, grazie alla politica dei prezzi di Huawei, contrappone questi modelli di fascia media al segmento della concorrenza. Sono questi modelli su cui mi concentrerò nella mia recensione oggi. Noterò subito che, a causa delle loro caratteristiche progettuali, i sistemi junior a doppio controller hanno un'architettura leggermente diversa, diversa da Dorado 8000 e 18000, quindi non tutto ciò di cui parlerò oggi è applicabile ai modelli junior.

Una delle caratteristiche principali dei nuovi sistemi è stata l'utilizzo di diversi chip, sviluppati internamente, ognuno dei quali consente di distribuire il carico logico dal processore centrale del controller e aggiungere funzionalità a diversi componenti.
Huawei Dorado V6: il calore del Sichuan

Il cuore dei nuovi sistemi sono i processori Kunpeng 920, sviluppati su tecnologie ARM e prodotti da Huawei in modo indipendente. A seconda del modello, il numero di core, la loro frequenza e il numero di processori installati in ciascun controller variano:
Huawei Dorado V6 8000 – 2 CPU, 64 core
Huawei Dorado V6 18000 – 4 CPU, 48 core
Huawei Dorado V6: il calore del Sichuan

Huawei ha sviluppato questo processore sull'architettura ARM e, per quanto ne so, inizialmente prevedeva di installarlo solo nei vecchi modelli Dorado 8000 e 18000, come già accadeva con alcuni modelli V5, ma le sanzioni hanno apportato modifiche a questa idea. Naturalmente, ARM ha parlato anche del rifiuto di collaborare con Huawei durante l'imposizione delle sanzioni, ma qui la situazione è diversa rispetto a quella con Intel. Huawei produce questi chip in modo indipendente e nessuna sanzione può fermare questo processo. La rottura dei rapporti con ARM minaccia solo la perdita dell’accesso a nuovi sviluppi. Per quanto riguarda le prestazioni, sarà possibile giudicare solo dopo aver condotto test indipendenti. Anche se ho visto come 18000 milione di IOPS è stato rimosso senza problemi dal sistema Dorado 1, finché non lo ripeterò con le mie mani nel mio rack, non ci crederò. Ma lì c’è davvero molta potenza nei controller. I modelli più vecchi sono dotati di 4 controller, ciascuno con 4 processori, per un totale di 768 core.
Huawei Dorado V6: il calore del Sichuan

Ma dei core parlerò anche più tardi, quando esamineremo l'architettura dei nuovi sistemi, ma per ora torniamo ad un altro chip installato nel sistema. Il chip sembra una soluzione estremamente interessante Salita 310 (A quanto ho capito, è il fratello minore dell'Ascend 910, recentemente presentato al pubblico). Il suo compito è analizzare i blocchi di dati che entrano nel sistema per aumentare il tasso di successo in lettura. È ancora difficile dire come si comporterà sul lavoro, perché... Oggi funziona solo secondo un determinato modello e non ha la capacità di apprendere in modo intelligente. La comparsa di una modalità intelligente è promessa nel firmware futuro, molto probabilmente all'inizio del prossimo anno.

Passiamo all'architettura. Huawei ha continuato a sviluppare la propria tecnologia Smart Matrix, che implementa un approccio full mesh per connettere i componenti. Ma se nella V5 questo era solo per l'accesso dai controller ai dischi, ora tutti i controller hanno accesso a tutte le porte sia sul back-end che sul front-end.
Huawei Dorado V6: il calore del Sichuan

Grazie alla nuova architettura a microservizi, ciò consente anche il bilanciamento del carico tra tutti i controller, anche se è presente un solo lun. Il sistema operativo per questa linea di array è stato sviluppato da zero e non semplicemente ottimizzato per l'utilizzo di unità Flash. Dato che tutti i nostri controller hanno accesso alle stesse porte, in caso di guasto o riavvio del controller, l'host non perde un singolo percorso verso il sistema di storage e il cambio di percorso viene effettuato a livello del sistema di storage. Tuttavia, l'utilizzo di UltraPath sull'host non è strettamente necessario. Un altro “risparmio” durante l'installazione del sistema è il minor numero di collegamenti necessari. E se con l'approccio “classico” per 4 controller avremo bisogno di 8 collegamenti da 2 stabilimenti, nel caso di Huawei ne basteranno anche 2 (non sto parlando ora della sufficienza del throughput di un collegamento).
Huawei Dorado V6: il calore del Sichuan

Come nella versione precedente, viene utilizzata una cache globale con mirroring. Ciò consente di perdere fino a due controller contemporaneamente o tre controller in sequenza senza compromettere la disponibilità. Ma vale la pena notare che non abbiamo visto un bilanciamento completo del carico tra i restanti 3 controller in caso di guasto allo stand demo. Il carico del controller guasto è stato assunto interamente da uno dei restanti. È possibile che per questo sia necessario lasciare che il sistema funzioni più a lungo in questa configurazione. In ogni caso, lo verificherò più in dettaglio utilizzando i miei test.
Huawei sta posizionando i nuovi sistemi come sistemi NVMe End-to-End, ma oggi NVMeOF non è ancora supportato sul front-end, solo FC, iSCSI o NFS. Alla fine di questo o all'inizio del successivo, come per altre funzionalità, ci viene promesso il supporto RoCE.
Huawei Dorado V6: il calore del Sichuan

Gli scaffali sono anche collegati ai controller tramite RoCE, e ad esso è associato uno svantaggio: l'assenza di una connessione "loopback" degli scaffali, come nel caso di SAS. Secondo me, questo è ancora uno svantaggio piuttosto grosso se stai progettando un sistema abbastanza grande. Il fatto è che tutti gli scaffali sono collegati in serie e il cedimento di uno degli scaffali comporta la completa inaccessibilità di tutti gli altri che lo seguono. In questo caso, per garantire la tolleranza agli errori, dovremo collegare tutti gli scaffali ai controller, il che comporta un aumento del numero richiesto di porte backend nel sistema.

E un'altra cosa degna di nota è l'aggiornamento non distruttivo (NDU). Come ho detto sopra, Huawei ha implementato un approccio container per il funzionamento del sistema operativo per la nuova linea Dorado, ciò consente di aggiornare e riavviare i servizi senza la necessità di riavviare completamente il controller. Vale la pena ricordare subito che alcuni aggiornamenti conterranno aggiornamenti del kernel e, in questo caso, durante l'aggiornamento a volte sarà ancora necessario un classico riavvio dei controller, ma non sempre. Ciò ridurrà l'impatto di questa operazione sul sistema produttivo.

Nel nostro arsenale, la stragrande maggioranza degli array proviene da NetApp. Pertanto, penso che sarà abbastanza logico fare un piccolo confronto con i sistemi con cui devo lavorare parecchio. Questo non è un tentativo di determinare chi è migliore e chi è peggiore o quale architettura è più vantaggiosa. Cercherò di confrontare in modo sobrio e senza fanatismo due diversi approcci alla risoluzione dello stesso problema di diversi fornitori. Sì, certo, in questo caso considereremo i sistemi Huawei in “teoria” e noterò anche separatamente quei punti che si prevede di implementare nelle future versioni del firmware. Quali vantaggi vedo al momento:

  1. Numero di unità NVMe supportate. NetApp ne ha attualmente 288, mentre Huawei ne ha 1600-6400, a seconda del modello. Allo stesso tempo, la capacità massima utilizzabile di Huawei è di 32 PBe, proprio come i sistemi NetApp (per essere più precisi, hanno 31.64 PBe). E questo nonostante siano supportate unità dello stesso volume (fino a 15 TB). Huawei spiega questo fatto come segue: non hanno avuto l'opportunità di allestire uno stand più grande. In teoria, non hanno limiti di volume, ma semplicemente non sono ancora stati in grado di testarlo. Ma qui vale la pena notare che le capacità delle unità flash oggi sono molto elevate e, nel caso dei sistemi NVMe, ci troviamo di fronte al fatto che 24 unità sono sufficienti per utilizzare un sistema a 2 controller di fascia alta. Di conseguenza, un ulteriore aumento del numero di dischi nel sistema non solo non porterà ad un aumento delle prestazioni, ma avrà anche un effetto negativo sul rapporto IOPS/Tb. Naturalmente vale la pena vedere quanti azionamenti possono gestire i sistemi a 4 controller 8000 e 16000, perché... Le capacità e il potenziale del Kunpeng 920 non sono ancora del tutto chiari.
  2. La presenza di Lun come proprietario dei sistemi NetApp. Quelli. Solo un controller può eseguire operazioni con la luna, mentre il secondo passa solo IO attraverso se stesso. I sistemi Huawei, al contrario, non hanno proprietari e le operazioni con blocchi di dati (compressione, deduplicazione) possono essere eseguite da qualsiasi controller, così come scritte su dischi.
  3. Nessuna porta si interrompe quando uno dei controller si guasta. Per alcuni, questo momento sembra estremamente critico. La conclusione è che il passaggio all'interno del sistema di storage dovrebbe avvenire più velocemente che dal lato host. E se nel caso della stessa NetApp in pratica abbiamo riscontrato un blocco di circa 5 secondi quando si estrae il controller e si cambia percorso, allora con il passaggio a Huawei dobbiamo ancora esercitarci.
  4. Non è necessario riavviare il controller durante l'aggiornamento. Ciò ha cominciato a preoccuparmi soprattutto con il rilascio abbastanza frequente di nuove versioni e rami firmware per NetApps. Sì, alcuni aggiornamenti per Huawei richiederanno comunque un riavvio, ma non tutti.
  5. 4 controller Huawei al prezzo di due controller NetApp. Come ho detto sopra, grazie alla politica dei prezzi di Huawei, può competere con la fascia media con i suoi modelli di fascia alta.
  6. La presenza di chip aggiuntivi nei controller degli scaffali e nelle schede delle porte, potenzialmente destinati a migliorare l'efficienza del sistema.

Contro e preoccupazioni in generale:

  1. Collegamento diretto degli scaffali ai controller o necessità di un gran numero di porte back-end per collegare tutti gli scaffali ai controller.
  2. Architettura ARM e presenza di un gran numero di chip: quanto funzionerà in modo efficiente e le prestazioni saranno sufficienti?

La maggior parte delle preoccupazioni e dei timori possono essere dissipati testando personalmente la nuova linea. Spero che subito dopo l'uscita appariranno a Mosca e ce ne saranno abbastanza per procurarvene rapidamente uno per i vostri test. Finora possiamo dire che in generale l’approccio dell’azienda sembra interessante e la nuova linea sembra molto buona rispetto alla concorrenza. L'implementazione finale solleva molte domande, perché Molte cose le vedremo solo a fine anno, e forse solo nel 2020.

Fonte: habr.com

Aggiungi un commento