Huawei Dorado V6: căldură din Sichuan

Huawei Dorado V6: căldură din Sichuan
Vara la Moscova anul acesta a fost, sincer să fiu, nu prea bună. A început prea devreme și prea repede, nu toată lumea a avut timp să reacționeze și s-a încheiat deja la sfârșitul lunii iunie. Prin urmare, când Huawei m-a invitat să merg în China, în orașul Chengdu, unde se află centrul lor RnD, după ce m-am uitat la prognoza meteo de +34 de grade la umbră, am fost imediat de acord. La urma urmei, nu mai am aceeași vârstă și trebuie să-mi încălzesc puțin oasele. Dar aș dori să remarc că a fost posibil să se încălzească nu numai oasele, ci și interiorul, deoarece provincia Sichuan, în care se află de fapt Chengdu, este renumită pentru dragostea pentru mâncarea picantă. Dar totuși, acesta nu este un blog despre călătorii, așa că să revenim la obiectivul principal al călătoriei noastre - o nouă linie de sisteme de stocare - Huawei Dorado V6. Acest articol vă va face puțin mâna din trecut, pentru că... a fost scris înainte de anunțul oficial, dar publicat doar după lansare. Și așa, astăzi vom arunca o privire mai atentă la tot ce este interesant și gustos pe care Huawei ne-a pregătit.

Huawei Dorado V6: căldură din Sichuan
Vor fi 5 modele în noua linie. Toate modelele, cu excepția modelului 3000V6, pot fi avute în două versiuni - SAS și NVMe. Alegerea determină interfața discurilor pe care le puteți utiliza în acest sistem, porturile Back-End și numărul de unități de disc pe care le puteți instala în sistem. Pentru NVMe, sunt folosite SSD-uri de dimensiunea palmei, care sunt mai subțiri decât SSD-urile SAS clasice de 2.5" și pot fi instalate în până la 36 de bucăți. Noua linie este All Flash și nu există configurații cu discuri.

Huawei Dorado V6: căldură din Sichuan
SSD Palm NVMe

După părerea mea, Dorado 8000 și 18000 arată ca cele mai interesante modele. Huawei le poziționează ca sisteme High-end și, datorită politicii de prețuri a Huawei, pune în contrast aceste modele Mid-range cu segmentul concurent. Aceste modele mă voi concentra astăzi în recenzia mea. Voi observa imediat că, datorită caracteristicilor lor de design, sistemele junior cu controler dublu au o arhitectură puțin diferită, diferită de Dorado 8000 și 18000, așa că nu tot ce voi vorbi astăzi este aplicabil modelelor junior.

Una dintre principalele caracteristici ale noilor sisteme a fost utilizarea mai multor cipuri, dezvoltate intern, fiecare dintre acestea vă permite să distribuiți sarcina logică de la procesorul central al controlerului și să adăugați funcționalitate diferitelor componente.
Huawei Dorado V6: căldură din Sichuan

Inima noilor sisteme sunt procesoarele Kunpeng 920, dezvoltate pe tehnologii ARM și fabricate de Huawei în mod independent. În funcție de model, numărul de nuclee, frecvența acestora și numărul de procesoare instalate în fiecare controler variază:
Huawei Dorado V6 8000 – 2CPU, 64 de nuclee
Huawei Dorado V6 18000 – 4CPU, 48 de nuclee
Huawei Dorado V6: căldură din Sichuan

Huawei a dezvoltat acest procesor pe arhitectura ARM și, din câte știu eu, a plănuit inițial să-l instaleze doar pe modelele mai vechi Dorado 8000 și 18000, așa cum era deja cazul unor modele V5, dar sancțiunile au făcut ajustări la această idee. Desigur, ARM a vorbit și despre refuzul de a coopera cu Huawei în timpul impunerii sancțiunilor, dar aici situația este diferită de cea a Intel. Huawei produce aceste cipuri independent și nicio sancțiune nu poate opri acest proces. Ruperea relațiilor cu ARM nu face decât să amenințe cu pierderea accesului la noile dezvoltări. În ceea ce privește performanța, se va putea judeca numai după efectuarea unor teste independente. Deși am văzut cum 18000M IOPS a fost eliminat din sistemul Dorado 1 fără probleme, până nu o repet cu propriile mâini în rack, nu o să cred. Dar există într-adevăr multă putere în controlere. Modelele mai vechi sunt echipate cu 4 controlere, fiecare cu 4 procesoare, oferind un total de 768 de nuclee.
Huawei Dorado V6: căldură din Sichuan

Dar despre nuclee voi vorbi și mai târziu, când ne uităm la arhitectura noilor sisteme, dar deocamdată să revenim la un alt cip instalat în sistem. Cipul arată ca o soluție extrem de interesantă Urcă 310 (Din câte am înțeles, fratele mai mic al Ascend 910, care a fost recent prezentat publicului). Sarcina sa este de a analiza blocurile de date care intră în sistem pentru a crește rata de accesare de citire. Este dificil de spus cum va funcționa la locul de muncă, pentru că... Astăzi funcționează doar conform unui șablon dat și nu are capacitatea de a învăța într-un mod inteligent. Apariția unui mod inteligent este promisă în firmware-ul viitor, cel mai probabil la începutul anului viitor.

Să trecem la arhitectură. Huawei a continuat să-și dezvolte propria tehnologie Smart Matrix, care implementează o abordare completă a rețelei de conectare a componentelor. Dar dacă în V5 acest lucru era doar pentru accesul de la controlere la discuri, acum toate controlerele au acces la toate porturile atât pe back-end, cât și pe front-end.
Huawei Dorado V6: căldură din Sichuan

Datorită noii arhitecturi de microservicii, aceasta permite și echilibrarea sarcinii între toate controlerele, chiar dacă există doar un singur lun. Sistemul de operare pentru această linie de matrice a fost dezvoltat de la zero și nu doar optimizat pentru utilizarea unităților Flash. Datorită faptului că toate controlerele noastre au acces la aceleași porturi, în cazul unei defecțiuni sau repornire a controlerului, gazda nu pierde o singură cale către sistemul de stocare, iar comutarea căilor se efectuează la nivelul sistemului de stocare. Cu toate acestea, utilizarea UltraPath pe gazdă nu este strict necesară. O altă „economisire” la instalarea sistemului este numărul mai mic de legături necesare. Și dacă cu abordarea „clasică” pentru 4 controlere vom avea nevoie de 8 legături din 2 fabrici, atunci în cazul Huawei chiar 2 va fi suficient (nu vorbesc acum despre suficiența debitului unei legături).
Huawei Dorado V6: căldură din Sichuan

Ca și în versiunea anterioară, se utilizează un cache global cu oglindire. Acest lucru vă permite să pierdeți până la două controlere simultan sau trei controlere secvenţial, fără a afecta disponibilitatea. Dar este de remarcat faptul că nu am văzut o echilibrare completă a sarcinii între celelalte 3 controlere în cazul unei defecțiuni la standul demo. Sarcina controlerului eșuat a fost preluată în întregime de unul dintre cei rămași. Este posibil ca pentru aceasta să fie necesar să lăsați sistemul să funcționeze mai mult în această configurație. În orice caz, voi verifica acest lucru mai detaliat folosind propriile mele teste.
Huawei poziționează noile sisteme ca sisteme NVMe End-to-End, dar astăzi NVMeOF nu este încă acceptat pe front-end, doar FC, iSCSI sau NFS. La sfârșitul acestuia sau la începutul următorului, ca și alte funcții, ni se promite suport RoCE.
Huawei Dorado V6: căldură din Sichuan

Rafturile sunt, de asemenea, conectate la controlere folosind RoCE și există un dezavantaj asociat cu acesta - absența unei conexiuni „loopback” a rafurilor, așa cum a fost cazul SAS. În opinia mea, acesta este încă un dezavantaj destul de mare dacă planificați un sistem destul de mare. Cert este că toate rafturile sunt conectate în serie, iar defecțiunea unuia dintre rafturi are ca rezultat inaccesibilitatea completă a tuturor celorlalte care îl urmează. În acest caz, pentru a asigura toleranța la erori, va trebui să conectăm toate rafturile la controlere, ceea ce presupune o creștere a numărului necesar de porturi backend din sistem.

Și încă un lucru care merită menționat este actualizarea non-disruptive (NDU). După cum am spus mai sus, Huawei a implementat o abordare container pentru operarea sistemului de operare pentru noua linie Dorado, aceasta vă permite să actualizați și să reporniți serviciile fără a fi nevoie să reporniți complet controlerul. Merită menționat imediat că unele actualizări vor conține actualizări ale nucleului și, în acest caz, o repornire clasică a controlerelor va fi uneori necesară în timpul actualizării, dar nu întotdeauna. Acest lucru va reduce impactul acestei operațiuni asupra sistemului productiv.

În arsenalul nostru, marea majoritate a matricelor sunt de la NetApp. Prin urmare, cred că va fi destul de logic dacă fac o mică comparație cu sisteme cu care trebuie să lucrez destul de mult. Aceasta nu este o încercare de a determina cine este mai bun și cine este mai rău sau a cărui arhitectură este mai avantajoasă. Voi încerca să compar cu sobru și fără fanatism două abordări diferite pentru a rezolva aceeași problemă de la diferiți furnizori. Da, desigur, în acest caz vom lua în considerare sistemele Huawei în „teorie” și voi nota, de asemenea, separat acele puncte care sunt planificate a fi implementate în versiunile viitoare de firmware. Ce avantaje vad in acest moment:

  1. Numărul de unități NVMe acceptate. NetApp are în prezent 288 dintre ele, în timp ce Huawei are 1600-6400, în funcție de model. În același timp, capacitatea maximă utilizabilă a Huawei este de 32PBe, la fel ca sistemele NetApp (mai precis, au 31.64PBe). Și asta în ciuda faptului că unitățile de același volum sunt acceptate (până la 15Tb). Huawei explică acest fapt astfel: nu au avut ocazia să monteze un stand mai mare. În teorie, nu au nicio limitare de volum, dar pur și simplu nu au putut testa încă acest fapt. Dar aici este de remarcat faptul că capacitățile unităților flash de astăzi sunt foarte mari, iar în cazul sistemelor NVMe ne confruntăm cu faptul că 24 de unități sunt suficiente pentru a utiliza un sistem de top cu 2 controlere. În consecință, o creștere suplimentară a numărului de discuri din sistem nu numai că nu va oferi o creștere a performanței, dar va avea și un efect negativ asupra raportului IOPS/Tb. Desigur, merită să vedeți câte unități pot gestiona sistemele cu 4 controlere 8000 și 16000, deoarece... Capacitățile și potențialul Kunpeng 920 nu sunt încă complet clare.
  2. Prezența lui Lun ca proprietar al sistemelor NetApp. Acestea. Doar un singur controler poate efectua operațiuni cu luna, în timp ce al doilea trece doar IO prin el însuși. Sistemele Huawei, dimpotrivă, nu au niciun proprietar, iar operațiunile cu blocuri de date (compresie, deduplicare) pot fi efectuate de oricare dintre controlere, precum și scrise pe discuri.
  3. Niciun port nu cade atunci când unul dintre controlere eșuează. Pentru unii, acest moment pare extrem de critic. Concluzia este că comutarea în interiorul sistemului de stocare ar trebui să aibă loc mai rapid decât în ​​partea gazdă. Și dacă în cazul aceluiași NetApp, în practică am constatat o înghețare de aproximativ 5 secunde la scoaterea controlerului și la comutarea căilor, atunci cu trecerea la Huawei mai trebuie să exersăm.
  4. Nu este nevoie să reporniți controlerul la actualizare. Acest lucru a început să mă îngrijoreze în special cu lansarea destul de frecventă de noi versiuni și ramuri de firmware pentru NetApps. Da, unele actualizări pentru Huawei vor necesita în continuare o repornire, dar nu toate.
  5. 4 controlere Huawei la prețul a două controlere NetApp. După cum am spus mai sus, datorită politicii de prețuri a Huawei, acesta poate concura cu gama medie cu modelele sale high-end.
  6. Prezența unor cipuri suplimentare în controlerele de raft și cardurile de port, care pot fi menite să îmbunătățească eficiența sistemului.

Contra și preocupări în general:

  1. Conectarea directă a rafturilor la controlere sau necesitatea unui număr mare de porturi back-end pentru a conecta toate rafturile la controlere.
  2. Arhitectura ARM și prezența unui număr mare de cipuri - cât de eficient va funcționa și performanța va fi suficientă?

Majoritatea îngrijorărilor și temerilor pot fi alungate prin testarea personală a noii linii. Sper că curând după lansare vor apărea la Moscova și vor fi destui pentru a obține rapid unul pentru propriile teste. Până acum, putem spune că, în general, abordarea companiei pare interesantă, iar noua linie arată foarte bine în comparație cu concurenții săi. Implementarea finală ridică multe întrebări, deoarece Vom vedea multe lucruri abia la sfârșitul anului și poate abia în 2020.

Sursa: www.habr.com

Adauga un comentariu