Huawei Dorado V6: Sichuan varme

Huawei Dorado V6: Sichuan varme
Sommeren i Moskva i år var, for at være ærlig, ikke særlig god. Det startede for tidligt og hurtigt, ikke alle havde tid til at reagere på det, og det sluttede allerede i slutningen af ​​juni. Derfor, da Huawei inviterede mig til Kina, til byen Chengdu, hvor deres RnD-center ligger, efter at have set på vejrudsigten på +34 grader i skyggen, sagde jeg straks ja. Jeg er jo ikke på samme alder længere, og jeg skal varme knoglerne lidt op. Men jeg vil gerne bemærke, at det var muligt at varme ikke kun knoglerne, men også indmaden, fordi provinsen Sichuan, hvor Chengdu faktisk ligger, er berømt for sin kærlighed til krydret mad. Men stadig, dette er ikke en blog om rejser, så lad os vende tilbage til hovedmålet med vores rejse - en ny linje af lagersystemer - Huawei Dorado V6. Denne artikel vil vinke dig lidt fra fortiden, fordi... den blev skrevet før den officielle meddelelse, men først offentliggjort efter udgivelsen. Så i dag vil vi se nærmere på alt det interessante og velsmagende, som Huawei har forberedt til os.

Huawei Dorado V6: Sichuan varme
Der vil være 5 modeller i den nye linje. Alle modeller undtagen 3000V6 kan fås i to versioner - SAS og NVMe. Valget bestemmer grænsefladen for de diske, du kan bruge i dette system, Back-End-portene og antallet af diskdrev, som du kan installere i systemet. Til NVMe bruges SSD'er i Palm-størrelse, som er tyndere end klassiske 2.5" SAS SSD'er og kan installeres i op til 36 stykker. Den nye linje er All Flash, og der er ingen konfigurationer med diske.

Huawei Dorado V6: Sichuan varme
Palm NVMe SSD

Efter min mening ligner Dorado 8000 og 18000 de mest interessante modeller. Huawei positionerer dem som avancerede systemer, og takket være Huaweis prispolitik kontrasterer den disse mellemklassemodeller med konkurrentsegmentet. Det er disse modeller, jeg vil fokusere på i min anmeldelse i dag. Jeg vil straks bemærke, at på grund af deres designfunktioner har junior-dobbelt-controller-systemer en lidt anderledes arkitektur, forskellig fra Dorado 8000 og 18000, så ikke alt, jeg vil tale om i dag, er relevant for juniormodeller.

En af hovedfunktionerne i de nye systemer var brugen af ​​flere internt udviklede chips, som hver især giver dig mulighed for at fordele den logiske belastning fra controllerens centrale processor og tilføje funktionalitet til forskellige komponenter.
Huawei Dorado V6: Sichuan varme

Hjertet i de nye systemer er Kunpeng 920-processorerne, udviklet på ARM-teknologier og fremstillet af Huawei uafhængigt. Afhængigt af modellen varierer antallet af kerner, deres frekvens og antallet af installerede processorer i hver controller:
Huawei Dorado V6 8000 – 2CPU, 64 kerner
Huawei Dorado V6 18000 – 4CPU, 48 kerner
Huawei Dorado V6: Sichuan varme

Huawei udviklede denne processor på ARM-arkitekturen, og så vidt jeg ved, planlagde han oprindeligt kun at installere den i de ældre Dorado 8000- og 18000-modeller, som det allerede var tilfældet med nogle V5-modeller, men sanktionerne gjorde justeringer til denne idé. ARM talte selvfølgelig også om at nægte at samarbejde med Huawei under indførelse af sanktioner, men her er situationen anderledes end med Intel. Huawei producerer disse chips uafhængigt, og ingen sanktioner kan stoppe denne proces. At afbryde forholdet til ARM truer kun tabet af adgang til nye udviklinger. Hvad angår ydeevne, vil det kun være muligt at bedømme efter at have udført uafhængige tests. Selvom jeg så, hvordan 18000M IOPS blev fjernet fra Dorado 1-systemet uden problemer, vil jeg ikke tro det, indtil jeg gentager det med mine egne hænder i mit rack. Men der er virkelig meget kraft i controllere. Ældre modeller er udstyret med 4 controllere, hver med 4 processorer, hvilket giver i alt 768 kerner.
Huawei Dorado V6: Sichuan varme

Men jeg vil tale om kernerne endnu senere, når vi ser på arkitekturen af ​​de nye systemer, men lad os nu vende tilbage til en anden chip installeret i systemet. Chippen ligner en yderst interessant løsning Stig op 310 (Så vidt jeg forstår, den yngre bror til Ascend 910, som for nylig blev præsenteret for offentligheden). Dens opgave er at analysere datablokke, der kommer ind i systemet, for at øge Læs hit-forholdet. Det er svært at sige, hvordan det vil fungere på arbejdet, fordi... I dag fungerer det kun efter en given skabelon og har ikke evnen til at lære i en intelligent tilstand. Udseendet af en intelligent tilstand er lovet i fremtidig firmware, sandsynligvis i begyndelsen af ​​næste år.

Lad os gå videre til arkitekturen. Huawei er fortsat med at udvikle sin egen Smart Matrix-teknologi, som implementerer en fuld mesh-tilgang til at forbinde komponenter. Men hvis dette i V5 kun var for adgang fra controllere til diske, nu har alle controllere adgang til alle porte på både Back-End og Front-End.
Huawei Dorado V6: Sichuan varme

Takket være den nye mikroservicearkitektur tillader dette også belastningsbalancering mellem alle controllere, selvom der kun er én lun. OS for denne række af arrays blev udviklet fra bunden og ikke blot optimeret til brug af flash-drev. På grund af det faktum, at alle vores controllere har adgang til de samme porte, mister værten i tilfælde af en controllerfejl eller genstart ikke en eneste sti til lagersystemet, og stiskift udføres på lagersystemniveau. Det er dog ikke strengt nødvendigt at bruge UltraPath på værten. En anden "besparelse" ved installation af systemet er det mindre antal nødvendige links. Og hvis vi med den "klassiske" tilgang til 4 controllere har brug for 8 links fra 2 fabrikker, så vil selv 2 i Huaweis tilfælde være nok (jeg taler ikke nu om tilstrækkeligheden af ​​gennemstrømningen af ​​et link).
Huawei Dorado V6: Sichuan varme

Som i den tidligere version bruges en global cache med spejling. Dette giver dig mulighed for at miste op til to controllere samtidigt eller tre controllere sekventielt uden at påvirke tilgængeligheden. Men det er værd at bemærke, at vi ikke så fuldstændig belastningsbalancering mellem de resterende 3 controllere i tilfælde af én fejl på demostanden. Belastningen af ​​den fejlbehæftede controller blev helt overtaget af en af ​​de resterende. Det er muligt, at det for dette er nødvendigt at lade systemet arbejde længere i denne konfiguration. Under alle omstændigheder vil jeg tjekke dette nærmere ved hjælp af mine egne tests.
Huawei placerer de nye systemer som End-to-End NVMe-systemer, men i dag er NVMeOF endnu ikke understøttet på frontend, kun FC, iSCSI eller NFS. I slutningen af ​​denne eller begyndelsen af ​​den næste, ligesom andre funktioner, loves vi RoCE-support.
Huawei Dorado V6: Sichuan varme

Hylderne er også forbundet med controllerne ved hjælp af RoCE, og der er en ulempe forbundet med dette - fraværet af en "loopback" forbindelse af hylderne, som det var tilfældet med SAS. Efter min mening er dette stadig en ret stor ulempe, hvis du planlægger et ret stort system. Faktum er, at alle hylder er forbundet i serie, og fejlen på en af ​​hylderne resulterer i fuldstændig utilgængelighed for alle de andre, der følger den. I dette tilfælde, for at sikre fejltolerance, bliver vi nødt til at forbinde alle hylder til controllere, hvilket medfører en stigning i det nødvendige antal backend-porte i systemet.

Og en ting mere, der er værd at nævne, er non-disruptive update (NDU). Som jeg sagde ovenfor, har Huawei implementeret en containertilgang til at betjene operativsystemet til den nye Dorado-linje, dette giver dig mulighed for at opdatere og genstarte tjenester uden at skulle genstarte controlleren fuldstændigt. Det er værd at nævne med det samme, at nogle opdateringer vil indeholde kerneopdateringer, og i dette tilfælde vil en klassisk genstart af controllere nogle gange stadig være påkrævet under opdateringen, men ikke altid. Dette vil reducere virkningen af ​​denne operation på det produktive system.

I vores arsenal er langt de fleste arrays fra NetApp. Derfor synes jeg, det vil være ret logisk, hvis jeg laver en lille sammenligning med systemer, som jeg skal arbejde ret meget med. Dette er ikke et forsøg på at afgøre, hvem der er bedre og hvem der er dårligere, eller hvis arkitektur er mere fordelagtig. Jeg vil forsøge nøgternt og uden fanatisme at sammenligne to forskellige tilgange til at løse det samme problem fra forskellige leverandører. Ja, selvfølgelig, i dette tilfælde vil vi overveje Huawei-systemer i "teori", og jeg vil også særskilt bemærke de punkter, der er planlagt til at blive implementeret i fremtidige firmwareversioner. Hvilke fordele ser jeg i øjeblikket:

  1. Antal understøttede NVMe-drev. NetApp har i øjeblikket 288 af dem, mens Huawei har 1600-6400, afhængig af model. Samtidig er Huaweis Max anvendelige kapacitet 32PBe, ligesom NetApp-systemer (for at være mere præcis, har de 31.64PBe). Og dette på trods af, at drev af samme volumen er understøttet (op til 15Tb). Huawei forklarer dette faktum som følger: de havde ikke mulighed for at samle et større stativ. I teorien har de ingen volumenbegrænsning, men de har simpelthen ikke været i stand til at teste dette faktum endnu. Men her er det værd at bemærke, at mulighederne for flashdrev i dag er meget høje, og i tilfælde af NVMe-systemer står vi over for, at 24 drev er nok til at udnytte et top-end 2-controller system. Følgelig vil en yderligere stigning i antallet af diske i systemet ikke blot ikke give en ydelsesforøgelse, men vil også have en dårlig effekt på IOPS/Tb-forholdet. Det er selvfølgelig værd at se, hvor mange drev 4-controllersystemerne 8000 og 16000 kan klare, fordi... Kunpeng 920's muligheder og potentiale er stadig ikke helt klare.
  2. Tilstedeværelsen af ​​Lun som ejer af NetApp-systemer. De der. Kun én controller kan udføre operationer med månen, mens den anden kun passerer IO gennem sig selv. Tværtimod har Huawei-systemer ingen ejere, og operationer med datablokke (komprimering, deduplikering) kan udføres af en hvilken som helst af controllerne, samt skrives til diske.
  3. Ingen port falder, når en af ​​controllerne svigter. For nogle ser dette øjeblik ekstremt kritisk ud. Den nederste linje er, at skift inde i lagersystemet skal ske hurtigere end på værtssiden. Og hvis vi i den samme NetApp i praksis fandt en fastfrysning på omkring 5 sekunder, når vi trak controlleren ud og skiftede sti, så skal vi stadig øve os med at skifte til Huawei.
  4. Det er ikke nødvendigt at genstarte controlleren ved opdatering. Dette begyndte især at bekymre mig med den ret hyppige udgivelse af nye versioner og firmwaregrene til NetApps. Ja, nogle opdateringer til Huawei kræver stadig en genstart, men ikke alle.
  5. 4 Huawei-controllere til prisen for to NetApp-controllere. Som jeg sagde ovenfor, takket være Huaweis prispolitik, kan den konkurrere med Mid-range med sine High-end-modeller.
  6. Tilstedeværelsen af ​​yderligere chips i hyldecontrollere og portkort, som potentielt er beregnet til at forbedre systemets effektivitet.

Ulemper og bekymringer generelt:

  1. Direkte tilslutning af hylder til controllere eller behov for et stort antal back-end-porte for at forbinde alle hylder til controllere.
  2. ARM-arkitektur og tilstedeværelsen af ​​et stort antal chips - hvor effektivt vil det fungere, og vil ydeevnen være nok?

De fleste bekymringer og frygt kan fjernes ved personlig test af den nye linje. Jeg håber, at de snart efter udgivelsen vil dukke op i Moskva, og der vil være nok af dem til hurtigt at få en til dine egne tests. Indtil videre kan vi sige, at virksomhedens tilgang generelt ser interessant ud, og den nye linje ser meget godt ud sammenlignet med sine konkurrenter. Den endelige implementering rejser mange spørgsmål, fordi Vi vil først se mange ting i slutningen af ​​året, og måske først i 2020.

Kilde: www.habr.com

Tilføj en kommentar