Huawei Dorado V6: Съчуанска топлина

Huawei Dorado V6: Съчуанска топлина
Лятото в Москва тази година, честно казано, не беше много добро. Започна твърде рано и бързо, не всички имаха време да реагират и приключи още в края на юни. Ето защо, когато Huawei ме покани да отида в Китай, в град Чънду, където се намира техният RnD център, след като видях прогнозата за времето от +34 градуса на сянка, веднага се съгласих. В крайна сметка вече не съм на същата възраст и трябва малко да загрея костите си. Но бих искал да отбележа, че беше възможно да се затоплят не само костите, но и вътрешностите, защото провинция Съчуан, в която всъщност се намира Чънду, е известна с любовта си към пикантната храна. Но все пак това не е блог за пътуване, така че нека се върнем към основната цел на нашето пътуване - нова линия системи за съхранение - Huawei Dorado V6. Тази статия ще ви отведе малко от миналото, защото... беше написано преди официалното съобщение, но публикувано едва след пускането. И така, днес ще разгледаме по-подробно всичко интересно и вкусно, което Huawei са ни подготвили.

Huawei Dorado V6: Съчуанска топлина
В новата линия ще има 5 модела. Всички модели с изключение на 3000V6 могат да се предлагат в две версии - SAS и NVMe. Изборът определя интерфейса на дисковете, които можете да използвате в тази система, Back-End портовете и броя на дисковите устройства, които можете да инсталирате в системата. За NVMe се използват SSD дискове с размер Palm, които са по-тънки от класическите 2.5" SAS SSD дискове и могат да бъдат инсталирани в до 36 броя. Новата линия е All Flash и няма конфигурации с дискове.

Huawei Dorado V6: Съчуанска топлина
Palm NVMe SSD

Според мен най-интересните модели изглеждат Dorado 8000 и 18000. Huawei ги позиционира като системи от висок клас и благодарение на ценовата политика на Huawei контрастира тези модели от среден клас с конкурентния сегмент. Именно на тези модели ще се спра в днешното си ревю. Веднага ще отбележа, че поради техните дизайнерски характеристики младшите системи с двоен контролер имат малко по-различна архитектура, различна от Dorado 8000 и 18000, така че не всичко, за което ще говоря днес, е приложимо за младши модели.

Една от основните характеристики на новите системи беше използването на няколко чипа, разработени вътрешно, всеки от които ви позволява да разпределите логическото натоварване от централния процесор на контролера и да добавите функционалност към различни компоненти.
Huawei Dorado V6: Съчуанска топлина

Сърцето на новите системи са процесорите Kunpeng 920, разработени по ARM технологии и произведени самостоятелно от Huawei. В зависимост от модела, броят на ядрата, тяхната честота и броят на инсталираните процесори във всеки контролер варират:
Huawei Dorado V6 8000 – 2CPU, 64 ядра
Huawei Dorado V6 18000 – 4CPU, 48 ядра
Huawei Dorado V6: Съчуанска топлина

Huawei разработи този процесор на архитектурата ARM и доколкото ми е известно, първоначално планира да го инсталира само в по-старите модели Dorado 8000 и 18000, както вече беше случаят с някои модели V5, но санкциите направиха корекции на тази идея. Разбира се, ARM също говори за отказ да сътрудничи с Huawei по време на налагането на санкции, но тук ситуацията е различна от тази с Intel. Huawei произвежда тези чипове самостоятелно и никакви санкции не могат да спрат този процес. Прекъсването на отношенията с ARM само заплашва загубата на достъп до нови разработки. Що се отнася до производителността, ще бъде възможно да се прецени само след провеждане на независими тестове. Въпреки че видях как 18000M IOPS беше премахнат от системата Dorado 1 без никакви проблеми, докато не го повторя със собствените си ръце в багажника си, няма да повярвам. Но наистина има много мощност в контролерите. По-старите модели са оборудвани с 4 контролера, всеки с 4 процесора, което дава общо 768 ядра.
Huawei Dorado V6: Съчуанска топлина

Но ще говоря за ядрата дори по-късно, когато разгледаме архитектурата на новите системи, но засега нека се върнем към друг чип, инсталиран в системата. Чипът изглежда като изключително интересно решение Изкачване на 310 (Доколкото разбирам, по-малкият брат на Ascend 910, който наскоро беше представен на обществеността). Неговата задача е да анализира блокове данни, влизащи в системата, за да увеличи коефициента на попадения при четене. Трудно е да се каже как ще се представи на работа, защото... Днес работи само по зададен шаблон и няма възможност за обучение в интелигентен режим. Появата на интелигентен режим е обещана в бъдещия фърмуер, най-вероятно в началото на следващата година.

Нека да преминем към архитектурата. Huawei продължи да развива собствената си технология Smart Matrix, която прилага изцяло мрежест подход за свързване на компоненти. Но ако във V5 това беше само за достъп от контролери до дискове, сега всички контролери имат достъп до всички портове както на Back-End, така и на Front-End.
Huawei Dorado V6: Съчуанска топлина

Благодарение на новата микросервизна архитектура, това също позволява балансиране на натоварването между всички контролери, дори ако има само един lun. Операционната система за тази линия от масиви е разработена от нулата, а не просто оптимизирана за използване на флаш устройства. Поради факта, че всички наши контролери имат достъп до едни и същи портове, в случай на повреда на контролера или рестартиране, хостът не губи нито един път към системата за съхранение и превключването на пътя се извършва на ниво система за съхранение. Използването на UltraPath на хост обаче не е абсолютно необходимо. Друго „спестяване“ при инсталиране на системата е по-малкият брой необходими връзки. И ако при „класическия“ подход за 4 контролера ще ни трябват 8 връзки от 2 фабрики, то в случая на Huawei дори 2 ще са достатъчни (не говоря сега за достатъчността на пропускателната способност на една връзка).
Huawei Dorado V6: Съчуанска топлина

Както и в предишната версия, се използва глобален кеш с дублиране. Това ви позволява да загубите до два контролера едновременно или три контролера последователно, без това да повлияе на наличността. Но си струва да се отбележи, че не видяхме пълно балансиране на натоварването между останалите 3 контролера в случай на един отказ на демонстрационния щанд. Натоварването на отказалия контролер се пое изцяло от един от останалите. Възможно е за това да е необходимо системата да работи по-дълго в тази конфигурация. Във всеки случай ще проверя това по-подробно с мои собствени тестове.
Huawei позиционира новите системи като End-to-End NVMe системи, но днес NVMeOF все още не се поддържа от предния край, а само FC, iSCSI или NFS. В края на тази или началото на следващата, подобно на други функции, ни е обещана поддръжка на RoCE.
Huawei Dorado V6: Съчуанска топлина

Рафтовете също са свързани към контролерите с помощта на RoCE и има един недостатък, свързан с това - липсата на „loopback“ връзка на рафтовете, какъвто беше случаят със SAS. Според мен това все още е доста голям недостатък, ако планирате доста голяма система. Факт е, че всички рафтове са свързани последователно и повредата на един от рафтовете води до пълна недостъпност на всички останали след него. В този случай, за да осигурим устойчивост на грешки, ще трябва да свържем всички рафтове към контролери, което води до увеличаване на необходимия брой backend портове в системата.

И още нещо, което си струва да се спомене, е актуализация без прекъсване (NDU). Както казах по-горе, Huawei е внедрил контейнерен подход за работа с операционната система за новата линия Dorado, което ви позволява да актуализирате и рестартирате услуги, без да е необходимо да рестартирате напълно контролера. Струва си да споменем веднага, че някои актуализации ще съдържат актуализации на ядрото и в този случай понякога ще се изисква класическо рестартиране на контролерите по време на актуализацията, но не винаги. Това ще намали въздействието на тази операция върху продуктивната система.

В нашия арсенал по-голямата част от масивите са от NetApp. Затова мисля, че ще бъде съвсем логично, ако направя малко сравнение със системи, с които трябва да работя доста. Това не е опит да се определи кой е по-добър и кой по-лош или чия архитектура е по-изгодна. Ще се опитам трезво и без фанатизъм да сравня два различни подхода за решаване на един и същ проблем от различни доставчици. Да, разбира се, в този случай ще разгледаме системите на Huawei на „теория“ и също така отделно ще отбележа тези точки, които се планира да бъдат внедрени в бъдещи версии на фърмуера. Какви предимства виждам в момента:

  1. Брой поддържани NVMe устройства. В момента NetApp има 288 от тях, докато Huawei има 1600-6400, в зависимост от модела. В същото време максималния използваем капацитет на Huawei е 32PBe, точно както системите NetApp (за да бъдем по-точни, те имат 31.64PBe). И това въпреки факта, че се поддържат дискове със същия обем (до 15Tb). Huawei обяснява този факт по следния начин: те не са имали възможност да сглобят по-голяма стойка. На теория те нямат ограничение на обема, но просто все още не са успели да тестват този факт. Но тук си струва да се отбележи, че възможностите на флаш устройствата днес са много високи, а в случая на NVMe системи сме изправени пред факта, че 24 устройства са достатъчни, за да използваме система от най-висок клас с 2 контролера. Съответно по-нататъшното увеличаване на броя на дисковете в системата не само няма да осигури увеличение на производителността, но също така ще има лош ефект върху съотношението IOPS/Tb. Разбира се, струва си да се види с колко устройства могат да се справят системите с 4 контролера 8000 и 16000, защото... Възможностите и потенциалът на Kunpeng 920 все още не са напълно ясни.
  2. Присъствието на Лун като собственик на NetApp системи. Тези. Само един контролер може да извършва операции с луната, докато вторият пропуска само IO през себе си. Системите на Huawei, напротив, нямат никакви собственици и операциите с блокове от данни (компресия, дедупликация) могат да се извършват от всеки от контролерите, както и да се записват на дискове.
  3. Никой порт не пада, когато един от контролерите се повреди. За някои този момент изглежда изключително критичен. Изводът е, че превключването вътре в системата за съхранение трябва да става по-бързо, отколкото от страната на хоста. И ако в случая на същия NetApp на практика открихме замръзване от около 5 секунди при изваждане на контролера и превключване на пътеки, тогава с преминаването към Huawei все още трябва да практикуваме.
  4. Няма нужда да рестартирате контролера при актуализиране. Това особено започна да ме тревожи с доста честото пускане на нови версии и клонове на фърмуера за NetApps. Да, някои актуализации за Huawei ще изискват рестартиране, но не всички.
  5. 4 контролера Huawei на цената на два контролера NetApp. Както казах по-горе, благодарение на ценовата политика на Huawei, той може да се конкурира със средния клас със своите модели от висок клас.
  6. Наличието на допълнителни чипове в контролерите на рафтовете и портовите карти, които потенциално са предназначени да подобрят ефективността на системата.

Недостатъци и опасения като цяло:

  1. Директно свързване на рафтове към контролери или необходимост от голям брой back-end портове за свързване на всички рафтове към контролери.
  2. ARM архитектура и наличието на голям брой чипове - колко ефективно ще работи и ще бъде ли достатъчна производителността?

Повечето опасения и страхове могат да бъдат разсеяни чрез лично тестване на новата линия. Надявам се, че скоро след пускането ще се появят в Москва и ще има достатъчно от тях, за да получите бързо един за собствените си тестове. Засега можем да кажем, че като цяло подходът на компанията изглежда интересен и новата линия изглежда много добре в сравнение с конкурентите. Окончателното изпълнение повдига много въпроси, т.к Много неща ще видим едва в края на годината, а може би едва през 2020 г.

Източник: www.habr.com

Добавяне на нов коментар