Тестови за паѓање на системот за складирање AERODISK ENGINE N2, тест за јачина

Тестови за паѓање на системот за складирање AERODISK ENGINE N2, тест за јачина

Здраво на сите! Со оваа статија, АЕРОДИСК отвора блог на Хабре. Ура, другари!

Претходните написи на Хабре дискутираа за прашања за архитектурата и основната конфигурација на системите за складирање. Во оваа статија ќе разгледаме прашање што претходно не беше покриено, но често се поставува - за толеранцијата на дефекти на системите за складирање на AERODISK ENGINE. Нашиот тим ќе направи се за да се осигура дека системот за складирање AERODISK ќе престане да работи, т.е. скрши го.

Се случи на Хабре веќе да висат написи за историјата на нашата компанија, за нашите производи, како и пример за успешна имплементација, за кои Голема благодарност до нашите партнери - TS Solution и Softline компаниите.

Затоа, овде нема да обучувам вештини за управување со copy-paste, туку едноставно ќе дадам врски до оригиналите на овие написи:

Сакам да споделам и добри вести. Но, ќе почнам, се разбира, со проблемот. Ние, како млад продавач, покрај другите трошоци, постојано се соочуваме со фактот дека многу инженери и администратори едноставно не знаат како правилно да управуваат со нашиот систем за складирање.
Јасно е дека управувањето со повеќето системи за складирање изгледа приближно исто од гледна точка на администраторот, но секој производител има свои карактеристики. И ние тука не сме исклучок.

Затоа, за да ја поедноставиме задачата за обука на ИТ специјалисти, решивме оваа година да ја посветиме на бесплатното образование. За да го направите ова, во многу големи градови во Русија отвораме мрежа на центри за компетентност на АЕРОДИСК, во која секој заинтересиран технички специјалист може да посетува курс апсолутно бесплатно и да добие сертификат за администрирање на системи за складирање на моторот на АЕРОДИСК.

Во секој Центар за компетенции ќе инсталираме целосен демо штанд од системот за складирање AERODISK и физички сервер, на кој нашиот наставник ќе спроведува обука лице в лице. Распоредот за работа на Центрите за компетенции ќе го објавиме по нивното појавување, но веќе отворивме центар во Нижни Новгород, а следниот е градот Краснодар. Можете да се пријавите за обука користејќи ги линковите подолу. Еве ги моментално познатите информации за градовите и датумите:

  • Нижни Новгород (ВЕЌЕ ОТВОРЕНО - можете да се регистрирате овде https://aerodisk.promo/nn/);
    До 16 година, центарот можете да го посетите во секое работно време, а на 2019 година ќе се организира голем курс за обука.
  • Краснодар (ОТВОРА НАСКОРО - можете да се пријавите овде https://aerodisk.promo/krsnd/ );
    Од 9 до 25 април 2019 година, центарот можете да го посетите во секое работно време, а на 25 април 2019 година ќе биде организиран голем курс за обука.
  • Екатеринбург (ОТВОРА НАСКОРО, следете ги информациите на нашата веб-страница или на Habré);
    мај-јуни 2019 година.
  • Новосибирск (следете ги информациите на нашата веб-страница или на Хабре);
    октомври 2019 година.
  • Краснојарск (следете ги информациите на нашата веб-страница или на Хабре);
    ноември 2019 година.

И, се разбира, ако Москва не е далеку од вас, тогаш во секое време можете да ја посетите нашата канцеларија во Москва и да поминете слична обука.

Сите. Завршивме со маркетингот, да преминеме на технологија!

На Habré редовно ќе објавуваме технички написи за нашите производи, тестови за оптоварување, споредби, карактеристики на употреба и интересни имплементации.

Тестови за паѓање на системот за складирање AERODISK ENGINE N2, тест за јачина

ПРЕДУПРЕДУВАЊЕ! Откако ќе ја прочитате статијата, можете да кажете: добро, се разбира, продавачот ќе се провери себеси, така што сè работи „со тресок“, услови на стаклена градина итн. Ќе одговорам: ништо слично! За разлика од нашите странски конкуренти, ние сме лоцирани овде, блиску до вас и секогаш можете да дојдете кај нас (во Москва или во кој било Централен комитет) и да го тестирате нашиот систем за складирање на кој било начин. Така, нема многу смисла да ги прилагодиме резултатите на идеална слика за светот, бидејќи Ние сме многу лесно да се провери. За оние кои се премногу мрзливи да одат и немаат време, можеме да организираме тестирање на далечина. Имаме специјална лабораторија за ова. Контактирајте не.

АХТУНГ-2! Овој тест не е тест за оптоварување, бидејќи овде се грижиме само за толеранција на грешки. За неколку недели, ќе подготвиме помоќен штанд и ќе спроведеме тестирање на оптоварувањето на системот за складирање, објавувајќи ги резултатите овде (патем, барањата за тестови се прифаќаат).

Значи, ајде да го скршиме.

Тест штанд

Нашиот штанд се состои од следниот хардвер:

  • 1 x Aerodisk Engine N2 систем за складирање (2 контролери, 64GB кеш, 8xFC порти 8Gb/s, 4xEthernet порти 10Gb/s SFP+, 4xEthernet порти 1Gb/s); Следниве дискови се инсталирани во системот за складирање:
  • 4 x SAS SSD дискови 900 GB;
  • 12 x SAS 10k дискови 1,2 TB;
  • 1 x Физички сервер со Windows Server 2016 (2xXeon E5 2667 v3, 96GB RAM, 2xFC порти 8Gb/s, 2xEthernet порти 10Gb/s SFP+);
  • 2 x SAN 8G прекинувач;
  • 2 x LAN 10G прекинувач;

Го поврзавме серверот со системот за складирање преку прекинувачи и преку FC и 10G Ethernet. Дијаграмот на штандот е подолу.

Тестови за паѓање на системот за складирање AERODISK ENGINE N2, тест за јачина

Компонентите што ни се потребни, како што се MPIO и иницијаторот iSCSI, се инсталирани на Windows Server.
Зоните се конфигурирани на FC прекинувачите, соодветните VLAN се конфигурирани на LAN прекинувачите, а MTU 9000 е инсталиран на портите за складирање, прекинувачите и домаќинот (како да го направите сето ова е опишано во нашата документација, така што нема да опишеме овој процес овде).

Методологија на тестирање

Планот за тест за несреќа е како што следува:

  • Проверка на дефект на FC и Ethernet портите.
  • Проверка на прекин на струја.
  • Проверка на дефект на контролорот.
  • Проверка за дефект на дискот во група/базен.

Сите тестови ќе се вршат под услови на синтетичко оптоварување, кое ќе го генерираме со програмата IOMETER. Паралелно, ќе ги извршиме истите тестови, но во услови на копирање големи датотеки во системот за складирање.

Конфигурацијата на IOmeter е како што следува:

  • Читање/пишување – 70/30
  • Блок – 128k (решивме да ги измиеме системите за складирање во големи блокови)
  • Број на нишки – 128 (што е многу слично на продуктивното оптоварување)
  • Целосно случаен избор
  • Број на работници – 4 (2 за ФК, 2 за iSCSI)

Тестови за паѓање на системот за складирање AERODISK ENGINE N2, тест за јачина
Тестови за паѓање на системот за складирање AERODISK ENGINE N2, тест за јачина

Тестот ги има следните цели:

  1. Осигурете се дека процесот на синтетичко оптоварување и копирање нема да го прекине или да предизвика грешки при различни сценарија за неуспех.
  2. Осигурајте се дека процесот на префрлување на порти, контролери итн. е доволно автоматизиран и не бара администраторски активности во случај на неуспеси (односно, за време на фајловери, не зборуваме за фајлбек, се разбира).
  3. Проверете дали информациите во дневниците се правилно прикажани.

Подготовка на домаќинот и системот за складирање

Конфигуриравме пристап до блокирање на системот за складирање користејќи FC и Ethernet порти (FC и iSCSI, соодветно). Момците од TS Solution детално опишаа како да го направите ова во претходната статија (https://habr.com/ru/company/tssolution/blog/432876/). И, се разбира, никој не ги откажа прирачниците и курсевите.

Поставивме хибридна група користејќи ги сите погони што ги имавме. 2 SSD-дискови беа додадени во кешот, 2 SSD-дискови беа додадени како дополнително ниво за складирање (Online-tier). Групиравме 12 SAS10k дискови во RAID-60P (троен паритет) со цел да го провериме неуспехот на три дискови во групата одеднаш. Еден диск беше оставен за автоматска замена.

Тестови за паѓање на системот за складирање AERODISK ENGINE N2, тест за јачина

Поврзавме два LUN (еден преку FC, еден преку iSCSI).

Тестови за паѓање на системот за складирање AERODISK ENGINE N2, тест за јачина

Сопственик на двата LUN е контролорот Engine-0

Тестови за паѓање на системот за складирање AERODISK ENGINE N2, тест за јачина

Да го започнеме тестот

Овозможуваме IOMETER со конфигурацијата погоре.

Тестови за паѓање на системот за складирање AERODISK ENGINE N2, тест за јачина

Снимаме проток од 1.8 GB/s и латентност од 3 милисекунди. Нема грешки (Вкупен број на грешки).

Во исто време, од локалниот диск „C“ на нашиот домаќин, паралелно започнуваме да копираме две големи датотеки од 100 GB во FC и iSCSI складишни LUN (дискови E и G во Windows), користејќи други интерфејси.

Погоре е процесот на копирање во LUN FC, подолу на iSCSI.

Тестови за паѓање на системот за складирање AERODISK ENGINE N2, тест за јачина

Тест бр. 1: Оневозможување на I/O порти

Приоѓаме до системот за складирање одзади))) и со мало движење на раката ги извлекуваме сите кабли FC и Ethernet 10G од контролерот Engine-0. Како да поминала чистачка со џогер и решила да го измие подот токму на местото каде што лежел жлебот и лежеле каблите (т.е. контролорот сè уште работи, но влезните/излезни порти се мртви).

Тестови за паѓање на системот за складирање AERODISK ENGINE N2, тест за јачина

Ајде да погледнеме на IOMETER и копирање датотеки. Пропусната моќ падна на 0,5 GB/s, но брзо се врати на претходното ниво (за околу 4-5 секунди). Нема грешки.

Тестови за паѓање на системот за складирање AERODISK ENGINE N2, тест за јачина

Копирањето фајлови не престанало, има пад на брзината, но не е воопшто критично (од 840 MB/s падна на 720 MB/s). Копирањето не престана.

Ги гледаме дневниците на системот за складирање и гледаме порака за недостапноста на пристаништата и автоматското преместување на групата.

Тестови за паѓање на системот за складирање AERODISK ENGINE N2, тест за јачина

Информативниот панел, исто така, ни кажува дека сè не е многу добро со FC-портите.

Тестови за паѓање на системот за складирање AERODISK ENGINE N2, тест за јачина

Системот за складирање преживеа дефект на I/O портите успешно.

Тест бр. 2. Оневозможување на контролорот за складирање

Речиси веднаш (откако ги приклучивме каблите назад во системот за складирање) решивме да го завршиме системот за складирање со извлекување на контролорот од шасијата.

Повторно му пристапуваме на системот за складирање одзади (ни се допадна))) и овој пат го извлекуваме контролерот Engine-1, кој во овој момент е сопственик на RDG (во кој се пресели групата).

Ситуацијата во IOmeter е следна. Влезот/излезот запре околу 5 секунди. Грешките не се акумулираат.

Тестови за паѓање на системот за складирање AERODISK ENGINE N2, тест за јачина

По 5 секунди, I/O продолжи со приближно ист проток, но со латенции од 35 милисекунди (латенциите се коригирани по околу неколку минути). Како што може да се види од сликите од екранот, вредноста на вкупниот број на грешки е 0, односно немаше грешки при пишување или читање.

Тестови за паѓање на системот за складирање AERODISK ENGINE N2, тест за јачина

Ајде да погледнеме како да ги копираме нашите датотеки. Како што можете да видите, не беше прекинат, имаше благ пад на перформансите, но во целина се се врати на истите ~ 800 MB/s.

Тестови за паѓање на системот за складирање AERODISK ENGINE N2, тест за јачина

Одиме во системот за складирање и гледаме проклетство во информативниот панел дека контролерот Engine-1 е недостапен (се разбира, го убивме).

Тестови за паѓање на системот за складирање AERODISK ENGINE N2, тест за јачина

Исто така, гледаме сличен запис во дневниците.

Тестови за паѓање на системот за складирање AERODISK ENGINE N2, тест за јачина

Контролорот за складирање исто така преживеа дефект успешно.

Тест бр. 3: Исклучување на напојувањето.

За секој случај, почнавме повторно да копираме датотеки, но не го прекинавме IOMETER.
Ја повлекуваме единицата за напојување.

Тестови за паѓање на системот за складирање AERODISK ENGINE N2, тест за јачина

Додадено е уште едно предупредување во системот за складирање во информативниот панел.

Тестови за паѓање на системот за складирање AERODISK ENGINE N2, тест за јачина

Исто така, во менито со сензори гледаме дека сензорите поврзани со извлеченото напојување станале црвено.

Тестови за паѓање на системот за складирање AERODISK ENGINE N2, тест за јачина

Системот за складирање продолжува да работи. Неуспехот на единицата за напојување на никаков начин не влијае на работата на системот за складирање; од гледна точка на домаќинот, индикаторите за брзина на копирање и IOMETER останаа непроменети.

Тестот за прекин на струја помина успешно.

Пред последниот тест, решивме малку да го оживееме системот за складирање, да ги вратиме контролорот и единицата за напојување, а исто така да ги средиме каблите, за што системот за складирање среќно не информираше со зелени икони во неговата здравствена табла. .

Тестови за паѓање на системот за складирање AERODISK ENGINE N2, тест за јачина

Тест бр. 4. Дефект на три дискови во група

Пред овој тест, извршивме дополнителен чекор за подготовка. Факт е дека системот за складирање ENGINE обезбедува многу корисна работа - различни политики за обнова. TS Solution пишуваше за оваа функција порано, но да се потсетиме на нејзината суштина. Администраторот за складирање може да го одреди приоритетот за распределба на ресурсите за време на обновата. Или во насока на I/O перформанси, односно, обновата трае подолго, но нема повлекување на перформансите. Или во насока на брзина на обнова, но продуктивноста ќе се намали. Или избалансирана опција. Бидејќи перформансите за складирање за време на обновата на групата на дискот секогаш се главоболки на администраторот, ќе тестираме политика со пристрасност кон перформансите на влез/излез и на сметка на брзината на обновата.

Тестови за паѓање на системот за складирање AERODISK ENGINE N2, тест за јачина

Сега ајде да провериме за дефект на дискот. Овозможуваме и снимање на LUN (датотеки и IOMETER). Бидејќи имаме група со троен паритет (RAID-60P), тоа значи дека системот мора да издржи дефект на три дискови, а по дефектот, автоматската замена мора да работи, еден диск мора да го заземе местото на еден од неуспешните во RDG, и на него мора да започне обновата.

Започнете. Прво, преку интерфејсот за складирање, да ги истакнеме дисковите што сакаме да ги извадиме (за да не го пропуштиме и повлечеме дискот за автоматска промена).

Тестови за паѓање на системот за складирање AERODISK ENGINE N2, тест за јачина

Ја проверуваме индикацијата на хардверот. Сè е во ред, гледаме три означени дискови.

Тестови за паѓање на системот за складирање AERODISK ENGINE N2, тест за јачина

И ги извлекуваме овие три дискови.

Тестови за паѓање на системот за складирање AERODISK ENGINE N2, тест за јачина

Ајде да погледнеме што има на домаќинот. И таму... ништо посебно не се случи.

Тестови за паѓање на системот за складирање AERODISK ENGINE N2, тест за јачина
Тестови за паѓање на системот за складирање AERODISK ENGINE N2, тест за јачина

Индикаторите за копирање (тие се повисоки отколку на почетокот, бидејќи кешот се загреал) и IOMETER не се менуваат многу при отстранување на дисковите и започнување на обновата (во рок од 5-10%).

Ајде да погледнеме што има на системот за складирање.

Тестови за паѓање на системот за складирање AERODISK ENGINE N2, тест за јачина

Во статусот на групата гледаме дека процесот на реструктуирање е започнат и тој е блиску до завршување.

Тестови за паѓање на системот за складирање AERODISK ENGINE N2, тест за јачина

Во скелетот RDG можете да видите дека 2 дискови се во црвен статус, а еден е веќе заменет. Дискот за автоматска замена повеќе не е таму; го замени третиот неуспешен диск. Обновата траеше неколку минути, пишувањето датотеки при откажување на 3 дискови не беше прекинато, а перформансите на I/O не се променија многу.

Тестови за паѓање на системот за складирање AERODISK ENGINE N2, тест за јачина

Тестови за паѓање на системот за складирање AERODISK ENGINE N2, тест за јачина

Тестот за неуспех на дискот дефинитивно помина успешно.

Заклучок

Во овој момент, решивме да го запреме насилството врз системите за складирање. Да резимираме:

  • Проверка на дефект на пристаништето FC - успешна
  • Проверка на неуспех на етернет порта - успешна
  • Проверка на неуспех на контролорот - успешна
  • Тест за прекин на струја - успешен
  • Проверка на дефект на дискот во grouppool - успешна

Ниту еден од дефектите не престана да снима или не предизвика грешки во синтетичкото оптоварување, секако, имаше хит на перформансите (и знаеме како да го надминеме, што ќе го направиме наскоро), но со оглед на тоа што се секунди, тоа е сосема прифатливо. Заклучок: толеранцијата на грешки на сите компоненти на системот за складирање AERODISK работеше на ниво, немаше точки на дефект.

Очигледно, во една статија не можеме да ги тестираме сите сценарија за неуспех, но се обидовме да ги покриеме најпопуларните. Затоа, ве молиме испратете ги вашите коментари, предлози за идни публикации и, се разбира, адекватна критика. Ќе ни биде драго да разговараме (или уште подобро, дојдете на обуката, за секој случај го дуплицирам распоредот)! До нови тестови!

  • Нижни Новгород (ВЕЌЕ ОТВОРЕНО - можете да се регистрирате овде https://aerodisk.promo/nn/);
    До 16 година, центарот можете да го посетите во секое работно време, а на 2019 година ќе се организира голем курс за обука.
  • Краснодар (ОТВОРА НАСКОРО - можете да се пријавите овде https://aerodisk.promo/krsnd/ );
    Од 9 до 25 април 2019 година, центарот можете да го посетите во секое работно време, а на 25 април 2019 година ќе биде организиран голем курс за обука.
  • Екатеринбург (ОТВОРА НАСКОРО, следете ги информациите на нашата веб-страница или на Habré);
    мај-јуни 2019 година.
  • Новосибирск (следете ги информациите на нашата веб-страница или на Хабре);
    октомври 2019 година.
  • Краснојарск (следете ги информациите на нашата веб-страница или на Хабре);
    ноември 2019 година.

Извор: www.habr.com

Додадете коментар