Краш-тэсты СХД AERODISK ENGINE N2, праверка на трываласць

Краш-тэсты СХД AERODISK ENGINE N2, праверка на трываласць

Ўсім прывітанне! Гэтым артыкулам кампанія AERODISK адкрывае блог на Хабры. Ура, таварышы!

У папярэдніх артыкулах на Хабры былі разгледжаны пытанні аб архітэктуры і базавай наладзе СГД. У гэтым артыкуле мы разгледзім пытанне, якое раней не было асветлена, але яго часта задавалі - аб адмоваўстойлівасці СХД AERODISK ENGINE. Наша каманда будзе рабіць усё, каб СГД AERODISK перастала працаваць, г.зн. ламаць яе.

Так атрымалася, што артыкулы пра гісторыю нашай кампаніі, пра нашы прадукты, а таксама прыклад паспяховага ўкаранення ўжо вісяць на Хабры, за што вялікі дзякуй нашым партнёрам – кампаніям TS Solution і Softline.

Таму я не буду тут трэніраваць навыкі copy-paste management-а, а проста дам спасылкі на арыгіналы гэтых артыкулаў:

Таксама хачу падзяліцца радаснай навіной. Але пачну, вядома ж, з праблемы. Мы, як малады вендар, акрамя іншых выдаткаў, увесь час сутыкаемся з тым, што многія інжынеры і адміністратары банальна не ведаюць, як нашу СГД правільна эксплуатаваць.
Зразумела, што кіраванне большасцю СГД выглядае прыкладна аднолькава з пункта гледжання адміна, але пры гэтым у кожнага вытворцы ёсць свае асаблівасці. І мы тут не выключэнне.

Таму, каб спрасціць задачу па навучанні ІТ-адмыслоўцаў, гэты год мы вырашылі прысвяціць бясплатнай адукацыі. Для гэтага ў многіх буйных гарадах Расіі мы адкрываем сетку Цэнтраў кампетэнцыі AERODISK, у якіх любы ахвочы тэхнічны спецыяліст зможа абсалютна бясплатна прайсці курс і атрымаць сертыфікат па адміністраванні СГД AERODISK ENGINE.

У кожным Цэнтры кампетэнцыі мы ўсталюем паўнавартасны дэма-стэнд з сістэмы захоўвання AERODISK і фізічнага сервера, на якім нашым выкладчыкам будзе праводзіцца вочнае навучанне. Расклад працы Цэнтраў кампетэнцыі будзем публікаваць па факце іх з'яўлення, але ўжо зараз мы адкрылі цэнтр у Ніжнім Ноўгарадзе і на чарзе горад Краснадар. Запісацца на навучанне можна па спасылках ніжэйшых. Прыводжу вядомую на дадзены момант інфармацыю аб гарадах і датах:

  • Ніжні Ноўгарад (УЖО ПРАЦУЕ - запісацца можна тут https://aerodisk.promo/nn/);
    да 16 красавіка 2019 года можна наведаць цэнтр у любы працоўны час, а 16 красавіка 2019 года будзе арганізаваны вялікі навучальны курс.
  • Краснадар (ХУТКА АДКРЫЦЦЁ – запісацца можна тут https://aerodisk.promo/krsnd/ );
    З 9 па 25 красавіка 2019 года можна наведаць цэнтр у любы працоўны час, а 25 красавіка 2019 года будзе арганізаваны вялікі навучальны курс.
  • Екацерынбург (ХУТКА АДКРЫЦЦЁ, сочыце за інфармацыяй на нашым сайце або на Хабры);
    май-чэрвень 2019 года.
  • Новасібірск (сачыце за інфармацыяй на нашым сайце або на Хабры);
    кастрычнік 2019 года.
  • Красноярск (сачыце за інфармацыяй на нашым сайце або на Хабры);
    лістапад 2019 года.

Ну і, канешне, калі Масква ад вас недалёка, то ў любы час можна наведаць наш офіс у Маскве і прайсці аналагічнае навучанне.

Усё. З маркетынгам завязалі, пераходзім да тэхнікі!

На Хабре мы будзем рэгулярна публікаваць тэхнічныя артыкулы аб нашых прадуктах, нагрузачныя тэсты, параўнання, асаблівасці выкарыстання і цікавыя ўкаранення.

Краш-тэсты СХД AERODISK ENGINE N2, праверка на трываласць

УВАГА! Прачытаўшы артыкул, вы можаце сказаць: ну, вядома ж, вендар сам сябе праверыць так, каб усё адпрацавала "на ўра", цяплічныя ўмовы і да т.п. Адкажу: нічога падобнага! У адрозненне ад нашых замежных канкурэнтаў мы знаходзімся тут, блізка да вас, і да нас заўсёды можна прыйсці (у Маскву ці любы ЦК) і пратэставаць нашу СГД любым спосабам. Такім чынам, падганяць вынікі пад ідэальную карціну свету нам асаблівага сэнсу няма, т.я. нас вельмі лёгка праверыць. Для тых каму лянота хадзіць у каго няма часу, можам арганізаваць выдаленае тэставанне. Спецыяльная лаба ў нас для гэтага ёсць. Звяртайцеся.

ACHTUNG-2! Дадзены тэст не носіць характар ​​нагрузачнага, т.я. тут нас хвалюе толькі адмоваўстойлівасць. Праз пару тыдняў мы падрыхтуем больш магутны стэнд і правядзём нагрузачнае тэсціраванне СХД, апублікаваўшы вынікі тут (дарэчы, пажаданні да тэстаў прымаюцца).

Дык вось, паехалі ламаць.

Выпрабавальны стэнд

Наш стэнд складаецца з наступнага жалеза:

  • 1 x СХД Aerodisk Engine N2 (2 кантролера, 64ГБ кэш, 8xFC партоў 8Гб / с, 4xEthernet порта 10Гб / с SFP +, 4xEthernet порта 1Гб / с); у СГД устаноўлены наступныя дыскі:
  • 4 x SAS SSD дыска 900 GB;
  • 12 x SAS 10k дыскаў 1,2 TB;
  • 1 x Фізічны сервер з Windows Server 2016 (2xXeon E5 2667 v3, 96ГБ RAM, 2xFC порта 8Гб / с, 2xEthernet порта 10Гб / с SFP +);
  • 2 x SAN 8G камутатара;
  • 2 x LAN 10G камутатара;

Мы падлучылі сервер да СХД праз камутатары і па FC, і па Ethernet 10G. Схема стэнда ніжэй.

Краш-тэсты СХД AERODISK ENGINE N2, праверка на трываласць

На Windows Server усталяваныя неабходныя нам кампаненты, такія як MPIO і iSCSI initiator.
На FC камутатарах настроены зоны, на LAN камутатарах настроены адпаведныя VLAN-ы і ўсталяваны MTU 9000 на партах СХД, камутатарах і хасце (як усё гэта рабіць - апісана ў нашай дакументацыі, таму тут гэты працэс распісваць не будзем).

Методыка тэсціравання

План краш-тэстаў такі:

  • Праверка адмовы FC і Ethernet партоў.
  • Праверка адмовы харчавання.
  • Праверка адмовы кантролера.
  • Праверка адмовы дыска ў групе/кулі.

Усе выпрабаванні будуць выконвацца ва ўмовах сінтэтычнай нагрузкі, якую мы будзем генераваць праграмай IOMETER. Паралельна мы выканаем тыя ж тэсты, але ва ўмовах капіравання вялікіх файлаў на СХД.

Канфіг IOmeter наступны:

  • Чытанне/Запіс – 70/30
  • Блок - 128k (вырашылі мачыць СХД вялікімі блокамі)
  • Колькасць патокаў - 128 (што вельмі падобна на прадуктыўную нагрузку)
  • Full Random
  • Колькасць Worker-ов - 4 (2 для FC, 2 для iSCSI)

Краш-тэсты СХД AERODISK ENGINE N2, праверка на трываласць
Краш-тэсты СХД AERODISK ENGINE N2, праверка на трываласць

Тэст пераследуе наступныя задачы:

  1. Пераканацца, што сінтэтычная нагрузка і працэс капіравання не перапыняцца і не выклічуць памылак пры розных варыянтах адмовы.
  2. Пераканацца, што працэс пераключэння партоў, кантролераў і інш. у дастатковай ступені аўтаматызаваны і не патрабуе дзеянняў адміністратара пры адмовах (гэта значыць пры failover-ах, пра failback-ах гаворка, зразумела, не ідзе).
  3. Пераканацца ў карэктнасці адлюстравання інфармацыі ў логах.

Падрыхтоўка хаста і СГД

На СХД мы наладзілі блочны доступ з выкарыстаннем партоў FC і Ethernet (FC і iSCSI, адпаведна). Як гэта рабіць, хлопцы з TS Solution падрабязна апісалі ў папярэднім артыкуле (https://habr.com/ru/company/tssolution/blog/432876/). Ну і, канешне, мануалы і курсы ніхто не адмяняў.

Мы наладзілі гібрыдную групу, выкарыстаўшы ўсе існуючыя ў нас дыскі. 2 ССД дыска дададзены ў кэш, 2 ССД дыска дададзены як дадатковы ўзровень захоўвання (Online-tier). 12 SAS10k дыскаў мы згрупавалі ў RAID-60P (трайная цотнасць), для таго, каб праверыць выхад са строю адразу трох дыскаў у групе. Адзін дыск пакінулі для аўтазамены.

Краш-тэсты СХД AERODISK ENGINE N2, праверка на трываласць

Падлучылі два LUN-а (адзін па FC, адзін па iSCSI).

Краш-тэсты СХД AERODISK ENGINE N2, праверка на трываласць

Уладальнікам абодвух LUN-аў з'яўляецца кантролер Engine-0

Краш-тэсты СХД AERODISK ENGINE N2, праверка на трываласць

Пачынаем тэст

Уключаем IOMETER з канфігам вышэй.

Краш-тэсты СХД AERODISK ENGINE N2, праверка на трываласць

Фіксуем прапускную здольнасць 1.8/3 ГБ / с і затрымкі XNUMX мілісекунды. Памылак (Total Error Count) не.

У гэты ж час з лакальнага дыска "C" нашага хаста паралельна запускаем капіраванне двух вялікіх файлаў па 100GB на FC і iSCSI LUN-ы СХД (дыскі E і G у віндзе), задзейнічаўшы іншыя інтэрфейсы.

Уверсе працэс капіявання на LUN FC, унізе на iSCSI.

Краш-тэсты СХД AERODISK ENGINE N2, праверка на трываласць

Тэст № 1. Адключэнне партоў уводу-вываду

Падыходзім да СХД ззаду))) і лёгкім рухам рукі выдзіраем усе FC і Ethernet 10G кабелі з кантролера Engine-0. Як быццам прыбіральшчыца са швабрай прайшла міма і вырашыла памыць падлогу як раз там, дзе валяліся соплі ляжалі кабелі (г.зн. кантролер застаецца працаваць, але парты ўводу-вываду памерлі).

Краш-тэсты СХД AERODISK ENGINE N2, праверка на трываласць

Глядзім на IOMETER і капіраванне файлаў. Прапускная здольнасць звалілася да 0,5 ГБ/з, але даволі хутка вярнулася на ранейшы ўзровень (прыкладна за 4-5 секунд). Памылак няма.

Краш-тэсты СХД AERODISK ENGINE N2, праверка на трываласць

Капіяванне файлаў не спынілася, прасадка ў хуткасці ёсць, але зусім некрытычная (з 840 МБ/з упала да 720 МБ/з). Капіраванне не спынілася.

Глядзім у логі СХД і бачым паведамленне аб недаступнасці партоў і аўтаматычным пераездзе групы.

Краш-тэсты СХД AERODISK ENGINE N2, праверка на трываласць

Таксама інфармацыйная панэль нам падказвае, што не вельмі ўсё добра з партамі FC.

Краш-тэсты СХД AERODISK ENGINE N2, праверка на трываласць

Адмову партоў уводу-вываду СГД перажыла паспяхова.

Тэст № 2. Адключэнне кантролера СГД

Амаль адразу (папярэдне ўваткнуўшы назад кабелі назад у СГД) мы вырашылі дабіць СХД, вырваўшы кантролер з шасі.

Ізноў падыходзім да СХД ззаду (нам спадабалася))) і на гэты раз выдзіраем кантролер Engine-1, які ў гэты момант з'яўляецца ўладальнікам RDG (на які пераехала група).

Сітуацыя ў IOmeter наступная. Увод вывад спыніўся прыкладна на 5 секунд. Памылкі не збіраюцца.

Краш-тэсты СХД AERODISK ENGINE N2, праверка на трываласць

Пасля 5 секунд увод-вывад аднавіўся, прыкладна з тымі ж паказчыкамі прапускной здольнасці, але з затрымкамі ў 35 мілісекунд (затрымкі выправіліся прыкладна праз пару хвілін). Як відаць са скрыншотаў, значэнне Total error count - 0, гэта значыць памылак запісу або чытання не было.

Краш-тэсты СХД AERODISK ENGINE N2, праверка на трываласць

Глядзім на капіраванне нашых файлаў. Як відаць, яно не перапынілася, была невялікая прасадка прадукцыйнасці, але ў цэлым усё вярнулася на тыя ж ~ 800 МБ/С.

Краш-тэсты СХД AERODISK ENGINE N2, праверка на трываласць

Ідзем на СХД і бачым там лаянку ў інфармацыйнай панэлі аб тым, што кантролер Engine-1 недаступны (вядома, мы ж яго грымнулі).

Краш-тэсты СХД AERODISK ENGINE N2, праверка на трываласць

Таксама бачым аналагічны запіс у логах.

Краш-тэсты СХД AERODISK ENGINE N2, праверка на трываласць

Адмова кантролера СГД перажыла таксама паспяхова.

Тэст № 3. Адключэнне блока харчавання.

Капіраванне файлаў мы на ўсякі выпадак запусцілі нанова, а IOMETER не спынялі.
Тузаем БП-шнік.

Краш-тэсты СХД AERODISK ENGINE N2, праверка на трываласць

На СГД дадаўся яшчэ адзін алерт у інфармацыйнай панэлі.

Краш-тэсты СХД AERODISK ENGINE N2, праверка на трываласць

Таксама ў меню сэнсараў бачым, што сэнсары, злучаныя з выдраным блокам сілкавання, счырванелі.

Краш-тэсты СХД AERODISK ENGINE N2, праверка на трываласць

СГД працягвае працаваць. Адмова БП-шніка ніяк не ўплывае на працу СХД, з пункта гледжання хаста хуткасць капіявання і паказчыкі IOMETER-а засталіся без змен.

Тэст на адмову харчавання пройдзены паспяхова.

Перад фінальным тэстам мы вырашылі ўсё ж крыху вярнуць СГД да жыцця, паставілі назад кантролер і БП-шнік, а таксама навялі парадак з кабелямі, пра што СГД нам радасна паведаміла зялёнымі значкамі ў сваёй панэлі здароўя.

Краш-тэсты СХД AERODISK ENGINE N2, праверка на трываласць

Тэст № 4. Адмова трох дыскаў у групе

Перад гэтым тэстам мы выканалі дадатковы падрыхтоўчы крок. Справа ў тым, што ў СГД ENGINE прадугледжана вельмі карысная штука - розныя палітыкі рэбілда (перастраення). Раней TS Solution пісаў аб гэтай фічы, але нагадаем яе сутнасць. Адміністратар СГД можа ўказаць прыярытэт выдзялення рэсурсаў пры перастраенні. Або ў бок прадукцыйнасці ўводу-высновы, гэта значыць даўжэй рэбілд, але няма прасадкі прадукцыйнасці. Або ў бок хуткасці рэбілда, але прадукцыйнасць будзе зніжана. Або збалансаваны варыянт. Паколькі прадукцыйнасць СХД падчас рэбілда дыскавай групы - гэта заўсёды галаўны боль адміна, мы будзем тэставаць палітыку з ухілам у бок прадукцыйнасці ўводу-вываду і ў шкоду хуткасці рэбілда.

Краш-тэсты СХД AERODISK ENGINE N2, праверка на трываласць

Цяпер праверым адмову дыскаў. Таксама ўключаем запіс на LUN-ы (файлы і IOMETER). Паколькі ў нас група з патройнай цотнасцю (RAID-60P), значыць, сістэма павінна вытрымаць адмову трох кружэлак, а пасля адмовы павінна спрацаваць аўтазамену, адна кружэлка павінен устаць у RDG на месца аднаго з якія адмовілі, і на яго павінен пачацца рэбілд.

Пачынаем. Для пачатку праз інтэрфейс СХД падсветлім дыскі, якія жадаем выдраць (каб не прамахнуцца і не тузануць дыск аўтазамены).

Краш-тэсты СХД AERODISK ENGINE N2, праверка на трываласць

Правяраем індыкацыю на жалезе. Усе ОК, бачым падсветленыя тры дыскі.

Краш-тэсты СХД AERODISK ENGINE N2, праверка на трываласць

І выдзіраем гэтыя тры дыскі.

Краш-тэсты СХД AERODISK ENGINE N2, праверка на трываласць

Глядзім што на хасце. А там… нічога асаблівага не адбылося.

Краш-тэсты СХД AERODISK ENGINE N2, праверка на трываласць
Краш-тэсты СХД AERODISK ENGINE N2, праверка на трываласць

Паказчыкі капіявання (яны вышэй, чым у пачатку, т. к. прагрэўся кэш) і IOMETER-а пры вышморгванні дыскаў і старце рэбілда моцна не мяняюцца (у межах 5-10%).

Глядзім, што на СГД.

Краш-тэсты СХД AERODISK ENGINE N2, праверка на трываласць

У статусе групы бачым, што пайшоў працэс перастраення і ён блізкі да завяршэння.

Краш-тэсты СХД AERODISK ENGINE N2, праверка на трываласць

У шкілеце RDG бачна, што 2 дыскі ў чырвоным статусе, а адзін ужо замяніўся. Дыска аўтазамены больш няма, ён замяніў сабой трэці дыск, які адмовіў. Рэбілд выконваўся некалькі хвілін, запіс файлаў пры адмове 3-х дыскаў не перапынілася, прадукцыйнасць уводу-вываду асабліва не мянялася.

Краш-тэсты СХД AERODISK ENGINE N2, праверка на трываласць

Краш-тэсты СХД AERODISK ENGINE N2, праверка на трываласць

Тэст на адмову дыскаў адназначна прайшоў паспяхова.

Заключэнне

На гэтым гвалт над СГД мы вырашылі спыніць. Падводзім вынікі:

  • Праверка адмовы FC партоў - паспяхова
  • Праверка адмовы Ethernet партоў - паспяхова
  • Праверка адмовы кантролера - паспяхова
  • Праверка адмовы харчавання - паспяхова
  • Праверка адмовы дыска ў групе пуле – паспяхова

Ніводны са збояў не спыніў запіс і не выклікаў памылак сінтэтычнай нагрузкі, прасадка прадукцыйнасці, вядома, была (і мы ведаем як гэта перамагчы, што хутка і зробім), але, улічваючы тое, што гэта секунды, суцэль дапушчальная. Выснова: адмоваўстойлівасць усіх кампанентаў СХД AERODISK адпрацавала на ўзроўні, кропак адмовы няма.

Відавочна, што ў рамках аднаго артыкула мы не можам адтэставаць усе сцэнары адмовы, але пастараліся ахапіць самыя папулярныя. Таму, калі ласка дасылайце вашыя каментары, пажаданні да наступных публікацый і, вядома, адэкватную крытыку. Будзем рады дыскусіям (а лепш прыходзьце на навучанне, на ўсялякі выпадак дублюю расклад)! Да новых тэстаў!

  • Ніжні Ноўгарад (УЖО ПРАЦУЕ - запісацца можна тут https://aerodisk.promo/nn/);
    да 16 красавіка 2019 года можна наведаць цэнтр у любы працоўны час, а 16 красавіка 2019 года будзе арганізаваны вялікі навучальны курс.
  • Краснадар (ХУТКА АДКРЫЦЦЁ – запісацца можна тут https://aerodisk.promo/krsnd/ );
    З 9 па 25 красавіка 2019 года можна наведаць цэнтр у любы працоўны час, а 25 красавіка 2019 года будзе арганізаваны вялікі навучальны курс.
  • Екацерынбург (ХУТКА АДКРЫЦЦЁ, сочыце за інфармацыяй на нашым сайце або на Хабры);
    май-чэрвень 2019 года.
  • Новасібірск (сачыце за інфармацыяй на нашым сайце або на Хабры);
    кастрычнік 2019 года.
  • Красноярск (сачыце за інфармацыяй на нашым сайце або на Хабры);
    лістапад 2019 года.

Крыніца: habr.com

Дадаць каментар