Краш-тести СХД AERODISK ENGINE N2, перевірка на міцність

Краш-тести СХД AERODISK ENGINE N2, перевірка на міцність

Всім привіт! Цією статтею компанія AERODISK відкриває блог на Хабрі. УРА товариші!

У попередніх статтях на Хабрі були розглянуті питання про архітектуру та базове налаштування СГД. У цій статті ми розглянемо питання, яке раніше не було освітлене, але його часто задавали – про стійкість до відмови СХД AERODISK ENGINE. Наша команда робитиме все, щоб СГД AERODISK перестала працювати, тобто. ламати її.

Так вийшло, що статті про історію нашої компанії, про наші продукти, а також приклад успішного впровадження вже висять на Хабре, за що велике спасибі нашим партнерам – компаніям TS Solution та Softline.

Тому я не тренуватиму тут навички copy-paste management-а, а просто дам посилання на оригінали цих статей:

Також хочу поділитись радісною новиною. Але почну, звичайно ж, із проблеми. Ми, як молодий вендор, крім інших витрат, постійно стикаємося з тим, що багато інженерів та адміністраторів банально не знають, як нашу СГД правильно експлуатувати.
Зрозуміло, що управління більшістю СГД виглядає приблизно однаково з погляду адміну, але при цьому кожен виробник має свої особливості. І ми тут не є винятком.

Тому, щоб спростити завдання навчання ІТ-фахівців, цей рік ми вирішили присвятити безкоштовній освіті. Для цього у багатьох великих містах Росії ми відкриваємо мережу Центрів компетенції AERODISK, в яких будь-який бажаючий технічний фахівець зможе абсолютно безкоштовно пройти курс та отримати сертифікат з адміністрування СГД AERODISK ENGINE.

У кожному Центрі компетенції ми встановимо повноцінний демо-стенд із системи зберігання AERODISK та фізичного сервера, на якому нашим викладачем проводитиметься очне навчання. Розклад роботи Центрів компетенції публікуватимемо за фактом їх появи, але вже зараз ми відкрили центр у Нижньому Новгороді та на черзі місто Краснодар. Записатися на навчання можна за посиланнями нижче. Наводжу відому на даний момент інформацію про міста та дати:

  • Нижній Новгород (ВЖЕ ПРАЦЮЄ – записатися можна тут https://aerodisk.promo/nn/);
    до 16 квітня 2019 року можна відвідати центр у будь-який робочий час, а 16 квітня 2019 року буде організований великий навчальний курс.
  • Краснодар (Незабаром ВІДКРИТТЯ – записатися можна тут https://aerodisk.promo/krsnd/ );
    З 9 по 25 квітня 2019 року можна відвідати центр у будь-який робочий час, а 25 квітня 2019 року буде організований великий навчальний курс.
  • Єкатеринбург (ХУТКО ВІДКРИТТЯ, слідкуйте за інформацією на нашому сайті або на Хабре);
    травень-червень 2019 року.
  • Новосибірськ (стежте за інформацією на нашому сайті або на Хабре);
    жовтень 2019 року.
  • Красноярськ (стежте за інформацією на нашому сайті або на Хабре);
    листопад 2019 року.

Ну і, звичайно, якщо Москва від вас недалеко, то будь-коли можна відвідати наш офіс у Москві і пройти аналогічне навчання.

Всі. З маркетингом зав'язали, переходимо до техніки!

На Хабре ми регулярно публікуватимемо технічні статті про наші продукти, навантажувальні тести, порівняння, особливості використання та цікаві впровадження.

Краш-тести СХД AERODISK ENGINE N2, перевірка на міцність

УВАГА! Прочитавши статтю, ви можете сказати: ну, звичайно ж, вендор сам себе перевірить так, щоб усе відпрацювало на ура, тепличні умови і т.п. Відповім: нічого подібного! На відміну від наших зарубіжних конкурентів, ми знаходимося тут, близько до вас, і до нас завжди можна прийти (до Москви або будь-якої ЦК) і протестувати нашу СГД у будь-який спосіб. Отже, підганяти результати під ідеальну картину світу особливого сенсу немає, т.к. нас дуже легко перевірити. Для тих кому ліньки ходити у кого немає часу, можемо організувати віддалене тестування. Спеціальна лаба у нас для цього є. Звертайтесь.

ACHTUNG-2! Цей тест не носить характер навантажувального, т.к. тут нас хвилює лише стійкість до відмови. Через кілька тижнів ми підготуємо потужніший стенд і проведемо навантажувальне тестування СГД, опублікувавши результати тут (до речі, побажання до тестів приймаються).

Тож поїхали ламати.

Тестовий стенд

Наш стенд складається з наступного заліза:

  • 1 x СХД Aerodisk Engine N2 (2 контролери, 64ГБ кеш, 8xFC портів 8Гб/с, 4xEthernet порту 10Гб/с SFP+, 4xEthernet порту 1Гб/с); в СГД встановлені такі диски:
  • 4 x SAS диска SSD 900 GB;
  • 12 x SAS 10k дисків 1,2 ТБ;
  • 1 x Фізичний сервер з Windows Server 2016 (2xXeon E5 2667 v3, 96ГБ RAM, 2xFC порту 8Гб/с, 2xEthernet порту 10Гб/с SFP+);
  • 2 x SAN 8G комутатора;
  • 2 x LAN 10G комутатора;

Ми підключили сервер до СХД через комутатори і FC, і Ethernet 10G. Схема стенду нижче.

Краш-тести СХД AERODISK ENGINE N2, перевірка на міцність

У Windows Server встановлені необхідні нам компоненти, такі як MPIO та iSCSI initiator.
На FC комутаторах налаштовані зони, на LAN комутаторах налаштовані відповідні VLAN-и та встановлений MTU 9000 на портах СГД, комутаторах та хості (як все це робити – описано в нашій документації, тому тут цей процес не розписуватимемо).

Методика тестування

План краш-тестів такий:

  • Перевірка відмови FC та Ethernet портів.
  • Перевірка відмовлення харчування.
  • Перевірка відмови контролера.
  • Перевірка відмови диска у групі/кулі.

Всі тести будуть виконуватися в умовах синтетичного навантаження, яке ми генеруватимемо програмою IOMETER. Паралельно ми виконаємо ті ж таки тести, але в умовах копіювання великих файлів на СГД.

Конфіг IOmeter наступний:

  • Читання/Запис – 70/30
  • Блок – 128k (вирішили мочити СГД великими блоками)
  • Кількість потоків – 128 (що дуже схоже на продуктивне навантаження)
  • Full Random
  • Кількість Worker-ів – 4 (2 для FC, 2 для iSCSI)

Краш-тести СХД AERODISK ENGINE N2, перевірка на міцність
Краш-тести СХД AERODISK ENGINE N2, перевірка на міцність

Тест переслідує такі завдання:

  1. Переконайтеся, що синтетичне навантаження та процес копіювання не перервуться і не викликають помилок при різних варіантах відмови.
  2. Переконатися, що процес перемикання портів, контролерів та ін. достатньо автоматизований і не вимагає дій адміністратора при відмовах (тобто при failover-ах, про failback-ах мова, зрозуміло, не йдеться).
  3. Переконатись у коректності відображення інформації у логах.

Підготовка хоста та СГД

На СХД ми налаштували блоковий доступ із використанням портів FC та Ethernet (FC та iSCSI, відповідно). Як це робити, хлопці з TS Solution детально описали у попередній статті (https://habr.com/ru/company/tssolution/blog/432876/). Ну і, звичайно, мануали та курси ніхто не скасовував.

Ми налаштували гібридну групу, використавши всі наявні у нас диски. 2 ССД диска додано до кешу, 2 ССД диска додано як додатковий рівень зберігання (Online-tier). 12 SAS10k дисків ми згрупували в RAID-60P (потрійна парність) для того, щоб перевірити вихід з ладу відразу трьох дисків у групі. Один диск залишили для автозаміни.

Краш-тести СХД AERODISK ENGINE N2, перевірка на міцність

Підключили два LUN-и (один по FC, один по iSCSI).

Краш-тести СХД AERODISK ENGINE N2, перевірка на міцність

Власником обох LUN-ів є контролер Engine-0

Краш-тести СХД AERODISK ENGINE N2, перевірка на міцність

Починаємо тест

Включаємо IOMETER із конфігом вище.

Краш-тести СХД AERODISK ENGINE N2, перевірка на міцність

Фіксуємо пропускну здатність 1.8 ГБ/с та затримки 3 мілісекунди. Помилок (Total Error Count) немає.

У цей же час з локального диска «C» нашого хоста паралельно запускаємо копіювання двох великих файлів по 100GB на FC та iSCSI LUN-и СГД (диски E та G у вінді), задіявши інші інтерфейси.

Угорі процес копіювання на LUN FC, внизу на iSCSI.

Краш-тести СХД AERODISK ENGINE N2, перевірка на міцність

Тест № 1. Відключення портів введення-виводу

Підходимо до СХД ззаду))) та легким рухом руки висмикуємо всі FC та Ethernet 10G кабелі з контролера Engine-0. Ніби прибиральниця зі шваброю пройшла повз і вирішила помити підлогу саме там, де валялися соплі, лежали кабелі (тобто контролер залишається працювати, але порти введення-виведення померли).

Краш-тести СХД AERODISK ENGINE N2, перевірка на міцність

Дивимося на IOMETER та копіювання файлів. Пропускна здатність впала до 0,5 ГБ/с, але швидко повернулася на колишній рівень (приблизно за 4-5 секунд). Помилок немає.

Краш-тести СХД AERODISK ENGINE N2, перевірка на міцність

Копіювання файлів не зупинилося, просідання у швидкості є, але зовсім некритична (з 840 МБ/с впала до 720 МБ/с). Копіювання не зупинилося.

Дивимося в логи СХД і бачимо повідомлення про недоступність портів та автоматичний переїзд групи.

Краш-тести СХД AERODISK ENGINE N2, перевірка на міцність

Також інформаційна панель нам підказує, що не все добре з портами FC.

Краш-тести СХД AERODISK ENGINE N2, перевірка на міцність

Відмову портів введення-виведення СГД пережила успішно.

Тест № 2. Відключення контролера СГД

Майже відразу (попередньо встромивши назад кабелі назад у СГД) ми вирішили добити СГД, висмикнувши контролер з шасі.

Знову підходимо до СХД ззаду (нам сподобалося))) і цього разу висмикуємо контролер Engine-1, який зараз є власником RDG (на який переїхала група).

Ситуація у IOmeter наступна. Введення виведення зупинилося приблизно на 5 секунд. Помилки не збираються.

Краш-тести СХД AERODISK ENGINE N2, перевірка на міцність

Після 5 секунд введення-виведення відновилося приблизно з тими ж показниками пропускної здатності, але із затримками в 35 мілісекунд (затримки виправилися приблизно через пару хвилин). Як видно зі скріншотів, значення Total error count – 0, тобто помилок запису чи читання не було.

Краш-тести СХД AERODISK ENGINE N2, перевірка на міцність

Дивимося копіювання наших файлів. Як видно, воно не перервалося, була невелика просідання продуктивності, але в цілому все повернулося на ті ж ~ 800 МБ/с.

Краш-тести СХД AERODISK ENGINE N2, перевірка на міцність

Йдемо на СГД і бачимо там лайку в інформаційній панелі про те, що контролер Engine-1 недоступний (звичайно, ми ж його впали).

Краш-тести СХД AERODISK ENGINE N2, перевірка на міцність

Також бачимо аналогічний запис у логах.

Краш-тести СХД AERODISK ENGINE N2, перевірка на міцність

Відмова контролера СГД пережила також успішно.

Тест №3. Відключення блоку живлення.

Копіювання файлів ми про всяк випадок запустили заново, а IOMETER не зупиняли.
Смикаємо БП-шник.

Краш-тести СХД AERODISK ENGINE N2, перевірка на міцність

На СГД додався ще один алерт у інформаційній панелі.

Краш-тести СХД AERODISK ENGINE N2, перевірка на міцність

Також у меню сенсорів бачимо, що сенсори, пов'язані з висмикнутим блоком живлення, почервоніли.

Краш-тести СХД AERODISK ENGINE N2, перевірка на міцність

СГД продовжує працювати. Відмова БП-шника ніяк не впливає на роботу СГД, з точки зору хоста швидкість копіювання та показники IOMETER залишилися без змін.

Тест на відмову харчування пройдено успішно.

Перед фінальним тестом ми вирішили таки трохи повернути СГД до життя, поставили назад контролер і БП-шник, а також навели лад з кабелями, про що СГД нам радісно повідомила зелені значки у своїй панелі здоров'я.

Краш-тести СХД AERODISK ENGINE N2, перевірка на міцність

Тест № 4. Відмова трьох дисків у групі

Перед цим тестом ми здійснили додатковий підготовчий крок. Справа в тому, що в СГД ENGINE передбачено дуже корисну штуку — різні політики ребілду (перебудови). Раніше TS Solution писав про цю фічу, але нагадаємо її суть. Адміністратор СГД може вказати пріоритет виділення ресурсів під час перебудови. Або у бік продуктивності введення-виведення, тобто довше ребілд, але немає просідання продуктивності. Або у бік швидкості ребілда, але продуктивність буде знижена. Або збалансований варіант. Оскільки продуктивність СГД під час ребілду дискової групи – це завжди головний біль адміну, ми тестуватимемо політику з ухилом у бік продуктивності вводу-виводу та на шкоду швидкості ребілду.

Краш-тести СХД AERODISK ENGINE N2, перевірка на міцність

Тепер перевіримо відмову дисків. Також включаємо запис на LUN-и (файли та IOMETER). Оскільки у нас група з потрійною парністю (RAID-60P), значить, система повинна витримати відмову трьох дисків, а після відмови повинна спрацювати автозаміна, один диск повинен стати в RDG на місце одного з тих, хто відмовив, і на нього повинен початися ребілд.

Починаємо. Для початку через інтерфейс СХД підсвітимо диски, які хочемо висмикнути (щоб не промахнутися і не смикнути диск автозаміни).

Краш-тести СХД AERODISK ENGINE N2, перевірка на міцність

Перевіряємо індикацію на залізі. Всі ОК, бачимо підсвічені три диски.

Краш-тести СХД AERODISK ENGINE N2, перевірка на міцність

І висмикуємо ці три диски.

Краш-тести СХД AERODISK ENGINE N2, перевірка на міцність

Дивимося, що на хості. А там нічого особливого не сталося.

Краш-тести СХД AERODISK ENGINE N2, перевірка на міцність
Краш-тести СХД AERODISK ENGINE N2, перевірка на міцність

Показники копіювання (вони вищі, ніж на початку, тому що прогрівся кеш) та IOMETER-а при висмикуванні дисків і старті ребілда сильно не змінюються (у межах 5-10%).

Дивимося, що на СГД.

Краш-тести СХД AERODISK ENGINE N2, перевірка на міцність

У статусі групи бачимо, що пішов процес перебудови і близький до завершення.

Краш-тести СХД AERODISK ENGINE N2, перевірка на міцність

У скелеті RDG видно, що 2 диски у червоному статусі, а один уже замінився. Диску автозаміни більше немає, він замінив собою третій диск, що відмовив. Ребілд виконувався кілька хвилин, запис файлів при відмові 3-х дисків не перервався, продуктивність вводу-виводу особливо не змінювалася.

Краш-тести СХД AERODISK ENGINE N2, перевірка на міцність

Краш-тести СХД AERODISK ENGINE N2, перевірка на міцність

Тест на відмову дисків однозначно пройшов успішно.

Висновок

На цьому насильство над СГД ми вирішили припинити. Підбиваємо підсумки:

  • Перевірка відмови FC портів успішно
  • Перевірка відмови Ethernet портів – успішно
  • Перевірка відмови контролера успішно
  • Перевірка відмови харчування - успішно
  • Перевірка відмови диска в групі кулі - успішно

Жоден із збоїв не зупинив запис і не викликав помилок синтетичного навантаження, просідання продуктивності, звичайно, була (і ми знаємо як це перемогти, що скоро і зробимо), але, враховуючи те, що це секунди, цілком допустима. Висновок: відмовостійкість всіх компонентів СГД AERODISK відпрацювала на рівні, точок відмови немає.

Очевидно, що в рамках однієї статті ми не можемо відтестувати всі сценарії відмови, але постаралися охопити найпопулярніші. Тому, будь ласка, надсилайте ваші коментарі, побажання до наступних публікацій і, звичайно, адекватну критику. Будемо раді дискусіям (а краще приходьте на навчання, про всяк випадок дублюю розклад)! До нових тестів!

  • Нижній Новгород (ВЖЕ ПРАЦЮЄ – записатися можна тут https://aerodisk.promo/nn/);
    до 16 квітня 2019 року можна відвідати центр у будь-який робочий час, а 16 квітня 2019 року буде організований великий навчальний курс.
  • Краснодар (Незабаром ВІДКРИТТЯ – записатися можна тут https://aerodisk.promo/krsnd/ );
    З 9 по 25 квітня 2019 року можна відвідати центр у будь-який робочий час, а 25 квітня 2019 року буде організований великий навчальний курс.
  • Єкатеринбург (ХУТКО ВІДКРИТТЯ, слідкуйте за інформацією на нашому сайті або на Хабре);
    травень-червень 2019 року.
  • Новосибірськ (стежте за інформацією на нашому сайті або на Хабре);
    жовтень 2019 року.
  • Красноярськ (стежте за інформацією на нашому сайті або на Хабре);
    листопад 2019 року.

Джерело: habr.com

Додати коментар або відгук