Зашто је важно тестирати софтвер на вашем систему за складиштење високе доступности (99,9999%)

Зашто је важно тестирати софтвер на вашем систему за складиштење високе доступности (99,9999%)

Која верзија фирмвера је „најтачнија“ и „радна“? Ако систем за складиштење гарантује толеранцију грешака од 99,9999%, да ли то значи да ће радити без прекида чак и без ажурирања софтвера? Или, напротив, да бисте постигли максималну толеранцију грешака, увек треба да инсталирате најновији фирмвер? Покушаћемо да одговоримо на ова питања на основу нашег искуства.

Мали увод

Сви разумемо да свака верзија софтвера, било да је то оперативни систем или драјвер за уређај, често садржи дефекте/бугове и друге „карактеристике“ које се можда неће „појавити“ до краја радног века опреме или „отворити“ само под одређеним условима. Број и значај таквих нијанси зависи од сложености (функционалности) софтвера и од квалитета тестирања током његовог развоја. 

Корисници често остају на „фирмверу из фабрике“ (чувени „ради, па немој да се петљаш са њим“) или увек инсталирају најновију верзију (по њиховом схватању, најновија значи најраднију). Користимо другачији приступ - гледамо напомене о издању за све коришћено у облаку мЦлоудс опрему и пажљиво изаберите одговарајући фирмвер за сваки део опреме.

До овог закључка смо дошли, како кажу, искуством. Користећи наш пример рада, рећи ћемо вам зашто обећана поузданост система за складиштење од 99,9999% не значи ништа ако не пратите ажурирања софтвера и описе. Наше кућиште је погодно за кориснике система за складиштење било ког произвођача, јер се слична ситуација може десити са хардвером било ког произвођача.

Избор новог система за складиштење

Крајем прошле године у нашу инфраструктуру је додат занимљив систем за складиштење података: јуниорски модел из линије ИБМ ФласхСистем 5000, који се у тренутку куповине звао Сторвизе В5010е. Сада се продаје под именом ФласхСистем 5010, али у ствари је иста хардверска база са истим Спецтрум Виртуализе унутра. 

Присуство јединственог система управљања је, иначе, главна разлика између ИБМ ФласхСистем-а. За моделе млађе серије, практично се не разликује од модела продуктивнијих. Избор одређеног модела обезбеђује само одговарајућу хардверску базу, чије карактеристике омогућавају коришћење једне или друге функционалности или обезбеђују виши ниво скалабилности. Софтвер идентификује хардвер и обезбеђује неопходну и довољну функционалност за ову платформу.

Зашто је важно тестирати софтвер на вашем систему за складиштење високе доступности (99,9999%)ИБМ ФласхСистем 5010

Укратко о нашем моделу 5010. Ово је систем за складиштење блокова са два контролора почетног нивоа. Може да прими НЛСАС, САС, ССД дискове. НВМе пласман није доступан у њему, пошто је овај модел складиштења позициониран да решава проблеме који не захтевају перформансе НВМе драјвова.

Систем за складиштење је купљен за смештај архивских информација или података којима се не приступа често. Стога нам је довољан стандардни скуп његове функционалности: Тиеринг (Еаси Тиер), Тхин Провисион. Перформансе на НЛСАС дисковима на нивоу од 1000-2000 ИОПС су такође биле сасвим задовољавајуће за нас.

Наше искуство - како нисмо ажурирали фирмвер на време

Сада о самом ажурирању софтвера. У тренутку куповине, систем је већ имао мало застарелу верзију софтвера Спецтрум Виртуализе, тј. КСНУМКС.

Проучили смо описе фирмвера и планирали ажурирање 8.2.1.9. Да смо били мало ефикаснији, овај чланак не би постојао – грешка се не би појавила на новијем фирмверу. Међутим, из одређених разлога ажурирање овог система је одложено.

Као резултат тога, мало кашњење ажурирања довело је до изузетно непријатне слике, као у опису на линку: https://www.ibm.com/support/pages/node/6172341

Да, у фирмверу те верзије је релевантан такозвани АПАР (Аутхоризед Програм Аналисис Репорт) ХУ02104. Појављује се на следећи начин. Под оптерећењем, под одређеним околностима, кеш почиње да се прелива, а затим систем прелази у заштитни режим, у којем онемогућује И/О за базен. У нашем случају, то је изгледало као искључивање 3 диска за РАИД групу у режиму РАИД 6. Прекидање везе се дешава 6 минута. Затим се враћа приступ волуменима у групи.

Ако неко није упознат са структуром и именовањем логичких ентитета у контексту ИБМ Спецтрум Виртуализе, сада ћу укратко објаснити.

Зашто је важно тестирати софтвер на вашем систему за складиштење високе доступности (99,9999%)Структура логичких елемената система складиштења

Дискови се скупљају у групе које се зову МДиск (Управљани диск). МДиск може бити класични РАИД (0,1,10,5,6) или виртуелизовани - ДРАИД (Дистрибутед РАИД). Коришћење ДРАИД-а вам омогућава да повећате перформансе низа, јер... Сви дискови у групи ће бити коришћени, а време реконструкције ће бити смањено, због чињенице да ће само одређене блокове требати вратити, а не све податке са неисправног диска.

Зашто је важно тестирати софтвер на вашем систему за складиштење високе доступности (99,9999%)Дистрибуција блокова података по дисковима када се користи дистрибуирани РАИД (ДРАИД) у РАИД-5 режиму.

А овај дијаграм показује логику како ДРАИД ребуилд функционише у случају квара једног диска:

Зашто је важно тестирати софтвер на вашем систему за складиштење високе доступности (99,9999%)Логика поновне изградње ДРАИД-а када један диск поквари

Затим, један или више МД дискова формирају такозвани Поол. У оквиру истог скупа, не препоручује се коришћење МДиск-а са различитим нивоима РАИД/ДРАИД на дисковима истог типа. Нећемо улазити превише у ово, јер... планирамо да ово покријемо у једном од следећих чланака. Па, у ствари, Пул је подељен на Волуме, који се хостовима представљају помоћу једног или другог протокола за приступ блоку.

Дакле, ми, као резултат ситуације описане у АПАР ХУ02104, због логичког квара три диска, МДиск је престао да ради, што је, заузврат, резултирало отказом Пула и одговарајућих Волума.

Пошто су ови системи прилично паметни, могу се повезати са ИБМ Стораге Инсигхтс системом за праћење заснованим на облаку, који аутоматски шаље захтев за услугу ИБМ подршци ако дође до проблема. Креира се апликација и ИБМ стручњаци даљински врше дијагностику и контактирају корисника система. 

Захваљујући томе, проблем је прилично брзо решен и добијена је брза препорука од службе подршке да ажурирамо наш систем на претходно одабрани фирмвер 8.2.1.9, који је у то време већ био поправљен. То потврђује одговарајућа напомена о издању.

Резултати и наше препоруке

Како се каже: "Све је добро што се добро заврши." Грешка у фирмверу није изазвала озбиљне проблеме - сервери су враћени у најкраћем могућем року и без губитка података. Неки клијенти су морали да рестартују виртуелне машине, али генерално смо били спремни на више негативних последица, јер свакодневно правимо резервне копије свих елемената инфраструктуре и клијентских машина. 

Добили смо потврду да чак и поуздани системи са 99,9999% обећане доступности захтевају пажњу и благовремено одржавање. На основу ситуације, сами смо извукли низ закључака и поделили наше препоруке:

  • Неопходно је пратити објављивање ажурирања, проучавати белешке о издању за исправке потенцијално критичних проблема и спроводити планирана ажурирања на време.

    Ово је организациона и чак сасвим очигледна тачка, на коју се, чини се, не вреди фокусирати. Међутим, на овом „равном терену“ можете прилично лако да се спотакнете. У ствари, овај тренутак је додао горе описане проблеме. Будите веома опрезни када састављате прописе о ажурирању и не мање пажљиво пратите њихово поштовање. Ова тачка се више односи на концепт „дисциплине“.

  • Увек је боље држати систем са најновијом верзијом софтвера. Штавише, тренутни није онај који има већу нумеричку ознаку, већ онај са каснијим датумом изласка. 

    На пример, ИБМ ажурира најмање два софтверска издања за своје системе за складиштење података. У време писања овог текста, то су 8.2 и 8.3. Ажурирања за 8.2 излазе раније. Слично ажурирање за 8.3 обично се издаје са малим закашњењем.

    Издање 8.3 има низ функционалних предности, на пример, могућност проширења МДиск-а (у ДРАИД режиму) додавањем једног или више нових дискова (ова функција се појавила од верзије 8.3.1). Ово је прилично основна функционалност, али у 8.2, нажалост, не постоји таква функција.

  • Ако из неког разлога није могуће ажурирање, онда за верзије софтвера Спецтрум Виртуализе старије од верзија 8.2.1.9 и 8.3.1.0 (где је горе описана грешка релевантна), да би се смањио ризик од њеног појављивања, ИБМ техничка подршка препоручује ограничавање перформанси система на нивоу базена, као што је приказано на слици испод (слика је снимљена у русификованој верзији ГУИ). Вредност од 10000 ИОПС је приказана као пример и изабрана је у складу са карактеристикама вашег система.

Зашто је важно тестирати софтвер на вашем систему за складиштење високе доступности (99,9999%)Ограничавање перформанси ИБМ складишта

  • Неопходно је правилно израчунати оптерећење система за складиштење и избегавати преоптерећење. Да бисте то урадили, можете користити или ИБМ сизеер (ако му имате приступ), или помоћ партнера или ресурсе треће стране. Неопходно је разумети профил оптерећења на систему за складиштење, јер Перформансе у МБ/с и ИОПС у великој мери варирају у зависности од најмање следећих параметара:

    • тип операције: читање или писање,

    • величина оперативног блока,

    • проценат операција читања и писања у укупном И/О току.

    Такође, на брзину операција утиче и начин на који се блокови података читају: узастопно или насумичним редоследом. Када се обављају вишеструке операције приступа подацима на страни апликације, постоји концепт зависних операција. Такође је препоручљиво узети у обзир ово. Све ово може помоћи да се сагледа укупност података са бројача перформанси ОС-а, система за складиштење података, сервера/хипервизора, као и разумевању оперативних карактеристика апликација, ДБМС-а и других „потрошача“ ресурса диска.

  • И на крају, будите сигурни да су резервне копије ажуриране и да раде. Распоред прављења резервних копија треба да буде конфигурисан на основу прихватљивих РПО вредности за пословање, а периодичне провере интегритета резервних копија треба да буду верификоване (неки произвођач софтвера за прављење резервних копија има аутоматску верификацију имплементирану у својим производима) како би се осигурала прихватљива вредност РТО.

Хвала вам што сте прочитали до краја.
Спремни смо да одговоримо на ваша питања и коментаре у коментарима. Такође Позивамо вас да се претплатите на наш телеграм канал, у којој одржавамо редовне промоције (попусти на ИааС и поклоне за промотивне кодове до 100% на ВПС), пишемо занимљиве вести и најављујемо нове чланке на Хабр блогу.

Извор: ввв.хабр.цом

Додај коментар