Қолжетімділігі жоғары жадта бағдарламалық құралды тексеру неліктен маңызды (99,9999%)

Қолжетімділігі жоғары жадта бағдарламалық құралды тексеру неліктен маңызды (99,9999%)

Микробағдарламаның қай нұсқасы ең «дұрыс» және «жұмыс істейтін» болып табылады? Егер сақтау жүйесі ақауларға төзімділікке 99,9999% кепілдік берсе, бұл оның бағдарламалық құралды жаңартусыз да үзіліссіз жұмыс істейтінін білдіре ме? Немесе, керісінше, ақауларға максималды төзімділікті алу үшін әрқашан соңғы микробағдарламаны орнату керек пе? Біз өз тәжірибемізге сүйене отырып, бұл сұрақтарға жауап беруге тырысамыз.

Кішігірім кіріспе

Бағдарламалық жасақтаманың әрбір нұсқасында, мейлі ол операциялық жүйе немесе құрылғының драйвері болсын, көбінесе ақаулар/қателер және жабдықтың қызмет ету мерзімі аяқталғанға дейін «пайда болмайтын» немесе «ашық» басқа да «мүмкіндіктер» бар екенін бәріміз түсінеміз. белгілі бір жағдайларда ғана. Мұндай нюанстардың саны мен маңыздылығы бағдарламалық жасақтаманың күрделілігіне (функционалдығына) және оны әзірлеу кезінде тестілеудің сапасына байланысты. 

Көбінесе пайдаланушылар «зауыттық микробағдарламада» қалады (әйгілі «ол жұмыс істейді, сондықтан онымен араласпаңыз») немесе әрқашан соңғы нұсқаны орнатады (олардың түсінігі бойынша, соңғысы ең жұмыс істейтінін білдіреді). Біз басқа тәсілді қолданамыз - біз барлық пайдаланылғандар үшін шығарылым жазбаларын қараймыз mClouds бұлтында жабдықты таңдап, әрбір жабдық үшін сәйкес микробағдарламаны мұқият таңдаңыз.

Тәжірибемен айтқандай, осындай қорытындыға келдік. Жұмыс үлгісін пайдалана отырып, бағдарламалық жасақтама жаңартулары мен сипаттамаларды дереу бақыламасаңыз, сақтау жүйелерінің уәде етілген 99,9999% сенімділігі неге ештеңені білдірмейтінін айтамыз. Біздің жағдай кез келген жеткізушінің сақтау жүйелерін пайдаланушылар үшін жарамды, өйткені ұқсас жағдай кез келген өндірушінің аппараттық құралдарында болуы мүмкін.

Жаңа сақтау жүйесін таңдау

Өткен жылдың соңында біздің инфрақұрылымымызға қызықты деректерді сақтау жүйесі қосылды: сатып алу кезінде Storwize V5000e деп аталатын IBM FlashSystem 5010 желісінің кіші моделі. Қазір ол FlashSystem 5010 атауымен сатылады, бірақ шын мәнінде бұл ішінде бірдей Spectrum Virtualize бар бірдей аппараттық база. 

Бірыңғай басқару жүйесінің болуы, айтпақшы, IBM FlashSystem арасындағы негізгі айырмашылық болып табылады. Кіші сериялардың модельдері үшін ол өнімдірек модельдерден іс жүзінде еш айырмашылығы жоқ. Белгілі бір үлгіні таңдау тек сәйкес аппараттық базаны қамтамасыз етеді, оның сипаттамалары сол немесе басқа функционалдылықты пайдалануға мүмкіндік береді немесе ауқымдылықтың жоғары деңгейін қамтамасыз етеді. Бағдарламалық құрал жабдықты анықтайды және осы платформа үшін қажетті және жеткілікті функционалдылықты қамтамасыз етеді.

Қолжетімділігі жоғары жадта бағдарламалық құралды тексеру неліктен маңызды (99,9999%)IBM FlashSystem 5010

5010 үлгісі туралы қысқаша. Бұл бастапқы деңгейдегі қос контроллер блогын сақтау жүйесі. Ол NLSAS, SAS, SSD дискілерін орналастыра алады. Онда NVMe орналастыру мүмкін емес, өйткені бұл сақтау үлгісі NVMe дискілерінің өнімділігін талап етпейтін мәселелерді шешуге арналған.

Сақтау жүйесі мұрағаттық ақпаратты немесе жиі қолжетімді емес деректерді орналастыру үшін сатып алынды. Сондықтан оның функционалдық стандартты жиынтығы бізге жеткілікті болды: Tiering (Оңай деңгей), Thin Provision. NLSAS дискілеріндегі 1000-2000 IOPS деңгейіндегі өнімділік біз үшін де қанағаттанарлық болды.

Біздің тәжірибеміз - микробағдарламаны уақытында жаңартпағанымыз

Енді бағдарламалық жасақтаманы жаңартудың өзі туралы. Сатып алу кезінде жүйеде Spectrum Virtualize бағдарламалық құралының сәл ескірген нұсқасы болды, атап айтқанда: 8.2.1.3.

Біз микробағдарлама сипаттамаларын зерттеп, жаңартуды жоспарладық 8.2.1.9. Егер біз сәл тиімдірек болсақ, бұл мақала болмас еді - қате соңғы микробағдарламада орын алмас еді. Алайда белгілі себептерге байланысты бұл жүйені жаңарту кейінге қалдырылды.

Нәтижесінде жаңартудың сәл кешігуі сілтемедегі сипаттамадағыдай өте жағымсыз суретке әкелді: https://www.ibm.com/support/pages/node/6172341

Иә, бұл нұсқаның микробағдарламасында APAR (бағдарламаның рұқсат етілген талдау есебі) HU02104 маңызды болды. Ол келесідей көрінеді. Жүктеме кезінде белгілі бір жағдайларда кэш толып кете бастайды, содан кейін жүйе қорғаныс режиміне өтеді, онда ол бассейнге енгізу/шығаруды өшіреді. Біздің жағдайда RAID 3 режимінде RAID тобы үшін 6 дискіні ажырату сияқты көрінді Ажырату 6 минутқа созылады. Әрі қарай, Пулдағы томдарға кіру қалпына келтіріледі.

Егер біреу IBM Spectrum Virtualize контекстіндегі логикалық нысандардың құрылымымен және атауларымен таныс болмаса, мен қазір қысқаша түсіндіремін.

Қолжетімділігі жоғары жадта бағдарламалық құралды тексеру неліктен маңызды (99,9999%)Логикалық элементтерді сақтау жүйесінің құрылымы

Дискілер MDisk (Managed Disk) деп аталатын топтарға жиналады. MDisk классикалық RAID (0,1,10,5,6) немесе виртуалдандырылған - DRAID (Distributed RAID) болуы мүмкін. DRAID пайдалану массивтің өнімділігін арттыруға мүмкіндік береді, себебі... Топтағы барлық дискілер пайдаланылады және қайта құру уақыты қысқарады, себебі сәтсіз дискідегі барлық деректерді емес, белгілі бір блоктарды ғана қалпына келтіру қажет болады.

Қолжетімділігі жоғары жадта бағдарламалық құралды тексеру неліктен маңызды (99,9999%)RAID-5 режимінде Distributed RAID (DRAID) пайдалану кезінде деректер блоктарын дискілер бойынша бөлу.

Және бұл диаграмма бір диск ақауы болған жағдайда DRAID қайта құрудың қалай жұмыс істейтінінің логикасын көрсетеді:

Қолжетімділігі жоғары жадта бағдарламалық құралды тексеру неліктен маңызды (99,9999%)Бір диск істен шыққан кезде DRAID қайта құру логикасы

Әрі қарай, бір немесе бірнеше MDisk пул деп аталатынды құрайды. Бір пул ішінде бір типті дискілерде әртүрлі RAID/DRAID деңгейлері бар MDisk қолданбасын пайдалану ұсынылмайды. Біз бұған тым тереңдемейміз, өйткені... біз бұл туралы келесі мақалалардың бірінде көрсетуді жоспарлап отырмыз. Шын мәнінде, Пул хосттарға бір немесе басқа блокқа кіру протоколы арқылы ұсынылатын Томдарға бөлінген.

Сонымен, біз сипатталған жағдайдың нәтижесінде APAR HU02104, үш дискінің логикалық істен шығуына байланысты MDisk жұмыс істеуді тоқтатты, бұл өз кезегінде Пулдың және сәйкес Томдардың істен шығуына әкелді.

Бұл жүйелер өте ақылды болғандықтан, оларды IBM Storage Insights бұлтқа негізделген бақылау жүйесіне қосуға болады, ол ақаулық туындаған жағдайда IBM қолдау қызметіне автоматты түрде қызмет сұрауын жібереді. Бағдарлама жасалады және IBM мамандары қашықтан диагностика жүргізеді және жүйе пайдаланушысымен байланысады. 

Осының арқасында мәселе өте тез шешілді және қолдау қызметінен біздің жүйені бұрын таңдалған 8.2.1.9 микробағдарламасына жаңарту туралы жедел ұсыныс алынды, ол сол кезде түзетілген болатын. Ол растайды сәйкес шығарылым ескертпесі.

Нәтижелер және біздің ұсыныстарымыз

«Бәрі жақсы болғанның соңы жақсы» дегендей. Микробағдарламадағы қате елеулі проблемаларды тудырмады - серверлер мүмкіндігінше тез және деректер жоғалмай қалпына келтірілді. Кейбір клиенттерге виртуалды машиналарды қайта іске қосуға тура келді, бірақ жалпы біз барлық инфрақұрылым элементтері мен клиенттік машиналардың сақтық көшірмелерін күнделікті жасайтындықтан, жағымсыз салдарға дайын болдық. 

Біз 99,9999% уәде етілген қолжетімділігі бар сенімді жүйелердің де назар аударуды және уақтылы техникалық қызмет көрсетуді қажет ететінін растадық. Жағдайға сүйене отырып, біз өзіміз үшін бірқатар қорытындылар жасадық және өз ұсыныстарымызбен бөлістік:

  • Жаңартулардың шығарылуын бақылау, ықтимал маңызды мәселелерді түзету үшін шығарылым ескертпелерін зерделеу және жоспарланған жаңартуларды уақтылы орындау қажет.

    Бұл ұйымдастырушылық және тіпті айқын мәселе, оған назар аударудың қажеті жоқ сияқты. Дегенмен, бұл «деңгейлік жерде» сіз оңай сүрінуіңіз мүмкін. Шын мәнінде, дәл осы сәт жоғарыда сипатталған қиындықтарды қосты. Жаңарту ережелерін жасау кезінде өте сақ болыңыз және олардың сақталуын мұқият қадағалаңыз. Бұл тармақ «тәртіп» ұғымына көбірек қатысты.

  • Жүйені бағдарламалық құралдың соңғы нұсқасымен сақтау әрқашан жақсы. Оның үстіне қазіргісі үлкенірек сандық белгісі бар емес, кейінірек шығарылатын күні. 

    Мысалы, IBM өзінің сақтау жүйелері үшін кемінде екі бағдарламалық құрал шығарылымын жаңартып отырады. Осы жазу кезінде бұл 8.2 және 8.3. 8.2 жаңартулары ертерек шығады. 8.3 үшін ұқсас жаңарту әдетте сәл кідіріспен шығарылады.

    8.3 шығарылымында бірқатар функционалдық артықшылықтар бар, мысалы, бір немесе бірнеше жаңа дискілерді қосу арқылы MDisk (DRAID режимінде) кеңейту мүмкіндігі (бұл мүмкіндік 8.3.1 нұсқасынан бері пайда болды). Бұл өте қарапайым функционалдылық, бірақ 8.2-де, өкінішке орай, мұндай мүмкіндік жоқ.

  • Егер қандай да бір себептермен жаңарту мүмкін болмаса, Spectrum Virtualize бағдарламалық құралының 8.2.1.9 және 8.3.1.0 нұсқаларына дейінгі нұсқалары үшін (жоғарыда сипатталған қате маңызды болса), оның пайда болу қаупін азайту үшін IBM техникалық қолдауы ұсынады. төмендегі суретте көрсетілгендей бассейн деңгейінде жүйе өнімділігін шектеу (сурет графикалық интерфейстің орысша нұсқасында түсірілген). 10000 IOPS мәні мысал ретінде көрсетілген және жүйеңіздің сипаттамаларына сәйкес таңдалады.

Қолжетімділігі жоғары жадта бағдарламалық құралды тексеру неліктен маңызды (99,9999%)IBM сақтау өнімділігін шектеу

  • Сақтау жүйелеріне жүктемені дұрыс есептеу және шамадан тыс жүктемені болдырмау қажет. Бұл әрекетті орындау үшін IBM өлшем құралын (оған рұқсатыңыз болса) немесе серіктестердің көмегін немесе үшінші тарап ресурстарын пайдалануға болады. Сақтау жүйесіндегі жүктеме профилін түсіну өте маңызды, өйткені МБ/с және IOPS өнімділігі кем дегенде келесі параметрлерге байланысты айтарлықтай өзгереді:

    • операция түрі: оқу немесе жазу,

    • операциялық блок өлшемі,

    • жалпы енгізу/шығару ағынындағы оқу және жазу операцияларының пайызы.

    Сондай-ақ, операциялардың жылдамдығына деректер блоктарын оқу әдісі әсер етеді: дәйекті немесе кездейсоқ ретпен. Қолданба жағында бірнеше деректерге қол жеткізу операцияларын орындау кезінде тәуелді операциялар түсінігі бар. Мұны да ескерген жөн. Мұның бәрі ОЖ өнімділік есептегіштерінен, сақтау жүйесінен, серверлерден/гипервизорлардан алынған деректердің жиынтығын көруге, сондай-ақ қолданбалардың, ДҚБЖ және диск ресурстарының басқа «тұтынушыларының» жұмыс мүмкіндіктерін түсінуге көмектеседі.

  • Соңында, жаңартылған және жұмыс істейтін сақтық көшірмелердің болуын ұмытпаңыз. Сақтық көшірме кестесі бизнес үшін қолайлы RPO мәндеріне негізделіп конфигурациялануы керек және қолайлы RTO мәнін қамтамасыз ету үшін сақтық көшірмелердің тұтастығын мерзімді тексерулері тексерілуі керек (көптеген сақтық көшірме бағдарламалық жасақтамасын жеткізушілер өз өнімдерінде автоматтандырылған тексеруді енгізген).

Соңына дейін оқығаныңызға рахмет.
Түсініктемелерде сұрақтарыңыз бен пікірлеріңізге жауап беруге дайынбыз. Сондай-ақ Сіздерді телеграм каналымызға жазылуға шақырамыз, онда біз үнемі акциялар өткіземіз (IaaS бойынша жеңілдіктер және VPS-те 100% дейін промо-кодтарға сыйлықтар), қызықты жаңалықтар жазамыз және Habr блогында жаңа мақалалар туралы хабарлаймыз.

Ақпарат көзі: www.habr.com

пікір қалдыру