Эмне үчүн сиздин жогорку жеткиликтүүлүк сактагычыңызда программалык камсыздоону текшерүү маанилүү (99,9999%)

Эмне үчүн сиздин жогорку жеткиликтүүлүк сактагычыңызда программалык камсыздоону текшерүү маанилүү (99,9999%)

Кайсы микропрограмма версиясы эң "туура" жана "иштейт"? Эгер сактоо тутуму 99,9999% катага чыдамдуулугун кепилдик берсе, бул программалык камсыздоону жаңыртуусуз да үзгүлтүксүз иштей турганын билдиреби? Же, тескерисинче, каталарга максималдуу толеранттуулукту алуу үчүн, сиз ар дайым акыркы микропрограмманы орнотуу керекпи? Бул суроолорго биз тажрыйбабызга таянып жооп бергенге аракет кылабыз.

Кыскача киришүү

Биз баарыбыз түшүнөбүз, программалык камсыздоонун ар бир версиясы, мейли бул операциялык система же аппараттын драйвери болсун, көбүнчө кемчиликтерди/каталарды жана жабдуулардын иштөө мөөнөтү аяктаганга чейин "пайдаланбай турган" же "ачык" башка "функцияларды" камтыйт. белгилүү бир шарттарда гана. Мындай нюанстардын саны жана мааниси программалык камсыздоонун татаалдыгына (функционалдык) жана аны иштеп чыгууда тестирлөөнүн сапатына көз каранды. 

Көбүнчө колдонуучулар "заводдон алынган микропрограммада" калышат (белгилүү "ал иштейт, андыктан аны менен аралашпаңыз") же ар дайым эң акыркы версиясын орнотушат (алардын түшүнүгү боюнча, эң акыркысы эң иштеген дегенди билдирет). Биз башка ыкманы колдонобуз - колдонулган бардык нерселер үчүн релиз эскертүүлөрүн карайбыз mClouds булутунда жабдууларды жана кылдаттык менен ар бир жабдуу үчүн ылайыктуу микропрограмманы тандоо.

Мындай жыйынтыкка, алар айткандай, тажрыйба менен келдик. Иштөө мисалыбызды колдонуп, сиз программалык камсыздоонун жаңыртууларын жана сүрөттөмөлөрүн тез арада көзөмөлдөбөсөңүз, сактоо тутумдарынын убада кылынган 99,9999% ишенимдүүлүгү эмне үчүн эч нерсени билдирбей турганын айтып беребиз. Биздин иш ар кандай сатуучунун сактоо тутумдарын колдонуучулар үчүн ылайыктуу, анткени ушул сыяктуу жагдай ар кандай өндүрүүчүлөрдүн аппараттык жабдыктарында болушу мүмкүн.

Жаңы сактоо тутумун тандоо

Өткөн жылдын аягында биздин инфраструктурага кызыктуу маалыматтарды сактоо системасы кошулду: сатып алуу учурунда Storwize V5000e деп аталган IBM FlashSystem 5010 линиясынын кенже модели. Азыр ал FlashSystem 5010 деген ат менен сатылууда, бирок чындыгында ал ичиндеги ошол эле Spectrum Virtualize менен бир эле аппараттык база. 

Бирдиктүү башкаруу системасынын болушу, демек, IBM FlashSystem ортосундагы негизги айырма. Жаш катардагы моделдер үчүн, ал кыйла жемиштүү моделдерден дээрлик айырмаланбайт. Белгилүү бир моделди тандоо гана тиешелүү аппараттык базаны камсыз кылат, анын мүнөздөмөлөрү тигил же бул функцияны колдонууга мүмкүндүк берет же масштабдуулуктун жогорку деңгээлин камсыз кылат. Программалык камсыздоо аппараттык камсыздоону аныктайт жана бул платформа үчүн керектүү жана жетиштүү функцияларды камсыз кылат.

Эмне үчүн сиздин жогорку жеткиликтүүлүк сактагычыңызда программалык камсыздоону текшерүү маанилүү (99,9999%)IBM FlashSystem 5010

Кыскача биздин модель 5010. Бул кирүү деңгээлиндеги кош контроллер блокторду сактоо системасы. Ал NLSAS, SAS, SSD дисктерин жайгаштыра алат. NVMe жайгаштыруу анда жеткиликтүү эмес, анткени бул сактоо модели NVMe дисктеринин иштешин талап кылбаган маселелерди чечүү үчүн жайгашкан.

Сактоо системасы архивдик маалыматты же көп кирбей турган маалыматтарды жайгаштыруу үчүн сатылып алынган. Ошондуктан, анын иштешинин стандарттуу топтому биз үчүн жетиштүү болду: Tiering (Easy Tier), Thin Provision. NLSAS дисктериндеги 1000-2000 IOPS деңгээлиндеги аткаруу да биз үчүн абдан канааттандырарлык болду.

Биздин тажрыйба - микропрограмманы өз убагында жаңырткан жокпуз

Эми программалык камсыздоону жаңыртуу жөнүндө. Сатып алуу учурунда системада Spectrum Virtualize программасынын бир аз эскирген версиясы болгон, атап айтканда, 8.2.1.3.

Биз микропрограмманын сүрөттөмөлөрүн изилдеп, жаңыртууну пландаштырдык 8.2.1.9. Эгер биз бир аз натыйжалуураак болсок, анда бул макала болмок эмес - ката акыркы микропрограммада пайда болмок эмес. Бирок белгилүү себептерден улам бул системаны жаңыртуу кийинкиге жылдырылды.

Натыйжада, бир аз жаңыртуу кечигүү шилтемедеги сүрөттөмөдөгүдөй, өтө жагымсыз сүрөткө алып келди: https://www.ibm.com/support/pages/node/6172341

Ооба, ошол версиянын микропрограммасында APAR (Authorized Program Analysis Report) HU02104 тиешелүү болгон. Ал төмөнкүдөй көрүнөт. Жүктөлүп жатканда, белгилүү бир шарттарда кэш толуп баштайт, андан кийин система коргоочу режимге өтөт, мында бассейн үчүн I/O өчүрүлөт. Биздин учурда, RAID 3 режиминде RAID тобу үчүн 6 дискти ажыраткандай көрүндү.Ажыратуу 6 мүнөткө созулат. Андан кийин, бассейндеги томдорго жетүү калыбына келтирилет.

Эгерде кимдир бирөө IBM Spectrum Virtualize контекстинде логикалык объекттердин түзүлүшү жана аталышы менен тааныш болбосо, мен азыр кыскача түшүндүрүп берем.

Эмне үчүн сиздин жогорку жеткиликтүүлүк сактагычыңызда программалык камсыздоону текшерүү маанилүү (99,9999%)Логикалык элементтерди сактоо тутумунун түзүлүшү

Дисктер MDisk (Managed Disk) деп аталган топторго чогултулат. MDisk классикалык RAID (0,1,10,5,6) же виртуалдаштырылган DRAID (Distributed RAID) болушу мүмкүн. DRAIDди колдонуу массивдин иштешин жогорулатууга мүмкүндүк берет, анткени... Топтогу бардык дисктер колдонулат жана кайра куруу убактысы кыскарат, анткени айрым блокторду гана калыбына келтирүү керек болот, ал эми иштебей калган дисктен бардык маалыматтар эмес.

Эмне үчүн сиздин жогорку жеткиликтүүлүк сактагычыңызда программалык камсыздоону текшерүү маанилүү (99,9999%)Distributed RAID (DRAID) RAID-5 режиминде колдонулганда дисктер боюнча маалымат блокторун бөлүштүрүү.

Жана бул диаграмма бир диск бузулган учурда DRAID кайра куруунун логикасын көрсөтөт:

Эмне үчүн сиздин жогорку жеткиликтүүлүк сактагычыңызда программалык камсыздоону текшерүү маанилүү (99,9999%)Бир диск иштебей калганда DRAIDдин логикасы

Андан кийин, бир же бир нече MDisks Pool деп аталган нерсени түзөт. Бир эле бассейндин ичинде, бир типтеги дисктерде ар кандай RAID/DRAID деңгээли менен MDiskти колдонуу сунушталбайт. Биз буга тереңдеп кирбейбиз, анткени... муну кийинки макалалардын биринде чагылдырууну пландаштырып жатабыз. Ооба, чындыгында, Pool Томдорго бөлүнөт, алар хостторго тигил же бул блоктук кирүү протоколунун жардамы менен сунушталат.

Ошентип, биз, сүрөттөлгөн кырдаалдын натыйжасында APAR HU02104, үч дисктин логикалык бузулуусунан улам, MDisk иштебей калды, бул өз кезегинде Пулдун жана тиешелүү Томдордун иштебей калышына алып келди.

Бул системалар абдан акылдуу болгондуктан, аларды IBM Storage Insights булут негизиндеги мониторинг тутумуна туташтырууга болот, ал эгер көйгөй келип чыкса, автоматтык түрдө IBM колдоосуна кызмат сурамын жөнөтөт. Тиркеме түзүлүп, IBM адистери алыстан диагностика жүргүзүшөт жана системанын колдонуучусу менен байланышышат. 

Ушунун аркасында маселе тез арада чечилип, колдоо кызматынан системабызды мурда тандалган 8.2.1.9 микропрограммасына жаңыртуу боюнча ыкчам сунуш түшкөн, ал учурда оңдолгон. Ал тастыктайт тиешелүү Release Note.

Натыйжалар жана биздин сунуштар

«Баары жакшы, аягы жакшы болот» дегендей. Микропрограммадагы мүчүлүштүк олуттуу көйгөйлөрдү жараткан жок - серверлер мүмкүн болушунча тез арада жана маалыматтар жоголбостон калыбына келтирилди. Кээ бир кардарларга виртуалдык машиналарды кайра иштетүүгө туура келген, бирок жалпысынан биз бардык инфраструктура элементтеринин жана кардар машиналарынын резервдик көчүрмөлөрүн күн сайын жасап тургандыктан, терс кесепеттерге даяр болчубуз. 

Биз 99,9999% убада кылынган жеткиликтүүлүгү менен ишенимдүү системалар да көңүл бурууну жана өз убагында тейлөөнү талап кылаарын тастыктадык. Жагдайдын негизинде биз өзүбүз үчүн бир катар тыянактарды чыгардык жана сунуштарыбызды бөлүштүк:

  • Жаңыртуулардын чыгарылышына мониторинг жүргүзүү, мүмкүн болгон орчундуу маселелерди оңдоо үчүн Release Notes менен таанышуу жана пландаштырылган жаңыртууларды өз убагында жүргүзүү зарыл.

    Бул уюштуруучулук, ал тургай, абдан ачык-айкын жагдай болуп саналат, ага басым жасоонун кереги жок көрүнөт. Бирок, бул "деңгээл жеринде" сиз оңой эле мүдүрүлсөңүз болот. Чынында, дал ушул учур жогоруда айтылган кыйынчылыктарды кошту. Жаңыртуу эрежелерин түзүүдө өтө этият болуңуз жана алардын сакталышын дагы кылдаттык менен көзөмөлдөңүз. Бул пункт "тартип" түшүнүгүнө көбүрөөк тиешелүү.

  • Системаны программалык камсыздоонун акыркы версиясы менен сактоо дайыма жакшы. Анын үстүнө, азыркысы чоңураак сандык белгиге ээ эмес, бирок кийинчерээк чыгарылган датасы бар. 

    Мисалы, IBM өзүнүн сактоо тутумдары үчүн эң аз дегенде эки программалык камсыздоону жаңыртып турат. Бул жазуу учурунда, бул 8.2 жана 8.3. 8.2 үчүн жаңыртуулар эртерээк чыгат. 8.3 үчүн окшош жаңыртуу, адатта, бир аз кечигүү менен чыгарылат.

    Release 8.3 бир катар функционалдык артыкчылыктарга ээ, мисалы, бир же бир нече жаңы дисктерди кошуу менен MDiskти (DRAID режиминде) кеңейтүү мүмкүнчүлүгү (бул функция 8.3.1 версиясынан бери пайда болгон). Бул кыйла негизги функция, бирок 8.2де, тилекке каршы, мындай функция жок.

  • Эгерде кандайдыр бир себептерден улам жаңыртуу мүмкүн болбосо, анда Spectrum Virtualize программалык камсыздоонун 8.2.1.9 жана 8.3.1.0 версияларына чейинки версиялары үчүн (жогоруда сүрөттөлгөн мүчүлүштүк актуалдуу болсо), анын пайда болуу коркунучун азайтуу үчүн IBM техникалык колдоосу сунуштайт. төмөнкү сүрөттө көрсөтүлгөндөй, бассейн деңгээлинде системанын иштешин чектөө (сүрөт GUIдин орусчаланган версиясында тартылган). 10000 IOPS мааниси мисал катары көрсөтүлгөн жана системаңыздын өзгөчөлүктөрүнө жараша тандалат.

Эмне үчүн сиздин жогорку жеткиликтүүлүк сактагычыңызда программалык камсыздоону текшерүү маанилүү (99,9999%)IBM сактагычынын иштешин чектөө

  • Сактоо тутумдарына жүктөөнү туура эсептөө жана ашыкча жүктөөдөн качуу керек. Бул үчүн, сиз IBM өлчөгүчтү (эгер ага кирүү мүмкүнчүлүгүңүз болсо) же өнөктөштөрдүн жардамын же үчүнчү тараптын ресурстарын колдоно аласыз. Сактоо тутумундагы жүктүн профилин түшүнүү зарыл, анткени МБ/сек жана IOPS көрсөткүчтөрү, жок эле дегенде, төмөнкү параметрлерге жараша абдан өзгөрөт:

    • операция түрү: окуу же жазуу,

    • операция блогунун өлчөмү,

    • жалпы киргизүү/чыгаруу агымында окуу жана жазуу операцияларынын пайызы.

    Ошондой эле, операциялардын ылдамдыгына маалымат блокторун окуу кандай таасир этет: ырааттуу же туш келди тартипте. Колдонмо тарапта бир нече маалыматтарга кирүү операцияларын аткарууда, көз каранды операциялар түшүнүгү бар. Муну да эске алуу максатка ылайыктуу. Мунун баары ОСтун иштөө эсептегичтеринен, сактоо тутумунан, серверлерден/гипервизорлордон алынган маалыматтардын жыйындысын көрүүгө, ошондой эле тиркемелердин, МБББнын жана диск ресурстарынын башка “керектөөчүлөрүнүн” иштөө өзгөчөлүктөрүн түшүнүүгө жардам берет.

  • Акыр-аягы, камдык көчүрмөлөрү жаңыртылган жана иштеп турушун унутпаңыз. Камдык көчүрмөнү сактоо графиги бизнес үчүн алгылыктуу RPO баалуулуктарынын негизинде конфигурацияланышы керек жана алгылыктуу RTO маанисин камсыз кылуу үчүн камдык көчүрмөлөрдүн бүтүндүгүн мезгил-мезгили менен текшерип турушу керек (бир нече резервдик программалык камсыздоонун сатуучулары алардын өнүмдөрүндө автоматташтырылган текшерүүнү жүргүзүшкөн).

Аягына чейин окуганыңыз үчүн рахмат.
Биз сиздин суроолоруңузга жана комментарийлериңизге жооп берүүгө даярбыз. Ошондой эле Сиздерди биздин телеграм каналыбызга жазылууга чакырабыз, анда биз үзгүлтүксүз акцияларды өткөрүп турабыз (IaaS боюнча арзандатуулар жана VPSде 100% чейин промо-коддор үчүн белектер), кызыктуу жаңылыктарды жазып, Habr блогунда жаңы макалаларды жарыялайбыз.

Source: www.habr.com

Комментарий кошуу