Proqram təminatını yüksək əlçatanlıq yaddaşınızda yoxlamaq nə üçün vacibdir (99,9999%)

Proqram təminatını yüksək əlçatanlıq yaddaşınızda yoxlamaq nə üçün vacibdir (99,9999%)

Hansı proqram təminatı versiyası ən “düzgün” və “işləyən”dir? Əgər yaddaş sistemi 99,9999% xətaya dözümlülüyünə zəmanət verirsə, bu o deməkdir ki, o, proqram təminatı yeniləməsi olmadan da fasiləsiz işləyəcək? Və ya əksinə, maksimum nasazlığa dözümlülük əldə etmək üçün həmişə ən son proqram təminatını quraşdırmalısınız? Təcrübəmiz əsasında bu suallara cavab verməyə çalışacağıq.

Kiçik giriş

Biz hamımız başa düşürük ki, proqram təminatının hər bir versiyasında, istər əməliyyat sistemi, istərsə də cihaz üçün sürücü, çox vaxt avadanlığın xidmət müddəti bitənə qədər “görünməyən” və ya “açıq” olan qüsurlar/baqlar və digər “xüsusiyyətlər” ehtiva edir. yalnız müəyyən şərtlər altında. Bu cür nüansların sayı və əhəmiyyəti proqram təminatının mürəkkəbliyindən (funksionallığından) və onun inkişafı zamanı sınaqların keyfiyyətindən asılıdır. 

Çox vaxt istifadəçilər "zavoddan gələn proqram təminatında" qalırlar (məşhur "işləyir, ona görə də onunla qarışma") və ya həmişə ən son versiyanı quraşdırırlar (onların anlayışına görə, ən son ən işləyən deməkdir). Biz fərqli bir yanaşma tətbiq edirik - istifadə olunan hər şey üçün buraxılış qeydlərinə baxırıq mClouds buludunda avadanlıq və hər bir avadanlıq üçün müvafiq proqram təminatını diqqətlə seçin.

Bu qənaətə, necə deyərlər, təcrübə ilə gəldik. Əməliyyat nümunəmizdən istifadə edərək, proqram yeniləmələrinə və təsvirlərə dərhal nəzarət etməsəniz, saxlama sistemlərinin vəd edilmiş 99,9999% etibarlılığının nə üçün heç nə demək olmadığını sizə izah edəcəyik. Bizim işimiz istənilən satıcının saxlama sistemlərinin istifadəçiləri üçün uyğundur, çünki oxşar vəziyyət istənilən istehsalçının aparatında baş verə bilər.

Yeni Saxlama Sisteminin Seçilməsi

Keçən ilin sonunda bizim infrastrukturumuza maraqlı məlumat saxlama sistemi əlavə edildi: satın alınarkən Storwize V5000e adlanan IBM FlashSystem 5010 xəttinin kiçik modeli. İndi FlashSystem 5010 adı altında satılır, lakin əslində içərisində eyni Spectrum Virtualize ilə eyni aparat bazasıdır. 

Vahid idarəetmə sisteminin olması, yeri gəlmişkən, IBM FlashSystem arasındakı əsas fərqdir. Gənc seriyanın modelləri üçün, daha məhsuldar olanların modellərindən praktiki olaraq heç bir fərqi yoxdur. Müəyyən bir modelin seçilməsi yalnız xüsusiyyətləri bu və ya digər funksionallıqdan istifadə etməyə imkan verən və ya daha yüksək səviyyəli miqyaslılığı təmin edən müvafiq aparat bazasını təmin edir. Proqram təminatı aparatı müəyyən edir və bu platforma üçün lazımi və kifayət qədər funksionallığı təmin edir.

Proqram təminatını yüksək əlçatanlıq yaddaşınızda yoxlamaq nə üçün vacibdir (99,9999%)IBM FlashSystem 5010

5010 modelimiz haqqında qısaca. Bu, giriş səviyyəli ikili nəzarətçi blok saxlama sistemidir. NLSAS, SAS, SSD disklərini yerləşdirə bilər. NVMe yerləşdirmə orada mövcud deyil, çünki bu saxlama modeli NVMe sürücülərinin performansını tələb etməyən problemləri həll etmək üçün yerləşdirilmişdir.

Saxlama sistemi arxiv məlumatlarını və ya tez-tez əldə olunmayan məlumatları yerləşdirmək üçün alınmışdır. Buna görə də, onun funksionallığının standart dəsti bizim üçün kifayət idi: Tiering (Easy Tier), Thin Provision. NLSAS disklərində 1000-2000 IOPS səviyyəsində performans da bizim üçün kifayət qədər qənaətbəxş idi.

Təcrübəmiz - proqram təminatını vaxtında necə yeniləmədik

İndi proqram yeniləməsinin özü haqqında. Satınalma zamanı sistem artıq Spectrum Virtualize proqramının bir qədər köhnəlmiş versiyasına malik idi, yəni, 8.2.1.3.

Biz proqram təminatının təsvirlərini öyrəndik və yeniləməni planlaşdırdıq 8.2.1.9. Bir az daha səmərəli olsaydıq, bu məqalə mövcud olmazdı - səhv daha yeni bir proqram təminatında baş verməzdi. Lakin müəyyən səbəblərdən bu sistemin yenilənməsi təxirə salınıb.

Nəticədə, bir az yeniləmə gecikməsi, linkdəki təsvirdə olduğu kimi, son dərəcə xoşagəlməz bir şəkilə səbəb oldu: https://www.ibm.com/support/pages/node/6172341

Bəli, həmin versiyanın proqram təminatında sözdə APAR (Səlahiyyətli Proqram Təhlili Hesabatı) HU02104 aktual idi. Aşağıdakı kimi görünür. Yük altında, müəyyən şərtlərdə, önbellek daşmağa başlayır, sonra sistem hovuz üçün I/O-nu söndürdüyü qoruyucu rejimə keçir. Bizim vəziyyətimizdə RAID 3 rejimində RAID qrupu üçün 6 diski ayırmaq kimi görünürdü.Açıqlanma 6 dəqiqə ərzində baş verir. Sonra, Hovuzdakı Həcmlərə giriş bərpa olunur.

Kimsə IBM Spectrum Virtualize kontekstində məntiqi obyektlərin strukturu və adlandırılması ilə tanış deyilsə, mən indi qısaca izah edəcəyəm.

Proqram təminatını yüksək əlçatanlıq yaddaşınızda yoxlamaq nə üçün vacibdir (99,9999%)Saxlama sisteminin məntiqi elementlərinin strukturu

Disklər MDisk (Managed Disk) adlanan qruplara toplanır. MDisk klassik RAID (0,1,10,5,6) və ya virtuallaşdırılmış ola bilər - DRAID (Distributed RAID). DRAID-dən istifadə massivin performansını artırmağa imkan verir, çünki... Qrupdakı bütün disklər istifadə ediləcək və uğursuz diskdən bütün məlumatları deyil, yalnız müəyyən blokları bərpa etmək lazım olduğuna görə yenidən qurulma vaxtı azalacaq.

Proqram təminatını yüksək əlçatanlıq yaddaşınızda yoxlamaq nə üçün vacibdir (99,9999%)RAID-5 rejimində Paylanmış RAID (DRAID) istifadə edərkən məlumat bloklarının disklər arasında paylanması.

Və bu diaqram bir disk nasazlığı halında DRAID yenidən qurulmasının necə işlədiyinin məntiqini göstərir:

Proqram təminatını yüksək əlçatanlıq yaddaşınızda yoxlamaq nə üçün vacibdir (99,9999%)Bir disk uğursuz olduqda DRAID-in yenidən qurulmasının məntiqi

Sonra, bir və ya bir neçə MDisk sözdə Hovuz əmələ gətirir. Eyni hovuz daxilində eyni tipli disklərdə müxtəlif RAID/DRAID səviyyələri ilə MDisk-dən istifadə etmək tövsiyə edilmir. Biz buna çox dərindən girməyəcəyik, çünki... bunu növbəti məqalələrdən birində işıqlandırmağı planlaşdırırıq. Əslində, Pool, hostlara bu və ya digər blok giriş protokolundan istifadə edərək təqdim olunan Həcmlərə bölünür.

Beləliklə, bizdə izah edilən vəziyyət nəticəsində APAR HU02104, üç diskin məntiqi çatışmazlığı səbəbindən MDisk işləməyi dayandırdı, bu da öz növbəsində Hovuzun və müvafiq Həcmlərin sıradan çıxması ilə nəticələndi.

Bu sistemlər kifayət qədər ağıllı olduğundan, onlar problem baş verdikdə avtomatik olaraq IBM dəstəyinə xidmət sorğusu göndərən IBM Storage Insights bulud əsaslı monitorinq sisteminə qoşula bilər. Tətbiq yaradılır və IBM mütəxəssisləri uzaqdan diaqnostika aparır və sistem istifadəçisi ilə əlaqə saxlayırlar. 

Bunun sayəsində problem kifayət qədər tez həll edildi və sistemimizi əvvəllər seçilmiş 8.2.1.9 proqram təminatına yeniləmək üçün dəstək xidmətindən operativ tövsiyə alındı, o zaman artıq düzəldildi. Təsdiq edir müvafiq Buraxılış Qeydi.

Nəticələr və tövsiyələrimiz

Necə deyərlər: “Yaxşı bitən hər şey yaxşıdır”. Mikroproqramdakı səhv ciddi problemlər yaratmadı - serverlər mümkün qədər tez və məlumat itkisi olmadan bərpa edildi. Bəzi müştərilər virtual maşınları yenidən işə salmalı oldular, lakin biz ümumilikdə bütün infrastruktur elementlərinin və müştəri maşınlarının ehtiyat nüsxəsini çıxardığımız üçün daha çox mənfi nəticələrə hazır idik. 

Biz təsdiq almışıq ki, hətta 99,9999% vəd edilmiş etibarlı sistemlər diqqət və vaxtında texniki xidmət tələb edir. Vəziyyətə əsaslanaraq, özümüz üçün bir sıra nəticələr çıxardıq və tövsiyələrimizi bölüşürük:

  • Yeniləmələrin buraxılmasına nəzarət etmək, potensial kritik məsələlərin düzəlişləri üçün Buraxılış Qeydlərini öyrənmək və planlaşdırılan yeniləmələri vaxtında həyata keçirmək vacibdir.

    Bu, təşkilati və hətta olduqca açıq bir məqamdır, görünür, buna diqqət yetirməyə dəyməz. Ancaq bu "səviyyəli zəmində" siz asanlıqla büdrəyə bilərsiniz. Əslində, yuxarıda təsvir olunan bəlaları əlavə edən bu məqam idi. Yeniləmə qaydalarını tərtib edərkən çox diqqətli olun və onlara daha az diqqətlə riayət edin. Bu məqam daha çox “intizam” anlayışına aiddir.

  • Sistemi ən son proqram versiyası ilə saxlamaq həmişə daha yaxşıdır. Üstəlik, indiki daha böyük rəqəmsal təyinatlı deyil, daha sonra buraxılış tarixi olan biridir. 

    Məsələn, IBM saxlama sistemləri üçün ən azı iki proqram buraxılışını yeni saxlayır. Bu yazı zamanı bunlar 8.2 və 8.3-dür. 8.2 üçün yeniləmələr daha əvvəl çıxır. 8.3 üçün oxşar yeniləmə adətən bir qədər gecikmə ilə buraxılır.

    Release 8.3 bir sıra funksional üstünlüklərə malikdir, məsələn, bir və ya bir neçə yeni disk əlavə etməklə MDisk-i (DRAID rejimində) genişləndirmək imkanı (bu xüsusiyyət 8.3.1 versiyasından bəri ortaya çıxdı). Bu kifayət qədər əsas funksionallıqdır, lakin 8.2-də təəssüf ki, belə bir xüsusiyyət yoxdur.

  • Əgər nədənsə yeniləmək mümkün deyilsə, onun baş vermə riskini azaltmaq üçün Spectrum Virtualize proqram təminatının 8.2.1.9 və 8.3.1.0 versiyalarından əvvəlki versiyaları üçün (yuxarıda təsvir edilən səhv müvafiqdir) IBM texniki dəstəyi tövsiyə edir. aşağıdakı şəkildə göstərildiyi kimi hovuz səviyyəsində sistem performansını məhdudlaşdırmaq (şəkil GUI-nin Russified versiyasında çəkilmişdir). 10000 IOPS dəyəri nümunə olaraq göstərilir və sisteminizin xüsusiyyətlərinə uyğun olaraq seçilir.

Proqram təminatını yüksək əlçatanlıq yaddaşınızda yoxlamaq nə üçün vacibdir (99,9999%)IBM yaddaş performansını məhdudlaşdırır

  • Saxlama sistemlərindəki yükü düzgün hesablamaq və həddindən artıq yüklənmədən qaçmaq lazımdır. Bunu etmək üçün siz ya IBM sizerindən (əgər ona çıxışınız varsa), ya da tərəfdaşların köməyindən və ya üçüncü tərəf resurslarından istifadə edə bilərsiniz. Saxlama sistemindəki yük profilini başa düşmək vacibdir, çünki MB/s və IOPS-də performans ən azı aşağıdakı parametrlərdən asılı olaraq çox dəyişir:

    • əməliyyat növü: oxumaq və ya yazmaq,

    • əməliyyat blokunun ölçüsü,

    • ümumi I/O axınında oxuma və yazma əməliyyatlarının faizi.

    Həmçinin, əməliyyatların sürəti məlumat bloklarının necə oxunmasından təsirlənir: ardıcıl və ya təsadüfi qaydada. Tətbiq tərəfində çoxlu məlumat əldə etmə əməliyyatları yerinə yetirilərkən, asılı əməliyyatlar anlayışı mövcuddur. Bunu da nəzərə almaq məsləhətdir. Bütün bunlar OS-nin performans sayğaclarından, saxlama sistemlərindən, serverlərdən/hipervizorlardan alınan məlumatların məcmusunu görməyə, həmçinin proqramların, DBMS-lərin və disk resurslarının digər “istehlakçılarının” əməliyyat xüsusiyyətlərini başa düşməyə kömək edə bilər.

  • Və nəhayət, ehtiyat nüsxələrin yenilənmiş və işlək olduğundan əmin olun. Yedəkləmə cədvəli biznes üçün məqbul RPO dəyərlərinə əsaslanaraq konfiqurasiya edilməli və məqbul RTO dəyərini təmin etmək üçün ehtiyat nüsxələrin dövri bütövlüyü yoxlamaları yoxlanılmalıdır (bir neçə ehtiyat proqram təminatçısı öz məhsullarında avtomatlaşdırılmış yoxlama tətbiq edib).

Sona qədər oxuduğunuz üçün təşəkkür edirəm.
Şərhlərdə suallarınızı və şərhlərinizi cavablandırmağa hazırıq. Həmçinin Sizi telegram kanalımıza abunə olmağa dəvət edirik, biz müntəzəm olaraq promosyonlar keçiririk (IaaS-də endirimlər və VPS-də 100%-ə qədər promosyon kodları üçün hədiyyələr), maraqlı xəbərlər yazın və Habr bloqunda yeni məqalələr elan edirik.

Mənbə: www.habr.com

Добавить комментарий