Naha Éta Penting pikeun Ngavalidasi Parangkat Lunak dina Panyimpenan Kasadiaan Luhur Anjeun (99,9999%)

Naha Éta Penting pikeun Ngavalidasi Parangkat Lunak dina Panyimpenan Kasadiaan Luhur Anjeun (99,9999%)

Versi firmware mana anu paling "leres" sareng "berfungsi"? Upami sistem panyimpen ngajamin kasabaran kasalahan 99,9999%, naha éta hartosna éta bakal tiasa dianggo tanpa gangguan sanajan henteu aya apdet parangkat lunak? Atawa, sabalikna, pikeun ménta kasabaran sesar maksimum, Anjeun kudu salawasna masang firmware panganyarna? Urang bakal nyoba ngajawab patarosan ieu dumasar kana pangalaman urang.

Bubuka pondok

Urang sadayana ngartos yén unggal vérsi parangkat lunak, naha éta sistem operasi atanapi supir pikeun alat, sering ngandung cacad / bug sareng "fitur" sanés anu tiasa "muncul" dugi ka ahir umur jasa alat, atanapi "buka" ngan dina kaayaan nu tangtu. Jumlah sareng pentingna nuansa sapertos kitu gumantung kana pajeulitna (fungsionalitas) parangkat lunak sareng kualitas tés nalika pangwangunanana. 

Mindeng, pamaké tetep dina "firmware ti pabrik" (kawentar "éta gawéna, jadi ulah mess kalawan eta") atawa salawasna install versi panganyarna (dina pamahaman maranéhanana, panganyarna hartina paling bisa dipake). Kami nganggo pendekatan anu béda - urang ningali catetan pelepasan pikeun sadayana anu dianggo dina awan mClouds alat-alat jeung taliti pilih firmware luyu pikeun tiap sapotong pakakas.

Kami dugi ka kacindekan ieu, sakumaha anu aranjeunna nyarios, kalayan pangalaman. Nganggo conto operasi kami, kami bakal nyarioskeun ka anjeun naha 99,9999% kaandalan sistem panyimpen anu dijanjikeun henteu hartosna upami anjeun henteu langsung ngawaskeun apdet sareng déskripsi parangkat lunak. Kasus kami cocog pikeun pangguna sistem panyimpen ti vendor mana waé, sabab kaayaan anu sami tiasa kajantenan sareng hardware ti produsén mana waé.

Milih Sistem Panyimpenan Anyar

Dina ahir taun ka tukang, hiji sistem panyimpen data metot ditambahkeun kana infrastruktur urang: modél SMP ti garis IBM FlashSystem 5000, nu dina waktu meuli disebut Storwize V5010e. Ayeuna dijual kalayan nami FlashSystem 5010, tapi kanyataanna mangrupikeun dasar hardware anu sami sareng Spéktrum Virtualize anu sami di jero. 

Ayana sistem manajemen anu ngahiji, ku jalan kitu, bédana utama antara IBM FlashSystem. Pikeun modél séri anu langkung ngora, praktis henteu béda ti modél anu langkung produktif. Milih model husus ngan nyadiakeun base hardware luyu, ciri nu ngamungkinkeun pikeun ngagunakeun hiji atawa fungsi sejen atawa nyadiakeun tingkat luhur scalability. Parangkat lunak ngaidentipikasi hardware sareng nyayogikeun fungsionalitas anu diperyogikeun sareng cekap pikeun platform ieu.

Naha Éta Penting pikeun Ngavalidasi Parangkat Lunak dina Panyimpenan Kasadiaan Luhur Anjeun (99,9999%)IBM FlashSystem 5010

Sakeudeung ngeunaan model urang 5010. Ieu sistem panyimpen blok dual-controller entry-level. Éta tiasa nampung disk NLSAS, SAS, SSD. panempatan NVMe teu sadia di dinya, saprak model gudang ieu diposisikan pikeun ngajawab masalah anu teu merlukeun kinerja NVMe drive.

Sistem panyimpen dipésér pikeun nampung inpormasi arsip atanapi data anu henteu sering diakses. Ku alatan éta, set standar pungsionalitasna éta cukup pikeun kami: Tiering (Tier Gampang), Ipis Pranata mangsa. Kinerja dina disk NLSAS dina tingkat 1000-2000 IOPS ogé cukup nyugemakeun pikeun urang.

Pangalaman urang - kumaha urang henteu ngamutahirkeun firmware dina waktosna

Ayeuna ngeunaan update software sorangan. Dina waktos ngagaleuh, sistem parantos ngagaduhan versi parangkat lunak Spectrum Virtualize anu rada luntur, nyaéta, 8.2.1.3.

Urang diajar pedaran firmware sarta rencanana update kana 8.2.1.9. Lamun urang geus saeutik leuwih efisien, artikel ieu moal bakal aya - bug moal lumangsung dina firmware nu leuwih anyar. Nanging, kusabab sababaraha alesan, pembaruan sistem ieu ditunda.

Hasilna, reureuh update sakedik nyababkeun gambar anu teu pikaresepeun, sapertos dina katerangan dina tautan: https://www.ibm.com/support/pages/node/6172341

Leres, dina firmware versi éta anu disebut APAR (Laporan Analisis Program Otorisasi) HU02104 relevan. Nembongan kieu. Dina beban, dina kaayaan nu tangtu, cache mimiti ngabahekeun, lajeng sistem mana kana mode pelindung, nu disables I / O pikeun kolam renang. Dina hal urang, éta kasampak kawas megatkeun 3 disk pikeun grup RAID dina modeu RAID 6. Disconnection lumangsung salila 6 menit. Salajengna, aksés ka Jilid dina Kolam Renang disimpen deui.

Upami aya anu henteu wawuh sareng struktur sareng nami éntitas logis dina konteks IBM Spectrum Virtualize, ayeuna kuring bakal ngajelaskeun sacara ringkes.

Naha Éta Penting pikeun Ngavalidasi Parangkat Lunak dina Panyimpenan Kasadiaan Luhur Anjeun (99,9999%)Struktur elemen logis sistem gudang

Disk dikumpulkeun kana grup anu disebut MDisk (Managed Disk). MDisk tiasa janten RAID klasik (0,1,10,5,6) atanapi virtualisasi - DRAID (Distributed RAID). Ngagunakeun DRAID ngidinan Anjeun pikeun ngaronjatkeun kinerja array, sabab ... Sadaya disk dina grup bakal dianggo, sareng waktos ngawangun deui bakal dikirangan, kusabab kanyataan yén ngan ukur blok-blok anu tangtu kedah dibalikeun, sareng henteu sadayana data tina disk anu gagal.

Naha Éta Penting pikeun Ngavalidasi Parangkat Lunak dina Panyimpenan Kasadiaan Luhur Anjeun (99,9999%)Distribusi blok data dina disk nalika nganggo RAID Distribusi (DRAID) dina modeu RAID-5.

Sareng diagram ieu nunjukkeun logika kumaha ngawangun deui DRAID tiasa dianggo upami aya hiji kagagalan disk:

Naha Éta Penting pikeun Ngavalidasi Parangkat Lunak dina Panyimpenan Kasadiaan Luhur Anjeun (99,9999%)Logika DRAID ngawangun deui nalika hiji disk gagal

Salajengna, hiji atanapi langkung MDisks ngabentuk anu disebut Pool. Dina kolam renang anu sami, henteu disarankeun pikeun nganggo MDisk kalayan tingkat RAID / DRAID anu béda dina disk tina jinis anu sami. Kami moal lebet pisan kana ieu, sabab ... kami rencanana pikeun nutupan ieu dina salah sahiji artikel di handap ieu. Nya, kanyataanna, Pool dibagi kana Jilid, anu disayogikeun nganggo hiji atanapi protokol aksés blok anu sanés ka host.

Janten, urang, salaku hasil tina kaayaan anu dijelaskeun dina APAR HU02104, alatan gagalna logis tina tilu disk, MDisk ceased janten fungsi, nu, kahareupna ngakibatkeun gagalna Kolam renang jeung volume pakait.

Kusabab sistem ieu rada pinter, aranjeunna tiasa disambungkeun kana sistem ngawaskeun basis awan IBM Storage Insights, anu otomatis ngirimkeun pamundut jasa ka dukungan IBM upami aya masalah. Aplikasi didamel sareng spesialis IBM jarak jauh ngalaksanakeun diagnostik sareng ngahubungi pangguna sistem. 

Hatur nuhun kana ieu, masalah ieu direngsekeun rada gancang sarta rekomendasi ajakan narima ti layanan rojongan pikeun ngamutahirkeun sistem kami ka firmware dipilih saméméhna 8.2.1.9, nu dina waktos éta geus dibereskeun. Ieu confirms pakait Release Catetan.

Hasil sareng saran kami

Sakumaha paribasa: "sadayana saé anu ditungtungan ogé." Bug dina firmware henteu ngabalukarkeun masalah serius - server disimpen pas mungkin tur tanpa leungitna data. Sababaraha klien kedah ngabalikan deui mesin virtual, tapi sacara umum kami disiapkeun pikeun konsékuansi anu langkung négatip, sabab kami ngadamel cadangan harian sadaya elemen infrastruktur sareng mesin klien. 

Kami parantos nampi konfirmasi yén sistem anu tiasa dipercaya sareng 99,9999% kasadiaan anu dijanjikeun peryogi perhatian sareng pangropéa tepat waktu. Dumasar kana kaayaan éta, kami parantos nyimpulkeun sababaraha kasimpulan pikeun diri urang sorangan sareng ngabagi saran kami:

  • Penting pisan pikeun ngawas sékrési apdet, diajar Catetan Rilis pikeun koréksi masalah anu berpotensi kritis, sareng ngalaksanakeun apdet anu direncanakeun dina waktosna.

    Ieu mangrupikeun titik organisasi sareng rada atra, anu, sigana, henteu kedah difokuskeun. Nanging, dina "tanah tingkat" ieu anjeun tiasa titajong kalayan gampang. Sabenerna, momen ieu anu nambihan masalah anu dijelaskeun di luhur. Ati-ati pisan nalika nyusun peraturan pembaruan sareng ngawaskeun patuh kana éta henteu langkung ati-ati. Poin ieu leuwih patali jeung konsép "disiplin".

  • Éta salawasna hadé tetep sistem jeung versi software panganyarna. Sumawona, anu ayeuna sanés mangrupikeun anu gaduh sebutan angka anu langkung ageung, tapi anu gaduh tanggal rilis engké. 

    Contona, IBM ngajaga sahenteuna dua release software up to date pikeun sistem gudang na. Dina waktu tulisan ieu, ieu 8.2 jeung 8.3. Pembaruan pikeun 8.2 kaluar sateuacana. Pembaruan anu sami pikeun 8.3 biasana dileupaskeun kalayan sakedik reureuh.

    Release 8.3 ngabogaan sajumlah kaunggulan fungsi, contona, kamampuhan pikeun dilegakeun MDisk (dina mode DRAID) ku nambahkeun hiji atawa leuwih disk anyar (fitur ieu geus mucunghul saprak versi 8.3.1). Ieu mangrupikeun fungsionalitas anu cukup dasar, tapi dina 8.2, hanjakalna, henteu aya fitur sapertos kitu.

  • Upami teu mungkin pikeun ngapdet pikeun sababaraha alesan, teras pikeun vérsi parangkat lunak Spectrum Virtualize sateuacan vérsi 8.2.1.9 sareng 8.3.1.0 (dimana bug anu dijelaskeun di luhur relevan), pikeun ngirangan résiko kajadianana, dukungan téknis IBM nyarankeun. ngawatesan kinerja sistem di tingkat kolam renang, ditémbongkeun saperti dina gambar di handap ieu (gambar dicokot dina versi Russified of GUI). Nilai 10000 IOPS dipidangkeun salaku conto sareng dipilih dumasar kana karakteristik sistem anjeun.

Naha Éta Penting pikeun Ngavalidasi Parangkat Lunak dina Panyimpenan Kasadiaan Luhur Anjeun (99,9999%)Ngawatesan kinerja gudang IBM

  • Perlu leres ngitung beban dina sistem panyimpen sareng ngahindarkeun kaleuleuwihan. Jang ngalampahkeun ieu, anjeun tiasa nganggo ukuran IBM (upami anjeun gaduh aksés kana éta), atanapi bantosan mitra, atanapi sumber daya pihak katilu. Éta imperatif ngartos profil beban dina sistem gudang, sabab Kinerja dina MB/s sareng IOPS variasina pisan gumantung kana sahenteuna parameter di handap ieu:

    • tipe operasi: maca atawa nulis,

    • ukuran blok operasi,

    • perséntase operasi maca jeung nulis dina total I / O stream.

    Ogé, laju operasi dipangaruhan ku cara blok data dibaca: sacara berurutan atanapi sacara acak. Nalika ngalakukeun sababaraha operasi aksés data dina sisi aplikasi, aya konsép operasi gumantung. Éta ogé sasaena nyandak ieu kana rekening. Sadaya ieu tiasa ngabantosan ningali totalitas data tina konter kinerja OS, sistem panyimpen, server / hypervisors, ogé pamahaman fitur operasi aplikasi, DBMS sareng "konsumen" sumberdaya disk anu sanés.

  • Sarta pamustunganana, pastikeun gaduh cadangan up to date jeung jalan. Jadwal cadangan kedah dikonpigurasi dumasar kana nilai RPO anu tiasa ditampi pikeun bisnis, sareng pamariksaan integritas périodik tina cadangan kedah diverifikasi (sababaraha padagang parangkat lunak cadangan parantos ngalaksanakeun verifikasi otomatis dina produkna) pikeun mastikeun nilai RTO anu tiasa ditampi.

Hatur nuhun pikeun maca nepi ka ahir.
Kami siap ngajawab patarosan sareng koméntar anjeun dina koméntar. oge Kami ngajak anjeun ngalanggan saluran telegram kami, di mana urang ngayakeun promosi biasa (diskon on IaaS na giveaways pikeun kode promosi nepi ka 100% on VPS), nulis warta metot sarta ngumumkeun artikel anyar dina blog Habr.

sumber: www.habr.com

Tambahkeun komentar