Pam mae'n bwysig profi'r meddalwedd ar eich system storio argaeledd uchel (99,9999%)

Pam mae'n bwysig profi'r meddalwedd ar eich system storio argaeledd uchel (99,9999%)

Pa fersiwn firmware yw'r mwyaf "cywir" a "gweithio"? Os yw system storio yn gwarantu goddefgarwch bai o 99,9999%, a yw hynny'n golygu y bydd yn gweithio'n ddi-dor hyd yn oed heb ddiweddariad meddalwedd? Neu, i'r gwrthwyneb, i gael y goddefgarwch mwyaf o fai, dylech bob amser osod y firmware diweddaraf? Byddwn yn ceisio ateb y cwestiynau hyn yn seiliedig ar ein profiad.

Cyflwyniad bach

Rydym i gyd yn deall bod pob fersiwn o feddalwedd, boed yn system weithredu neu'n yrrwr ar gyfer dyfais, yn aml yn cynnwys diffygion / bygiau a “nodweddion” eraill na fyddant efallai'n “ymddangos” tan ddiwedd oes gwasanaeth yr offer, neu'n “agored” dim ond o dan amodau penodol. Mae nifer ac arwyddocâd arlliwiau o'r fath yn dibynnu ar gymhlethdod (ymarferoldeb) y feddalwedd ac ar ansawdd y profion yn ystod ei ddatblygiad. 

Yn aml, mae defnyddwyr yn aros ar y “cadarnwedd o'r ffatri” (yr enwog “mae'n gweithio, felly peidiwch â llanast ag ef”) neu bob amser yn gosod y fersiwn ddiweddaraf (yn eu dealltwriaeth nhw, y diweddaraf yw'r un sy'n gweithio fwyaf). Rydym yn defnyddio dull gwahanol - edrychwn ar y nodiadau rhyddhau ar gyfer popeth a ddefnyddir yn y cwmwl mClouds offer a dewiswch y firmware priodol ar gyfer pob darn o offer yn ofalus.

Daethom i'r casgliad hwn, fel y dywedant, gyda phrofiad. Gan ddefnyddio ein hesiampl o weithredu, byddwn yn dweud wrthych pam nad yw'r dibynadwyedd 99,9999% o systemau storio a addawyd yn golygu dim os na fyddwch yn monitro diweddariadau a disgrifiadau meddalwedd yn brydlon. Mae ein hachos yn addas ar gyfer defnyddwyr systemau storio gan unrhyw werthwr, oherwydd gall sefyllfa debyg ddigwydd gyda chaledwedd unrhyw wneuthurwr.

Dewis System Storio Newydd

Ar ddiwedd y llynedd, ychwanegwyd system storio data ddiddorol at ein seilwaith: model iau o linell IBM FlashSystem 5000, a elwid ar adeg ei brynu Storwize V5010e. Nawr mae'n cael ei werthu o dan yr enw FlashSystem 5010, ond mewn gwirionedd dyma'r un sylfaen caledwedd gyda'r un Spectrum Virtualize y tu mewn. 

Presenoldeb system reoli unedig, gyda llaw, yw'r prif wahaniaeth rhwng IBM FlashSystem. Ar gyfer modelau o'r gyfres iau, nid yw bron yn wahanol i fodelau o rai mwy cynhyrchiol. Mae dewis model penodol yn darparu'r sylfaen galedwedd briodol yn unig, y mae ei nodweddion yn ei gwneud hi'n bosibl defnyddio un swyddogaeth neu'r llall neu ddarparu lefel uwch o scalability. Mae'r meddalwedd yn nodi'r caledwedd ac yn darparu'r ymarferoldeb angenrheidiol a digonol ar gyfer y platfform hwn.

Pam mae'n bwysig profi'r meddalwedd ar eich system storio argaeledd uchel (99,9999%)IBM FlashSystem 5010

Yn fyr am ein model 5010. Mae hon yn system storio bloc deuol-reolwr lefel mynediad. Gall ddarparu ar gyfer disgiau NLSAS, SAS, SSD. Nid yw lleoliad NVMe ar gael ynddo, gan fod y model storio hwn wedi'i leoli i ddatrys problemau nad oes angen perfformiad gyriannau NVMe arnynt.

Prynwyd y system storio i gynnwys gwybodaeth archifol neu ddata na chyrchir yn aml. Felly, roedd y set safonol o'i ymarferoldeb yn ddigon i ni: Haenu (Haen Hawdd), Darpariaeth Tenau. Roedd perfformiad ar ddisgiau NLSAS ar lefel 1000-2000 IOPS hefyd yn eithaf boddhaol i ni.

Ein profiad - sut na wnaethom ddiweddaru'r firmware mewn pryd

Nawr am y diweddariad meddalwedd ei hun. Ar adeg ei brynu, roedd gan y system fersiwn hen ffasiwn o feddalwedd Spectrum Virtualize eisoes, sef, 8.2.1.3.

Fe wnaethom astudio'r disgrifiadau cadarnwedd a chynllunio diweddariad iddynt 8.2.1.9. Pe baem wedi bod ychydig yn fwy effeithlon, ni fyddai'r erthygl hon wedi bodoli - ni fyddai'r nam wedi digwydd ar firmware mwy diweddar. Fodd bynnag, am resymau penodol, gohiriwyd diweddaru'r system hon.

O ganlyniad, arweiniodd ychydig o oedi wrth ddiweddaru at lun hynod annymunol, fel yn y disgrifiad ar y ddolen: https://www.ibm.com/support/pages/node/6172341

Oedd, yng nghadarnwedd y fersiwn honno roedd yr hyn a elwir yn APAR (Adroddiad Dadansoddi Rhaglenni Awdurdodedig) HU02104 yn berthnasol. Mae'n ymddangos fel a ganlyn. O dan lwyth, o dan rai amgylchiadau, mae'r storfa'n dechrau gorlifo, yna mae'r system yn mynd i'r modd amddiffynnol, lle mae'n analluogi I / O ar gyfer y pwll. Yn ein hachos ni, roedd yn edrych fel datgysylltu disgiau 3 ar gyfer grŵp RAID yn y modd RAID 6. Mae'r datgysylltiad yn digwydd am 6 munud. Nesaf, caiff mynediad i'r Cyfrolau yn y Pwll ei adfer.

Os nad yw unrhyw un yn gyfarwydd â strwythur ac enwi endidau rhesymegol yng nghyd-destun IBM Spectrum Virtualize, byddaf yn awr yn esbonio'n fyr.

Pam mae'n bwysig profi'r meddalwedd ar eich system storio argaeledd uchel (99,9999%)Strwythur elfennau rhesymegol y system storio

Cesglir disgiau yn grwpiau o'r enw MDisk (Disg a Reolir). Gall MDisk fod yn RAID clasurol (0,1,10,5,6) neu'n un rhithwir - DRAID (RAID Dosbarthedig). Mae defnyddio DRAID yn caniatáu ichi gynyddu perfformiad yr arae, oherwydd ... Bydd yr holl ddisgiau yn y grŵp yn cael eu defnyddio, a bydd amser ailadeiladu yn cael ei leihau, oherwydd y ffaith mai dim ond rhai blociau y bydd angen eu hadfer, ac nid yr holl ddata o'r ddisg a fethwyd.

Pam mae'n bwysig profi'r meddalwedd ar eich system storio argaeledd uchel (99,9999%)Dosbarthiad blociau data ar draws disgiau wrth ddefnyddio RAID Dosbarthedig (DRAID) yn y modd RAID-5.

Ac mae'r diagram hwn yn dangos y rhesymeg o sut mae ailadeiladu DRAID yn gweithio os bydd un ddisg yn methu:

Pam mae'n bwysig profi'r meddalwedd ar eich system storio argaeledd uchel (99,9999%)Rhesymeg ailadeiladu DRAID pan fydd un ddisg yn methu

Nesaf, mae un neu fwy o MDisks yn ffurfio Cronfa fel y'i gelwir. O fewn yr un pwll, ni argymhellir defnyddio MDisk gyda gwahanol lefelau RAID / DRAID ar ddisgiau o'r un math. Ni awn i mewn i hyn yn rhy ddwfn, oherwydd... bwriadwn ymdrin â hyn yn un o'r erthyglau canlynol. Wel, mewn gwirionedd, mae Pwll wedi'i rannu'n Gyfrolau, sy'n cael eu cyflwyno gan ddefnyddio un neu'r llall protocol mynediad bloc i'r gwesteiwyr.

Felly, rydym ni, o ganlyniad i'r sefyllfa a ddisgrifir yn APAR HU02104, oherwydd methiant rhesymegol tair disg, peidiodd MDisk â bod yn swyddogaethol, a arweiniodd, yn ei dro, at fethiant y Pwll a'r Cyfrolau cyfatebol.

Oherwydd bod y systemau hyn yn eithaf smart, gellir eu cysylltu â system fonitro cwmwl IBM Storage Insights, sy'n anfon cais gwasanaeth yn awtomatig i gefnogaeth IBM os bydd problem yn digwydd. Mae cymhwysiad yn cael ei greu ac mae arbenigwyr IBM yn cynnal diagnosteg o bell ac yn cysylltu â defnyddiwr y system. 

Diolch i hyn, cafodd y mater ei ddatrys yn eithaf cyflym a derbyniwyd argymhelliad prydlon gan y gwasanaeth cymorth i ddiweddaru ein system i'r firmware 8.2.1.9 a ddewiswyd yn flaenorol, a oedd ar y pryd eisoes wedi'i osod. Mae'n cadarnhau Nodyn Rhyddhau cyfatebol.

Canlyniadau a'n hargymhellion

Fel mae'r dywediad yn mynd yn ei ddweud: "popeth yn dda sy'n dod i ben yn dda." Nid oedd y nam yn y firmware yn achosi problemau difrifol - cafodd y gweinyddwyr eu hadfer cyn gynted â phosibl a heb golli data. Roedd yn rhaid i rai cleientiaid ailgychwyn peiriannau rhithwir, ond yn gyffredinol roeddem yn barod am ganlyniadau mwy negyddol, gan ein bod yn gwneud copïau wrth gefn bob dydd o'r holl elfennau seilwaith a pheiriannau cleientiaid. 

Rydym wedi derbyn cadarnhad bod hyd yn oed systemau dibynadwy gydag argaeledd 99,9999% wedi'i addo angen sylw a chynnal a chadw amserol. Yn seiliedig ar y sefyllfa, rydym wedi dod i nifer o gasgliadau drosom ein hunain ac yn rhannu ein hargymhellion:

  • Mae'n hanfodol monitro rhyddhau diweddariadau, astudio Nodiadau Rhyddhau ar gyfer cywiro materion a allai fod yn argyfyngus, a chynnal diweddariadau wedi'u cynllunio mewn modd amserol.

    Mae hwn yn bwynt sefydliadol a hyd yn oed eithaf amlwg, nad yw, mae'n ymddangos, yn werth canolbwyntio arno. Fodd bynnag, ar y “tir gwastad” hwn gallwch faglu yn eithaf hawdd. Mewn gwirionedd, y foment hon a ychwanegodd y trafferthion a ddisgrifir uchod. Byddwch yn ofalus iawn wrth lunio'r rheoliadau diweddaru a monitro cydymffurfiaeth â hwy yr un mor ofalus. Mae’r pwynt hwn yn ymwneud yn fwy â’r cysyniad o “ddisgyblaeth”.

  • Mae bob amser yn well cadw'r system gyda'r fersiwn meddalwedd diweddaraf. Ar ben hynny, nid yr un presennol yw'r un sydd â dynodiad rhifiadol mwy, ond yn hytrach yr un sydd â dyddiad rhyddhau diweddarach. 

    Er enghraifft, mae IBM yn cadw o leiaf ddau ddatganiad meddalwedd yn gyfredol ar gyfer ei systemau storio. Ar adeg ysgrifennu hwn, y rhain yw 8.2 ac 8.3. Mae diweddariadau ar gyfer 8.2 yn dod allan yn gynharach. Mae diweddariad tebyg ar gyfer 8.3 fel arfer yn cael ei ryddhau gydag ychydig o oedi.

    Mae gan ryddhau 8.3 nifer o fanteision swyddogaethol, er enghraifft, y gallu i ehangu MDisk (yn y modd DRAID) trwy ychwanegu un neu fwy o ddisgiau newydd (mae'r nodwedd hon wedi ymddangos ers fersiwn 8.3.1). Mae hwn yn ymarferoldeb eithaf sylfaenol, ond yn 8.2, yn anffodus, nid oes nodwedd o'r fath.

  • Os nad yw'n bosibl diweddaru am ryw reswm, yna ar gyfer fersiynau o feddalwedd Spectrum Virtualize cyn fersiynau 8.2.1.9 ac 8.3.1.0 (lle mae'r nam a ddisgrifir uchod yn berthnasol), er mwyn lleihau'r risg y bydd yn digwydd, mae cymorth technegol IBM yn argymell cyfyngu ar berfformiad y system ar lefel y pwll, fel y dangosir yn y ffigur isod (tynnwyd y llun yn fersiwn Russified o'r GUI). Dangosir gwerth 10000 IOPS fel enghraifft ac fe'i dewisir yn ôl nodweddion eich system.

Pam mae'n bwysig profi'r meddalwedd ar eich system storio argaeledd uchel (99,9999%)Cyfyngu ar berfformiad storio IBM

  • Mae angen cyfrifo'r llwyth ar systemau storio yn gywir ac osgoi gorlwytho. I wneud hyn, gallwch ddefnyddio naill ai maintiwr IBM (os oes gennych fynediad iddo), neu gymorth partneriaid, neu adnoddau trydydd parti. Mae'n hanfodol deall y proffil llwyth ar y system storio, oherwydd Mae perfformiad mewn MB/s ac IOPS yn amrywio'n fawr yn dibynnu ar y paramedrau canlynol o leiaf:

    • math o weithrediad: darllen neu ysgrifennu,

    • maint bloc gweithredu,

    • canran y gweithrediadau darllen ac ysgrifennu yng nghyfanswm y ffrwd I/O.

    Hefyd, mae cyflymder gweithrediadau yn cael ei effeithio gan sut mae blociau data yn cael eu darllen: yn ddilyniannol neu mewn trefn ar hap. Wrth berfformio gweithrediadau mynediad data lluosog ar ochr y cais, mae cysyniad gweithrediadau dibynnol. Mae hefyd yn ddoeth cymryd hyn i ystyriaeth. Gall hyn oll helpu i weld cyfanswm y data o gownteri perfformiad yr AO, system storio, gweinyddwyr/goruchwylwyr, yn ogystal â dealltwriaeth o nodweddion gweithredu cymwysiadau, DBMSs a “defnyddwyr” eraill o adnoddau disg.

  • Ac yn olaf, gwnewch yn siŵr bod gennych chi gopïau wrth gefn yn gyfredol ac yn gweithio. Dylid ffurfweddu'r amserlen wrth gefn yn seiliedig ar werthoedd RPO derbyniol ar gyfer y busnes, a dylid dilysu gwiriadau cywirdeb cyfnodol o'r copïau wrth gefn (mae cryn dipyn o werthwyr meddalwedd wrth gefn wedi gweithredu dilysu awtomataidd yn eu cynhyrchion) i sicrhau gwerth RTO derbyniol.

Diolch am ddarllen hyd y diwedd.
Rydym yn barod i ateb eich cwestiynau a'ch sylwadau yn y sylwadau. Hefyd Rydym yn eich gwahodd i danysgrifio i'n sianel telegram, lle rydym yn cynnal hyrwyddiadau rheolaidd (gostyngiadau ar IaaS a rhoddion ar gyfer codau hyrwyddo hyd at 100% ar VPS), yn ysgrifennu newyddion diddorol ac yn cyhoeddi erthyglau newydd ar flog Habr.

Ffynhonnell: hab.com

Ychwanegu sylw