Tħejjija DRP - tinsiex tieħu kont tal-meteorite

Tħejjija DRP - tinsiex tieħu kont tal-meteorite
Anke waqt diżastru dejjem ikun hemm ħin għal kikkra tè

DRP (pjan ta' rkupru minn diżastru) hija ħaġa li idealment qatt ma tkun meħtieġa. Imma jekk f'daqqa waħda kasturi li jemigraw matul l-istaġun tat-tgħammir gnaw permezz tal-fibra ottika tas-sinsla jew admin junior iwaqqa 'l-bażi produttiva, definittivament trid tkun ċert li jkollok pjan magħmul minn qabel għal x'għandek tagħmel b'dan l-għajb kollu.

Filwaqt li l-klijenti f'paniku jibdew jaqtgħu t-telefowns ta 'appoġġ tekniku, il-junior qed ifittex iċ-ċjanur, inti tiftaħ b'mod għaqli l-envelop aħmar u tibda tpoġġi kollox fl-ordni.

F'din il-kariga nixtieq naqsam rakkomandazzjonijiet dwar kif tikteb DRP u x'għandu jkun fih. Se nħarsu wkoll lejn l-affarijiet li ġejjin:

  1. Ejja nitgħallmu naħsbu bħal villain.
  2. Ejja nħarsu lejn il-benefiċċji ta 'kikkra tè waqt l-apocalypse.
  3. Ejja naħsbu fuq struttura DRP konvenjenti
  4. Ejja naraw kif tittestjaha

Għal liema kumpaniji jista' jkun utli?

Huwa diffiċli ħafna li tinġibed il-linja meta d-dipartiment tal-IT jibda jkollu bżonn affarijiet bħal dawn. Jien ngħid li żgur għandek bżonn DRP jekk:

  • It-twaqqif ta' server, applikazzjoni jew it-telf ta' xi database se jwassal għal telf sinifikanti għan-negozju kollu kemm hu.
  • Għandek dipartiment tal-IT sħiħ. Fis-sens ta 'dipartiment fil-forma ta' unità sħiħa tal-kumpanija, bil-baġit tagħha stess, u mhux biss ftit impjegati għajjien li jqiegħdu netwerk, tindif tal-viruses u printers mill-ġdid.
  • Għandek baġit realistiku għal mill-inqas sensja parzjali f'każ ta' emerġenza.

Meta d-dipartiment tal-IT ikun ilu xhur jittallab għal mill-inqas koppja ta 'HDDs f'server antik għal backups, x'aktarx li ma tkunx tista' torganizza mossa sħiħa ta' servizz fallut biex tirriserva l-kapaċità. Għalkemm hawn id-dokumentazzjoni mhux se tkun superfluwa.

Id-dokumentazzjoni hija importanti

Ibda bid-dokumentazzjoni. Ejja ngħidu li s-servizz tiegħek jaħdem fuq skript Perl li nkiteb tliet ġenerazzjonijiet ilu minn amministraturi, iżda ħadd ma jaf kif jaħdem. Id-dejn tekniku akkumulat u n-nuqqas ta 'dokumentazzjoni inevitabbilment se jisparawlek mhux biss fl-irkoppa, iżda wkoll f'riġlejn oħra, hija aktar kwistjoni ta' żmien.

Ladarba jkollok deskrizzjoni tajba tal-komponenti tas-servizz, fittex l-istatistika tal-inċidenti. Kważi ċertament se jkunu kompletament tipiċi. Pereżempju, id-disk tiegħek isir sħiħ minn żmien għal żmien, li jikkawża li n-nodu jfalli sakemm jitnaddaf manwalment. Jew is-servizz tal-klijent ma jkunx disponibbli minħabba l-fatt li xi ħadd mill-ġdid nesa li jġedded iċ-ċertifikat, u Let's Encrypt ma setgħetx jew ma riedx tikkonfigura.

Ħsibijiet bħal sabotatur

L-aktar parti diffiċli hija li tbassar dawk l-inċidenti li qatt ma seħħew qabel, iżda li potenzjalment jistgħu jikkraxxjaw is-servizz tiegħek kompletament. Hawnhekk il-kollegi tiegħi u jien normalment nilagħbu villains. Ħu ħafna kafè u xi ħaġa fit-togħma u illokkja ruħek f'kamra tal-laqgħat. Kun żgur li fl-istess negozjati ssakkar dawk l-inġiniera li huma stess żviluppaw is-servizz fil-mira jew jaħdmu regolarment miegħu. Imbagħad, jew fuq il-bord jew fuq il-karta, tibda tiġbed l-kruhat kollha possibbli li jista 'jiġri lis-servizz tiegħek. Mhuwiex meħtieġ li tidħol fid-dettall sa mara speċifika tat-tindif u tiġbed il-kejbils; huwa biżżejjed li tikkunsidra x-xenarju ta '"Ksur tal-integrità tan-netwerk lokali."

Tipikament, il-biċċa l-kbira tas-sitwazzjonijiet ta’ emerġenza tipiċi jaqgħu fit-tipi li ġejjin:

  • Falliment tan-netwerk
  • Falliment tas-servizzi tal-OS
  • Falliment fl-applikazzjoni
  • Insuffiċjenza tal-ħadid
  • Falliment tal-virtwalizzazzjoni

Għaddi minn kull tip u ara x'japplika għas-servizz tiegħek. Pereżempju, id-daemon Nginx jista 'jaqa' u ma jogħla - dan ifisser fallimenti min-naħa tal-OS. Sitwazzjoni rari li tikkawża falliment tal-applikazzjoni tal-web tiegħek hija falliment tas-softwer. Waqt li taħdem f'dan l-istadju, huwa importanti li tinħoloq id-dijanjosi tal-problema. Kif tiddistingwi interface iffriżat fuq il-virtwalizzazzjoni minn drive cis waqa 'u inċident tan-netwerk, pereżempju. Dan huwa importanti biex jinstabu malajr dawk responsabbli u jibdew jiġbdu denbu sakemm l-inċident jiġi solvut.

Wara li jitniżżlu l-problemi tipiċi, aħna ferra aktar kafè u nibdew nikkunsidraw l-aktar xenarji strambi, meta xi parametri jibdew imorru ferm lil hinn min-norma. Pereżempju:

  • X'jiġri jekk il-ħin fuq in-nodu attiv jimxi lura minuta relattiva għal oħrajn fil-cluster?
  • X'jiġri jekk iż-żmien jimxi 'l quddiem, x'jiġri jekk b'10 snin?
  • X'jiġri jekk node cluster f'daqqa jitlef in-netwerk tiegħu waqt is-sinkronizzazzjoni?
  • X'jiġri jekk żewġ nodi ma jaqsmux it-tmexxija minħabba iżolament temporanju ta 'xulxin fuq in-netwerk?

F'dan l-istadju, l-approċċ invers huwa utli ħafna. Inti tieħu l-aktar membru iebsa tat-tim b'immaġinazzjoni morda u tagħtih il-kompitu li jorganizza sabotaġġ fl-iqsar żmien possibbli li jbaxxi s-servizz. Jekk huwa diffiċli li tiġi djanjostikata, saħansitra aħjar. Mhux se temmen x’ideat strambi u friski joħorġu bihom l-inġiniera jekk tagħtihom idea biex ikissru xi ħaġa. U jekk twiegħedhom bank tat-test għal dan, dan huwa assolutament tajjeb.

X'inhu dan id-DRP tiegħek?!

Allura inti iddefinijt il-mudell tat-theddid tiegħek. Huma qiesu wkoll ir-residenti lokali li qatgħu kejbils tal-fibra ottika biex ifittxu ram, u radar militari li jwaqqa’ linja tar-relay tar-radju strettament nhar il-Ġimgħa fis-16:46. Issa rridu nifhmu x’għandna nagħmlu b’dan kollu.

Il-kompitu tiegħek huwa li tikteb dawk l-envelops ħomor ħafna li se jinfetħu f'emerġenza. Immedjatament jistennew li meta (mhux jekk!) kollox jasal fi tmiemu, l-intern l-aktar mingħajr esperjenza biss ikun fil-qrib, li jdejh se jkunu qed jitħawwdu vjolenti mill-orrur ta 'dak li qed jiġri. Ara kif is-sinjali ta 'emerġenza huma implimentati fl-uffiċċji mediċi. Per eżempju, x'għandek tagħmel f'każ ta 'xokk anafilattiku. L-istaff mediku jaf il-protokolli kollha bl-amment, iżda meta persuna fil-qrib tibda tmut, ħafna drabi kulħadd qed jaqbad bla sahha ma 'dak kollu li jidher. Biex tagħmel dan, hemm struzzjonijiet ċari fuq il-ħajt b'oġġetti bħal "tiftaħ il-pakkett ta 'tali u tali" u "amministra tant unitajiet tal-mediċina ġol-vina."

Huwa diffiċli li taħseb f'emerġenza! Għandu jkun hemm struzzjonijiet sempliċi għall-parsing tas-sinsla tad-dahar.

DRP tajjeb jikkonsisti f'diversi blokki sempliċi:

  1. Min għandu jinnotifika dwar il-bidu ta' inċident. Dan huwa importanti sabiex jiġi parallelizzat il-proċess ta 'eliminazzjoni kemm jista' jkun.
  2. Kif tiddijanjostika b'mod korrett - wettaq traċċa, ħares fis-systemctl status servicename u l-bqija.
  3. Kemm tista’ tqatta’ ħin fuq kull stadju? Jekk ma jkollokx ħin biex tirranġaha manwalment fiż-żmien SLA, il-magna virtwali tinqatel u titreġġa 'lura mill-backup tal-bieraħ.
  4. Kif tiżgura li l-inċident ikun spiċċa.

Ftakar li d-DRP jibda meta s-servizz ikun falla kompletament u jispiċċa meta s-servizz jiġi restawrat, anke b'effiċjenza mnaqqsa. Sempliċement li titlef riserva m'għandux iwassal għal DRP. Tista 'wkoll tikteb kikkra tè fid-DRP. Serjament. Skont l-istatistika, ħafna inċidenti jduru minn spjaċevoli għal katastrofiċi minħabba l-fatt li l-persunal f'għaġġla ta 'paniku biex jiffissa xi ħaġa, fl-istess ħin joqtol l-uniku nodu ħaj bid-dejta jew finalment jispiċċa l-cluster. Bħala regola, 5 minuti b'tazza tè jagħtuk ftit ħin biex tikkalma u tanalizza dak li qed jiġri.

Tħawwadx DRP u passaport tas-sistema! M'għandekx tagħbija żejda b'dejta mhux meħtieġa. Agħmilha possibbli li tuża malajr u b'mod konvenjenti hyperlinks biex tmur fis-sezzjoni mixtieqa tad-dokumentazzjoni u aqra f'format estiż dwar is-sezzjonijiet meħtieġa tal-arkitettura tas-servizz. U fid-DRP innifsu hemm biss struzzjonijiet diretti dwar fejn u kif tikkonnettja ma 'kmandi speċifiċi għall-copy-paste.

Kif tittestja b'mod korrett

Kun żgur li kwalunkwe impjegat responsabbli huwa kapaċi jimla l-oġġetti kollha. Fl-aktar mument kruċjali, jista 'jirriżulta li l-inġinier m'għandux drittijiet biex jaċċessa s-sistema meħtieġa, m'hemm l-ebda password għall-kont meħtieġ, jew m'għandu l-ebda idea x'"Ikkonnettja mal-console tal-ġestjoni tas-servizz permezz ta' prokura fil- uffiċċju prinċipali” tfisser. Kull punt għandu jkun estremament sempliċi.

Żbaljata - "Mur il-virtwalizzazzjoni u reboot in-node mejjet"
Korrett - "Ikkonnettja permezz tal-interface tal-web ma' virt.example.com, fit-taqsima tan-nodi, reboot in-node li qed jikkawża l-iżball."

Evita l-ambigwità. Ftakar l-intern jibża.

Kun żgur li tittestja DRP. Dan mhux biss pjan għall-ispettaklu - hija xi ħaġa li tippermetti li inti u lill-klijenti tiegħek toħroġ malajr minn sitwazzjoni kritika. L-aħjar huwa li tagħmel dan diversi drabi:

  • Espert wieħed u diversi apprendisti jaħdmu fuq bank tat-test li jissimula servizz reali kemm jista' jkun. L-espert ikisser is-servizz b'diversi modi u jippermetti lill-apprendisti jirrestawrawh skont id-DRP. Il-problemi, l-ambigwitajiet tad-dokumentazzjoni u l-iżbalji kollha huma rreġistrati. Wara li l-apprendisti jiġu mħarrġa, id-DRP jiġi estiż u ssimplifikat f'oqsma mhux ċari.
  • Ittestjar fuq servizz reali. Fil-fatt, qatt ma tista 'toħloq kopja perfetta ta' servizz reali. Għalhekk, xi ftit drabi fis-sena huwa meħtieġ li regolarment jintfew xi wħud mis-servers, jaqtgħu konnessjonijiet u jikkawżaw diżastri oħra mil-lista ta 'theddid sabiex tiġi vvalutata l-ordni ta' rkupru. Falliment ippjanat għal 10 minuti f'nofs il-lejl huwa aħjar minn falliment f'daqqa għal diversi sigħat waqt l-ogħla tagħbija b'telf ta 'data.
  • Issolvi l-problemi reali. Iva, dan huwa wkoll parti mill-ittestjar. Jekk iseħħ inċident li ma kienx fuq il-lista ta 'theddid, huwa meħtieġ li d-DRP jiġi supplimentat u finalizzat abbażi tar-riżultati tal-investigazzjoni tiegħu.

Punti ewlenin

  1. Jekk il-ħmieġ jista 'jiġri, mhux se jiġri biss, iżda se jagħmel dan fl-aktar xenarju katastrofiku possibbli.
  2. Kun żgur li għandek riżorsi għat-trasferiment tat-tagħbija ta 'emerġenza.
  3. Kun żgur li għandek backups, huma maħluqa awtomatikament u kkontrollati regolarment għall-konsistenza.
  4. Aħseb f'xenarji ta' theddid tipiċi.
  5. Agħti lill-inġiniera l-opportunità li joħorġu b'għażliet mhux standard biex iwasslu s-servizz.
  6. DRP għandu jkun istruzzjoni sempliċi u ċara. Id-dijanjostiċi kumplessi kollha jitwettqu biss wara li s-servizz tal-klijenti jkun ġie rrestawrat. Anke jekk fil-kapaċità ta 'riżerva.
  7. Ipprovdi numri tat-telefon u kuntatti ewlenin fid-DRP.
  8. Ittestja l-fehim tal-impjegati tad-DRP regolarment.
  9. Irranġa inċidenti ppjanati fis-siti tal-produzzjoni. L-istands ma jistgħux jissostitwixxu kollox.

Tħejjija DRP - tinsiex tieħu kont tal-meteorite

Tħejjija DRP - tinsiex tieħu kont tal-meteorite

Sors: www.habr.com

Żid kumment