Pat katastrofas laikÄ vienmÄr ir laiks tÄjas tasei
DRP (avÄrijas atjaunoÅ”anas plÄns) ir lieta, kas ideÄlÄ gadÄ«jumÄ nekad nebÅ«s vajadzÄ«ga. Bet, ja pÄkÅ”Åi pÄroÅ”anÄs sezonas laikÄ migrÄjoÅ”ie bebri izgrauž mugurkaula optisko Ŕķiedru vai jaunÄkais administrators nomet produktÄ«vo bÄzi, noteikti vÄlaties bÅ«t pÄrliecinÄts, ka jums bÅ«s iepriekÅ” izstrÄdÄts plÄns, ko darÄ«t ar visu Å”o negodu.
KamÄr klienti panikÄ sÄk nogriezt tehniskÄ atbalsta tÄlruÅus, juniors meklÄ cianÄ«du, jÅ«s gudri atverat sarkano aploksni un sÄkat visu sakÄrtot.
Å ajÄ ierakstÄ es vÄlos dalÄ«ties ar ieteikumiem, kÄ uzrakstÄ«t DRP un kam tajÄ vajadzÄtu bÅ«t. ApskatÄ«sim arÄ« Å”Ädas lietas:
- MÄcÄ«simies domÄt kÄ nelietis.
- ApskatÄ«sim tÄjas tases priekÅ”rocÄ«bas apokalipses laikÄ.
- PadomÄsim par Ärtu DRP struktÅ«ru
- ApskatÄ«sim, kÄ to pÄrbaudÄ«t
Kuriem uzÅÄmumiem tas varÄtu bÅ«t noderÄ«gi?
Ir ļoti grÅ«ti novilkt robežu, kad IT nodaļai Å”Ädas lietas sÄk bÅ«t vajadzÄ«gas. Es teiktu, ka jums noteikti ir nepiecieÅ”ams DRP, ja:
- Servera, lietojumprogrammas apturÄÅ”ana vai kÄdas datu bÄzes zaudÄÅ”ana radÄ«s ievÄrojamus zaudÄjumus uzÅÄmumam kopumÄ.
- Jums ir pilnvÄrtÄ«ga IT nodaļa. Nodaļas izpratnÄ pilnvÄrtÄ«ga uzÅÄmuma struktÅ«rvienÄ«ba, ar savu budžetu, nevis tikai daži noguruÅ”i darbinieki, kas klÄj tÄ«klu, tÄ«ra vÄ«rusus un uzpilda printerus.
- Jums ir reÄls budžets vismaz daļÄjai atlaiÅ”anai ÄrkÄrtas situÄcijÄ.
Kad IT nodaļa jau mÄneÅ”iem ilgi lÅ«dz vismaz pÄris HDD vecÄ serverÄ« rezerves kopijÄm, diez vai izdosies noorganizÄt pilnvÄrtÄ«gu neveiksmÄ«ga pakalpojuma pÄrvietoÅ”anu, lai rezervÄtu jaudu. Lai gan Å”eit dokumentÄcija nebÅ«s lieka.
DokumentÄcija ir svarÄ«ga
SÄciet ar dokumentÄciju. PieÅemsim, ka jÅ«su pakalpojums darbojas ar Perl skriptu, ko pirms trim paaudzÄm rakstÄ«ja administratori, taÄu neviens nezina, kÄ tas darbojas. UzkrÄtais tehniskais parÄds un dokumentÄcijas trÅ«kums neizbÄgami Å”aus ne tikai ceļgalÄ, bet arÄ« citÄs ekstremitÄtÄs, tas vairÄk ir laika jautÄjums.
Kad esat labi aprakstÄ«jis pakalpojuma sastÄvdaļas, meklÄjiet negadÄ«jumu statistiku. Tie gandrÄ«z noteikti bÅ«s pilnÄ«gi tipiski. PiemÄram, jÅ«su disks laiku pa laikam kļūst pilns, kas izraisa mezgla atteici, lÄ«dz tas tiek manuÄli notÄ«rÄ«ts. Vai arÄ« klientu pakalpojums kļūst nepieejams, jo kÄds atkal aizmirsa atjaunot sertifikÄtu un Let's Encrypt nevarÄja vai nevÄlÄjÄs konfigurÄt.
Domas kÄ diversants
SarežģītÄkÄ daļa ir paredzÄt tos negadÄ«jumus, kas nekad agrÄk nav notikuÅ”i, bet kas potenciÄli varÄtu pilnÄ«bÄ sagraut jÅ«su pakalpojumu. Å eit mÄs ar kolÄÄ£iem parasti spÄlÄjam nelieÅ”us. PaÅemiet daudz kafijas un kaut ko garŔīgu un ieslÄdzieties sanÄksmju telpÄ. VienkÄrÅ”i pÄrliecinieties, ka tajÄs paÅ”Äs sarunÄs tiek iesaistÄ«ti tie inženieri, kuri paÅ”i izstrÄdÄja mÄrÄ·a pakalpojumu vai regulÄri ar to strÄdÄ. PÄc tam vai nu uz tÄfeles, vai uz papÄ«ra jÅ«s sÄkat zÄ«mÄt visas iespÄjamÄs Å”ausmas, kas varÄtu notikt ar jÅ«su dienestu. Nav nepiecieÅ”ams iedziļinÄties detaļÄs lÄ«dz konkrÄtai apkopÄjai un kabeļu izvilkÅ”anai, pietiek apsvÄrt scenÄriju āVietÄjÄ tÄ«kla integritÄtes pÄrkÄpumsā.
Parasti tipiskÄkÄs ÄrkÄrtas situÄcijas iedala Å”Ädos veidos:
- Tīkla kļūda
- OS pakalpojumu kļūme
- Lietojumprogrammas kļūme
- Dzelzs mazspÄja
- VirtualizÄcijas kļūme
VienkÄrÅ”i apskatiet katru veidu un uzziniet, kas attiecas uz jÅ«su pakalpojumu. PiemÄram, Nginx dÄmons var nokrist un nepaaugstinÄties - tas nozÄ«mÄ OS kļūmes. Reta situÄcija, kas izraisa jÅ«su tÄ«mekļa lietojumprogrammas kļūmi, ir programmatÅ«ras kļūme. StrÄdÄjot Å”ajÄ posmÄ, ir svarÄ«gi noteikt problÄmas diagnozi. KÄ, piemÄram, atŔķirt iesaldÄtu virtualizÄcijas interfeisu no nokrituÅ”a cis diska un tÄ«kla kļūmes. Tas ir svarÄ«gi, lai Ätri atrastu atbildÄ«gos un sÄktu vilkt viÅu asti, lÄ«dz negadÄ«jums ir atrisinÄts.
PÄc tipisko problÄmu pierakstÄ«Å”anas mÄs ielejam vÄl kafiju un sÄkam apsvÄrt dÄ«vainÄkos scenÄrijus, kad daži parametri sÄk pÄrsniegt normu. PiemÄram:
- Kas notiek, ja laiks aktÄ«vajÄ mezglÄ pavirzÄs par minÅ«ti atpakaļ attiecÄ«bÄ pret citiem klasterÄ«?
- Ko darÄ«t, ja laiks virzÄs uz priekÅ”u, ja par 10 gadiem?
- Kas notiek, ja klastera mezgls sinhronizÄcijas laikÄ pÄkÅ”Åi zaudÄ tÄ«klu?
- Kas notiks, ja divi mezgli nedalÄ«s vadÄ«bu Ä«slaicÄ«gas viens otra izolÄcijas dÄļ tÄ«klÄ?
Å ajÄ posmÄ apgrieztÄ pieeja ir ļoti noderÄ«ga. JÅ«s paÅemat spÄ«tÄ«gÄko komandas locekli ar slimu iztÄli un uzdodat viÅam pÄc iespÄjas Ä«sÄkÄ laikÄ sarÄ«kot sabotÄžu, kas sagraus dienestu. Ja ir grÅ«ti diagnosticÄt, vÄl labÄk. JÅ«s neticÄsiet, kÄdas dÄ«vainas un forÅ”as idejas izdomÄ inženieri, ja iedosiet viÅiem ideju kaut ko salauzt. Un, ja jÅ«s apsolÄt viÅiem Å”im nolÅ«kam izveidot testÄÅ”anas stendu, tas ir pilnÄ«gi labi.
Kas tas par taviem DRP?!
TÄtad jÅ«s esat definÄjis savu draudu modeli. ViÅi ÅÄma vÄrÄ arÄ« vietÄjos iedzÄ«votÄjus, kuri, meklÄjot varu, grieza optiskÄs Ŕķiedras kabeļus, un militÄro radaru, kas piektdienÄs pulksten 16:46 stingri nolaiž radioreleja lÄ«niju. Tagad mums ir jÄsaprot, ko ar to visu darÄ«t.
Tavs uzdevums ir uzrakstÄ«t tÄs ļoti sarkanÄs aploksnes, kuras tiks atvÄrtas ÄrkÄrtas situÄcijÄ. NekavÄjoties sagaidiet, ka tad, kad (ne jau!) viss beigsies, blakus bÅ«s tikai visnepieredzÄjuÅ”Äkais praktikants, kuram no Å”ausmÄm par notiekoÅ”o varoÅ”i trÄ«cÄs rokas. Skatiet, kÄ medicÄ«nas iestÄdÄs tiek ieviestas ÄrkÄrtas zÄ«mes. PiemÄram, ko darÄ«t anafilaktiskÄ Å”oka gadÄ«jumÄ. MedicÄ«nas personÄls visus protokolus zina no galvas, bet, kad cilvÄks tuvumÄ sÄk mirt, ļoti bieži visi bezpalÄ«dzÄ«gi Ä·eras pie visa, kas redzams. Lai to izdarÄ«tu, uz sienas ir skaidri norÄdÄ«jumi ar tÄdiem priekÅ”metiem kÄ "atveriet Å”Ädu un tÄdu iepakojumu" un "ievadiet tik daudz zÄļu vienÄ«bu intravenozi".
ÄrkÄrtas situÄcijÄ ir grÅ«ti domÄt! Ir jÄbÅ«t vienkÄrÅ”iem norÄdÄ«jumiem par muguras smadzeÅu parsÄÅ”anu.
Labs DRP sastÄv no vairÄkiem vienkÄrÅ”iem blokiem:
- Kam jÄpaziÅo par negadÄ«juma sÄkumu. Tas ir svarÄ«gi, lai pÄc iespÄjas vairÄk paralÄli likvidÄÅ”anas procesu.
- KÄ pareizi diagnosticÄt - veiciet izsekoÅ”anu, skatieties systemctl statusa pakalpojuma nosaukums un tÄ tÄlÄk.
- Cik daudz laika varat pavadÄ«t katrÄ posmÄ? Ja jums nav laika to manuÄli labot SLA laikÄ, virtuÄlÄ maŔīna tiek iznÄ«cinÄta un noÅemta no vakardienas dublÄjuma.
- KÄ pÄrliecinÄties, ka negadÄ«jums ir beidzies.
Atcerieties, ka DRP sÄkas, kad pakalpojums ir pilnÄ«bÄ neizdevies, un beidzas, kad pakalpojums tiek atjaunots, pat ar samazinÄtu efektivitÄti. VienkÄrÅ”i pazaudÄjot rezervÄciju, nevajadzÄtu aktivizÄt DRP. Varat arÄ« ierakstÄ«t tasi tÄjas DRP. Nopietni. SaskaÅÄ ar statistiku daudzi negadÄ«jumi no nepatÄ«kamiem kļūst par katastrofÄliem tÄdÄļ, ka darbinieki panikÄ steidzas kaut ko labot, vienlaikus nogalinot vienÄ«go dzÄ«vo mezglu ar datiem vai beidzot pabeidzot kopu. Parasti 5 minÅ«tes ar tasi tÄjas dos jums laiku nomierinÄties un analizÄt notiekoÅ”o.
Nejauciet DRP un sistÄmas pasi! NepÄrslogojiet to ar nevajadzÄ«giem datiem. VienkÄrÅ”i dodiet iespÄju Ätri un Ärti izmantot hipersaites, lai pÄrietu uz vajadzÄ«go dokumentÄcijas sadaļu un paplaÅ”inÄtÄ formÄtÄ lasÄ«tu par nepiecieÅ”amajÄm pakalpojuma arhitektÅ«ras sadaļÄm. Un paÅ”Ä DRP ir tikai tieÅ”as instrukcijas par to, kur un kÄ izveidot savienojumu ar Ä«paÅ”Äm kopÄÅ”anas-ielÄ«mÄÅ”anas komandÄm.
KÄ pareizi pÄrbaudÄ«t
PÄrliecinieties, vai jebkurÅ” atbildÄ«gais darbinieks spÄj nokomplektÄt visus priekÅ”metus. IzŔķirÄ«gÄkajÄ brÄ«dÄ« var izrÄdÄ«ties, ka inženierim nav tiesÄ«bu piekļūt vajadzÄ«gajai sistÄmai, vajadzÄ«gajam kontam nav paroļu vai arÄ« viÅam nav ne jausmas, ko āIzveidojiet savienojumu ar pakalpojumu pÄrvaldÄ«bas konsoli caur starpniekserveri galvenais birojsā nozÄ«mÄ. Katram punktam jÄbÅ«t ļoti vienkÄrÅ”am.
Nepareizi - āDodieties uz virtualizÄciju un pÄrstartÄjiet miruÅ”o mezgluā
Pareizi - "Izveidojiet savienojumu, izmantojot tÄ«mekļa saskarni ar virt.example.com, mezglu sadaÄ¼Ä atsÄknÄjiet mezglu, kas izraisa kļūdu."
Izvairieties no neskaidrÄ«bÄm. Atcerieties nobiedÄto praktikantu.
Noteikti pÄrbaudiet DRP. Tas nav tikai izrÄdes plÄns ā tas ļaus jums un jÅ«su klientiem Ätri izkļūt no kritiskÄs situÄcijas. VislabÄk to darÄ«t vairÄkas reizes:
- Viens eksperts un vairÄki praktikanti strÄdÄ uz pÄrbaudes stenda, kas pÄc iespÄjas vairÄk simulÄ reÄlu pakalpojumu. Eksperts dažÄdos veidos pÄrtrauc pakalpojumu un dod iespÄju praktikantiem to atjaunot atbilstoÅ”i DRP. Visas problÄmas, dokumentÄcijas neskaidrÄ«bas un kļūdas tiek reÄ£istrÄtas. PÄc praktikantu apmÄcÄ«bas DRP tiek paplaÅ”inÄts un vienkÄrÅ”ots neskaidrÄs jomÄs.
- TestÄÅ”ana reÄlÄ servisÄ. PatiesÄ«bÄ jÅ«s nekad nevarat izveidot perfektu reÄla pakalpojuma kopiju. TÄpÄc pÄris reizes gadÄ regulÄri jÄatslÄdz daži serveri, jÄpÄrtrauc savienojumi un jÄizraisa citas katastrofas no draudu saraksta, lai novÄrtÄtu atkopÅ”anas procedÅ«ru. PlÄnota kļūme 10 minÅ«tes nakts vidÅ« ir labÄka nekÄ pÄkÅ”Åa kļūme vairÄkas stundas maksimÄlÄs slodzes laikÄ ar datu zudumu.
- ÄŖsta problÄmu novÄrÅ”ana. JÄ, arÄ« Ŕī ir daļa no testÄÅ”anas. Ja notiek negadÄ«jums, kas nebija draudu sarakstÄ, ir nepiecieÅ”ams papildinÄt un pabeigt DRP, pamatojoties uz tÄ izmeklÄÅ”anas rezultÄtiem.
Galvenie punkti
- Ja var notikt sÅ«di, tas ne tikai notiks, bet tas notiks pÄc iespÄjas katastrofÄlÄkÄ scenÄrija.
- PÄrliecinieties, vai jums ir resursi ÄrkÄrtas slodzes pÄrsÅ«tÄ«Å”anai.
- PÄrliecinieties, vai jums ir dublÄjumkopijas, tÄs tiek automÄtiski izveidotas un regulÄri tiek pÄrbaudÄ«tas, lai nodroÅ”inÄtu konsekvenci.
- PÄrdomÄjiet tipiskus draudu scenÄrijus.
- Dodiet inženieriem iespÄju piedÄvÄt nestandarta iespÄjas pakalpojuma sniegÅ”anai.
- DRP ir jÄbÅ«t vienkÄrÅ”ai un strupai instrukcijai. Visa kompleksÄ diagnostika tiek veikta tikai pÄc klientu apkalpoÅ”anas atjaunoÅ”anas. Pat ja ar rezerves jaudu.
- NorÄdiet galvenos tÄlruÅu numurus un kontaktpersonas DRP.
- RegulÄri pÄrbaudiet darbinieku izpratni par DRP.
- SakÄrtot plÄnotos nelaimes gadÄ«jumus ražotnÄs. StatÄ«vi nevar aizstÄt visu.
Avots: www.habr.com