Jafnvel þótt það sé flóð ætti 1C að virka! Við erum sammála fyrirtækinu á DR

Ímyndaðu þér: þú ert að þjónusta upplýsingatækniinnviði stórrar verslunarmiðstöðvar. Það byrjar að rigna í borginni. Regnstraumar brjótast í gegnum þakið, vatn fyllir verslunarhúsnæði niður fyrir ökkla. Við vonum að netþjónaherbergið þitt sé ekki í kjallaranum, annars er ekki hægt að komast hjá vandamálum.  

Sagan sem lýst er er ekki fantasía, heldur sameiginleg lýsing á nokkrum atburðum ársins 2020. Í stórum fyrirtækjum er hamfaraáætlun (DRP) alltaf til staðar fyrir þetta mál. Í fyrirtækjum er þetta á ábyrgð sérfræðinga um samfellu í rekstri. En í meðalstórum og litlum fyrirtækjum fellur lausn á slíkum vandamálum á upplýsingatækniþjónustu. Þú þarft að skilja viðskiptarökfræðina sjálfur, skilja hvað getur mistekist og hvar, koma með vernd og innleiða hana. 

Здорово, если ИТ-специалисту удается провести переговоры с бизнесом и обсудить  необходимость защиты. Но я не раз наблюдал, как компания экономила на решении для disaster recovery (DR), так как считала его избыточным. Когда наступала авария, долгое восстановление грозило убытками, а бизнес оказывался не готов. Можно сколько угодно повторять: «А я же говорил», — восстанавливать сервисы все равно предстоит ИТ-службе.

Jafnvel þótt það sé flóð ætti 1C að virka! Við erum sammála fyrirtækinu á DR

Frá stöðu arkitekts skal ég segja þér hvernig á að forðast þetta ástand. Í fyrsta hluta greinarinnar mun ég sýna undirbúningsvinnuna: hvernig á að ræða þrjár spurningar við viðskiptavininn um val á öryggisverkfærum: 

  • Что защищаем?
  • От чего защищаем?
  • Hversu mikið verndum við? 

Во второй части поговорим о вариантах ответа на вопрос: чем защищаться. Приведу примеры кейсов, как разные заказчики строят свою защиту.

Það sem við verndum: að bera kennsl á mikilvægar viðskiptaaðgerðir 

Það er betra að byrja að undirbúa sig með því að ræða aðgerðaáætlunina eftir neyðartilvik við viðskiptavininn. Helsti erfiðleikinn hér er að finna sameiginlegt tungumál. Viðskiptavinum er yfirleitt sama hvernig upplýsingatæknilausnin virkar. Honum er annt um hvort þjónustan geti sinnt viðskiptastörfum og skilað inn peningum. Til dæmis: ef síðan er að virka, en greiðslukerfið er niðri, eru engar tekjur frá viðskiptavinum og „öfgamennirnir“ eru enn sérfræðingar í upplýsingatækni. 

Upplýsingatæknifræðingur gæti átt í erfiðleikum með slíkar samningaviðræður af ýmsum ástæðum:

  • Upplýsingatækniþjónustan gerir sér ekki fulla grein fyrir hlutverki upplýsingakerfisins í viðskiptum. Til dæmis ef ekki er tiltæk lýsing á viðskiptaferlum eða gagnsætt viðskiptamódel. 
  • Ekki fer allt ferlið eftir upplýsingatækniþjónustunni. Til dæmis þegar hluti vinnunnar er unninn af verktökum og upplýsingatæknisérfræðingar hafa ekki bein áhrif á þá.

Ég myndi skipuleggja samtalið svona: 

  1. Við útskýrum fyrir fyrirtækjum að slys gerast hjá öllum og bati tekur tíma. Best er að sýna fram á aðstæður, hvernig þetta gerist og hvaða afleiðingar eru mögulegar.
  2. Показываем, что от ИТ-службы зависит не все, но вы готовы помочь с планом действий в зоне вашей ответственности.
  3. Við biðjum viðskiptavininn um að svara: Ef heimsstyrjöldin gerist, hvaða ferli ætti að endurheimta fyrst? Hverjir taka þátt í því og hvernig? 

    Einfalt svar er krafist frá fyrirtækinu, til dæmis: símaverið þarf að halda áfram að skrá umsóknir allan sólarhringinn.

  4. Við biðjum einn eða tvo notendur kerfisins að lýsa þessu ferli í smáatriðum. 
    Það er betra að fá sérfræðing til að hjálpa ef fyrirtæki þitt er með slíkan.

    Til að byrja með gæti lýsingin litið svona út: símaverið tekur við beiðnum í gegnum síma, með pósti og skilaboðum frá vefsíðunni. Síðan setur hann þær inn í 1C í gegnum vefviðmótið og framleiðslan tekur þær þaðan á þennan hátt.

  5. Síðan skoðum við hvaða vélbúnaðar- og hugbúnaðarlausnir styðja ferlið. Fyrir alhliða vernd tökum við tillit til þriggja stiga: 
    • forrit og kerfi á síðunni (hugbúnaðarstig),   
    • саму площадку, где крутятся системы (инфраструктурный уровень), 
    • net (þeir gleyma því oft).

  6. Við komumst að mögulegum bilunarpunktum: kerfishnútum sem frammistaða þjónustunnar er háð. Við tökum sérstaklega eftir hnútum sem eru studdir af öðrum fyrirtækjum: fjarskiptafyrirtækjum, hýsingaraðilum, gagnaverum og svo framvegis. Með þessu geturðu snúið aftur til viðskiptavinarins fyrir næsta skref.

Það sem við verndum gegn: áhættu

Næst komumst við fyrst að því frá viðskiptavininum hvaða áhættu við verndum okkur fyrir. Allri áhættu má skipta í tvo hópa: 

  • tímatap vegna stöðvunar í þjónustu;
  • tap á gögnum vegna líkamlegra áhrifa, mannlegra þátta o.s.frv.

Бизнесу страшно потерять и данные, и время — все это ведет к потере денег. Так что снова задаем вопросы по каждой группе рисков: 

  • Fyrir þetta ferli, getum við metið hversu mikið gagnatap og tímatap kostar í peningum? 
  • Hvaða gögn megum við ekki missa? 
  • Hvar getum við ekki leyft niðurtíma? 
  • Какие события наиболее вероятны и сильнее нам угрожают?

Eftir umræður munum við skilja hvernig á að forgangsraða bilunarpunktum. 

Hversu mikið við verndum: RPO og RTO 

Когда понятны критические точки отказа, рассчитываем показатели RTO и RPO. 

Leyfðu mér að minna þig á það RTO (batatímamarkmið) — þetta er leyfilegur tími frá því augnabliki slyssins varð þar til þjónustan er að fullu komin aftur á. Á viðskiptamáli er þetta ásættanleg niður í miðbæ. Ef við vitum hversu mikið fé ferlið skilaði inn, getum við reiknað út tapið af hverri mínútu í niðri og reiknað út ásættanlegt tap. 

RPO (batapunktsmarkmið) — допустимая точка восстановления данных. Она определяет время, за которое мы можем потерять данные. С точки зрения бизнеса, потеря данных может грозить, например, штрафами. Такие потери тоже можно перевести в деньги. 

Jafnvel þótt það sé flóð ætti 1C að virka! Við erum sammála fyrirtækinu á DR

Reikna þarf út endurheimtartímann fyrir notandann: hversu lengi mun hann geta skráð sig inn í kerfið. Svo fyrst tökum við saman batatíma allra hlekkja í keðjunni. Hér eru oft gerð mistök: þeir taka RTO þjónustuveitunnar frá SLA og gleyma skilmálum sem eftir eru.

Við skulum líta á ákveðið dæmi. Notandinn skráir sig inn í 1C, kerfið opnast með gagnagrunnsvillu. Hann hefur samband við kerfisstjóra. Gagnagrunnurinn er staðsettur í skýinu, kerfisstjóri tilkynnir vandamálið til þjónustuveitunnar. Segjum að öll samskipti taki 15 mínútur. Í skýinu verður gagnagrunnur af þessari stærð endurheimtur úr öryggisafriti eftir klukkutíma, þess vegna er RTO þjónustuveitandinn klukkutími. En þetta er ekki lokafrestur; fyrir notandann hefur 15 mínútum verið bætt við hann til að greina vandamálið. 
 
Næst þarf kerfisstjóri að athuga hvort gagnagrunnurinn sé réttur, tengja hann við 1C og hefja þjónusturnar. Þetta krefst klukkutíma í viðbót, sem þýðir að RTO á hlið stjórnanda er nú þegar 2 klukkustundir og 15 mínútur. Notandinn þarf 15 mínútur í viðbót: skráðu þig inn, athugaðu hvort nauðsynlegar færslur hafi birst. 2 klukkustundir og 30 mínútur er heildar endurheimtartími þjónustunnar í þessu dæmi.

Эти расчеты покажут бизнесу, от каких внешних факторов зависит срок восстановления. Например, если офис заливают, то сначала нужно обнаружить протечку и устранить ее. Понадобится время, которое зависит не от ИТ.  

Hvernig við verndum: að velja verkfæri fyrir mismunandi áhættur

Eftir að hafa rætt öll atriðin skilur viðskiptavinurinn nú þegar kostnaðinn af slysi fyrir fyrirtækið. Nú er hægt að velja verkfæri og ræða fjárhagsáætlunina. Með því að nota dæmi um mál viðskiptavina mun ég sýna þér hvaða verkfæri við bjóðum upp á fyrir mismunandi verkefni. 

Начнем с первой группы рисков: потерь из-за простоев сервиса. Варианты решения для этой задачи должны обеспечивать хороший RTO.

  1. Hýstu forritið í skýinu 

    Til að byrja með geturðu einfaldlega farið í skýið - veitandinn hefur þegar hugsað í gegnum vandamálin um mikið framboð. Sýndarvæðingarhýsingar eru settar saman í þyrping, rafmagn og net eru frátekin, gögn eru geymd á bilunarþolnum geymslukerfum og þjónustuaðilinn er fjárhagslega ábyrgur fyrir niðurtíma.

    Til dæmis geturðu hýst sýndarvél með gagnagrunni í skýinu. Forritið mun tengjast gagnagrunninum ytra í gegnum staðfesta rás eða frá sama skýi. Ef vandamál koma upp með einn af netþjónunum í þyrpingunni mun VM endurræsa sig á nágrannaþjóninum á innan við 2 mínútum. Eftir það mun DBMS fara í gang í honum og eftir nokkrar mínútur verður gagnagrunnurinn aðgengilegur.

    RTO: mælt í mínútum. Þessa skilmála má tilgreina í samningi við þjónustuveituna.
    Kostnaður: Við reiknum út kostnað skýjaauðlinda fyrir forritið þitt. 
    Það sem það mun ekki vernda þig fyrir: frá stórfelldum bilunum á síðu þjónustuveitunnar, til dæmis vegna slysa á borgarstigi.

  2. Klása forritið  

    Ef þú vilt bæta RTO geturðu styrkt fyrri valmöguleikann og sett þyrpað forrit strax í skýið.

    Þú getur útfært klasa í virka-aðgerðalausu eða virka-virka ham. Við búum til nokkra VM út frá kröfum seljanda. Fyrir meiri áreiðanleika dreifum við þeim á mismunandi netþjóna og geymslukerfi. Ef þjónninn með einum af gagnagrunnunum bilar tekur afritunarhnúturinn við álaginu á nokkrum sekúndum.

    RTO: Mælt í sekúndum.
    Kostnaður: чуть дороже обычного облака, потребуются дополнительные ресурсы для кластеризации.
    Það sem það mun ekki vernda þig fyrir: Mun samt ekki verja gegn stórfelldum bilunum á staðnum. En staðbundnar truflanir munu ekki vara eins lengi.

    Frá æfingu: Verslunarfyrirtækið var með nokkur upplýsingakerfi og vefsíður. Allir gagnagrunnar voru staðsettir á staðnum á skrifstofu félagsins. Ekki var hugsað um DR fyrr en embættið var skilið eftir rafmagnslaust nokkrum sinnum í röð. Viðskiptavinir voru óánægðir með vefsíðuhrun. 
     
    Vandamálið með framboð þjónustu var leyst eftir að hafa farið yfir í skýið. Auk þess tókst okkur að hámarka álagið á gagnagrunnana með því að koma jafnvægi á umferð á milli hnúta.

  3. Farðu yfir í hamfaraþolið ský

    Ef þú þarft að tryggja að vinna truflast ekki jafnvel vegna náttúruhamfara á aðalsíðunni geturðu valið hamfaraþolið ský. Í þessum valkosti dreifir veitandinn sýndarvæðingarklasanum yfir 2 gagnaver. Stöðug samstillt afritun á sér stað milli gagnavera, einn á móti einum. Rásir milli gagnavera eru fráteknar og fara eftir mismunandi leiðum, þannig að slíkur þyrping er ekki hræddur við netvandamál. 

    RTO: hefur tilhneigingu til 0.
    Kostnaður: Dýrasti skýjakosturinn. 
    Það sem það mun ekki vernda þig fyrir: Það mun ekki hjálpa gegn spillingu gagna, sem og frá mannlegum þáttum, svo það er mælt með því að taka afrit á sama tíma. 

    Frá æfingu: Einn af viðskiptavinum okkar þróaði yfirgripsmikla áætlun um endurheimt hamfara. Þetta er stefnan sem hann valdi: 

    • Hamfaraþolið ský verndar forritið gegn bilunum á innviðastigi. 
    • Двухуровневый бэкап обеспечивает защиту на случай человеческого фактора. Резервные копии делают двух видов: «холодные» и «горячие». «Холодный» бэкап находится в выключенном состоянии, на его развертывание требуется время. «Горячий» бэкап уже готов к работе и восстанавливается быстрее. Его хранят на специально выделенной СХД. Третью копию записывают на ленту и хранят в другом помещении. 

    Einu sinni í viku prófar viðskiptavinurinn vörnina og athugar virkni allra öryggisafrita, þar á meðal þeirra af segulbandi. Á hverju ári prófar fyrirtækið allt hamfaraþolna skýið. 

  4. Skipuleggðu afritun á aðra síðu 

    Еще один вариант, как можно избежать глобальных проблем на основной площадке: обеспечить георезервирование. Другими словами, создать резервные виртуальные машины на площадке в другом городе. Для этого подойдут специальные решения для DR: мы в компании используем VMware vCloud Availability (vCAV). С его помощью можно настроить защиту между несколькими площадками облачного провайдера или восстановиться в облако с on-premise площадки. Подробнее о схеме работы с vCAV я уже рассказывал hér

    RPO и RTO: frá 5 mínútum. 

    Kostnaður: dýrari en fyrsti kosturinn, en ódýrari en afritun vélbúnaðar í hamfaraheldu skýi. Verðið samanstendur af kostnaði við vCAV leyfi, umsýslugjöld, kostnaði við skýjaauðlindir og varaauðlindir samkvæmt PAYG líkaninu (10% af kostnaði við vinnutilföng fyrir slökkt VM).

    Frá æfingu: Viðskiptavinurinn geymdi 6 sýndarvélar með mismunandi gagnagrunna í skýinu okkar í Moskvu. Í fyrstu var vernd veitt með öryggisafriti: Sum öryggisafritin voru geymd í skýinu í Moskvu og önnur voru geymd á St. Pétursborgarsíðunni okkar. Með tímanum stækkuðu gagnagrunnarnir að stærð og endurheimt úr öryggisafriti tók að taka lengri tíma. 
     
    Afritun byggð á VMware vCloud Availability var bætt við afrit. Eftirlíkingar af sýndarvélum eru geymdar á öryggisafriti í St. Pétursborg og eru uppfærðar á 5 mínútna fresti. Ef bilun kemur upp á aðalsvæðinu skipta starfsmenn sjálfstætt yfir í eftirlíkingu af sýndarvélinni í St. Pétursborg og halda áfram að vinna með hana. 

Allar þær lausnir sem til greina koma veita mikið aðgengi en vernda ekki gegn gagnatapi vegna lausnarhugbúnaðar víruss eða mistök starfsmanna fyrir slysni. Í þessu tilfelli þurfum við öryggisafrit sem veita nauðsynlega RPO.

5. Ekki gleyma öryggisafritinu

Það vita allir að þú þarft að taka öryggisafrit, jafnvel þótt þú hafir flottustu hörmungarvörnustu lausnina. Svo ég minni aðeins stuttlega á nokkra punkta.

Строго говоря, бэкап — это не DR. И вот почему: 

  • Það er langur tími. Ef gögnin eru mæld í terabætum mun bati taka meira en eina klukkustund. Þú þarft að endurheimta, úthluta netkerfi, athuga hvort kveikt sé á því, sjá hvort gögnin séu í lagi. Svo þú getur aðeins veitt góða RTO ef það eru lítil gögn. 
  • Ekki er víst að gögnin séu endurheimt í fyrsta skipti og þú þarft að gefa þér tíma til að endurtaka aðgerðina. Til dæmis, það eru tímar þegar við vitum ekki nákvæmlega hvenær gögn töpuðust. Segjum að tapsins hafi orðið vart klukkan 15.00 og afrit eru gerð á klukkutíma fresti. Frá klukkan 15.00 skoðum við alla endurheimtapunkta: 14:00, 13:00 og svo framvegis. Ef kerfið er mikilvægt reynum við að lágmarka aldur batapunktsins. En ef nýja öryggisafritið innihélt ekki nauðsynleg gögn, tökum við næsta atriði - þetta er viðbótartími. 

Í þessu tilviki getur öryggisafritunaráætlunin veitt það sem þarf RPO. Fyrir öryggisafrit er mikilvægt að veita landfræðilega pöntun ef vandamál koma upp á aðalsíðunni. Mælt er með því að geyma nokkur öryggisafrit sérstaklega.

Endanleg hamfaraáætlun ætti að innihalda að minnsta kosti 2 verkfæri:  

  • Einn af valkostum 1-4, sem mun vernda kerfi gegn bilunum og falli.
  • Öryggisafrit til að vernda gögn gegn tapi. 

Það er líka þess virði að sjá um varasamskiptarás ef aðalnetveitan fellur niður. Og - voila! — DR á lágmarkslaunum er þegar tilbúið. 

Heimild: www.habr.com

Bæta við athugasemd