Wingu linalostahimili Maafa: Jinsi linavyofanya kazi

Habari Habr!

Baada ya likizo ya Mwaka Mpya, tulizindua upya wingu la kuzuia maafa kulingana na tovuti mbili. Leo tutakuambia jinsi inavyofanya kazi na kuonyesha kile kinachotokea kwa mashine za kawaida za mteja wakati vipengele vya mtu binafsi vya kikundi vinashindwa na tovuti nzima inaanguka (spoiler - kila kitu ni sawa nao).

Wingu linalostahimili Maafa: Jinsi linavyofanya kazi
Mfumo wa hifadhi ya wingu unaostahimili majanga kwenye tovuti ya OST.

Nini ndani

Chini ya kofia, nguzo ina seva za Cisco UCS zilizo na hypervisor ya VMware ESXi, mifumo miwili ya hifadhi ya INFINIDAT InfiniBox F2240, vifaa vya mtandao vya Cisco Nexus, pamoja na swichi za Brocade SAN. Nguzo imegawanywa katika tovuti mbili - OST na NORD, yaani, kila kituo cha data kina seti inayofanana ya vifaa. Kwa kweli, hii ndio inafanya iwe dhibitisho la maafa.

Ndani ya tovuti moja, vipengele vikuu pia vinarudiwa (wenyeji, swichi za SAN, mitandao).
Maeneo haya mawili yameunganishwa na njia zilizojitolea za fiber optic, pia zimehifadhiwa.

Maneno machache kuhusu mifumo ya kuhifadhi. Tumeunda toleo la kwanza la wingu la kuzuia majanga kwenye NetApp. Hapa tulichagua INFINIDAT, na hii ndio sababu:

  • Chaguo Inayotumika-Inayorudiwa. Huruhusu mashine pepe kubaki kufanya kazi hata kama moja ya mifumo ya uhifadhi itashindwa kabisa. Nitakuambia zaidi juu ya kurudia baadaye.
  • Vidhibiti vitatu vya diski ili kuongeza uvumilivu wa makosa ya mfumo. Kawaida kuna mbili.
  • Suluhisho tayari. Tulipokea rack iliyopangwa tayari ambayo inahitaji tu kuunganishwa kwenye mtandao na kusanidiwa.
  • Makini na msaada wa kiufundi. Wahandisi wa INFINIDAT huchanganua kumbukumbu na matukio ya mfumo wa hifadhi kila mara, kusakinisha matoleo mapya ya programu dhibiti, na kusaidia kusanidi.

Hizi ni baadhi ya picha kutoka kwa upakiaji:

Wingu linalostahimili Maafa: Jinsi linavyofanya kazi

Wingu linalostahimili Maafa: Jinsi linavyofanya kazi

Jinsi kazi

Wingu tayari linastahimili makosa ndani yake lenyewe. Inalinda mteja kutokana na kushindwa kwa vifaa na programu moja. Kinga dhidi ya maafa itasaidia kulinda dhidi ya kushindwa kwa kiasi kikubwa ndani ya tovuti moja: kwa mfano, kushindwa kwa mfumo wa hifadhi (au nguzo ya SDS, ambayo hutokea mara nyingi πŸ™‚), makosa makubwa katika mtandao wa hifadhi, nk. Kweli, na muhimu zaidi: wingu kama hilo huokoa tovuti nzima inaposhindwa kufikiwa kwa sababu ya moto, kuzima, uporaji wa mvamizi au kutua kwa wageni.

Katika visa hivi vyote, mashine za kawaida za mteja zinaendelea kufanya kazi, na hii ndio sababu.

Muundo wa nguzo umeundwa ili mwenyeji yeyote wa ESXi aliye na mashine pepe ya mteja aweze kufikia mifumo yoyote kati ya mifumo miwili ya hifadhi. Ikiwa mfumo wa kuhifadhi kwenye tovuti ya OST hautafaulu, mashine pepe zitaendelea kufanya kazi: seva pangishi ambazo zinaendesha zitafikia mfumo wa hifadhi kwenye NORD kwa data.

Wingu linalostahimili Maafa: Jinsi linavyofanya kazi
Hivi ndivyo mchoro wa unganisho kwenye nguzo unavyoonekana.

Hili linawezekana kutokana na ukweli kwamba Kiungo cha Inter-Switch kimesanidiwa kati ya vitambaa vya SAN vya tovuti mbili: swichi ya Fabric A OST SAN imeunganishwa kwenye swichi ya Fabric A NORD SAN, na vivyo hivyo kwa swichi za Fabric B SAN.

Vema, ili hila hizi zote za viwanda vya SAN ziwe na maana, Urudiaji Amilifu-Amilifu umesanidiwa kati ya mifumo miwili ya uhifadhi: habari karibu huandikwa kwa wakati mmoja kwa mifumo ya hifadhi ya ndani na ya mbali, RPO = 0. Inatokea kwamba data ya awali imehifadhiwa kwenye mfumo mmoja wa hifadhi, na replica yake imehifadhiwa kwa upande mwingine. Data inarudiwa kwa kiwango cha kiasi cha kuhifadhi, na data ya VM (diski zake, faili ya usanidi, faili ya kubadilishana, nk) imehifadhiwa juu yao.

Mpangishi wa ESXi huona kiasi cha msingi na nakala yake kama kifaa kimoja cha diski (Kifaa cha Kuhifadhi). Kuna njia 24 kutoka kwa mwenyeji wa ESXi hadi kwa kila kifaa cha diski:

Njia 12 zinaiunganisha kwenye mfumo wa uhifadhi wa ndani (njia bora), na 12 iliyobaki kwenye mfumo wa uhifadhi wa mbali (njia zisizo bora). Katika hali ya kawaida, ESXi hupata data kwenye mfumo wa hifadhi wa ndani kwa kutumia njia "zaidi". Mfumo huu wa uhifadhi unaposhindwa, ESXi hupoteza njia bora na kubadili hadi zile "zisizo bora". Hivi ndivyo inavyoonekana kwenye mchoro.

Wingu linalostahimili Maafa: Jinsi linavyofanya kazi
Mpango wa nguzo ya kuzuia maafa.

Mitandao yote ya mteja imeunganishwa kwenye tovuti zote mbili kupitia kitambaa cha kawaida cha mtandao. Kila tovuti ina Kipeo cha Mtoa Huduma (PE), ambapo mitandao ya mteja imekatishwa. PE zimeunganishwa kuwa nguzo ya pamoja. Ikiwa PE itashindwa kwenye tovuti moja, trafiki yote itaelekezwa kwenye tovuti ya pili. Shukrani kwa hili, mashine pepe kutoka kwa tovuti iliyoachwa bila PE hubakia kupatikana kupitia mtandao kwa mteja.

Wacha tuone kitakachotokea kwa mashine za kawaida za mteja wakati wa kushindwa kwa anuwai. Wacha tuanze na chaguzi nyepesi na tumalize na mbaya zaidi - kutofaulu kwa tovuti nzima. Katika mifano, jukwaa kuu litakuwa OST, na jukwaa la chelezo, na nakala za data, litakuwa NORD.

Ni nini kinatokea kwa mashine ya kawaida ya mteja ikiwa ...

Kiungo cha Replication kinashindwa. Uigaji kati ya mifumo ya uhifadhi wa tovuti hizi mbili huacha.
ESXi itafanya kazi tu na vifaa vya ndani vya diski (kupitia njia bora).
Mashine za mtandaoni zinaendelea kufanya kazi.

Wingu linalostahimili Maafa: Jinsi linavyofanya kazi

ISL (Inter-Switch Link) huvunjika. Kesi hiyo haiwezekani. Isipokuwa mchimbaji fulani wa kichaa anachimba njia kadhaa za macho mara moja, ambazo hutembea kwenye njia huru na huletwa kwenye tovuti kupitia pembejeo tofauti. Lakini hata hivyo. Katika hali hii, wapangishi wa ESXi hupoteza nusu ya njia na wanaweza kufikia mifumo yao ya uhifadhi ya ndani pekee. Nakala zinakusanywa, lakini wapangishi hawataweza kuzifikia.

Mashine pepe hufanya kazi kama kawaida.

Wingu linalostahimili Maafa: Jinsi linavyofanya kazi

Swichi ya SAN inashindwa kwenye mojawapo ya tovuti. Wapangishi wa ESXi hupoteza baadhi ya njia za mfumo wa kuhifadhi. Katika kesi hii, wapangishi kwenye tovuti ambayo swichi ilishindwa itafanya kazi kupitia moja ya HBA zao.

Mashine za mtandaoni zinaendelea kufanya kazi kama kawaida.

Wingu linalostahimili Maafa: Jinsi linavyofanya kazi

Swichi zote za SAN kwenye moja ya tovuti hazifanyi kazi. Wacha tuseme janga kama hilo lilitokea kwenye wavuti ya OST. Katika kesi hii, majeshi ya ESXi kwenye tovuti hii yatapoteza njia zote za vifaa vyao vya diski. Utaratibu wa kawaida wa VMware vSphere HA utaanza kutumika: itawasha upya mashine zote pepe za tovuti ya OST katika NORD katika muda usiozidi sekunde 140.

Mashine pepe zinazoendesha kwenye seva pangishi za tovuti za NORD zinafanya kazi kama kawaida.

Wingu linalostahimili Maafa: Jinsi linavyofanya kazi

Mwenyeji wa ESXi anashindwa kwenye tovuti moja. Hapa utaratibu wa vSphere HA unafanya kazi tena: mashine pepe kutoka kwa seva pangishi iliyoshindwa huwashwa upya kwenye wapangishi wengine - kwenye tovuti moja au ya mbali. Muda wa kuwasha tena mashine pepe ni hadi dakika 1.

Ikiwa wapangishi wote wa ESXi kwenye tovuti ya OST watashindwa, hakuna chaguo: VM huanzishwa upya kwenye nyingine. Wakati wa kuanza upya ni sawa.

Wingu linalostahimili Maafa: Jinsi linavyofanya kazi

Mfumo wa uhifadhi haufanyi kazi kwenye tovuti moja. Hebu sema mfumo wa kuhifadhi unashindwa kwenye tovuti ya OST. Kisha waandaji wa ESXi wa tovuti ya OST hubadili kufanya kazi na nakala za hifadhi katika NORD. Baada ya mfumo wa uhifadhi ulioshindwa kurudi kwenye huduma, urudufishaji wa kulazimishwa utatokea na wapangishi wa ESXi OST wataanza tena kufikia mfumo wa hifadhi wa ndani.

Mashine pepe zimekuwa zikifanya kazi kwa kawaida wakati huu wote.

Wingu linalostahimili Maafa: Jinsi linavyofanya kazi

Moja ya tovuti inashindwa. Katika hali hii, mashine zote pepe zitaanzishwa upya kwenye tovuti ya chelezo kupitia utaratibu wa vSphere HA. Wakati wa kuanzisha tena VM ni sekunde 140. Katika kesi hii, mipangilio yote ya mtandao ya mashine ya kawaida itahifadhiwa, na inabakia kupatikana kwa mteja kupitia mtandao.

Ili kuhakikisha kuwa kuwasha upya kwa mashine kwenye tovuti ya chelezo huenda vizuri, kila tovuti imejaa nusu tu. Nusu ya pili ni hifadhi ikiwa mashine zote za kawaida zitatoka kwenye tovuti ya pili iliyoharibiwa.

Wingu linalostahimili Maafa: Jinsi linavyofanya kazi

Wingu linalostahimili majanga kulingana na vituo viwili vya data hulinda dhidi ya hitilafu kama hizo.

Radhi hii sio nafuu, kwani, pamoja na rasilimali kuu, hifadhi inahitajika kwenye tovuti ya pili. Kwa hivyo, huduma muhimu za biashara huwekwa kwenye wingu kama hilo, wakati wa muda mrefu ambao husababisha hasara kubwa za kifedha na sifa, au ikiwa mfumo wa habari unakabiliwa na mahitaji ya kuhimili maafa kutoka kwa wadhibiti au kanuni za kampuni ya ndani.

Vyanzo:

  1. www.infinidat.com/sites/default/files/resource-pdfs/DS-INFBOX-190331-US_0.pdf
  2. support.infinidat.com/hc/en-us/articles/207057109-InfiniBox-best-practices-guides

Chanzo: mapenzi.com

Kuongeza maoni