డిజాస్టర్ రెసిలెంట్ క్లౌడ్: ఇది ఎలా పనిచేస్తుంది

హే హబ్ర్!

న్యూ ఇయర్ సెలవుల తర్వాత, మేము రెండు సైట్‌ల ఆధారంగా డిజాస్టర్ ప్రూఫ్ క్లౌడ్‌ని మళ్లీ ప్రారంభించాము. క్లస్టర్ యొక్క వ్యక్తిగత అంశాలు విఫలమైనప్పుడు మరియు మొత్తం సైట్ క్రాష్ అయినప్పుడు అది ఎలా పని చేస్తుందో మరియు క్లయింట్ వర్చువల్ మెషీన్‌లకు ఏమి జరుగుతుందో ఈ రోజు మేము మీకు తెలియజేస్తాము (స్పాయిలర్ - వాటితో ప్రతిదీ బాగానే ఉంది).

డిజాస్టర్ రెసిలెంట్ క్లౌడ్: ఇది ఎలా పనిచేస్తుంది
OST సైట్‌లో విపత్తు-నిరోధక క్లౌడ్ నిల్వ వ్యవస్థ.

లోపల ఏముంది

హుడ్ కింద, క్లస్టర్‌లో VMware ESXi హైపర్‌వైజర్, రెండు INFINIDAT InfiniBox F2240 స్టోరేజ్ సిస్టమ్‌లు, Cisco Nexus నెట్‌వర్క్ పరికరాలు, అలాగే బ్రోకేడ్ SAN స్విచ్‌లతో కూడిన సిస్కో UCS సర్వర్‌లు ఉన్నాయి. క్లస్టర్ రెండు సైట్‌లుగా విభజించబడింది - OST మరియు NORD, అనగా ప్రతి డేటా సెంటర్ ఒకే విధమైన పరికరాలను కలిగి ఉంటుంది. అసలైన, ఇది విపత్తు-నిరోధకతను చేస్తుంది.

ఒక సైట్‌లో, ప్రధాన అంశాలు కూడా నకిలీ చేయబడ్డాయి (హోస్ట్‌లు, SAN స్విచ్‌లు, నెట్‌వర్కింగ్).
రెండు సైట్‌లు ప్రత్యేక ఫైబర్ ఆప్టిక్ మార్గాల ద్వారా అనుసంధానించబడ్డాయి, అలాగే రిజర్వ్ చేయబడ్డాయి.

నిల్వ వ్యవస్థల గురించి కొన్ని మాటలు. మేము NetAppలో విపత్తు-నిరోధక క్లౌడ్ యొక్క మొదటి సంస్కరణను రూపొందించాము. ఇక్కడ మేము INFINIDATని ఎంచుకున్నాము మరియు దీనికి కారణం ఇక్కడ ఉంది:

  • యాక్టివ్-యాక్టివ్ రెప్లికేషన్ ఎంపిక. ఇది స్టోరేజ్ సిస్టమ్‌లలో ఒకటి పూర్తిగా విఫలమైనప్పటికీ వర్చువల్ మెషీన్‌ను పని చేయడానికి అనుమతిస్తుంది. నేను మీకు ప్రతిరూపం గురించి తర్వాత చెబుతాను.
  • సిస్టమ్ తప్పు సహనాన్ని పెంచడానికి మూడు డిస్క్ కంట్రోలర్లు. సాధారణంగా రెండు ఉన్నాయి.
  • సిద్ధంగా పరిష్కారం. మేము నెట్‌వర్క్‌కు కనెక్ట్ చేయబడి, కాన్ఫిగర్ చేయాల్సిన ముందస్తు-సమీకరించిన రాక్‌ని అందుకున్నాము.
  • శ్రద్ధగల సాంకేతిక మద్దతు. INFINIDAT ఇంజనీర్లు నిరంతరం నిల్వ సిస్టమ్ లాగ్‌లు మరియు ఈవెంట్‌లను విశ్లేషిస్తారు, కొత్త ఫర్మ్‌వేర్ వెర్షన్‌లను ఇన్‌స్టాల్ చేస్తారు మరియు కాన్ఫిగరేషన్‌లో సహాయం చేస్తారు.

అన్‌ప్యాకింగ్ నుండి ఇక్కడ కొన్ని ఫోటోలు ఉన్నాయి:

డిజాస్టర్ రెసిలెంట్ క్లౌడ్: ఇది ఎలా పనిచేస్తుంది

డిజాస్టర్ రెసిలెంట్ క్లౌడ్: ఇది ఎలా పనిచేస్తుంది

ఎలా పని చేస్తుంది

మేఘం ఇప్పటికే లోపాలను తట్టుకుంటుంది. ఇది ఒకే హార్డ్‌వేర్ మరియు సాఫ్ట్‌వేర్ వైఫల్యాల నుండి క్లయింట్‌ను రక్షిస్తుంది. విపత్తు-నిరోధకత ఒక సైట్‌లోని భారీ వైఫల్యాల నుండి రక్షించడంలో సహాయపడుతుంది: ఉదాహరణకు, నిల్వ సిస్టమ్ వైఫల్యం (లేదా SDS క్లస్టర్, ఇది చాలా తరచుగా జరుగుతుంది 🙂), నిల్వ నెట్‌వర్క్‌లో భారీ లోపాలు మొదలైనవి. బాగా, మరియు ముఖ్యంగా: అగ్నిప్రమాదం, బ్లాక్‌అవుట్, రైడర్ టేకోవర్ లేదా ఏలియన్ ల్యాండింగ్ కారణంగా మొత్తం సైట్ యాక్సెస్ చేయలేనప్పుడు అటువంటి క్లౌడ్ ఆదా అవుతుంది.

ఈ అన్ని సందర్భాలలో, క్లయింట్ వర్చువల్ మెషీన్‌లు పని చేస్తూనే ఉన్నాయి మరియు ఎందుకు ఇక్కడ ఉంది.

క్లయింట్ వర్చువల్ మెషీన్‌లతో ఉన్న ఏదైనా ESXi హోస్ట్ రెండు స్టోరేజ్ సిస్టమ్‌లలో దేనినైనా యాక్సెస్ చేసేలా క్లస్టర్ డిజైన్ రూపొందించబడింది. OST సైట్‌లోని స్టోరేజ్ సిస్టమ్ విఫలమైతే, వర్చువల్ మిషన్‌లు పని చేస్తూనే ఉంటాయి: అవి రన్ అవుతున్న హోస్ట్‌లు డేటా కోసం NORDలోని స్టోరేజ్ సిస్టమ్‌ను యాక్సెస్ చేస్తాయి.

డిజాస్టర్ రెసిలెంట్ క్లౌడ్: ఇది ఎలా పనిచేస్తుంది
క్లస్టర్‌లోని కనెక్షన్ రేఖాచిత్రం ఇలా కనిపిస్తుంది.

రెండు సైట్‌ల SAN ఫ్యాబ్రిక్‌ల మధ్య ఇంటర్-స్విచ్ లింక్ కాన్ఫిగర్ చేయబడినందున ఇది సాధ్యమవుతుంది: Fabric A OST SAN స్విచ్ ఫ్యాబ్రిక్ A NORD SAN స్విచ్‌కి మరియు అదే విధంగా ఫ్యాబ్రిక్ B SAN స్విచ్‌లకు కనెక్ట్ చేయబడింది.

సరే, SAN కర్మాగారాల యొక్క ఈ చిక్కులన్నీ అర్ధమయ్యేలా, యాక్టివ్-యాక్టివ్ రెప్లికేషన్ రెండు నిల్వ సిస్టమ్‌ల మధ్య కాన్ఫిగర్ చేయబడింది: సమాచారం దాదాపు ఏకకాలంలో స్థానిక మరియు రిమోట్ నిల్వ సిస్టమ్‌లకు వ్రాయబడుతుంది, RPO = 0. అసలు డేటా ఒక నిల్వ సిస్టమ్‌లో నిల్వ చేయబడిందని మరియు దాని ప్రతిరూపం మరొకదానిలో నిల్వ చేయబడిందని తేలింది. నిల్వ వాల్యూమ్‌ల స్థాయిలో డేటా ప్రతిరూపం చేయబడుతుంది మరియు VM డేటా (దాని డిస్క్‌లు, కాన్ఫిగరేషన్ ఫైల్, స్వాప్ ఫైల్ మొదలైనవి) వాటిపై నిల్వ చేయబడుతుంది.

ESXi హోస్ట్ ప్రాథమిక వాల్యూమ్ మరియు దాని ప్రతిరూపాన్ని ఒక డిస్క్ పరికరం (నిల్వ పరికరం)గా చూస్తుంది. ESXi హోస్ట్ నుండి ప్రతి డిస్క్ పరికరానికి 24 మార్గాలు ఉన్నాయి:

12 మార్గాలు దానిని స్థానిక నిల్వ సిస్టమ్‌కు (ఆప్టిమల్ పాత్‌లు) మరియు మిగిలిన 12 రిమోట్ స్టోరేజ్ సిస్టమ్‌కు (నాన్-ఆప్టిమల్ పాత్‌లు) కనెక్ట్ చేస్తాయి. సాధారణ పరిస్థితిలో, ESXi "ఆప్టిమల్" పాత్‌లను ఉపయోగించి స్థానిక నిల్వ సిస్టమ్‌లోని డేటాను యాక్సెస్ చేస్తుంది. ఈ నిల్వ వ్యవస్థ విఫలమైనప్పుడు, ESXi సరైన మార్గాలను కోల్పోతుంది మరియు "నాన్-ఆప్టిమల్" వాటికి మారుతుంది. ఇది రేఖాచిత్రంలో కనిపిస్తుంది.

డిజాస్టర్ రెసిలెంట్ క్లౌడ్: ఇది ఎలా పనిచేస్తుంది
విపత్తు నిరోధక క్లస్టర్ యొక్క పథకం.

అన్ని క్లయింట్ నెట్‌వర్క్‌లు ఉమ్మడి నెట్‌వర్క్ ఫాబ్రిక్ ద్వారా రెండు సైట్‌లకు కనెక్ట్ చేయబడ్డాయి. ప్రతి సైట్ ప్రొవైడర్ ఎడ్జ్ (PE)ని అమలు చేస్తుంది, దానిపై క్లయింట్ యొక్క నెట్‌వర్క్‌లు నిలిపివేయబడతాయి. PEలు ఒక సాధారణ క్లస్టర్‌గా ఏకం చేయబడ్డాయి. ఒక సైట్‌లో PE విఫలమైతే, మొత్తం ట్రాఫిక్ రెండవ సైట్‌కు మళ్లించబడుతుంది. దీనికి ధన్యవాదాలు, PE లేకుండా మిగిలిపోయిన సైట్ నుండి వర్చువల్ మిషన్లు క్లయింట్‌కు నెట్‌వర్క్‌లో అందుబాటులో ఉంటాయి.

వివిధ వైఫల్యాల సమయంలో క్లయింట్ వర్చువల్ మిషన్‌లకు ఏమి జరుగుతుందో ఇప్పుడు చూద్దాం. తేలికైన ఎంపికలతో ప్రారంభించండి మరియు అత్యంత తీవ్రమైన - మొత్తం సైట్ యొక్క వైఫల్యంతో ముగించండి. ఉదాహరణలలో, ప్రధాన ప్లాట్‌ఫారమ్ OST మరియు బ్యాకప్ ప్లాట్‌ఫారమ్, డేటా ప్రతిరూపాలతో, NORD అవుతుంది.

ఒకవేళ క్లయింట్ వర్చువల్ మెషీన్‌కు ఏమి జరుగుతుంది...

రెప్లికేషన్ లింక్ విఫలమైంది. రెండు సైట్‌ల నిల్వ సిస్టమ్‌ల మధ్య ప్రతిరూపం ఆగిపోతుంది.
ESXi స్థానిక డిస్క్ పరికరాలతో మాత్రమే పని చేస్తుంది (ఆప్టిమల్ పాత్‌ల ద్వారా).
వర్చువల్ మిషన్లు పని చేస్తూనే ఉన్నాయి.

డిజాస్టర్ రెసిలెంట్ క్లౌడ్: ఇది ఎలా పనిచేస్తుంది

ISL (ఇంటర్-స్విచ్ లింక్) విచ్ఛిన్నమైంది. కేసు అసంభవం. కొన్ని క్రేజీ ఎక్స్‌కవేటర్‌లు ఒకేసారి అనేక ఆప్టికల్ మార్గాలను తవ్వితే తప్ప, అవి స్వతంత్ర మార్గాల్లో నడుస్తాయి మరియు విభిన్న ఇన్‌పుట్‌ల ద్వారా సైట్‌లకు తీసుకురాబడతాయి. కాని ఏదోవిధముగా. ఈ సందర్భంలో, ESXi హోస్ట్‌లు సగం మార్గాలను కోల్పోతాయి మరియు వాటి స్థానిక నిల్వ సిస్టమ్‌లను మాత్రమే యాక్సెస్ చేయగలవు. ప్రతిరూపాలు సేకరించబడ్డాయి, కానీ హోస్ట్‌లు వాటిని యాక్సెస్ చేయలేరు.

వర్చువల్ మిషన్లు సాధారణంగా పని చేస్తున్నాయి.

డిజాస్టర్ రెసిలెంట్ క్లౌడ్: ఇది ఎలా పనిచేస్తుంది

SAN స్విచ్ ఒక సైట్‌లో విఫలమైంది. ESXi హోస్ట్‌లు స్టోరేజ్ సిస్టమ్‌కు కొన్ని మార్గాలను కోల్పోతాయి. ఈ సందర్భంలో, స్విచ్ విఫలమైన సైట్‌లోని హోస్ట్‌లు వారి HBAలలో ఒకదాని ద్వారా మాత్రమే పని చేస్తాయి.

వర్చువల్ మిషన్లు సాధారణంగా పని చేస్తూనే ఉంటాయి.

డిజాస్టర్ రెసిలెంట్ క్లౌడ్: ఇది ఎలా పనిచేస్తుంది

ఒక సైట్‌లోని అన్ని SAN స్విచ్‌లు విఫలమవుతాయి. OST సైట్‌లో అలాంటి విపత్తు జరిగిందని చెప్పండి. ఈ సందర్భంలో, ఈ సైట్‌లోని ESXi హోస్ట్‌లు వారి డిస్క్ పరికరాలకు అన్ని మార్గాలను కోల్పోతాయి. ప్రామాణిక VMware vSphere HA మెకానిజం అమలులోకి వస్తుంది: ఇది గరిష్టంగా 140 సెకన్లలో NORDలోని OST సైట్ యొక్క అన్ని వర్చువల్ మిషన్‌లను పునఃప్రారంభిస్తుంది.

NORD సైట్ హోస్ట్‌లలో నడుస్తున్న వర్చువల్ మెషీన్‌లు సాధారణంగా పనిచేస్తాయి.

డిజాస్టర్ రెసిలెంట్ క్లౌడ్: ఇది ఎలా పనిచేస్తుంది

ESXi హోస్ట్ ఒక సైట్‌లో విఫలమైంది. ఇక్కడ vSphere HA మెకానిజం మళ్లీ పని చేస్తుంది: విఫలమైన హోస్ట్ నుండి వర్చువల్ మిషన్లు ఇతర హోస్ట్‌లలో - అదే లేదా రిమోట్ సైట్‌లో పునఃప్రారంభించబడతాయి. వర్చువల్ మెషీన్ పునఃప్రారంభ సమయం 1 నిమిషం వరకు ఉంటుంది.

OST సైట్‌లోని అన్ని ESXi హోస్ట్‌లు విఫలమైతే, ఎంపికలు లేవు: VMలు మరొకదానిలో పునఃప్రారంభించబడతాయి. పునఃప్రారంభ సమయం అదే.

డిజాస్టర్ రెసిలెంట్ క్లౌడ్: ఇది ఎలా పనిచేస్తుంది

ఒక సైట్‌లో స్టోరేజ్ సిస్టమ్ విఫలమైంది. OST సైట్‌లో స్టోరేజ్ సిస్టమ్ విఫలమైందని అనుకుందాం. అప్పుడు OST సైట్ యొక్క ESXi హోస్ట్‌లు NORDలోని నిల్వ ప్రతిరూపాలతో పని చేయడానికి మారతాయి. విఫలమైన నిల్వ సిస్టమ్ సేవకు తిరిగి వచ్చిన తర్వాత, బలవంతంగా ప్రతిరూపణ జరుగుతుంది మరియు ESXi OST హోస్ట్‌లు మళ్లీ స్థానిక నిల్వ సిస్టమ్‌ను యాక్సెస్ చేయడం ప్రారంభిస్తాయి.

ఈ సమయంలో వర్చువల్ మిషన్లు సాధారణంగా పని చేస్తున్నాయి.

డిజాస్టర్ రెసిలెంట్ క్లౌడ్: ఇది ఎలా పనిచేస్తుంది

సైట్‌లలో ఒకటి విఫలమైంది. ఈ సందర్భంలో, అన్ని వర్చువల్ మిషన్లు vSphere HA మెకానిజం ద్వారా బ్యాకప్ సైట్‌లో పునఃప్రారంభించబడతాయి. VM పునఃప్రారంభ సమయం 140 సెకన్లు. ఈ సందర్భంలో, వర్చువల్ మెషీన్ యొక్క అన్ని నెట్‌వర్క్ సెట్టింగ్‌లు సేవ్ చేయబడతాయి మరియు ఇది నెట్‌వర్క్‌లో క్లయింట్‌కు అందుబాటులో ఉంటుంది.

బ్యాకప్ సైట్‌లో మెషీన్‌ల పునఃప్రారంభం సజావుగా సాగుతుందని నిర్ధారించడానికి, ప్రతి సైట్ సగం మాత్రమే నిండింది. అన్ని వర్చువల్ మిషన్లు రెండవ, దెబ్బతిన్న సైట్ నుండి తరలించబడిన సందర్భంలో రెండవ సగం రిజర్వ్ అవుతుంది.

డిజాస్టర్ రెసిలెంట్ క్లౌడ్: ఇది ఎలా పనిచేస్తుంది

రెండు డేటా సెంటర్లపై ఆధారపడిన విపత్తు-నిరోధక క్లౌడ్ అటువంటి వైఫల్యాల నుండి రక్షిస్తుంది.

ఈ ఆనందం చౌక కాదు, ఎందుకంటే, ప్రధాన వనరులతో పాటు, రెండవ సైట్‌లో రిజర్వ్ అవసరం. అందువల్ల, వ్యాపార-క్లిష్టమైన సేవలు అటువంటి క్లౌడ్‌లో ఉంచబడతాయి, దీని యొక్క దీర్ఘకాలిక పనికిరాని సమయం పెద్ద ఆర్థిక మరియు కీర్తి నష్టాలకు కారణమవుతుంది లేదా సమాచార వ్యవస్థ నియంత్రణదారులు లేదా అంతర్గత కంపెనీ నిబంధనల నుండి విపత్తు-తట్టుకునే అవసరాలకు లోబడి ఉంటే.

వర్గాలు:

  1. www.infinidat.com/sites/default/files/resource-pdfs/DS-INFBOX-190331-US_0.pdf
  2. support.infinidat.com/hc/en-us/articles/207057109-InfiniBox-best-practices-guides

మూలం: www.habr.com

ఒక వ్యాఖ్యను జోడించండి