ప్రోహోస్టర్ > డిజాస్టర్ రెసిలెంట్ క్లౌడ్: ఇది ఎలా పనిచేస్తుంది
డిజాస్టర్ రెసిలెంట్ క్లౌడ్: ఇది ఎలా పనిచేస్తుంది
హే హబ్ర్!
న్యూ ఇయర్ సెలవుల తర్వాత, మేము రెండు సైట్ల ఆధారంగా డిజాస్టర్ ప్రూఫ్ క్లౌడ్ని మళ్లీ ప్రారంభించాము. క్లస్టర్ యొక్క వ్యక్తిగత అంశాలు విఫలమైనప్పుడు మరియు మొత్తం సైట్ క్రాష్ అయినప్పుడు అది ఎలా పని చేస్తుందో మరియు క్లయింట్ వర్చువల్ మెషీన్లకు ఏమి జరుగుతుందో ఈ రోజు మేము మీకు తెలియజేస్తాము (స్పాయిలర్ - వాటితో ప్రతిదీ బాగానే ఉంది).
OST సైట్లో విపత్తు-నిరోధక క్లౌడ్ నిల్వ వ్యవస్థ.
లోపల ఏముంది
హుడ్ కింద, క్లస్టర్లో VMware ESXi హైపర్వైజర్, రెండు INFINIDAT InfiniBox F2240 స్టోరేజ్ సిస్టమ్లు, Cisco Nexus నెట్వర్క్ పరికరాలు, అలాగే బ్రోకేడ్ SAN స్విచ్లతో కూడిన సిస్కో UCS సర్వర్లు ఉన్నాయి. క్లస్టర్ రెండు సైట్లుగా విభజించబడింది - OST మరియు NORD, అనగా ప్రతి డేటా సెంటర్ ఒకే విధమైన పరికరాలను కలిగి ఉంటుంది. అసలైన, ఇది విపత్తు-నిరోధకతను చేస్తుంది.
ఒక సైట్లో, ప్రధాన అంశాలు కూడా నకిలీ చేయబడ్డాయి (హోస్ట్లు, SAN స్విచ్లు, నెట్వర్కింగ్).
రెండు సైట్లు ప్రత్యేక ఫైబర్ ఆప్టిక్ మార్గాల ద్వారా అనుసంధానించబడ్డాయి, అలాగే రిజర్వ్ చేయబడ్డాయి.
నిల్వ వ్యవస్థల గురించి కొన్ని మాటలు. మేము NetAppలో విపత్తు-నిరోధక క్లౌడ్ యొక్క మొదటి సంస్కరణను రూపొందించాము. ఇక్కడ మేము INFINIDATని ఎంచుకున్నాము మరియు దీనికి కారణం ఇక్కడ ఉంది:
యాక్టివ్-యాక్టివ్ రెప్లికేషన్ ఎంపిక. ఇది స్టోరేజ్ సిస్టమ్లలో ఒకటి పూర్తిగా విఫలమైనప్పటికీ వర్చువల్ మెషీన్ను పని చేయడానికి అనుమతిస్తుంది. నేను మీకు ప్రతిరూపం గురించి తర్వాత చెబుతాను.
సిస్టమ్ తప్పు సహనాన్ని పెంచడానికి మూడు డిస్క్ కంట్రోలర్లు. సాధారణంగా రెండు ఉన్నాయి.
సిద్ధంగా పరిష్కారం. మేము నెట్వర్క్కు కనెక్ట్ చేయబడి, కాన్ఫిగర్ చేయాల్సిన ముందస్తు-సమీకరించిన రాక్ని అందుకున్నాము.
శ్రద్ధగల సాంకేతిక మద్దతు. INFINIDAT ఇంజనీర్లు నిరంతరం నిల్వ సిస్టమ్ లాగ్లు మరియు ఈవెంట్లను విశ్లేషిస్తారు, కొత్త ఫర్మ్వేర్ వెర్షన్లను ఇన్స్టాల్ చేస్తారు మరియు కాన్ఫిగరేషన్లో సహాయం చేస్తారు.
అన్ప్యాకింగ్ నుండి ఇక్కడ కొన్ని ఫోటోలు ఉన్నాయి:
ఎలా పని చేస్తుంది
మేఘం ఇప్పటికే లోపాలను తట్టుకుంటుంది. ఇది ఒకే హార్డ్వేర్ మరియు సాఫ్ట్వేర్ వైఫల్యాల నుండి క్లయింట్ను రక్షిస్తుంది. విపత్తు-నిరోధకత ఒక సైట్లోని భారీ వైఫల్యాల నుండి రక్షించడంలో సహాయపడుతుంది: ఉదాహరణకు, నిల్వ సిస్టమ్ వైఫల్యం (లేదా SDS క్లస్టర్, ఇది చాలా తరచుగా జరుగుతుంది 🙂), నిల్వ నెట్వర్క్లో భారీ లోపాలు మొదలైనవి. బాగా, మరియు ముఖ్యంగా: అగ్నిప్రమాదం, బ్లాక్అవుట్, రైడర్ టేకోవర్ లేదా ఏలియన్ ల్యాండింగ్ కారణంగా మొత్తం సైట్ యాక్సెస్ చేయలేనప్పుడు అటువంటి క్లౌడ్ ఆదా అవుతుంది.
ఈ అన్ని సందర్భాలలో, క్లయింట్ వర్చువల్ మెషీన్లు పని చేస్తూనే ఉన్నాయి మరియు ఎందుకు ఇక్కడ ఉంది.
క్లయింట్ వర్చువల్ మెషీన్లతో ఉన్న ఏదైనా ESXi హోస్ట్ రెండు స్టోరేజ్ సిస్టమ్లలో దేనినైనా యాక్సెస్ చేసేలా క్లస్టర్ డిజైన్ రూపొందించబడింది. OST సైట్లోని స్టోరేజ్ సిస్టమ్ విఫలమైతే, వర్చువల్ మిషన్లు పని చేస్తూనే ఉంటాయి: అవి రన్ అవుతున్న హోస్ట్లు డేటా కోసం NORDలోని స్టోరేజ్ సిస్టమ్ను యాక్సెస్ చేస్తాయి.
క్లస్టర్లోని కనెక్షన్ రేఖాచిత్రం ఇలా కనిపిస్తుంది.
రెండు సైట్ల SAN ఫ్యాబ్రిక్ల మధ్య ఇంటర్-స్విచ్ లింక్ కాన్ఫిగర్ చేయబడినందున ఇది సాధ్యమవుతుంది: Fabric A OST SAN స్విచ్ ఫ్యాబ్రిక్ A NORD SAN స్విచ్కి మరియు అదే విధంగా ఫ్యాబ్రిక్ B SAN స్విచ్లకు కనెక్ట్ చేయబడింది.
సరే, SAN కర్మాగారాల యొక్క ఈ చిక్కులన్నీ అర్ధమయ్యేలా, యాక్టివ్-యాక్టివ్ రెప్లికేషన్ రెండు నిల్వ సిస్టమ్ల మధ్య కాన్ఫిగర్ చేయబడింది: సమాచారం దాదాపు ఏకకాలంలో స్థానిక మరియు రిమోట్ నిల్వ సిస్టమ్లకు వ్రాయబడుతుంది, RPO = 0. అసలు డేటా ఒక నిల్వ సిస్టమ్లో నిల్వ చేయబడిందని మరియు దాని ప్రతిరూపం మరొకదానిలో నిల్వ చేయబడిందని తేలింది. నిల్వ వాల్యూమ్ల స్థాయిలో డేటా ప్రతిరూపం చేయబడుతుంది మరియు VM డేటా (దాని డిస్క్లు, కాన్ఫిగరేషన్ ఫైల్, స్వాప్ ఫైల్ మొదలైనవి) వాటిపై నిల్వ చేయబడుతుంది.
ESXi హోస్ట్ ప్రాథమిక వాల్యూమ్ మరియు దాని ప్రతిరూపాన్ని ఒక డిస్క్ పరికరం (నిల్వ పరికరం)గా చూస్తుంది. ESXi హోస్ట్ నుండి ప్రతి డిస్క్ పరికరానికి 24 మార్గాలు ఉన్నాయి:
12 మార్గాలు దానిని స్థానిక నిల్వ సిస్టమ్కు (ఆప్టిమల్ పాత్లు) మరియు మిగిలిన 12 రిమోట్ స్టోరేజ్ సిస్టమ్కు (నాన్-ఆప్టిమల్ పాత్లు) కనెక్ట్ చేస్తాయి. సాధారణ పరిస్థితిలో, ESXi "ఆప్టిమల్" పాత్లను ఉపయోగించి స్థానిక నిల్వ సిస్టమ్లోని డేటాను యాక్సెస్ చేస్తుంది. ఈ నిల్వ వ్యవస్థ విఫలమైనప్పుడు, ESXi సరైన మార్గాలను కోల్పోతుంది మరియు "నాన్-ఆప్టిమల్" వాటికి మారుతుంది. ఇది రేఖాచిత్రంలో కనిపిస్తుంది.
విపత్తు నిరోధక క్లస్టర్ యొక్క పథకం.
అన్ని క్లయింట్ నెట్వర్క్లు ఉమ్మడి నెట్వర్క్ ఫాబ్రిక్ ద్వారా రెండు సైట్లకు కనెక్ట్ చేయబడ్డాయి. ప్రతి సైట్ ప్రొవైడర్ ఎడ్జ్ (PE)ని అమలు చేస్తుంది, దానిపై క్లయింట్ యొక్క నెట్వర్క్లు నిలిపివేయబడతాయి. PEలు ఒక సాధారణ క్లస్టర్గా ఏకం చేయబడ్డాయి. ఒక సైట్లో PE విఫలమైతే, మొత్తం ట్రాఫిక్ రెండవ సైట్కు మళ్లించబడుతుంది. దీనికి ధన్యవాదాలు, PE లేకుండా మిగిలిపోయిన సైట్ నుండి వర్చువల్ మిషన్లు క్లయింట్కు నెట్వర్క్లో అందుబాటులో ఉంటాయి.
వివిధ వైఫల్యాల సమయంలో క్లయింట్ వర్చువల్ మిషన్లకు ఏమి జరుగుతుందో ఇప్పుడు చూద్దాం. తేలికైన ఎంపికలతో ప్రారంభించండి మరియు అత్యంత తీవ్రమైన - మొత్తం సైట్ యొక్క వైఫల్యంతో ముగించండి. ఉదాహరణలలో, ప్రధాన ప్లాట్ఫారమ్ OST మరియు బ్యాకప్ ప్లాట్ఫారమ్, డేటా ప్రతిరూపాలతో, NORD అవుతుంది.
ఒకవేళ క్లయింట్ వర్చువల్ మెషీన్కు ఏమి జరుగుతుంది...
రెప్లికేషన్ లింక్ విఫలమైంది. రెండు సైట్ల నిల్వ సిస్టమ్ల మధ్య ప్రతిరూపం ఆగిపోతుంది.
ESXi స్థానిక డిస్క్ పరికరాలతో మాత్రమే పని చేస్తుంది (ఆప్టిమల్ పాత్ల ద్వారా).
వర్చువల్ మిషన్లు పని చేస్తూనే ఉన్నాయి.
ISL (ఇంటర్-స్విచ్ లింక్) విచ్ఛిన్నమైంది. కేసు అసంభవం. కొన్ని క్రేజీ ఎక్స్కవేటర్లు ఒకేసారి అనేక ఆప్టికల్ మార్గాలను తవ్వితే తప్ప, అవి స్వతంత్ర మార్గాల్లో నడుస్తాయి మరియు విభిన్న ఇన్పుట్ల ద్వారా సైట్లకు తీసుకురాబడతాయి. కాని ఏదోవిధముగా. ఈ సందర్భంలో, ESXi హోస్ట్లు సగం మార్గాలను కోల్పోతాయి మరియు వాటి స్థానిక నిల్వ సిస్టమ్లను మాత్రమే యాక్సెస్ చేయగలవు. ప్రతిరూపాలు సేకరించబడ్డాయి, కానీ హోస్ట్లు వాటిని యాక్సెస్ చేయలేరు.
వర్చువల్ మిషన్లు సాధారణంగా పని చేస్తున్నాయి.
SAN స్విచ్ ఒక సైట్లో విఫలమైంది. ESXi హోస్ట్లు స్టోరేజ్ సిస్టమ్కు కొన్ని మార్గాలను కోల్పోతాయి. ఈ సందర్భంలో, స్విచ్ విఫలమైన సైట్లోని హోస్ట్లు వారి HBAలలో ఒకదాని ద్వారా మాత్రమే పని చేస్తాయి.
వర్చువల్ మిషన్లు సాధారణంగా పని చేస్తూనే ఉంటాయి.
ఒక సైట్లోని అన్ని SAN స్విచ్లు విఫలమవుతాయి. OST సైట్లో అలాంటి విపత్తు జరిగిందని చెప్పండి. ఈ సందర్భంలో, ఈ సైట్లోని ESXi హోస్ట్లు వారి డిస్క్ పరికరాలకు అన్ని మార్గాలను కోల్పోతాయి. ప్రామాణిక VMware vSphere HA మెకానిజం అమలులోకి వస్తుంది: ఇది గరిష్టంగా 140 సెకన్లలో NORDలోని OST సైట్ యొక్క అన్ని వర్చువల్ మిషన్లను పునఃప్రారంభిస్తుంది.
NORD సైట్ హోస్ట్లలో నడుస్తున్న వర్చువల్ మెషీన్లు సాధారణంగా పనిచేస్తాయి.
ESXi హోస్ట్ ఒక సైట్లో విఫలమైంది. ఇక్కడ vSphere HA మెకానిజం మళ్లీ పని చేస్తుంది: విఫలమైన హోస్ట్ నుండి వర్చువల్ మిషన్లు ఇతర హోస్ట్లలో - అదే లేదా రిమోట్ సైట్లో పునఃప్రారంభించబడతాయి. వర్చువల్ మెషీన్ పునఃప్రారంభ సమయం 1 నిమిషం వరకు ఉంటుంది.
OST సైట్లోని అన్ని ESXi హోస్ట్లు విఫలమైతే, ఎంపికలు లేవు: VMలు మరొకదానిలో పునఃప్రారంభించబడతాయి. పునఃప్రారంభ సమయం అదే.
ఒక సైట్లో స్టోరేజ్ సిస్టమ్ విఫలమైంది. OST సైట్లో స్టోరేజ్ సిస్టమ్ విఫలమైందని అనుకుందాం. అప్పుడు OST సైట్ యొక్క ESXi హోస్ట్లు NORDలోని నిల్వ ప్రతిరూపాలతో పని చేయడానికి మారతాయి. విఫలమైన నిల్వ సిస్టమ్ సేవకు తిరిగి వచ్చిన తర్వాత, బలవంతంగా ప్రతిరూపణ జరుగుతుంది మరియు ESXi OST హోస్ట్లు మళ్లీ స్థానిక నిల్వ సిస్టమ్ను యాక్సెస్ చేయడం ప్రారంభిస్తాయి.
ఈ సమయంలో వర్చువల్ మిషన్లు సాధారణంగా పని చేస్తున్నాయి.
సైట్లలో ఒకటి విఫలమైంది. ఈ సందర్భంలో, అన్ని వర్చువల్ మిషన్లు vSphere HA మెకానిజం ద్వారా బ్యాకప్ సైట్లో పునఃప్రారంభించబడతాయి. VM పునఃప్రారంభ సమయం 140 సెకన్లు. ఈ సందర్భంలో, వర్చువల్ మెషీన్ యొక్క అన్ని నెట్వర్క్ సెట్టింగ్లు సేవ్ చేయబడతాయి మరియు ఇది నెట్వర్క్లో క్లయింట్కు అందుబాటులో ఉంటుంది.
బ్యాకప్ సైట్లో మెషీన్ల పునఃప్రారంభం సజావుగా సాగుతుందని నిర్ధారించడానికి, ప్రతి సైట్ సగం మాత్రమే నిండింది. అన్ని వర్చువల్ మిషన్లు రెండవ, దెబ్బతిన్న సైట్ నుండి తరలించబడిన సందర్భంలో రెండవ సగం రిజర్వ్ అవుతుంది.
రెండు డేటా సెంటర్లపై ఆధారపడిన విపత్తు-నిరోధక క్లౌడ్ అటువంటి వైఫల్యాల నుండి రక్షిస్తుంది.
ఈ ఆనందం చౌక కాదు, ఎందుకంటే, ప్రధాన వనరులతో పాటు, రెండవ సైట్లో రిజర్వ్ అవసరం. అందువల్ల, వ్యాపార-క్లిష్టమైన సేవలు అటువంటి క్లౌడ్లో ఉంచబడతాయి, దీని యొక్క దీర్ఘకాలిక పనికిరాని సమయం పెద్ద ఆర్థిక మరియు కీర్తి నష్టాలకు కారణమవుతుంది లేదా సమాచార వ్యవస్థ నియంత్రణదారులు లేదా అంతర్గత కంపెనీ నిబంధనల నుండి విపత్తు-తట్టుకునే అవసరాలకు లోబడి ఉంటే.