
హలో, హబ్ర్ పాఠకులు! గత వ్యాసంలో, మేము AERODISK ఇంజిన్ నిల్వ వ్యవస్థలలో విపత్తు రికవరీ యొక్క సాధారణ సాధనం గురించి మాట్లాడాము - ప్రతిరూపం. ఈ కథనంలో, మేము మరింత సంక్లిష్టమైన మరియు ఆసక్తికరమైన అంశంలోకి ప్రవేశిస్తాము - మెట్రోక్లస్టర్, అంటే రెండు డేటా సెంటర్లకు ఆటోమేటెడ్ డిజాస్టర్ ప్రొటెక్షన్ సాధనం, డేటా సెంటర్లు యాక్టివ్-యాక్టివ్ మోడ్లో పనిచేయడానికి వీలు కల్పిస్తుంది. మేము మీకు చెప్తాము, మీకు చూపుతాము, దానిని విచ్ఛిన్నం చేస్తాము మరియు సరిదిద్దాము.
ఎప్పటిలాగే, మొదట సిద్ధాంతం
మెట్రోక్లస్టర్ అనేది నగరం లేదా ప్రాంతంలోని అనేక సైట్లలో విస్తరించి ఉన్న క్లస్టర్. "క్లస్టర్" అనే పదం కాంప్లెక్స్ స్వయంచాలకంగా ఉందని మాకు స్పష్టంగా సూచిస్తుంది, అనగా, వైఫల్యాల సందర్భంలో క్లస్టర్ నోడ్లను మార్చడం స్వయంచాలకంగా జరుగుతుంది.
ఇక్కడే మెట్రోక్లస్టర్ మరియు రెగ్యులర్ రెప్లికేషన్ మధ్య ప్రధాన వ్యత్యాసం ఉంటుంది. కార్యకలాపాల ఆటోమేషన్. అంటే, కొన్ని సంఘటనలు (డేటా సెంటర్ వైఫల్యం, విరిగిన ఛానెల్లు మొదలైనవి) సంభవించినప్పుడు, డేటా లభ్యతను కొనసాగించడానికి నిల్వ వ్యవస్థ స్వతంత్రంగా అవసరమైన చర్యలను నిర్వహిస్తుంది. సాధారణ ప్రతిరూపాలను ఉపయోగిస్తున్నప్పుడు, ఈ చర్యలు నిర్వాహకునిచే పూర్తిగా లేదా పాక్షికంగా మానవీయంగా నిర్వహించబడతాయి.
ఇది దేనికి?
నిర్దిష్ట మెట్రోక్లస్టర్ అమలులను ఉపయోగిస్తున్నప్పుడు కస్టమర్లు అనుసరించే ప్రధాన లక్ష్యం RTO (రికవరీ టైమ్ ఆబ్జెక్టివ్)ని తగ్గించడం. అంటే, వైఫల్యం తర్వాత IT సేవల రికవరీ సమయాన్ని తగ్గించడం. మీరు రెగ్యులర్ రెప్లికేషన్ని ఉపయోగిస్తే, మెట్రోక్లస్టర్తో రికవరీ సమయం కంటే రికవరీ సమయం ఎల్లప్పుడూ ఎక్కువగా ఉంటుంది. ఎందుకు? చాలా సింపుల్. అడ్మినిస్ట్రేటర్ తన డెస్క్ వద్ద ఉండాలి మరియు ప్రతిరూపణను మాన్యువల్గా మార్చుకోవాలి మరియు మెట్రోక్లస్టర్ దీన్ని స్వయంచాలకంగా చేస్తుంది.
మీకు విధి నిర్వహణలో అంకితమైన నిర్వాహకుడు లేకుంటే, అతను నిద్రపోని, తినని, పొగ త్రాగని లేదా అనారోగ్యానికి గురికాని, మరియు స్టోరేజీ సిస్టమ్ స్థితిని రోజుకు 24 గంటలు గమనిస్తే, నిర్వాహకుడు హామీ ఇవ్వడానికి మార్గం లేదు. వైఫల్యం సమయంలో మాన్యువల్ మార్పిడి కోసం అందుబాటులో ఉంటుంది.
దీని ప్రకారం, అడ్మినిస్ట్రేటర్ డ్యూటీ సర్వీస్ యొక్క 99వ స్థాయి మెట్రోక్లస్టర్ లేదా అమర నిర్వాహకుడు లేనప్పుడు RTO అన్ని సిస్టమ్ల మారే సమయం మొత్తానికి సమానంగా ఉంటుంది మరియు నిర్వాహకుడు పని చేయడం ప్రారంభించాలని హామీ ఇచ్చిన గరిష్ట వ్యవధికి సమానంగా ఉంటుంది. నిల్వ వ్యవస్థలు మరియు సంబంధిత వ్యవస్థలతో.
ఈ విధంగా, RTO కోసం నిమిషాలు లేదా రోజులు కాకుండా, అత్యంత దారుణమైన డేటా సెంటర్ వైఫల్యం సంభవించినప్పుడు, IT డిపార్ట్మెంట్ తప్పనిసరిగా వ్యాపారాన్ని అందించాలి నిమిషాల్లో లేదా సెకన్లలో IT సేవలకు ప్రాప్యతను పునరుద్ధరించడానికి.
అది ఎలా పనిచేస్తుంది?
దిగువ స్థాయిలో, మెట్రోక్లస్టర్ సింక్రోనస్ డేటా రెప్లికేషన్ కోసం ఒక మెకానిజంను ఉపయోగిస్తుంది, దీనిని మేము మునుపటి కథనంలో వివరించాము (చూడండి. ) ప్రతిరూపణ సమకాలీకరించబడినందున, దాని అవసరాలు సంబంధితంగా ఉంటాయి లేదా బదులుగా:
- భౌతిక శాస్త్రంగా ఆప్టికల్ ఫైబర్, 10 గిగాబిట్ ఈథర్నెట్ (లేదా అంతకంటే ఎక్కువ);
- డేటా కేంద్రాల మధ్య దూరం 40 కిలోమీటర్ల కంటే ఎక్కువ కాదు;
- డేటా కేంద్రాల మధ్య (స్టోరేజ్ సిస్టమ్ల మధ్య) ఆప్టికల్ ఛానెల్ ఆలస్యం 5 మిల్లీసెకన్ల వరకు ఉంటుంది (అత్యుత్తమంగా 2).
ఈ అవసరాలన్నీ ప్రకృతిలో సలహాదారుగా ఉంటాయి, అంటే, ఈ అవసరాలు తీర్చబడనప్పటికీ మెట్రోక్లస్టర్ పని చేస్తుంది, అయితే ఈ అవసరాలకు అనుగుణంగా లేని పరిణామాలు రెండు నిల్వ వ్యవస్థల పనితీరులో మందగమనానికి సమానమని మనం అర్థం చేసుకోవాలి. మెట్రోక్లస్టర్.
కాబట్టి, స్టోరేజ్ సిస్టమ్ల మధ్య డేటాను బదిలీ చేయడానికి సింక్రోనస్ రెప్లికా ఉపయోగించబడుతుంది మరియు ప్రతిరూపాలు స్వయంచాలకంగా ఎలా మారుతాయి మరియు ముఖ్యంగా స్ప్లిట్-మెదడును ఎలా నివారించాలి? దీన్ని చేయడానికి, అధిక స్థాయిలో, ఒక అదనపు ఎంటిటీ ఉపయోగించబడుతుంది - ఒక మధ్యవర్తి.
మధ్యవర్తి ఎలా పని చేస్తాడు మరియు అతని పని ఏమిటి?
ఆర్బిటర్ అనేది ఒక చిన్న వర్చువల్ మెషీన్ లేదా హార్డ్వేర్ క్లస్టర్, ఇది తప్పనిసరిగా మూడవ సైట్లో (ఉదాహరణకు, కార్యాలయంలో) ప్రారంభించబడాలి మరియు ICMP మరియు SSH ద్వారా నిల్వ సిస్టమ్కు యాక్సెస్ను అందించాలి. ప్రారంభించిన తర్వాత, మధ్యవర్తి IPని సెట్ చేయాలి, ఆపై నిల్వ వైపు నుండి దాని చిరునామాను సూచించాలి మరియు మెట్రోక్లస్టర్లో పాల్గొనే రిమోట్ కంట్రోలర్ల చిరునామాలను సూచించాలి. దీని తరువాత, రిఫరీ పని చేయడానికి సిద్ధంగా ఉన్నాడు.
మెట్రోక్లస్టర్లోని అన్ని నిల్వ వ్యవస్థలను మధ్యవర్తి నిరంతరం పర్యవేక్షిస్తాడు మరియు నిర్దిష్ట నిల్వ వ్యవస్థ అందుబాటులో లేకుంటే, క్లస్టర్లోని మరొక సభ్యుడు (“లైవ్” స్టోరేజ్ సిస్టమ్లలో ఒకటి) నుండి లభ్యతను నిర్ధారించిన తర్వాత, అతను ప్రతిరూపణ నియమాలను మార్చే విధానాన్ని ప్రారంభించాలని నిర్ణయించుకుంటాడు. మరియు మ్యాపింగ్.
చాలా ముఖ్యమైన అంశం. ఆర్బిట్రేటర్ ఎల్లప్పుడూ స్టోరేజ్ సిస్టమ్లు ఉన్న వాటి కంటే భిన్నమైన సైట్లో ఉండాలి, అంటే స్టోరేజ్ సిస్టమ్ 1 ఇన్స్టాల్ చేయబడిన డేటా సెంటర్ 1లో లేదా స్టోరేజ్ సిస్టమ్ 2 ఇన్స్టాల్ చేయబడిన డేటా సెంటర్ 2లో ఉండకూడదు.
ఎందుకు? ఎందుకంటే, మధ్యవర్తి మనుగడలో ఉన్న నిల్వ సిస్టమ్లలో ఒకదాని సహాయంతో, నిల్వ సిస్టమ్లు ఇన్స్టాల్ చేయబడిన రెండు సైట్లలో ఏదైనా పతనాన్ని నిస్సందేహంగా మరియు ఖచ్చితంగా నిర్ణయించగల ఏకైక మార్గం ఇది. ఆర్బిటర్ను ఉంచే ఏవైనా ఇతర పద్ధతులు మెదడు విభజనకు దారితీయవచ్చు.
ఇప్పుడు మధ్యవర్తి పని వివరాలలోకి ప్రవేశిద్దాం.
అన్ని స్టోరేజ్ కంట్రోలర్లను నిరంతరం పోల్ చేసే అనేక సేవలను ఆర్బిటర్ నడుపుతాడు. పోల్ ఫలితం మునుపటి దానికంటే భిన్నంగా ఉంటే (అందుబాటులో ఉంది/అందుబాటులో లేదు), అప్పుడు అది చిన్న డేటాబేస్లో రికార్డ్ చేయబడుతుంది, ఇది ఆర్బిటర్లో కూడా పని చేస్తుంది.
మధ్యవర్తి పని యొక్క తర్కాన్ని మరింత వివరంగా చూద్దాం.
దశ 1: లభ్యతను గుర్తించండి. స్టోరేజ్ సిస్టమ్ ఫెయిల్యూర్ ఈవెంట్ అంటే 5 సెకన్లలోపు ఒకే స్టోరేజ్ సిస్టమ్లోని రెండు కంట్రోలర్ల నుండి పింగ్ లేకపోవడం.
దశ 2. మారే విధానాన్ని ప్రారంభించండి. స్టోరేజ్ సిస్టమ్లలో ఒకటి అందుబాటులో లేదని ఆర్బిటర్ గ్రహించిన తర్వాత, "డెడ్" స్టోరేజ్ సిస్టమ్ నిజంగా డెడ్ అయిందని నిర్ధారించుకోవడానికి అతను "లైవ్" స్టోరేజ్ సిస్టమ్కి అభ్యర్థనను పంపుతాడు.
మధ్యవర్తి నుండి అటువంటి ఆదేశాన్ని స్వీకరించిన తర్వాత, రెండవ (ప్రత్యక్ష) నిల్వ వ్యవస్థ అదనంగా పడిపోయిన మొదటి నిల్వ వ్యవస్థ యొక్క లభ్యతను తనిఖీ చేస్తుంది మరియు అది లేనట్లయితే, అతని అంచనా యొక్క మధ్యవర్తికి నిర్ధారణను పంపుతుంది. నిల్వ వ్యవస్థ వాస్తవానికి అందుబాటులో లేదు.
అటువంటి ధృవీకరణను స్వీకరించిన తర్వాత, పడిపోయిన నిల్వ సిస్టమ్లో సక్రియంగా ఉన్న (ప్రాధమిక) ప్రతిరూపాలపై ప్రతిరూపణను మార్చడం మరియు మ్యాపింగ్ను పెంచడం కోసం మధ్యవర్తి రిమోట్ విధానాన్ని ప్రారంభిస్తాడు మరియు ఈ ప్రతిరూపాలను సెకండరీ నుండి ప్రైమరీకి మార్చడానికి రెండవ నిల్వ సిస్టమ్కు ఆదేశాన్ని పంపుతాడు మరియు మ్యాపింగ్ పెంచండి. బాగా, రెండవ నిల్వ వ్యవస్థ, తదనుగుణంగా, ఈ విధానాలను నిర్వహిస్తుంది, ఆపై కోల్పోయిన LUNలకు దాని నుండి యాక్సెస్ను అందిస్తుంది.
అదనపు ధృవీకరణ ఎందుకు అవసరం? కోరం కోసం. అంటే, క్లస్టర్ సభ్యుల మొత్తం బేసి (3) సంఖ్యలో ఎక్కువ భాగం క్లస్టర్ నోడ్లలో ఒకదాని పతనాన్ని నిర్ధారించాలి. అప్పుడే ఈ నిర్ణయం కచ్చితంగా కరెక్ట్ అవుతుంది. తప్పుడు మార్పిడిని నివారించడానికి మరియు తదనుగుణంగా, స్ప్లిట్-మెదడును నివారించడానికి ఇది అవసరం.
సమయం దశ 2కి దాదాపు 5 - 10 సెకన్లు పడుతుంది, అందుచేత, లభ్యతను (5 సెకన్లు) గుర్తించడానికి అవసరమైన సమయాన్ని పరిగణనలోకి తీసుకుంటే, ప్రమాదం జరిగిన 10 - 15 సెకన్లలోపు, పడిపోయిన నిల్వ సిస్టమ్ నుండి LUNలు స్వయంచాలకంగా ప్రత్యక్ష ప్రసారంతో పని చేయడానికి అందుబాటులో ఉంటాయి. నిల్వ వ్యవస్థ.
హోస్ట్లతో కనెక్షన్లను కోల్పోకుండా ఉండటానికి, మీరు హోస్ట్లలో టైమ్అవుట్లను సరిగ్గా కాన్ఫిగర్ చేయడానికి కూడా జాగ్రత్త వహించాలి. సిఫార్సు చేసిన గడువు కనీసం 30 సెకన్లు. ఇది విపత్తు సంభవించినప్పుడు లోడ్ మారే సమయంలో స్టోరేజ్ సిస్టమ్కు కనెక్షన్ని విడదీయకుండా హోస్ట్ని నిరోధిస్తుంది మరియు I/O అంతరాయాలు లేవని నిర్ధారించుకోవచ్చు.
ఒక్క క్షణం వేచి ఉండండి, మెట్రోక్లస్టర్తో ప్రతిదీ చాలా బాగుంటే, మనకు రెగ్యులర్ రెప్లికేషన్ ఎందుకు అవసరం?
వాస్తవానికి, ప్రతిదీ అంత సులభం కాదు.
మెట్రోక్లస్టర్ యొక్క లాభాలు మరియు నష్టాలను పరిశీలిద్దాం
కాబట్టి, సాంప్రదాయిక ప్రతిరూపణతో పోలిస్తే మెట్రోక్లస్టర్ యొక్క స్పష్టమైన ప్రయోజనాలు:
- పూర్తి ఆటోమేషన్, విపత్తు సంభవించినప్పుడు కనీస పునరుద్ధరణ సమయాన్ని నిర్ధారిస్తుంది;
- అంతే :-).
మరియు ఇప్పుడు, శ్రద్ధ, నష్టాలు:
- పరిష్కారం ఖర్చు. ఏరోడిస్క్ సిస్టమ్స్లోని మెట్రోక్లస్టర్కు అదనపు లైసెన్సింగ్ అవసరం లేనప్పటికీ (ప్రతిరూపానికి అదే లైసెన్స్ ఉపయోగించబడుతుంది), సింక్రోనస్ రెప్లికేషన్ను ఉపయోగించడం కంటే పరిష్కారం యొక్క ధర ఇంకా ఎక్కువగా ఉంటుంది. మీరు సమకాలిక ప్రతిరూపం కోసం అన్ని అవసరాలను అమలు చేయాలి, అదనంగా అదనపు మార్పిడి మరియు అదనపు సైట్తో అనుబంధించబడిన మెట్రోక్లస్టర్ అవసరాలు (మెట్రోక్లస్టర్ ప్లానింగ్ చూడండి);
- పరిష్కారం యొక్క సంక్లిష్టత. మెట్రోక్లస్టర్ సాధారణ ప్రతిరూపం కంటే చాలా క్లిష్టంగా ఉంటుంది మరియు ప్రణాళిక, కాన్ఫిగరేషన్ మరియు డాక్యుమెంటేషన్ కోసం ఎక్కువ శ్రద్ధ మరియు కృషి అవసరం.
చివరికి. మీరు నిజంగా సెకన్లు లేదా నిమిషాల్లో RTOని అందించాల్సిన అవసరం వచ్చినప్పుడు మెట్రోక్లస్టర్ ఖచ్చితంగా చాలా సాంకేతికంగా అభివృద్ధి చెందినది మరియు మంచి పరిష్కారం. కానీ అలాంటి పని లేనట్లయితే, మరియు గంటలలో RTO వ్యాపారం కోసం సరే, అప్పుడు ఫిరంగి నుండి పిచ్చుకలను కాల్చడంలో అర్థం లేదు. సాధారణ కార్మిక-రైతు ప్రతిరూపం సరిపోతుంది, ఎందుకంటే మెట్రో క్లస్టర్ అదనపు ఖర్చులు మరియు IT మౌలిక సదుపాయాల సంక్లిష్టతను కలిగిస్తుంది.
మెట్రోక్లస్టర్ ప్రణాళిక
ఈ విభాగం మెట్రోక్లస్టర్ రూపకల్పనకు సమగ్ర మార్గదర్శిగా క్లెయిమ్ చేయదు, కానీ మీరు అటువంటి వ్యవస్థను నిర్మించాలని నిర్ణయించుకుంటే పని చేయవలసిన ప్రధాన దిశలను మాత్రమే చూపుతుంది. కాబట్టి, వాస్తవానికి మెట్రోక్లస్టర్ని అమలు చేస్తున్నప్పుడు, సంప్రదింపుల కోసం స్టోరేజ్ సిస్టమ్ తయారీదారు (అంటే, మేము) మరియు ఇతర సంబంధిత సిస్టమ్లను కలిగి ఉండేలా చూసుకోండి.
వేదికలు
పైన పేర్కొన్న విధంగా, మెట్రోక్లస్టర్కు కనీసం మూడు సైట్లు అవసరం. స్టోరేజ్ సిస్టమ్లు మరియు సంబంధిత సిస్టమ్లు పనిచేసే రెండు డేటా సెంటర్లు, అలాగే ఆర్బిట్రేటర్ పని చేసే మూడవ సైట్.
డేటా కేంద్రాల మధ్య సిఫార్సు చేయబడిన దూరం 40 కిలోమీటర్ల కంటే ఎక్కువ కాదు. ఒక పెద్ద దూరం అదనపు జాప్యాలకు కారణమవుతుంది, ఇది మెట్రోక్లస్టర్ విషయంలో చాలా అవాంఛనీయమైనది. ఆలస్యం 5 మిల్లీసెకన్ల వరకు ఉండాలని మీకు గుర్తు చేద్దాం, అయితే వాటిని 2లోపు ఉంచడం మంచిది.
ప్రణాళికా ప్రక్రియలో కూడా జాప్యాలను తనిఖీ చేయాలని సిఫార్సు చేయబడింది. డేటా కేంద్రాల మధ్య ఆప్టికల్ ఫైబర్ను అందించే ఏదైనా ఎక్కువ లేదా తక్కువ పరిపక్వ ప్రొవైడర్ చాలా త్వరగా నాణ్యత తనిఖీని నిర్వహించగలదు.
మధ్యవర్తి ముందు ఆలస్యాల విషయంలో (అంటే, మూడవ సైట్ మరియు మొదటి రెండు మధ్య), సిఫార్సు చేసిన ఆలస్యం థ్రెషోల్డ్ 200 మిల్లీసెకన్ల వరకు ఉంటుంది, అంటే ఇంటర్నెట్లో సాధారణ కార్పొరేట్ VPN కనెక్షన్ అనుకూలంగా ఉంటుంది.
మారడం మరియు నెట్వర్కింగ్
రెప్లికేషన్ స్కీమ్ కాకుండా, వివిధ సైట్ల నుండి స్టోరేజ్ సిస్టమ్లను కనెక్ట్ చేయడం సరిపోతుంది, మెట్రోక్లస్టర్ స్కీమ్కు వేర్వేరు సైట్లలోని రెండు స్టోరేజ్ సిస్టమ్లతో హోస్ట్లను కనెక్ట్ చేయడం అవసరం. తేడా ఏమిటో స్పష్టంగా చెప్పడానికి, రెండు పథకాలు క్రింద చూపబడ్డాయి.


రేఖాచిత్రం నుండి చూడగలిగినట్లుగా, మా సైట్ 1 హోస్ట్లు స్టోరేజ్ సిస్టమ్ 1 మరియు స్టోరేజ్ సిస్టమ్ 2 రెండింటినీ చూస్తాయి. అలాగే, దీనికి విరుద్ధంగా, సైట్ 2 హోస్ట్లు స్టోరేజ్ సిస్టమ్ 2 మరియు స్టోరేజ్ సిస్టమ్ 1 రెండింటినీ చూస్తాయి. అంటే, ప్రతి హోస్ట్ రెండు స్టోరేజ్ సిస్టమ్లను చూస్తుంది. మెట్రోక్లస్టర్ యొక్క ఆపరేషన్ కోసం ఇది ఒక అవసరం.
వాస్తవానికి, ప్రతి హోస్ట్ను ఆప్టికల్ కార్డ్తో మరొక డేటా సెంటర్కు కనెక్ట్ చేయాల్సిన అవసరం లేదు; పోర్ట్లు లేదా త్రాడులు సరిపోవు. ఈ కనెక్షన్లన్నీ తప్పనిసరిగా ఈథర్నెట్ 10G+ లేదా FibreChannel 8G+ స్విచ్ల ద్వారా చేయబడాలి (FC అనేది IO కోసం హోస్ట్లు మరియు స్టోరేజ్ సిస్టమ్లను కనెక్ట్ చేయడం కోసం మాత్రమే, ప్రతిరూపణ ఛానెల్ ప్రస్తుతం IP (ఈథర్నెట్ 10G+) ద్వారా మాత్రమే అందుబాటులో ఉంది.
ఇప్పుడు నెట్వర్క్ టోపోలాజీ గురించి కొన్ని మాటలు. సబ్నెట్ల యొక్క సరైన కాన్ఫిగరేషన్ ఒక ముఖ్యమైన అంశం. కింది రకాల ట్రాఫిక్ కోసం అనేక సబ్నెట్లను వెంటనే నిర్వచించడం అవసరం:
- నిల్వ సిస్టమ్ల మధ్య డేటా సమకాలీకరించబడే రెప్లికేషన్ సబ్నెట్. వాటిలో చాలా ఉండవచ్చు, ఈ సందర్భంలో అది పట్టింపు లేదు, ఇది అన్ని ప్రస్తుత (ఇప్పటికే అమలు చేయబడిన) నెట్వర్క్ టోపోలాజీపై ఆధారపడి ఉంటుంది. వాటిలో రెండు ఉంటే, వాటి మధ్య రూటింగ్ తప్పనిసరిగా కాన్ఫిగర్ చేయబడాలి;
- హోస్ట్లు నిల్వ వనరులను యాక్సెస్ చేసే స్టోరేజ్ సబ్నెట్లు (అది iSCSI అయితే). ప్రతి డేటా సెంటర్లో అటువంటి సబ్నెట్ ఒకటి ఉండాలి;
- కంట్రోల్ సబ్నెట్లు, అంటే మూడు సైట్లలో మూడు రౌటబుల్ సబ్నెట్లు నిల్వ సిస్టమ్లు నిర్వహించబడతాయి మరియు ఆర్బిటర్ కూడా అక్కడే ఉంది.
మేము ఇక్కడ హోస్ట్ వనరులను యాక్సెస్ చేయడానికి సబ్నెట్లను పరిగణించము, ఎందుకంటే అవి టాస్క్లపై ఎక్కువగా ఆధారపడి ఉంటాయి.
విభిన్న ట్రాఫిక్ను వేర్వేరు సబ్నెట్లుగా విభజించడం చాలా ముఖ్యం (I/O నుండి ప్రతిరూపాన్ని వేరు చేయడం చాలా ముఖ్యం), ఎందుకంటే మీరు మొత్తం ట్రాఫిక్ను ఒక “మందపాటి” సబ్నెట్లో మిళితం చేస్తే, ఈ ట్రాఫిక్ని నిర్వహించడం అసాధ్యం, మరియు రెండు డేటా సెంటర్ల పరిస్థితులు ఇప్పటికీ విభిన్న నెట్వర్క్ తాకిడి ఎంపికలకు కారణం కావచ్చు. ఈ వ్యాసం యొక్క ఫ్రేమ్వర్క్లో మేము ఈ సమస్యను లోతుగా పరిశోధించము, ఎందుకంటే మీరు నెట్వర్క్ పరికరాల తయారీదారుల వనరులపై డేటా కేంద్రాల మధ్య విస్తరించిన నెట్వర్క్ను ప్లాన్ చేయడం గురించి చదువుకోవచ్చు, ఇక్కడ ఇది చాలా వివరంగా వివరించబడింది.
ఆర్బిటర్ కాన్ఫిగరేషన్
ICMP మరియు SSH ప్రోటోకాల్ల ద్వారా స్టోరేజ్ సిస్టమ్ యొక్క అన్ని మేనేజ్మెంట్ ఇంటర్ఫేస్లకు ఆర్బిటర్ తప్పనిసరిగా యాక్సెస్ను అందించాలి. మీరు మధ్యవర్తి యొక్క వైఫల్యం గురించి కూడా ఆలోచించాలి. ఇక్కడ ఒక స్వల్పభేదం ఉంది.
ఆర్బిటర్ ఫెయిల్ఓవర్ చాలా అవసరం, కానీ అవసరం లేదు. తప్పు సమయంలో రిఫరీ క్రాష్ అయితే ఏమి జరుగుతుంది?
- సాధారణ రీతిలో మెట్రోక్లస్టర్ యొక్క ఆపరేషన్ మారదు, ఎందుకంటే సాధారణ మోడ్లో మెట్రోక్లస్టర్ యొక్క ఆపరేషన్పై arbtir ఖచ్చితంగా ప్రభావం చూపదు (డేటా సెంటర్ల మధ్య లోడ్ను సకాలంలో మార్చడం దీని పని)
- అంతేకాకుండా, ఒక కారణం లేదా మరొక కారణంగా మధ్యవర్తి పడిపోయి, డేటా సెంటర్లో ప్రమాదానికి గురై “నిద్రపోతే”, అప్పుడు మారడం జరగదు, ఎందుకంటే అవసరమైన స్విచ్చింగ్ ఆదేశాలను ఇవ్వడానికి మరియు కోరమ్ను నిర్వహించడానికి ఎవరూ ఉండరు. ఈ సందర్భంలో, మెట్రోక్లస్టర్ రెప్లికేషన్తో సాధారణ పథకంగా మారుతుంది, ఇది విపత్తు సమయంలో మాన్యువల్గా మారాలి, ఇది RTOను ప్రభావితం చేస్తుంది.
దీని నుండి ఏమి అనుసరిస్తుంది? మీరు నిజంగా కనిష్ట RTOని నిర్ధారించుకోవాల్సిన అవసరం ఉన్నట్లయితే, మధ్యవర్తి తప్పును సహించగలరని మీరు నిర్ధారించుకోవాలి. దీనికి రెండు ఎంపికలు ఉన్నాయి:
- ఫాల్ట్-టాలరెంట్ హైపర్వైజర్పై ఆర్బిటర్తో వర్చువల్ మెషీన్ను ప్రారంభించండి, అదృష్టవశాత్తూ అడల్ట్ హైపర్వైజర్లందరూ ఫాల్ట్ టాలరెన్స్కు మద్దతు ఇస్తారు;
- మూడవ సైట్లో (సాంప్రదాయ కార్యాలయంలో) మీరు సాధారణ క్లస్టర్ను ఇన్స్టాల్ చేయడానికి చాలా సోమరితనం కలిగి ఉంటే మరియు ఇప్పటికే ఉన్న హైపర్వోజర్ క్లస్టర్ లేనట్లయితే, మేము ఆర్బిటర్ యొక్క హార్డ్వేర్ వెర్షన్ను అందించాము, ఇది 2U బాక్స్లో తయారు చేయబడింది, ఇందులో రెండు సాధారణమైనవి x-86 సర్వర్లు పని చేస్తాయి మరియు ఇది స్థానిక వైఫల్యాన్ని తట్టుకోగలదు.
మెట్రోక్లస్టర్కు సాధారణ మోడ్లో ఇది అవసరం లేనప్పటికీ, మధ్యవర్తి యొక్క తప్పు సహనాన్ని నిర్ధారించాలని మేము గట్టిగా సిఫార్సు చేస్తున్నాము. కానీ థియరీ మరియు ప్రాక్టీస్ రెండూ చూపినట్లుగా, మీరు నిజంగా నమ్మదగిన విపత్తు-నిరోధక మౌలిక సదుపాయాలను నిర్మిస్తే, దాన్ని సురక్షితంగా ప్లే చేయడం మంచిది. మిమ్మల్ని మరియు మీ వ్యాపారాన్ని "నీచత్వం యొక్క చట్టం" నుండి రక్షించుకోవడం మంచిది, అంటే మధ్యవర్తి మరియు నిల్వ వ్యవస్థ ఉన్న సైట్లలో ఒకదాని వైఫల్యం నుండి.
సొల్యూషన్ ఆర్కిటెక్చర్
పైన ఉన్న అవసరాలను పరిశీలిస్తే, మేము క్రింది సాధారణ పరిష్కార నిర్మాణాన్ని పొందుతాము.

తీవ్రమైన ఓవర్లోడ్ను నివారించడానికి LUNలు రెండు సైట్లలో సమానంగా పంపిణీ చేయబడాలి. అదే సమయంలో, రెండు డేటా సెంటర్లలో సైజింగ్ చేసేటప్పుడు, మీరు డబుల్ వాల్యూమ్ (రెండు స్టోరేజ్ సిస్టమ్లలో ఏకకాలంలో డేటాను నిల్వ చేయడానికి ఇది అవసరం) మాత్రమే కాకుండా, అప్లికేషన్ క్షీణతను నివారించడానికి IOPS మరియు MB/sలో డబుల్ పనితీరును కూడా చేర్చాలి. డేటా సెంటర్లలో ఒకదాని వైఫల్యం ov.
విడిగా, పరిమాణానికి సరైన విధానంతో (అంటే, మేము IOPS మరియు MB/s యొక్క సరైన ఎగువ పరిమితులను అందించాము, అలాగే అవసరమైన CPU మరియు RAM వనరులను అందించాము), నిల్వ సిస్టమ్లలో ఒకటి అయితే మెట్రో క్లస్టర్ విఫలమైతే, ఒక స్టోరేజ్ సిస్టమ్లో తాత్కాలికంగా పనిచేసే పరిస్థితుల్లో పనితీరులో తీవ్రమైన తగ్గుదల ఉండదు.
రెండు సైట్లు ఏకకాలంలో పనిచేస్తున్నప్పుడు, ప్రతి లావాదేవీ రెండు స్టోరేజ్ సిస్టమ్లకు (RAID-1/10 లాగానే) వ్రాయబడాలి కాబట్టి, సిన్క్రోనస్ రెప్లికేషన్ రైట్ పనితీరులో సగం “తింటుంది” అనే వాస్తవం ద్వారా ఇది వివరించబడింది. కాబట్టి, స్టోరేజ్ సిస్టమ్లలో ఒకటి విఫలమైతే, రెప్లికేషన్ ప్రభావం తాత్కాలికంగా (విఫలమైన స్టోరేజ్ సిస్టమ్ కోలుకునే వరకు) అదృశ్యమవుతుంది మరియు మేము వ్రాత పనితీరులో రెట్టింపు పెరుగుదలను పొందుతాము. వర్కింగ్ స్టోరేజ్ సిస్టమ్లో విఫలమైన స్టోరేజ్ సిస్టమ్ యొక్క LUNలు పునఃప్రారంభించబడిన తర్వాత, ఇతర స్టోరేజ్ సిస్టమ్ యొక్క LUNల నుండి లోడ్ కనిపించడం వల్ల ఈ రెట్టింపు పెరుగుదల అదృశ్యమవుతుంది మరియు మేము ఇంతకు ముందు ఉన్న అదే స్థాయి పనితీరుకు తిరిగి వస్తాము. "పతనం", కానీ ఒక సైట్ యొక్క ఫ్రేమ్వర్క్లో మాత్రమే.
సమర్ధవంతమైన పరిమాణాన్ని ఉపయోగించి, వినియోగదారులు మొత్తం స్టోరేజ్ సిస్టమ్ యొక్క వైఫల్యాన్ని అనుభవించని పరిస్థితులను మీరు నిర్ధారించవచ్చు. కానీ మేము మరోసారి పునరావృతం చేస్తాము, దీనికి చాలా జాగ్రత్తగా పరిమాణం అవసరం, దీని కోసం, మీరు ఉచితంగా మమ్మల్ని సంప్రదించవచ్చు :-).
మెట్రోక్లస్టర్ను ఏర్పాటు చేస్తోంది
మెట్రోక్లస్టర్ను సెటప్ చేయడం అనేది మేము వివరించిన సాధారణ ప్రతిరూపణను సెటప్ చేయడానికి చాలా పోలి ఉంటుంది . అందువల్ల, తేడాలపై మాత్రమే దృష్టి పెడదాం. మేము పై ఆర్కిటెక్చర్ ఆధారంగా లాబొరేటరీలో ఒక బెంచ్ను ఏర్పాటు చేసాము, కనిష్ట వెర్షన్లో మాత్రమే: 10G ఈథర్నెట్ ద్వారా కనెక్ట్ చేయబడిన రెండు స్టోరేజ్ సిస్టమ్లు, రెండు 10G స్విచ్లు మరియు 10G పోర్ట్లు ఉన్న రెండు స్టోరేజ్ సిస్టమ్లలోని స్విచ్ల ద్వారా చూసే ఒక హోస్ట్. ఆర్బిటర్ వర్చువల్ మెషీన్లో నడుస్తుంది.

ప్రతిరూపం కోసం వర్చువల్ IPలను (VIPలు) కాన్ఫిగర్ చేస్తున్నప్పుడు, మీరు VIP రకాన్ని ఎంచుకోవాలి - మెట్రోక్లస్టర్ కోసం.
మేము రెండు LUNల కోసం రెండు రెప్లికేషన్ లింక్లను సృష్టించాము మరియు వాటిని రెండు స్టోరేజ్ సిస్టమ్లలో పంపిణీ చేసాము: స్టోరేజ్ సిస్టమ్ 1లో LUN టెస్ట్ ప్రైమరీ (METRO లింక్), స్టోరేజ్ సిస్టమ్ 2 కోసం LUN TEST2 ప్రైమరీ (METRO2 లింక్).

వాటి కోసం, మేము రెండు సారూప్య లక్ష్యాలను కాన్ఫిగర్ చేసాము (మా విషయంలో iSCSI, కానీ FC కూడా మద్దతు ఇస్తుంది, సెటప్ లాజిక్ అదే).
నిల్వ వ్యవస్థ1:

నిల్వ వ్యవస్థ2:

ప్రతిరూపణ కనెక్షన్ల కోసం, ప్రతి నిల్వ సిస్టమ్లో మ్యాపింగ్లు చేయబడ్డాయి.
నిల్వ వ్యవస్థ1:

నిల్వ వ్యవస్థ2:

మేము మల్టీపాత్ని సెటప్ చేసి హోస్ట్కి అందించాము.


మధ్యవర్తిని ఏర్పాటు చేస్తోంది
మీరు ఆర్బిటర్తో ప్రత్యేకంగా ఏమీ చేయనవసరం లేదు, మీరు దానిని మూడవ సైట్లో ప్రారంభించాలి మరియు ICMP మరియు SSH ద్వారా దానికి ప్రాప్యతను కాన్ఫిగర్ చేయాలి. సెటప్ కూడా స్టోరేజ్ సిస్టమ్ల నుండే నిర్వహించబడుతుంది. ఈ సందర్భంలో, మెట్రోక్లస్టర్లోని ఏదైనా స్టోరేజ్ కంట్రోలర్లలో ఆర్బిటర్ను ఒకసారి కాన్ఫిగర్ చేస్తే సరిపోతుంది, ఈ సెట్టింగ్లు అన్ని కంట్రోలర్లకు స్వయంచాలకంగా పంపిణీ చేయబడతాయి.
విభాగంలో రిమోట్ రెప్లికేషన్>> మెట్రోక్లస్టర్ (ఏదైనా కంట్రోలర్లో)>> “కాన్ఫిగర్” బటన్.
మేము ఆర్బిటర్ యొక్క IPని, అలాగే రెండు రిమోట్ స్టోరేజ్ కంట్రోలర్ల నియంత్రణ ఇంటర్ఫేస్లను నమోదు చేస్తాము.

దీని తరువాత, మీరు అన్ని సేవలను ప్రారంభించాలి ("అన్నీ పునఃప్రారంభించు" బటన్). భవిష్యత్తులో మళ్లీ కాన్ఫిగర్ చేయబడితే, సెట్టింగ్లు అమలులోకి రావడానికి సేవలు తప్పనిసరిగా పునఃప్రారంభించబడాలి.

మేము అన్ని సేవలు నడుస్తున్నట్లు తనిఖీ చేస్తాము.
ఇది మెట్రోక్లస్టర్ సెటప్ను పూర్తి చేస్తుంది.
క్రాష్ పరీక్ష
ప్రతిరూపణ కార్యాచరణ (స్విచింగ్, స్థిరత్వం మొదలైనవి) చర్చించబడినందున మా విషయంలో క్రాష్ పరీక్ష చాలా సులభం మరియు వేగంగా ఉంటుంది . అందువల్ల, మెట్రోక్లస్టర్ యొక్క విశ్వసనీయతను పరీక్షించడానికి, వైఫల్య గుర్తింపు, స్విచ్చింగ్ మరియు రికార్డింగ్ నష్టాల లేకపోవడం (I/O స్టాప్లు) ఆటోమేషన్ను తనిఖీ చేయడం మాకు సరిపోతుంది.
దీన్ని చేయడానికి, మేము దాని రెండు కంట్రోలర్లను భౌతికంగా ఆఫ్ చేయడం ద్వారా నిల్వ సిస్టమ్లలో ఒకదాని పూర్తి వైఫల్యాన్ని అనుకరిస్తాము, మొదట పెద్ద ఫైల్ను LUNకి కాపీ చేయడం ప్రారంభించాము, అది ఇతర నిల్వ సిస్టమ్లో సక్రియం చేయబడాలి.

ఒక నిల్వ వ్యవస్థను నిలిపివేయండి. రెండవ స్టోరేజ్ సిస్టమ్లో పొరుగు సిస్టమ్తో కనెక్షన్ పోయిందని లాగ్లలో హెచ్చరికలు మరియు సందేశాలను చూస్తాము. SMTP లేదా SNMP పర్యవేక్షణ ద్వారా నోటిఫికేషన్లు కాన్ఫిగర్ చేయబడితే, నిర్వాహకుడు సంబంధిత నోటిఫికేషన్లను స్వీకరిస్తారు.
సరిగ్గా 10 సెకన్ల తర్వాత (రెండు స్క్రీన్షాట్లలో కనిపిస్తుంది), METRO రెప్లికేషన్ కనెక్షన్ (విఫలమైన నిల్వ సిస్టమ్లో ప్రాథమికమైనది) స్వయంచాలకంగా పని చేసే నిల్వ సిస్టమ్లో ప్రాథమికంగా మారింది. ఇప్పటికే ఉన్న మ్యాపింగ్ని ఉపయోగించి, LUN TEST హోస్ట్కు అందుబాటులో ఉంది, రికార్డింగ్ కొద్దిగా తగ్గింది (వాగ్దానం చేసిన 10 శాతంలోపు), కానీ అంతరాయం కలగలేదు.

పరీక్ష విజయవంతంగా పూర్తయింది.
సంగ్రహంగా
AERODISK ఇంజిన్ N-సిరీస్ స్టోరేజ్ సిస్టమ్లలోని మెట్రోక్లస్టర్ యొక్క ప్రస్తుత అమలు, IT సేవల కోసం పనికిరాని సమయాన్ని తొలగించడం లేదా తగ్గించడం మరియు వాటి ఆపరేషన్ 24/7/365 కనీస లేబర్ ఖర్చులతో ఉండేలా చేయడం కోసం అవసరమైన సమస్యలను పరిష్కరించడానికి పూర్తిగా అనుమతిస్తుంది.
వాస్తవానికి, ఇవన్నీ సిద్ధాంతం, ఆదర్శవంతమైన ప్రయోగశాల పరిస్థితులు మరియు మొదలైనవి అని మనం చెప్పగలం... కానీ మేము విపత్తు-తట్టుకునే కార్యాచరణను అమలు చేసిన అనేక అమలు ప్రాజెక్టులను కలిగి ఉన్నాము మరియు వ్యవస్థలు సంపూర్ణంగా పనిచేస్తాయి. డిజాస్టర్ ప్రూఫ్ కాన్ఫిగరేషన్లో కేవలం రెండు స్టోరేజ్ సిస్టమ్లను ఉపయోగించే మా సుప్రసిద్ధ కస్టమర్లలో ఒకరు, ప్రాజెక్ట్ గురించి సమాచారాన్ని ప్రచురించడానికి ఇప్పటికే అంగీకరించారు, కాబట్టి తరువాతి భాగంలో మేము పోరాట అమలు గురించి మాట్లాడుతాము.
ధన్యవాదాలు, మేము ఉత్పాదక చర్చ కోసం ఎదురుచూస్తున్నాము.
మూలం: www.habr.com
