ఏరోడిస్క్ ఇంజిన్: విపత్తు నిరోధకత. పార్ట్ 2. మెట్రోక్లస్టర్

ఏరోడిస్క్ ఇంజిన్: విపత్తు నిరోధకత. పార్ట్ 2. మెట్రోక్లస్టర్

హలో, హబ్ర్ పాఠకులు! గత వ్యాసంలో, మేము AERODISK ఇంజిన్ నిల్వ వ్యవస్థలలో విపత్తు రికవరీ యొక్క సాధారణ సాధనం గురించి మాట్లాడాము - ప్రతిరూపం. ఈ కథనంలో, మేము మరింత సంక్లిష్టమైన మరియు ఆసక్తికరమైన అంశంలోకి ప్రవేశిస్తాము - మెట్రోక్లస్టర్, అంటే రెండు డేటా సెంటర్‌లకు ఆటోమేటెడ్ డిజాస్టర్ ప్రొటెక్షన్ సాధనం, డేటా సెంటర్‌లు యాక్టివ్-యాక్టివ్ మోడ్‌లో పనిచేయడానికి వీలు కల్పిస్తుంది. మేము మీకు చెప్తాము, మీకు చూపుతాము, దానిని విచ్ఛిన్నం చేస్తాము మరియు సరిదిద్దాము.

ఎప్పటిలాగే, మొదట సిద్ధాంతం

మెట్రోక్లస్టర్ అనేది నగరం లేదా ప్రాంతంలోని అనేక సైట్‌లలో విస్తరించి ఉన్న క్లస్టర్. "క్లస్టర్" అనే పదం కాంప్లెక్స్ స్వయంచాలకంగా ఉందని మాకు స్పష్టంగా సూచిస్తుంది, అనగా, వైఫల్యాల సందర్భంలో క్లస్టర్ నోడ్‌లను మార్చడం స్వయంచాలకంగా జరుగుతుంది.

ఇక్కడే మెట్రోక్లస్టర్ మరియు రెగ్యులర్ రెప్లికేషన్ మధ్య ప్రధాన వ్యత్యాసం ఉంటుంది. కార్యకలాపాల ఆటోమేషన్. అంటే, కొన్ని సంఘటనలు (డేటా సెంటర్ వైఫల్యం, విరిగిన ఛానెల్‌లు మొదలైనవి) సంభవించినప్పుడు, డేటా లభ్యతను కొనసాగించడానికి నిల్వ వ్యవస్థ స్వతంత్రంగా అవసరమైన చర్యలను నిర్వహిస్తుంది. సాధారణ ప్రతిరూపాలను ఉపయోగిస్తున్నప్పుడు, ఈ చర్యలు నిర్వాహకునిచే పూర్తిగా లేదా పాక్షికంగా మానవీయంగా నిర్వహించబడతాయి.

ఇది దేనికి?

నిర్దిష్ట మెట్రోక్లస్టర్ అమలులను ఉపయోగిస్తున్నప్పుడు కస్టమర్‌లు అనుసరించే ప్రధాన లక్ష్యం RTO (రికవరీ టైమ్ ఆబ్జెక్టివ్)ని తగ్గించడం. అంటే, వైఫల్యం తర్వాత IT సేవల రికవరీ సమయాన్ని తగ్గించడం. మీరు రెగ్యులర్ రెప్లికేషన్‌ని ఉపయోగిస్తే, మెట్రోక్లస్టర్‌తో రికవరీ సమయం కంటే రికవరీ సమయం ఎల్లప్పుడూ ఎక్కువగా ఉంటుంది. ఎందుకు? చాలా సింపుల్. అడ్మినిస్ట్రేటర్ తన డెస్క్ వద్ద ఉండాలి మరియు ప్రతిరూపణను మాన్యువల్‌గా మార్చుకోవాలి మరియు మెట్రోక్లస్టర్ దీన్ని స్వయంచాలకంగా చేస్తుంది.

మీకు విధి నిర్వహణలో అంకితమైన నిర్వాహకుడు లేకుంటే, అతను నిద్రపోని, తినని, పొగ త్రాగని లేదా అనారోగ్యానికి గురికాని, మరియు స్టోరేజీ సిస్టమ్ స్థితిని రోజుకు 24 గంటలు గమనిస్తే, నిర్వాహకుడు హామీ ఇవ్వడానికి మార్గం లేదు. వైఫల్యం సమయంలో మాన్యువల్ మార్పిడి కోసం అందుబాటులో ఉంటుంది.

దీని ప్రకారం, అడ్మినిస్ట్రేటర్ డ్యూటీ సర్వీస్ యొక్క 99వ స్థాయి మెట్రోక్లస్టర్ లేదా అమర నిర్వాహకుడు లేనప్పుడు RTO అన్ని సిస్టమ్‌ల మారే సమయం మొత్తానికి సమానంగా ఉంటుంది మరియు నిర్వాహకుడు పని చేయడం ప్రారంభించాలని హామీ ఇచ్చిన గరిష్ట వ్యవధికి సమానంగా ఉంటుంది. నిల్వ వ్యవస్థలు మరియు సంబంధిత వ్యవస్థలతో.

ఈ విధంగా, RTO కోసం నిమిషాలు లేదా రోజులు కాకుండా, అత్యంత దారుణమైన డేటా సెంటర్ వైఫల్యం సంభవించినప్పుడు, IT డిపార్ట్‌మెంట్ తప్పనిసరిగా వ్యాపారాన్ని అందించాలి నిమిషాల్లో లేదా సెకన్లలో IT సేవలకు ప్రాప్యతను పునరుద్ధరించడానికి.

అది ఎలా పనిచేస్తుంది?

దిగువ స్థాయిలో, మెట్రోక్లస్టర్ సింక్రోనస్ డేటా రెప్లికేషన్ కోసం ఒక మెకానిజంను ఉపయోగిస్తుంది, దీనిని మేము మునుపటి కథనంలో వివరించాము (చూడండి. ссылка) ప్రతిరూపణ సమకాలీకరించబడినందున, దాని అవసరాలు సంబంధితంగా ఉంటాయి లేదా బదులుగా:

  • భౌతిక శాస్త్రంగా ఆప్టికల్ ఫైబర్, 10 గిగాబిట్ ఈథర్నెట్ (లేదా అంతకంటే ఎక్కువ);
  • డేటా కేంద్రాల మధ్య దూరం 40 కిలోమీటర్ల కంటే ఎక్కువ కాదు;
  • డేటా కేంద్రాల మధ్య (స్టోరేజ్ సిస్టమ్‌ల మధ్య) ఆప్టికల్ ఛానెల్ ఆలస్యం 5 మిల్లీసెకన్ల వరకు ఉంటుంది (అత్యుత్తమంగా 2).

ఈ అవసరాలన్నీ ప్రకృతిలో సలహాదారుగా ఉంటాయి, అంటే, ఈ అవసరాలు తీర్చబడనప్పటికీ మెట్రోక్లస్టర్ పని చేస్తుంది, అయితే ఈ అవసరాలకు అనుగుణంగా లేని పరిణామాలు రెండు నిల్వ వ్యవస్థల పనితీరులో మందగమనానికి సమానమని మనం అర్థం చేసుకోవాలి. మెట్రోక్లస్టర్.

కాబట్టి, స్టోరేజ్ సిస్టమ్‌ల మధ్య డేటాను బదిలీ చేయడానికి సింక్రోనస్ రెప్లికా ఉపయోగించబడుతుంది మరియు ప్రతిరూపాలు స్వయంచాలకంగా ఎలా మారుతాయి మరియు ముఖ్యంగా స్ప్లిట్-మెదడును ఎలా నివారించాలి? దీన్ని చేయడానికి, అధిక స్థాయిలో, ఒక అదనపు ఎంటిటీ ఉపయోగించబడుతుంది - ఒక మధ్యవర్తి.

మధ్యవర్తి ఎలా పని చేస్తాడు మరియు అతని పని ఏమిటి?

ఆర్బిటర్ అనేది ఒక చిన్న వర్చువల్ మెషీన్ లేదా హార్డ్‌వేర్ క్లస్టర్, ఇది తప్పనిసరిగా మూడవ సైట్‌లో (ఉదాహరణకు, కార్యాలయంలో) ప్రారంభించబడాలి మరియు ICMP మరియు SSH ద్వారా నిల్వ సిస్టమ్‌కు యాక్సెస్‌ను అందించాలి. ప్రారంభించిన తర్వాత, మధ్యవర్తి IPని సెట్ చేయాలి, ఆపై నిల్వ వైపు నుండి దాని చిరునామాను సూచించాలి మరియు మెట్రోక్లస్టర్‌లో పాల్గొనే రిమోట్ కంట్రోలర్‌ల చిరునామాలను సూచించాలి. దీని తరువాత, రిఫరీ పని చేయడానికి సిద్ధంగా ఉన్నాడు.

మెట్రోక్లస్టర్‌లోని అన్ని నిల్వ వ్యవస్థలను మధ్యవర్తి నిరంతరం పర్యవేక్షిస్తాడు మరియు నిర్దిష్ట నిల్వ వ్యవస్థ అందుబాటులో లేకుంటే, క్లస్టర్‌లోని మరొక సభ్యుడు (“లైవ్” స్టోరేజ్ సిస్టమ్‌లలో ఒకటి) నుండి లభ్యతను నిర్ధారించిన తర్వాత, అతను ప్రతిరూపణ నియమాలను మార్చే విధానాన్ని ప్రారంభించాలని నిర్ణయించుకుంటాడు. మరియు మ్యాపింగ్.

చాలా ముఖ్యమైన అంశం. ఆర్బిట్రేటర్ ఎల్లప్పుడూ స్టోరేజ్ సిస్టమ్‌లు ఉన్న వాటి కంటే భిన్నమైన సైట్‌లో ఉండాలి, అంటే స్టోరేజ్ సిస్టమ్ 1 ఇన్‌స్టాల్ చేయబడిన డేటా సెంటర్ 1లో లేదా స్టోరేజ్ సిస్టమ్ 2 ఇన్‌స్టాల్ చేయబడిన డేటా సెంటర్ 2లో ఉండకూడదు.

ఎందుకు? ఎందుకంటే, మధ్యవర్తి మనుగడలో ఉన్న నిల్వ సిస్టమ్‌లలో ఒకదాని సహాయంతో, నిల్వ సిస్టమ్‌లు ఇన్‌స్టాల్ చేయబడిన రెండు సైట్‌లలో ఏదైనా పతనాన్ని నిస్సందేహంగా మరియు ఖచ్చితంగా నిర్ణయించగల ఏకైక మార్గం ఇది. ఆర్బిటర్‌ను ఉంచే ఏవైనా ఇతర పద్ధతులు మెదడు విభజనకు దారితీయవచ్చు.

ఇప్పుడు మధ్యవర్తి పని వివరాలలోకి ప్రవేశిద్దాం.

అన్ని స్టోరేజ్ కంట్రోలర్‌లను నిరంతరం పోల్ చేసే అనేక సేవలను ఆర్బిటర్ నడుపుతాడు. పోల్ ఫలితం మునుపటి దానికంటే భిన్నంగా ఉంటే (అందుబాటులో ఉంది/అందుబాటులో లేదు), అప్పుడు అది చిన్న డేటాబేస్‌లో రికార్డ్ చేయబడుతుంది, ఇది ఆర్బిటర్‌లో కూడా పని చేస్తుంది.

మధ్యవర్తి పని యొక్క తర్కాన్ని మరింత వివరంగా చూద్దాం.

దశ 1: లభ్యతను గుర్తించండి. స్టోరేజ్ సిస్టమ్ ఫెయిల్యూర్ ఈవెంట్ అంటే 5 సెకన్లలోపు ఒకే స్టోరేజ్ సిస్టమ్‌లోని రెండు కంట్రోలర్‌ల నుండి పింగ్ లేకపోవడం.

దశ 2. మారే విధానాన్ని ప్రారంభించండి. స్టోరేజ్ సిస్టమ్‌లలో ఒకటి అందుబాటులో లేదని ఆర్బిటర్ గ్రహించిన తర్వాత, "డెడ్" స్టోరేజ్ సిస్టమ్ నిజంగా డెడ్ అయిందని నిర్ధారించుకోవడానికి అతను "లైవ్" స్టోరేజ్ సిస్టమ్‌కి అభ్యర్థనను పంపుతాడు.

మధ్యవర్తి నుండి అటువంటి ఆదేశాన్ని స్వీకరించిన తర్వాత, రెండవ (ప్రత్యక్ష) నిల్వ వ్యవస్థ అదనంగా పడిపోయిన మొదటి నిల్వ వ్యవస్థ యొక్క లభ్యతను తనిఖీ చేస్తుంది మరియు అది లేనట్లయితే, అతని అంచనా యొక్క మధ్యవర్తికి నిర్ధారణను పంపుతుంది. నిల్వ వ్యవస్థ వాస్తవానికి అందుబాటులో లేదు.

అటువంటి ధృవీకరణను స్వీకరించిన తర్వాత, పడిపోయిన నిల్వ సిస్టమ్‌లో సక్రియంగా ఉన్న (ప్రాధమిక) ప్రతిరూపాలపై ప్రతిరూపణను మార్చడం మరియు మ్యాపింగ్‌ను పెంచడం కోసం మధ్యవర్తి రిమోట్ విధానాన్ని ప్రారంభిస్తాడు మరియు ఈ ప్రతిరూపాలను సెకండరీ నుండి ప్రైమరీకి మార్చడానికి రెండవ నిల్వ సిస్టమ్‌కు ఆదేశాన్ని పంపుతాడు మరియు మ్యాపింగ్ పెంచండి. బాగా, రెండవ నిల్వ వ్యవస్థ, తదనుగుణంగా, ఈ విధానాలను నిర్వహిస్తుంది, ఆపై కోల్పోయిన LUNలకు దాని నుండి యాక్సెస్‌ను అందిస్తుంది.

అదనపు ధృవీకరణ ఎందుకు అవసరం? కోరం కోసం. అంటే, క్లస్టర్ సభ్యుల మొత్తం బేసి (3) సంఖ్యలో ఎక్కువ భాగం క్లస్టర్ నోడ్‌లలో ఒకదాని పతనాన్ని నిర్ధారించాలి. అప్పుడే ఈ నిర్ణయం కచ్చితంగా కరెక్ట్ అవుతుంది. తప్పుడు మార్పిడిని నివారించడానికి మరియు తదనుగుణంగా, స్ప్లిట్-మెదడును నివారించడానికి ఇది అవసరం.

సమయం దశ 2కి దాదాపు 5 - 10 సెకన్లు పడుతుంది, అందుచేత, లభ్యతను (5 సెకన్లు) గుర్తించడానికి అవసరమైన సమయాన్ని పరిగణనలోకి తీసుకుంటే, ప్రమాదం జరిగిన 10 - 15 సెకన్లలోపు, పడిపోయిన నిల్వ సిస్టమ్ నుండి LUNలు స్వయంచాలకంగా ప్రత్యక్ష ప్రసారంతో పని చేయడానికి అందుబాటులో ఉంటాయి. నిల్వ వ్యవస్థ.

హోస్ట్‌లతో కనెక్షన్‌లను కోల్పోకుండా ఉండటానికి, మీరు హోస్ట్‌లలో టైమ్‌అవుట్‌లను సరిగ్గా కాన్ఫిగర్ చేయడానికి కూడా జాగ్రత్త వహించాలి. సిఫార్సు చేసిన గడువు కనీసం 30 సెకన్లు. ఇది విపత్తు సంభవించినప్పుడు లోడ్ మారే సమయంలో స్టోరేజ్ సిస్టమ్‌కు కనెక్షన్‌ని విడదీయకుండా హోస్ట్‌ని నిరోధిస్తుంది మరియు I/O అంతరాయాలు లేవని నిర్ధారించుకోవచ్చు.

ఒక్క క్షణం వేచి ఉండండి, మెట్రోక్లస్టర్‌తో ప్రతిదీ చాలా బాగుంటే, మనకు రెగ్యులర్ రెప్లికేషన్ ఎందుకు అవసరం?

వాస్తవానికి, ప్రతిదీ అంత సులభం కాదు.

మెట్రోక్లస్టర్ యొక్క లాభాలు మరియు నష్టాలను పరిశీలిద్దాం

కాబట్టి, సాంప్రదాయిక ప్రతిరూపణతో పోలిస్తే మెట్రోక్లస్టర్ యొక్క స్పష్టమైన ప్రయోజనాలు:

  • పూర్తి ఆటోమేషన్, విపత్తు సంభవించినప్పుడు కనీస పునరుద్ధరణ సమయాన్ని నిర్ధారిస్తుంది;
  • అంతే :-).

మరియు ఇప్పుడు, శ్రద్ధ, నష్టాలు:

  • పరిష్కారం ఖర్చు. ఏరోడిస్క్ సిస్టమ్స్‌లోని మెట్రోక్లస్టర్‌కు అదనపు లైసెన్సింగ్ అవసరం లేనప్పటికీ (ప్రతిరూపానికి అదే లైసెన్స్ ఉపయోగించబడుతుంది), సింక్రోనస్ రెప్లికేషన్‌ను ఉపయోగించడం కంటే పరిష్కారం యొక్క ధర ఇంకా ఎక్కువగా ఉంటుంది. మీరు సమకాలిక ప్రతిరూపం కోసం అన్ని అవసరాలను అమలు చేయాలి, అదనంగా అదనపు మార్పిడి మరియు అదనపు సైట్‌తో అనుబంధించబడిన మెట్రోక్లస్టర్ అవసరాలు (మెట్రోక్లస్టర్ ప్లానింగ్ చూడండి);
  • పరిష్కారం యొక్క సంక్లిష్టత. మెట్రోక్లస్టర్ సాధారణ ప్రతిరూపం కంటే చాలా క్లిష్టంగా ఉంటుంది మరియు ప్రణాళిక, కాన్ఫిగరేషన్ మరియు డాక్యుమెంటేషన్ కోసం ఎక్కువ శ్రద్ధ మరియు కృషి అవసరం.

చివరికి. మీరు నిజంగా సెకన్లు లేదా నిమిషాల్లో RTOని అందించాల్సిన అవసరం వచ్చినప్పుడు మెట్రోక్లస్టర్ ఖచ్చితంగా చాలా సాంకేతికంగా అభివృద్ధి చెందినది మరియు మంచి పరిష్కారం. కానీ అలాంటి పని లేనట్లయితే, మరియు గంటలలో RTO వ్యాపారం కోసం సరే, అప్పుడు ఫిరంగి నుండి పిచ్చుకలను కాల్చడంలో అర్థం లేదు. సాధారణ కార్మిక-రైతు ప్రతిరూపం సరిపోతుంది, ఎందుకంటే మెట్రో క్లస్టర్ అదనపు ఖర్చులు మరియు IT మౌలిక సదుపాయాల సంక్లిష్టతను కలిగిస్తుంది.

మెట్రోక్లస్టర్ ప్రణాళిక

ఈ విభాగం మెట్రోక్లస్టర్ రూపకల్పనకు సమగ్ర మార్గదర్శిగా క్లెయిమ్ చేయదు, కానీ మీరు అటువంటి వ్యవస్థను నిర్మించాలని నిర్ణయించుకుంటే పని చేయవలసిన ప్రధాన దిశలను మాత్రమే చూపుతుంది. కాబట్టి, వాస్తవానికి మెట్రోక్లస్టర్‌ని అమలు చేస్తున్నప్పుడు, సంప్రదింపుల కోసం స్టోరేజ్ సిస్టమ్ తయారీదారు (అంటే, మేము) మరియు ఇతర సంబంధిత సిస్టమ్‌లను కలిగి ఉండేలా చూసుకోండి.

వేదికలు

పైన పేర్కొన్న విధంగా, మెట్రోక్లస్టర్‌కు కనీసం మూడు సైట్‌లు అవసరం. స్టోరేజ్ సిస్టమ్‌లు మరియు సంబంధిత సిస్టమ్‌లు పనిచేసే రెండు డేటా సెంటర్‌లు, అలాగే ఆర్బిట్రేటర్ పని చేసే మూడవ సైట్.

డేటా కేంద్రాల మధ్య సిఫార్సు చేయబడిన దూరం 40 కిలోమీటర్ల కంటే ఎక్కువ కాదు. ఒక పెద్ద దూరం అదనపు జాప్యాలకు కారణమవుతుంది, ఇది మెట్రోక్లస్టర్ విషయంలో చాలా అవాంఛనీయమైనది. ఆలస్యం 5 మిల్లీసెకన్ల వరకు ఉండాలని మీకు గుర్తు చేద్దాం, అయితే వాటిని 2లోపు ఉంచడం మంచిది.

ప్రణాళికా ప్రక్రియలో కూడా జాప్యాలను తనిఖీ చేయాలని సిఫార్సు చేయబడింది. డేటా కేంద్రాల మధ్య ఆప్టికల్ ఫైబర్‌ను అందించే ఏదైనా ఎక్కువ లేదా తక్కువ పరిపక్వ ప్రొవైడర్ చాలా త్వరగా నాణ్యత తనిఖీని నిర్వహించగలదు.

మధ్యవర్తి ముందు ఆలస్యాల విషయంలో (అంటే, మూడవ సైట్ మరియు మొదటి రెండు మధ్య), సిఫార్సు చేసిన ఆలస్యం థ్రెషోల్డ్ 200 మిల్లీసెకన్ల వరకు ఉంటుంది, అంటే ఇంటర్నెట్‌లో సాధారణ కార్పొరేట్ VPN కనెక్షన్ అనుకూలంగా ఉంటుంది.

మారడం మరియు నెట్‌వర్కింగ్

రెప్లికేషన్ స్కీమ్ కాకుండా, వివిధ సైట్‌ల నుండి స్టోరేజ్ సిస్టమ్‌లను కనెక్ట్ చేయడం సరిపోతుంది, మెట్రోక్లస్టర్ స్కీమ్‌కు వేర్వేరు సైట్‌లలోని రెండు స్టోరేజ్ సిస్టమ్‌లతో హోస్ట్‌లను కనెక్ట్ చేయడం అవసరం. తేడా ఏమిటో స్పష్టంగా చెప్పడానికి, రెండు పథకాలు క్రింద చూపబడ్డాయి.

ఏరోడిస్క్ ఇంజిన్: విపత్తు నిరోధకత. పార్ట్ 2. మెట్రోక్లస్టర్

ఏరోడిస్క్ ఇంజిన్: విపత్తు నిరోధకత. పార్ట్ 2. మెట్రోక్లస్టర్

రేఖాచిత్రం నుండి చూడగలిగినట్లుగా, మా సైట్ 1 హోస్ట్‌లు స్టోరేజ్ సిస్టమ్ 1 మరియు స్టోరేజ్ సిస్టమ్ 2 రెండింటినీ చూస్తాయి. అలాగే, దీనికి విరుద్ధంగా, సైట్ 2 హోస్ట్‌లు స్టోరేజ్ సిస్టమ్ 2 మరియు స్టోరేజ్ సిస్టమ్ 1 రెండింటినీ చూస్తాయి. అంటే, ప్రతి హోస్ట్ రెండు స్టోరేజ్ సిస్టమ్‌లను చూస్తుంది. మెట్రోక్లస్టర్ యొక్క ఆపరేషన్ కోసం ఇది ఒక అవసరం.

వాస్తవానికి, ప్రతి హోస్ట్‌ను ఆప్టికల్ కార్డ్‌తో మరొక డేటా సెంటర్‌కు కనెక్ట్ చేయాల్సిన అవసరం లేదు; పోర్ట్‌లు లేదా త్రాడులు సరిపోవు. ఈ కనెక్షన్‌లన్నీ తప్పనిసరిగా ఈథర్‌నెట్ 10G+ లేదా FibreChannel 8G+ స్విచ్‌ల ద్వారా చేయబడాలి (FC అనేది IO కోసం హోస్ట్‌లు మరియు స్టోరేజ్ సిస్టమ్‌లను కనెక్ట్ చేయడం కోసం మాత్రమే, ప్రతిరూపణ ఛానెల్ ప్రస్తుతం IP (ఈథర్నెట్ 10G+) ద్వారా మాత్రమే అందుబాటులో ఉంది.

ఇప్పుడు నెట్‌వర్క్ టోపోలాజీ గురించి కొన్ని మాటలు. సబ్‌నెట్‌ల యొక్క సరైన కాన్ఫిగరేషన్ ఒక ముఖ్యమైన అంశం. కింది రకాల ట్రాఫిక్ కోసం అనేక సబ్‌నెట్‌లను వెంటనే నిర్వచించడం అవసరం:

  • నిల్వ సిస్టమ్‌ల మధ్య డేటా సమకాలీకరించబడే రెప్లికేషన్ సబ్‌నెట్. వాటిలో చాలా ఉండవచ్చు, ఈ సందర్భంలో అది పట్టింపు లేదు, ఇది అన్ని ప్రస్తుత (ఇప్పటికే అమలు చేయబడిన) నెట్వర్క్ టోపోలాజీపై ఆధారపడి ఉంటుంది. వాటిలో రెండు ఉంటే, వాటి మధ్య రూటింగ్ తప్పనిసరిగా కాన్ఫిగర్ చేయబడాలి;
  • హోస్ట్‌లు నిల్వ వనరులను యాక్సెస్ చేసే స్టోరేజ్ సబ్‌నెట్‌లు (అది iSCSI అయితే). ప్రతి డేటా సెంటర్‌లో అటువంటి సబ్‌నెట్ ఒకటి ఉండాలి;
  • కంట్రోల్ సబ్‌నెట్‌లు, అంటే మూడు సైట్‌లలో మూడు రౌటబుల్ సబ్‌నెట్‌లు నిల్వ సిస్టమ్‌లు నిర్వహించబడతాయి మరియు ఆర్బిటర్ కూడా అక్కడే ఉంది.

మేము ఇక్కడ హోస్ట్ వనరులను యాక్సెస్ చేయడానికి సబ్‌నెట్‌లను పరిగణించము, ఎందుకంటే అవి టాస్క్‌లపై ఎక్కువగా ఆధారపడి ఉంటాయి.

విభిన్న ట్రాఫిక్‌ను వేర్వేరు సబ్‌నెట్‌లుగా విభజించడం చాలా ముఖ్యం (I/O నుండి ప్రతిరూపాన్ని వేరు చేయడం చాలా ముఖ్యం), ఎందుకంటే మీరు మొత్తం ట్రాఫిక్‌ను ఒక “మందపాటి” సబ్‌నెట్‌లో మిళితం చేస్తే, ఈ ట్రాఫిక్‌ని నిర్వహించడం అసాధ్యం, మరియు రెండు డేటా సెంటర్ల పరిస్థితులు ఇప్పటికీ విభిన్న నెట్‌వర్క్ తాకిడి ఎంపికలకు కారణం కావచ్చు. ఈ వ్యాసం యొక్క ఫ్రేమ్‌వర్క్‌లో మేము ఈ సమస్యను లోతుగా పరిశోధించము, ఎందుకంటే మీరు నెట్‌వర్క్ పరికరాల తయారీదారుల వనరులపై డేటా కేంద్రాల మధ్య విస్తరించిన నెట్‌వర్క్‌ను ప్లాన్ చేయడం గురించి చదువుకోవచ్చు, ఇక్కడ ఇది చాలా వివరంగా వివరించబడింది.

ఆర్బిటర్ కాన్ఫిగరేషన్

ICMP మరియు SSH ప్రోటోకాల్‌ల ద్వారా స్టోరేజ్ సిస్టమ్ యొక్క అన్ని మేనేజ్‌మెంట్ ఇంటర్‌ఫేస్‌లకు ఆర్బిటర్ తప్పనిసరిగా యాక్సెస్‌ను అందించాలి. మీరు మధ్యవర్తి యొక్క వైఫల్యం గురించి కూడా ఆలోచించాలి. ఇక్కడ ఒక స్వల్పభేదం ఉంది.

ఆర్బిటర్ ఫెయిల్‌ఓవర్ చాలా అవసరం, కానీ అవసరం లేదు. తప్పు సమయంలో రిఫరీ క్రాష్ అయితే ఏమి జరుగుతుంది?

  • సాధారణ రీతిలో మెట్రోక్లస్టర్ యొక్క ఆపరేషన్ మారదు, ఎందుకంటే సాధారణ మోడ్‌లో మెట్రోక్లస్టర్ యొక్క ఆపరేషన్‌పై arbtir ఖచ్చితంగా ప్రభావం చూపదు (డేటా సెంటర్‌ల మధ్య లోడ్‌ను సకాలంలో మార్చడం దీని పని)
  • అంతేకాకుండా, ఒక కారణం లేదా మరొక కారణంగా మధ్యవర్తి పడిపోయి, డేటా సెంటర్‌లో ప్రమాదానికి గురై “నిద్రపోతే”, అప్పుడు మారడం జరగదు, ఎందుకంటే అవసరమైన స్విచ్చింగ్ ఆదేశాలను ఇవ్వడానికి మరియు కోరమ్‌ను నిర్వహించడానికి ఎవరూ ఉండరు. ఈ సందర్భంలో, మెట్రోక్లస్టర్ రెప్లికేషన్‌తో సాధారణ పథకంగా మారుతుంది, ఇది విపత్తు సమయంలో మాన్యువల్‌గా మారాలి, ఇది RTOను ప్రభావితం చేస్తుంది.

దీని నుండి ఏమి అనుసరిస్తుంది? మీరు నిజంగా కనిష్ట RTOని నిర్ధారించుకోవాల్సిన అవసరం ఉన్నట్లయితే, మధ్యవర్తి తప్పును సహించగలరని మీరు నిర్ధారించుకోవాలి. దీనికి రెండు ఎంపికలు ఉన్నాయి:

  • ఫాల్ట్-టాలరెంట్ హైపర్‌వైజర్‌పై ఆర్బిటర్‌తో వర్చువల్ మెషీన్‌ను ప్రారంభించండి, అదృష్టవశాత్తూ అడల్ట్ హైపర్‌వైజర్‌లందరూ ఫాల్ట్ టాలరెన్స్‌కు మద్దతు ఇస్తారు;
  • మూడవ సైట్‌లో (సాంప్రదాయ కార్యాలయంలో) మీరు సాధారణ క్లస్టర్‌ను ఇన్‌స్టాల్ చేయడానికి చాలా సోమరితనం కలిగి ఉంటే మరియు ఇప్పటికే ఉన్న హైపర్‌వోజర్ క్లస్టర్ లేనట్లయితే, మేము ఆర్బిటర్ యొక్క హార్డ్‌వేర్ వెర్షన్‌ను అందించాము, ఇది 2U బాక్స్‌లో తయారు చేయబడింది, ఇందులో రెండు సాధారణమైనవి x-86 సర్వర్లు పని చేస్తాయి మరియు ఇది స్థానిక వైఫల్యాన్ని తట్టుకోగలదు.

మెట్రోక్లస్టర్‌కు సాధారణ మోడ్‌లో ఇది అవసరం లేనప్పటికీ, మధ్యవర్తి యొక్క తప్పు సహనాన్ని నిర్ధారించాలని మేము గట్టిగా సిఫార్సు చేస్తున్నాము. కానీ థియరీ మరియు ప్రాక్టీస్ రెండూ చూపినట్లుగా, మీరు నిజంగా నమ్మదగిన విపత్తు-నిరోధక మౌలిక సదుపాయాలను నిర్మిస్తే, దాన్ని సురక్షితంగా ప్లే చేయడం మంచిది. మిమ్మల్ని మరియు మీ వ్యాపారాన్ని "నీచత్వం యొక్క చట్టం" నుండి రక్షించుకోవడం మంచిది, అంటే మధ్యవర్తి మరియు నిల్వ వ్యవస్థ ఉన్న సైట్‌లలో ఒకదాని వైఫల్యం నుండి.

సొల్యూషన్ ఆర్కిటెక్చర్

పైన ఉన్న అవసరాలను పరిశీలిస్తే, మేము క్రింది సాధారణ పరిష్కార నిర్మాణాన్ని పొందుతాము.

ఏరోడిస్క్ ఇంజిన్: విపత్తు నిరోధకత. పార్ట్ 2. మెట్రోక్లస్టర్

తీవ్రమైన ఓవర్‌లోడ్‌ను నివారించడానికి LUNలు రెండు సైట్‌లలో సమానంగా పంపిణీ చేయబడాలి. అదే సమయంలో, రెండు డేటా సెంటర్లలో సైజింగ్ చేసేటప్పుడు, మీరు డబుల్ వాల్యూమ్ (రెండు స్టోరేజ్ సిస్టమ్‌లలో ఏకకాలంలో డేటాను నిల్వ చేయడానికి ఇది అవసరం) మాత్రమే కాకుండా, అప్లికేషన్ క్షీణతను నివారించడానికి IOPS మరియు MB/sలో డబుల్ పనితీరును కూడా చేర్చాలి. డేటా సెంటర్లలో ఒకదాని వైఫల్యం ov.

విడిగా, పరిమాణానికి సరైన విధానంతో (అంటే, మేము IOPS మరియు MB/s యొక్క సరైన ఎగువ పరిమితులను అందించాము, అలాగే అవసరమైన CPU మరియు RAM వనరులను అందించాము), నిల్వ సిస్టమ్‌లలో ఒకటి అయితే మెట్రో క్లస్టర్ విఫలమైతే, ఒక స్టోరేజ్ సిస్టమ్‌లో తాత్కాలికంగా పనిచేసే పరిస్థితుల్లో పనితీరులో తీవ్రమైన తగ్గుదల ఉండదు.

రెండు సైట్‌లు ఏకకాలంలో పనిచేస్తున్నప్పుడు, ప్రతి లావాదేవీ రెండు స్టోరేజ్ సిస్టమ్‌లకు (RAID-1/10 లాగానే) వ్రాయబడాలి కాబట్టి, సిన్క్రోనస్ రెప్లికేషన్ రైట్ పనితీరులో సగం “తింటుంది” అనే వాస్తవం ద్వారా ఇది వివరించబడింది. కాబట్టి, స్టోరేజ్ సిస్టమ్‌లలో ఒకటి విఫలమైతే, రెప్లికేషన్ ప్రభావం తాత్కాలికంగా (విఫలమైన స్టోరేజ్ సిస్టమ్ కోలుకునే వరకు) అదృశ్యమవుతుంది మరియు మేము వ్రాత పనితీరులో రెట్టింపు పెరుగుదలను పొందుతాము. వర్కింగ్ స్టోరేజ్ సిస్టమ్‌లో విఫలమైన స్టోరేజ్ సిస్టమ్ యొక్క LUNలు పునఃప్రారంభించబడిన తర్వాత, ఇతర స్టోరేజ్ సిస్టమ్ యొక్క LUNల నుండి లోడ్ కనిపించడం వల్ల ఈ రెట్టింపు పెరుగుదల అదృశ్యమవుతుంది మరియు మేము ఇంతకు ముందు ఉన్న అదే స్థాయి పనితీరుకు తిరిగి వస్తాము. "పతనం", కానీ ఒక సైట్ యొక్క ఫ్రేమ్‌వర్క్‌లో మాత్రమే.

సమర్ధవంతమైన పరిమాణాన్ని ఉపయోగించి, వినియోగదారులు మొత్తం స్టోరేజ్ సిస్టమ్ యొక్క వైఫల్యాన్ని అనుభవించని పరిస్థితులను మీరు నిర్ధారించవచ్చు. కానీ మేము మరోసారి పునరావృతం చేస్తాము, దీనికి చాలా జాగ్రత్తగా పరిమాణం అవసరం, దీని కోసం, మీరు ఉచితంగా మమ్మల్ని సంప్రదించవచ్చు :-).

మెట్రోక్లస్టర్‌ను ఏర్పాటు చేస్తోంది

మెట్రోక్లస్టర్‌ను సెటప్ చేయడం అనేది మేము వివరించిన సాధారణ ప్రతిరూపణను సెటప్ చేయడానికి చాలా పోలి ఉంటుంది మునుపటి వ్యాసం. అందువల్ల, తేడాలపై మాత్రమే దృష్టి పెడదాం. మేము పై ఆర్కిటెక్చర్ ఆధారంగా లాబొరేటరీలో ఒక బెంచ్‌ను ఏర్పాటు చేసాము, కనిష్ట వెర్షన్‌లో మాత్రమే: 10G ఈథర్‌నెట్ ద్వారా కనెక్ట్ చేయబడిన రెండు స్టోరేజ్ సిస్టమ్‌లు, రెండు 10G స్విచ్‌లు మరియు 10G పోర్ట్‌లు ఉన్న రెండు స్టోరేజ్ సిస్టమ్‌లలోని స్విచ్‌ల ద్వారా చూసే ఒక హోస్ట్. ఆర్బిటర్ వర్చువల్ మెషీన్‌లో నడుస్తుంది.

ఏరోడిస్క్ ఇంజిన్: విపత్తు నిరోధకత. పార్ట్ 2. మెట్రోక్లస్టర్

ప్రతిరూపం కోసం వర్చువల్ IPలను (VIPలు) కాన్ఫిగర్ చేస్తున్నప్పుడు, మీరు VIP రకాన్ని ఎంచుకోవాలి - మెట్రోక్లస్టర్ కోసం.

ఏరోడిస్క్ ఇంజిన్: విపత్తు నిరోధకత. పార్ట్ 2. మెట్రోక్లస్టర్

మేము రెండు LUNల కోసం రెండు రెప్లికేషన్ లింక్‌లను సృష్టించాము మరియు వాటిని రెండు స్టోరేజ్ సిస్టమ్‌లలో పంపిణీ చేసాము: స్టోరేజ్ సిస్టమ్ 1లో LUN టెస్ట్ ప్రైమరీ (METRO లింక్), స్టోరేజ్ సిస్టమ్ 2 కోసం LUN TEST2 ప్రైమరీ (METRO2 లింక్).

ఏరోడిస్క్ ఇంజిన్: విపత్తు నిరోధకత. పార్ట్ 2. మెట్రోక్లస్టర్

వాటి కోసం, మేము రెండు సారూప్య లక్ష్యాలను కాన్ఫిగర్ చేసాము (మా విషయంలో iSCSI, కానీ FC కూడా మద్దతు ఇస్తుంది, సెటప్ లాజిక్ అదే).

నిల్వ వ్యవస్థ1:

ఏరోడిస్క్ ఇంజిన్: విపత్తు నిరోధకత. పార్ట్ 2. మెట్రోక్లస్టర్

నిల్వ వ్యవస్థ2:

ఏరోడిస్క్ ఇంజిన్: విపత్తు నిరోధకత. పార్ట్ 2. మెట్రోక్లస్టర్

ప్రతిరూపణ కనెక్షన్ల కోసం, ప్రతి నిల్వ సిస్టమ్‌లో మ్యాపింగ్‌లు చేయబడ్డాయి.

నిల్వ వ్యవస్థ1:

ఏరోడిస్క్ ఇంజిన్: విపత్తు నిరోధకత. పార్ట్ 2. మెట్రోక్లస్టర్

నిల్వ వ్యవస్థ2:

ఏరోడిస్క్ ఇంజిన్: విపత్తు నిరోధకత. పార్ట్ 2. మెట్రోక్లస్టర్

మేము మల్టీపాత్‌ని సెటప్ చేసి హోస్ట్‌కి అందించాము.

ఏరోడిస్క్ ఇంజిన్: విపత్తు నిరోధకత. పార్ట్ 2. మెట్రోక్లస్టర్

ఏరోడిస్క్ ఇంజిన్: విపత్తు నిరోధకత. పార్ట్ 2. మెట్రోక్లస్టర్

మధ్యవర్తిని ఏర్పాటు చేస్తోంది

మీరు ఆర్బిటర్‌తో ప్రత్యేకంగా ఏమీ చేయనవసరం లేదు, మీరు దానిని మూడవ సైట్‌లో ప్రారంభించాలి మరియు ICMP మరియు SSH ద్వారా దానికి ప్రాప్యతను కాన్ఫిగర్ చేయాలి. సెటప్ కూడా స్టోరేజ్ సిస్టమ్‌ల నుండే నిర్వహించబడుతుంది. ఈ సందర్భంలో, మెట్రోక్లస్టర్‌లోని ఏదైనా స్టోరేజ్ కంట్రోలర్‌లలో ఆర్బిటర్‌ను ఒకసారి కాన్ఫిగర్ చేస్తే సరిపోతుంది, ఈ సెట్టింగ్‌లు అన్ని కంట్రోలర్‌లకు స్వయంచాలకంగా పంపిణీ చేయబడతాయి.

విభాగంలో రిమోట్ రెప్లికేషన్>> మెట్రోక్లస్టర్ (ఏదైనా కంట్రోలర్‌లో)>> “కాన్ఫిగర్” బటన్.

ఏరోడిస్క్ ఇంజిన్: విపత్తు నిరోధకత. పార్ట్ 2. మెట్రోక్లస్టర్

మేము ఆర్బిటర్ యొక్క IPని, అలాగే రెండు రిమోట్ స్టోరేజ్ కంట్రోలర్‌ల నియంత్రణ ఇంటర్‌ఫేస్‌లను నమోదు చేస్తాము.

ఏరోడిస్క్ ఇంజిన్: విపత్తు నిరోధకత. పార్ట్ 2. మెట్రోక్లస్టర్

దీని తరువాత, మీరు అన్ని సేవలను ప్రారంభించాలి ("అన్నీ పునఃప్రారంభించు" బటన్). భవిష్యత్తులో మళ్లీ కాన్ఫిగర్ చేయబడితే, సెట్టింగ్‌లు అమలులోకి రావడానికి సేవలు తప్పనిసరిగా పునఃప్రారంభించబడాలి.

ఏరోడిస్క్ ఇంజిన్: విపత్తు నిరోధకత. పార్ట్ 2. మెట్రోక్లస్టర్

మేము అన్ని సేవలు నడుస్తున్నట్లు తనిఖీ చేస్తాము.

ఏరోడిస్క్ ఇంజిన్: విపత్తు నిరోధకత. పార్ట్ 2. మెట్రోక్లస్టర్

ఇది మెట్రోక్లస్టర్ సెటప్‌ను పూర్తి చేస్తుంది.

క్రాష్ పరీక్ష

ప్రతిరూపణ కార్యాచరణ (స్విచింగ్, స్థిరత్వం మొదలైనవి) చర్చించబడినందున మా విషయంలో క్రాష్ పరీక్ష చాలా సులభం మరియు వేగంగా ఉంటుంది చివరి వ్యాసం. అందువల్ల, మెట్రోక్లస్టర్ యొక్క విశ్వసనీయతను పరీక్షించడానికి, వైఫల్య గుర్తింపు, స్విచ్చింగ్ మరియు రికార్డింగ్ నష్టాల లేకపోవడం (I/O స్టాప్‌లు) ఆటోమేషన్‌ను తనిఖీ చేయడం మాకు సరిపోతుంది.

దీన్ని చేయడానికి, మేము దాని రెండు కంట్రోలర్‌లను భౌతికంగా ఆఫ్ చేయడం ద్వారా నిల్వ సిస్టమ్‌లలో ఒకదాని పూర్తి వైఫల్యాన్ని అనుకరిస్తాము, మొదట పెద్ద ఫైల్‌ను LUNకి కాపీ చేయడం ప్రారంభించాము, అది ఇతర నిల్వ సిస్టమ్‌లో సక్రియం చేయబడాలి.

ఏరోడిస్క్ ఇంజిన్: విపత్తు నిరోధకత. పార్ట్ 2. మెట్రోక్లస్టర్

ఒక నిల్వ వ్యవస్థను నిలిపివేయండి. రెండవ స్టోరేజ్ సిస్టమ్‌లో పొరుగు సిస్టమ్‌తో కనెక్షన్ పోయిందని లాగ్‌లలో హెచ్చరికలు మరియు సందేశాలను చూస్తాము. SMTP లేదా SNMP పర్యవేక్షణ ద్వారా నోటిఫికేషన్‌లు కాన్ఫిగర్ చేయబడితే, నిర్వాహకుడు సంబంధిత నోటిఫికేషన్‌లను స్వీకరిస్తారు.

ఏరోడిస్క్ ఇంజిన్: విపత్తు నిరోధకత. పార్ట్ 2. మెట్రోక్లస్టర్

సరిగ్గా 10 సెకన్ల తర్వాత (రెండు స్క్రీన్‌షాట్‌లలో కనిపిస్తుంది), METRO రెప్లికేషన్ కనెక్షన్ (విఫలమైన నిల్వ సిస్టమ్‌లో ప్రాథమికమైనది) స్వయంచాలకంగా పని చేసే నిల్వ సిస్టమ్‌లో ప్రాథమికంగా మారింది. ఇప్పటికే ఉన్న మ్యాపింగ్‌ని ఉపయోగించి, LUN TEST హోస్ట్‌కు అందుబాటులో ఉంది, రికార్డింగ్ కొద్దిగా తగ్గింది (వాగ్దానం చేసిన 10 శాతంలోపు), కానీ అంతరాయం కలగలేదు.

ఏరోడిస్క్ ఇంజిన్: విపత్తు నిరోధకత. పార్ట్ 2. మెట్రోక్లస్టర్

ఏరోడిస్క్ ఇంజిన్: విపత్తు నిరోధకత. పార్ట్ 2. మెట్రోక్లస్టర్

పరీక్ష విజయవంతంగా పూర్తయింది.

సంగ్రహంగా

AERODISK ఇంజిన్ N-సిరీస్ స్టోరేజ్ సిస్టమ్‌లలోని మెట్రోక్లస్టర్ యొక్క ప్రస్తుత అమలు, IT సేవల కోసం పనికిరాని సమయాన్ని తొలగించడం లేదా తగ్గించడం మరియు వాటి ఆపరేషన్ 24/7/365 కనీస లేబర్ ఖర్చులతో ఉండేలా చేయడం కోసం అవసరమైన సమస్యలను పరిష్కరించడానికి పూర్తిగా అనుమతిస్తుంది.

వాస్తవానికి, ఇవన్నీ సిద్ధాంతం, ఆదర్శవంతమైన ప్రయోగశాల పరిస్థితులు మరియు మొదలైనవి అని మనం చెప్పగలం... కానీ మేము విపత్తు-తట్టుకునే కార్యాచరణను అమలు చేసిన అనేక అమలు ప్రాజెక్టులను కలిగి ఉన్నాము మరియు వ్యవస్థలు సంపూర్ణంగా పనిచేస్తాయి. డిజాస్టర్ ప్రూఫ్ కాన్ఫిగరేషన్‌లో కేవలం రెండు స్టోరేజ్ సిస్టమ్‌లను ఉపయోగించే మా సుప్రసిద్ధ కస్టమర్‌లలో ఒకరు, ప్రాజెక్ట్ గురించి సమాచారాన్ని ప్రచురించడానికి ఇప్పటికే అంగీకరించారు, కాబట్టి తరువాతి భాగంలో మేము పోరాట అమలు గురించి మాట్లాడుతాము.

ధన్యవాదాలు, మేము ఉత్పాదక చర్చ కోసం ఎదురుచూస్తున్నాము.

మూలం: www.habr.com

ఒక వ్యాఖ్యను జోడించండి