విపత్తు సమయంలో కూడా ఒక కప్పు టీ కోసం ఎల్లప్పుడూ సమయం ఉంటుంది
DRP (విపత్తు పునరుద్ధరణ ప్రణాళిక) అనేది ఆదర్శంగా ఎన్నటికీ అవసరం లేని విషయం. కానీ అకస్మాత్తుగా సంభోగం సమయంలో వలస వచ్చే బీవర్లు వెన్నెముక ఆప్టికల్ ఫైబర్ ద్వారా కొరికితే లేదా జూనియర్ అడ్మిన్ ఉత్పాదక స్థావరాన్ని తగ్గించినట్లయితే, మీరు ఖచ్చితంగా ఈ అవమానంతో ఏమి చేయాలనే దాని కోసం ముందుగా రూపొందించిన ప్రణాళికను కలిగి ఉండాలని మీరు ఖచ్చితంగా అనుకుంటున్నారు.
భయాందోళనలో ఉన్న కస్టమర్లు సాంకేతిక మద్దతు ఫోన్లను కత్తిరించడం ప్రారంభించినప్పుడు, జూనియర్ సైనైడ్ కోసం చూస్తున్నాడు, మీరు తెలివిగా ఎరుపు కవరు తెరిచి, ప్రతిదీ క్రమంలో ఉంచడం ప్రారంభించండి.
ఈ పోస్ట్లో నేను DRPని ఎలా వ్రాయాలి మరియు దానిలో ఏమి ఉండాలి అనే దానిపై సిఫార్సులను భాగస్వామ్యం చేయాలనుకుంటున్నాను. మేము ఈ క్రింది విషయాలను కూడా పరిశీలిస్తాము:
- విలన్గా ఆలోచించడం నేర్చుకుందాం.
- ప్రళయ సమయంలో ఒక కప్పు టీ వల్ల కలిగే ప్రయోజనాలను చూద్దాం.
- అనుకూలమైన DRP నిర్మాణం గురించి ఆలోచించండి
- దీన్ని ఎలా పరీక్షించాలో చూద్దాం
ఇది ఏ కంపెనీలకు ఉపయోగపడుతుంది?
ఐటీ డిపార్ట్మెంట్కు ఇలాంటివి అవసరం అయినప్పుడు లైన్ను గీయడం చాలా కష్టం. మీకు ఖచ్చితంగా DRP అవసరమని నేను చెబుతాను:
- సర్వర్, అప్లికేషన్ను ఆపడం లేదా కొంత డేటాబేస్ను కోల్పోవడం వల్ల వ్యాపారం మొత్తంగా గణనీయమైన నష్టాలకు దారి తీస్తుంది.
- మీకు పూర్తి స్థాయి ఐటీ విభాగం ఉంది. సంస్థ యొక్క పూర్తి స్థాయి యూనిట్ రూపంలో ఒక విభాగం యొక్క కోణంలో, దాని స్వంత బడ్జెట్తో, మరియు కొంతమంది అలసిపోయిన ఉద్యోగులు నెట్వర్క్ను వేయడం, వైరస్లను శుభ్రపరచడం మరియు ప్రింటర్లను రీఫిల్ చేయడం మాత్రమే కాదు.
- అత్యవసర పరిస్థితుల్లో కనీసం పాక్షిక రిడెండెన్సీ కోసం మీకు వాస్తవిక బడ్జెట్ ఉంది.
IT డిపార్ట్మెంట్ బ్యాకప్ల కోసం పాత సర్వర్లో కనీసం రెండు HDDల కోసం నెలల తరబడి వేడుకుంటున్నప్పుడు, మీరు రిజర్వ్ సామర్థ్యానికి విఫలమైన సేవ యొక్క పూర్తి స్థాయి తరలింపును నిర్వహించలేరు. ఇక్కడ డాక్యుమెంటేషన్ నిరుపయోగంగా ఉండదు.
డాక్యుమెంటేషన్ ముఖ్యం
డాక్యుమెంటేషన్తో ప్రారంభించండి. మీ సేవ మూడు తరాల క్రితం అడ్మిన్లు వ్రాసిన పెర్ల్ స్క్రిప్ట్తో నడుస్తుందని చెప్పండి, కానీ అది ఎలా పనిచేస్తుందో ఎవరికీ తెలియదు. సేకరించిన సాంకేతిక రుణం మరియు డాక్యుమెంటేషన్ లేకపోవడం అనివార్యంగా మిమ్మల్ని మోకాలిలో మాత్రమే కాకుండా, ఇతర అవయవాలలో కూడా కాల్చివేస్తుంది, ఇది సమయం యొక్క విషయం.
మీరు సేవా భాగాల గురించి మంచి వివరణను కలిగి ఉంటే, ప్రమాద గణాంకాలను చూడండి. వారు దాదాపు ఖచ్చితంగా పూర్తిగా విలక్షణంగా ఉంటారు. ఉదాహరణకు, మీ డిస్క్ కాలానుగుణంగా పూర్తి అవుతుంది, ఇది మానవీయంగా శుభ్రం చేయబడే వరకు నోడ్ విఫలమవుతుంది. లేదా ఎవరైనా మళ్లీ సర్టిఫికేట్ను పునరుద్ధరించడం మరచిపోయినందున క్లయింట్ సేవ అందుబాటులో ఉండదు మరియు లెట్స్ ఎన్క్రిప్ట్ కాన్ఫిగర్ చేయలేకపోయింది లేదా ఇష్టపడదు.
విధ్వంసకుడిలా ఆలోచనలు
మునుపెన్నడూ జరగని ప్రమాదాలను అంచనా వేయడం చాలా కష్టమైన భాగం, అయితే ఇది మీ సేవను పూర్తిగా క్రాష్ చేయగలదు. ఇక్కడ నేను మరియు నా సహోద్యోగులు సాధారణంగా విలన్లను పోషిస్తాము. చాలా కాఫీ మరియు రుచికరమైన ఏదైనా తీసుకోండి మరియు మీటింగ్ రూమ్లో మిమ్మల్ని మీరు లాక్ చేసుకోండి. అదే చర్చలలో మీరు లక్ష్య సేవను అభివృద్ధి చేసిన లేదా దానితో క్రమం తప్పకుండా పనిచేసే ఇంజనీర్లను లాక్ చేశారని నిర్ధారించుకోండి. అప్పుడు, బోర్డు మీద లేదా కాగితంపై, మీరు మీ సేవకు సంభవించే అన్ని భయాందోళనలను గీయడం ప్రారంభిస్తారు. ఒక నిర్దిష్ట శుభ్రపరిచే మహిళ మరియు కేబుల్లను బయటకు తీయడం గురించి వివరంగా చెప్పాల్సిన అవసరం లేదు; "స్థానిక నెట్వర్క్ యొక్క సమగ్రతను ఉల్లంఘించడం" యొక్క దృష్టాంతాన్ని పరిగణనలోకి తీసుకుంటే సరిపోతుంది.
సాధారణంగా, చాలా సాధారణ అత్యవసర పరిస్థితులు క్రింది రకాలుగా ఉంటాయి:
- నెట్వర్క్ వైఫల్యం
- OS సేవల వైఫల్యం
- అప్లికేషన్ వైఫల్యం
- ఇనుము వైఫల్యం
- వర్చువలైజేషన్ వైఫల్యం
ప్రతి రకాన్ని పరిశీలించి, మీ సేవకు ఏది వర్తిస్తుందో చూడండి. ఉదాహరణకు, Nginx డెమోన్ పడిపోవచ్చు మరియు పెరగకపోవచ్చు - దీని అర్థం OS యొక్క భాగంలో వైఫల్యాలు. మీ వెబ్ అప్లికేషన్ విఫలమయ్యే అరుదైన పరిస్థితి సాఫ్ట్వేర్ వైఫల్యం. ఈ దశలో పని చేస్తున్నప్పుడు, సమస్య యొక్క రోగనిర్ధారణను గుర్తించడం చాలా ముఖ్యం. ఉదాహరణకు పడిపోయిన సిస్ డ్రైవ్ మరియు నెట్వర్క్ ప్రమాదం నుండి వర్చువలైజేషన్పై స్తంభింపచేసిన ఇంటర్ఫేస్ను ఎలా వేరు చేయాలి. బాధ్యులను త్వరగా కనుగొని, ప్రమాదం పరిష్కరించబడే వరకు వారి తోకను లాగడం ప్రారంభించడం చాలా ముఖ్యం.
సాధారణ సమస్యలు వ్రాసిన తర్వాత, మేము మరింత కాఫీని పోస్తాము మరియు కొన్ని పారామితులు కట్టుబాటుకు మించి వెళ్ళడం ప్రారంభించినప్పుడు విచిత్రమైన దృశ్యాలను పరిగణించడం ప్రారంభిస్తాము. ఉదాహరణకి:
- యాక్టివ్ నోడ్లోని సమయం క్లస్టర్లోని ఇతరులతో పోలిస్తే ఒక నిమిషం వెనక్కి వెళితే ఏమి జరుగుతుంది?
- కాలం ముందుకు సాగితే, 10 ఏళ్లు ఉంటే?
- సమకాలీకరణ సమయంలో క్లస్టర్ నోడ్ అకస్మాత్తుగా దాని నెట్వర్క్ను కోల్పోతే ఏమి జరుగుతుంది?
- నెట్వర్క్లో ఒకదానికొకటి తాత్కాలికంగా వేరుచేయడం వల్ల రెండు నోడ్లు నాయకత్వాన్ని పంచుకోకపోతే ఏమి జరుగుతుంది?
ఈ దశలో, రివర్స్ విధానం చాలా ఉపయోగకరంగా ఉంటుంది. మీరు జబ్బుపడిన ఊహతో జట్టులోని అత్యంత మొండి పట్టుదలగల సభ్యుడిని తీసుకొని, సేవను తగ్గించే అతి తక్కువ సమయంలో విధ్వంసాన్ని నిర్వహించే పనిని అతనికి అప్పగించండి. రోగనిర్ధారణ కష్టంగా ఉంటే, ఇంకా మంచిది. ఇంజనీర్లకు మీరు ఏదైనా విడగొట్టడానికి ఒక ఆలోచన ఇస్తే, విచిత్రమైన మరియు అద్భుతమైన ఆలోచనలను మీరు నమ్మరు. మరియు మీరు దీని కోసం వారికి టెస్ట్ బెంచ్ వాగ్దానం చేస్తే, అది ఖచ్చితంగా మంచిది.
మీ ఈ DRP ఏమిటి?!
కాబట్టి మీరు మీ ముప్పు మోడల్ని నిర్వచించారు. వారు రాగిని వెతకడానికి ఫైబర్ ఆప్టిక్ కేబుల్లను కత్తిరించే స్థానిక నివాసితులను మరియు శుక్రవారం 16:46 గంటలకు రేడియో రిలే లైన్ను ఖచ్చితంగా పడేసే సైనిక రాడార్ను కూడా పరిగణనలోకి తీసుకున్నారు. వీటన్నింటితో ఏమి చేయాలో ఇప్పుడు మనం అర్థం చేసుకోవాలి.
మీ పని అత్యవసర సమయంలో తెరవబడే చాలా ఎరుపు ఎన్వలప్లను వ్రాయడం. (అయితే కాదు!) ప్రతిదీ ముగింపుకు వచ్చినప్పుడు, అత్యంత అనుభవం లేని ఇంటర్న్ మాత్రమే సమీపంలో ఉంటారని, ఏమి జరుగుతుందో అనే భయం నుండి వారి చేతులు తీవ్రంగా వణుకుతాయని వెంటనే ఆశించండి. వైద్య కార్యాలయాల్లో అత్యవసర సంకేతాలు ఎలా అమలు చేయబడతాయో చూడండి. ఉదాహరణకు, అనాఫిలాక్టిక్ షాక్ విషయంలో ఏమి చేయాలి. వైద్య సిబ్బందికి అన్ని ప్రోటోకాల్లు గుండె ద్వారా తెలుసు, కానీ సమీపంలోని వ్యక్తి చనిపోవడం ప్రారంభించినప్పుడు, చాలా తరచుగా ప్రతి ఒక్కరూ నిస్సహాయంగా దృష్టిలో ఉన్న ప్రతిదాన్ని పట్టుకుంటారు. దీన్ని చేయడానికి, "అటువంటి ప్యాకేజీని తెరవండి" మరియు "ఇంట్రావీనస్లో చాలా యూనిట్ల మందులను నిర్వహించండి" వంటి అంశాలతో గోడపై స్పష్టమైన సూచనలు ఉన్నాయి.
అత్యవసర పరిస్థితుల్లో ఆలోచించడం కష్టం! వెన్నుపాము పార్సింగ్ కోసం సాధారణ సూచనలు ఉండాలి.
మంచి DRP అనేక సాధారణ బ్లాక్లను కలిగి ఉంటుంది:
- ప్రమాదం ప్రారంభమైనప్పుడు ఎవరికి తెలియజేయాలి. ఎలిమినేషన్ ప్రక్రియను వీలైనంత వరకు సమాంతరంగా చేయడానికి ఇది చాలా ముఖ్యం.
- సరిగ్గా రోగనిర్ధారణ చేయడం ఎలా - ట్రేస్ చేయండి, systemctl స్థితి సేవా పేరులో చూడండి మరియు మొదలైనవి.
- ఒక్కో దశలో ఎంత సమయం వెచ్చించవచ్చు? SLA సమయానికి మాన్యువల్గా దాన్ని సరిచేయడానికి మీకు సమయం లేకపోతే, వర్చువల్ మెషీన్ చంపబడి, నిన్నటి బ్యాకప్ నుండి వెనక్కి తీసుకోబడుతుంది.
- ప్రమాదం ముగిసిందని ఎలా నిర్ధారించుకోవాలి.
సేవ పూర్తిగా విఫలమైనప్పుడు DRP ప్రారంభమవుతుంది మరియు సేవ పునరుద్ధరించబడినప్పుడు, తగ్గిన సామర్థ్యంతో కూడా ముగుస్తుందని గుర్తుంచుకోండి. కేవలం రిజర్వేషన్ను కోల్పోవడం DRPని ప్రేరేపించకూడదు. మీరు DRPలో ఒక కప్పు టీని కూడా వ్రాయవచ్చు. తీవ్రంగా. గణాంకాల ప్రకారం, చాలా ప్రమాదాలు అసహ్యకరమైనవి నుండి విపత్తుగా మారుతాయి, ఎందుకంటే సిబ్బంది భయాందోళనలో ఏదో ఒకదానిని సరిదిద్దడానికి పరుగెత్తుతారు, ఏకకాలంలో డేటాతో ఉన్న ఏకైక లివింగ్ నోడ్ను చంపడం లేదా చివరకు క్లస్టర్ను ముగించడం. నియమం ప్రకారం, ఒక కప్పు టీతో 5 నిమిషాలు ప్రశాంతంగా ఉండటానికి మరియు ఏమి జరుగుతుందో విశ్లేషించడానికి మీకు కొంత సమయం ఇస్తుంది.
DRP మరియు సిస్టమ్ పాస్పోర్ట్ను కంగారు పెట్టవద్దు! అనవసరమైన డేటాతో దీన్ని ఓవర్లోడ్ చేయవద్దు. డాక్యుమెంటేషన్లోని కావలసిన విభాగానికి వెళ్లి, సర్వీస్ ఆర్కిటెక్చర్లోని అవసరమైన విభాగాల గురించి విస్తరించిన ఆకృతిలో చదవడానికి హైపర్లింక్లను త్వరగా మరియు సౌకర్యవంతంగా ఉపయోగించడాన్ని సాధ్యం చేయండి. మరియు DRP లోనే కాపీ-పేస్ట్ కోసం నిర్దిష్ట ఆదేశాలతో ఎక్కడ మరియు ఎలా కనెక్ట్ చేయాలనే దానిపై ప్రత్యక్ష సూచనలు మాత్రమే ఉన్నాయి.
సరిగ్గా పరీక్షించడం ఎలా
ఏదైనా బాధ్యతగల ఉద్యోగి అన్ని అంశాలను పూర్తి చేయగలరని నిర్ధారించుకోండి. అత్యంత కీలకమైన సమయంలో, ఇంజనీర్కు అవసరమైన సిస్టమ్ను యాక్సెస్ చేయడానికి హక్కులు లేవని, అవసరమైన ఖాతా కోసం పాస్వర్డ్లు లేవని లేదా “ప్రాక్సీ ద్వారా సర్వీస్ మేనేజ్మెంట్ కన్సోల్కి కనెక్ట్ అవ్వడం ఏమిటో అతనికి తెలియదు. ప్రధాన కార్యాలయం” అంటే. ప్రతి పాయింట్ చాలా సరళంగా ఉండాలి.
తప్పు — “వర్చువలైజేషన్కి వెళ్లి డెడ్ నోడ్ని రీబూట్ చేయండి”
సరిగ్గా - “వెబ్ ఇంటర్ఫేస్ ద్వారా virt.example.comకి కనెక్ట్ చేయండి, నోడ్స్ విభాగంలో, లోపానికి కారణమయ్యే నోడ్ని రీబూట్ చేయండి.”
అస్పష్టతను నివారించండి. భయపడిన ఇంటర్న్ని గుర్తుంచుకో.
DRP ని తప్పకుండా పరీక్షించండి. ఇది కేవలం ప్రదర్శన కోసం ఒక ప్రణాళిక కాదు - ఇది మిమ్మల్ని మరియు మీ క్లయింట్లను క్లిష్ట పరిస్థితి నుండి త్వరగా బయటపడేందుకు అనుమతించే విషయం. దీన్ని చాలాసార్లు చేయడం మంచిది:
- ఒక నిపుణుడు మరియు అనేక మంది ట్రైనీలు ఒక టెస్ట్ బెంచ్లో పని చేస్తారు, అది సాధ్యమైనంతవరకు నిజమైన సేవను అనుకరిస్తుంది. నిపుణుడు వివిధ మార్గాల్లో సేవను విచ్ఛిన్నం చేస్తాడు మరియు DRP ప్రకారం దానిని పునరుద్ధరించడానికి శిక్షణ పొందిన వారిని ఎనేబుల్ చేస్తాడు. అన్ని సమస్యలు, డాక్యుమెంటేషన్ అస్పష్టతలు మరియు లోపాలు నమోదు చేయబడ్డాయి. ట్రైనీలు శిక్షణ పొందిన తర్వాత, అస్పష్టమైన ప్రాంతాల్లో DRP విస్తరించబడుతుంది మరియు సరళీకృతం చేయబడుతుంది.
- నిజమైన సేవపై పరీక్షిస్తోంది. వాస్తవానికి, మీరు నిజమైన సేవ యొక్క ఖచ్చితమైన కాపీని ఎప్పటికీ సృష్టించలేరు. అందువల్ల, రికవరీ క్రమాన్ని అంచనా వేయడానికి కొన్ని సర్వర్లను ఆపివేయడం, కనెక్షన్లను విడదీయడం మరియు బెదిరింపుల జాబితా నుండి ఇతర విపత్తులను కలిగించడం వంటివి సంవత్సరానికి రెండు సార్లు అవసరం. డేటా నష్టంతో పీక్ లోడ్ సమయంలో చాలా గంటలు ఆకస్మిక వైఫల్యం కంటే అర్థరాత్రి 10 నిమిషాలపాటు ప్రణాళికాబద్ధంగా వైఫల్యం చెందడం మంచిది.
- నిజమైన ట్రబుల్షూటింగ్. అవును, ఇది కూడా పరీక్షలో భాగమే. బెదిరింపుల జాబితాలో లేని ప్రమాదం సంభవించినట్లయితే, దాని పరిశోధన ఫలితాల ఆధారంగా DRPని భర్తీ చేయడం మరియు ఖరారు చేయడం అవసరం.
ప్రధానాంశాలు
- చెత్త జరగగలిగితే, అది జరగడమే కాదు, సాధ్యమయ్యే అత్యంత విపత్తు దృష్టాంతంలో అది జరుగుతుంది.
- అత్యవసర లోడ్ బదిలీ కోసం మీకు వనరులు ఉన్నాయని నిర్ధారించుకోండి.
- మీకు బ్యాకప్లు ఉన్నాయని నిర్ధారించుకోండి, అవి స్వయంచాలకంగా సృష్టించబడతాయి మరియు స్థిరత్వం కోసం క్రమం తప్పకుండా తనిఖీ చేయబడతాయి.
- సాధారణ బెదిరింపు దృశ్యాల ద్వారా ఆలోచించండి.
- సేవను అందించడానికి ప్రామాణికం కాని ఎంపికలతో ముందుకు రావడానికి ఇంజనీర్లకు అవకాశం ఇవ్వండి.
- DRP అనేది సరళమైన మరియు మొద్దుబారిన సూచనగా ఉండాలి. ఖాతాదారుల సేవ పునరుద్ధరించబడిన తర్వాత మాత్రమే అన్ని సంక్లిష్ట విశ్లేషణలు నిర్వహించబడతాయి. రిజర్వ్ సామర్థ్యంలో ఉన్నప్పటికీ.
- DRPలో కీలక ఫోన్ నంబర్లు మరియు పరిచయాలను అందించండి.
- DRP పట్ల ఉద్యోగుల అవగాహనను క్రమం తప్పకుండా పరీక్షించండి.
- ఉత్పత్తి ప్రదేశాలలో ప్రణాళికాబద్ధమైన ప్రమాదాలను ఏర్పాటు చేయండి. స్టాండ్లు అన్నింటినీ భర్తీ చేయలేవు.
మూలం: www.habr.com