మీ అధిక లభ్యత నిల్వ సిస్టమ్‌లో సాఫ్ట్‌వేర్‌ను పరీక్షించడం ఎందుకు ముఖ్యం (99,9999%)

మీ అధిక లభ్యత నిల్వ సిస్టమ్‌లో సాఫ్ట్‌వేర్‌ను పరీక్షించడం ఎందుకు ముఖ్యం (99,9999%)

ఏ ఫర్మ్‌వేర్ వెర్షన్ చాలా “సరైనది” మరియు “పని చేస్తోంది”? స్టోరేజీ సిస్టమ్ 99,9999% తప్పుని తట్టుకునేలా హామీ ఇస్తే, సాఫ్ట్‌వేర్ అప్‌డేట్ లేకుండా కూడా అది అంతరాయం లేకుండా పని చేస్తుందా? లేదా, దీనికి విరుద్ధంగా, గరిష్ట తప్పు సహనాన్ని పొందడానికి, మీరు ఎల్లప్పుడూ తాజా ఫర్మ్‌వేర్‌ను ఇన్‌స్టాల్ చేయాలా? మేము మా అనుభవం ఆధారంగా ఈ ప్రశ్నలకు సమాధానమివ్వడానికి ప్రయత్నిస్తాము.

ఒక చిన్న పరిచయం

సాఫ్ట్‌వేర్ యొక్క ప్రతి సంస్కరణ, అది ఆపరేటింగ్ సిస్టమ్ అయినా లేదా పరికరం కోసం డ్రైవర్ అయినా, తరచుగా లోపాలు/బగ్‌లు మరియు ఇతర “ఫీచర్‌లు” కలిగి ఉంటాయని, అవి పరికరాల సేవా జీవితం ముగిసే వరకు “కనిపించని” లేదా “ఓపెన్” అని మనమందరం అర్థం చేసుకున్నాము. కొన్ని షరతులలో మాత్రమే. అటువంటి సూక్ష్మ నైపుణ్యాల సంఖ్య మరియు ప్రాముఖ్యత సాఫ్ట్‌వేర్ యొక్క సంక్లిష్టత (కార్యాచరణ) మరియు దాని అభివృద్ధి సమయంలో పరీక్ష నాణ్యతపై ఆధారపడి ఉంటుంది. 

తరచుగా, వినియోగదారులు "ఫ్యాక్టరీ నుండి ఫర్మ్‌వేర్" (ప్రసిద్ధ "ఇది పని చేస్తుంది, కాబట్టి దానితో గందరగోళానికి గురికావద్దు") లేదా ఎల్లప్పుడూ తాజా సంస్కరణను ఇన్‌స్టాల్ చేయండి (వారి అవగాహనలో, తాజాది అంటే చాలా పని చేస్తుంది). మేము వేరొక విధానాన్ని ఉపయోగిస్తాము - మేము ఉపయోగించిన ప్రతిదానికీ విడుదల గమనికలను పరిశీలిస్తాము mClouds క్లౌడ్‌లో పరికరాలు మరియు ప్రతి పరికరానికి తగిన ఫర్మ్‌వేర్‌ను జాగ్రత్తగా ఎంచుకోండి.

వారు చెప్పినట్లుగా, అనుభవంతో మేము ఈ నిర్ణయానికి వచ్చాము. మా ఆపరేషన్ ఉదాహరణను ఉపయోగించి, మీరు సాఫ్ట్‌వేర్ అప్‌డేట్‌లు మరియు వర్ణనలను తక్షణమే పర్యవేక్షించకుంటే, వాగ్దానం చేయబడిన 99,9999% స్టోరేజీ సిస్టమ్‌ల విశ్వసనీయత ఏదీ అర్థం కాదని మేము మీకు తెలియజేస్తాము. మా కేసు ఏదైనా విక్రేత నుండి నిల్వ సిస్టమ్‌ల వినియోగదారులకు అనుకూలంగా ఉంటుంది, ఎందుకంటే ఏదైనా తయారీదారు నుండి హార్డ్‌వేర్‌తో ఇలాంటి పరిస్థితి సంభవించవచ్చు.

కొత్త నిల్వ వ్యవస్థను ఎంచుకోవడం

గత సంవత్సరం చివరలో, మా అవస్థాపనకు ఆసక్తికరమైన డేటా నిల్వ వ్యవస్థ జోడించబడింది: IBM FlashSystem 5000 లైన్ నుండి ఒక జూనియర్ మోడల్, కొనుగోలు సమయంలో దీనిని Storwize V5010e అని పిలుస్తారు. ఇప్పుడు అది FlashSystem 5010 పేరుతో విక్రయించబడింది, అయితే వాస్తవానికి ఇది అదే స్పెక్ట్రమ్ వర్చువలైజ్ లోపల ఉన్న అదే హార్డ్‌వేర్ బేస్. 

ఏకీకృత నిర్వహణ వ్యవస్థ యొక్క ఉనికి, మార్గం ద్వారా, IBM FlashSystem మధ్య ప్రధాన వ్యత్యాసం. యువ సిరీస్ యొక్క నమూనాల కోసం, ఇది మరింత ఉత్పాదక నమూనాల నుండి ఆచరణాత్మకంగా భిన్నంగా లేదు. నిర్దిష్ట మోడల్‌ను ఎంచుకోవడం సరైన హార్డ్‌వేర్ బేస్‌ను మాత్రమే అందిస్తుంది, దీని లక్షణాలు ఒకటి లేదా మరొక కార్యాచరణను ఉపయోగించడం లేదా అధిక స్థాయి స్కేలబిలిటీని అందించడం సాధ్యం చేస్తాయి. సాఫ్ట్‌వేర్ హార్డ్‌వేర్‌ను గుర్తిస్తుంది మరియు ఈ ప్లాట్‌ఫారమ్‌కు అవసరమైన మరియు తగినంత కార్యాచరణను అందిస్తుంది.

మీ అధిక లభ్యత నిల్వ సిస్టమ్‌లో సాఫ్ట్‌వేర్‌ను పరీక్షించడం ఎందుకు ముఖ్యం (99,9999%)IBM ఫ్లాష్‌సిస్టమ్ 5010

మా మోడల్ 5010 గురించి క్లుప్తంగా. ఇది ఎంట్రీ-లెవల్ డ్యూయల్-కంట్రోలర్ బ్లాక్ స్టోరేజ్ సిస్టమ్. ఇది NLSAS, SAS, SSD డిస్క్‌లను కలిగి ఉంటుంది. NVMe ప్లేస్‌మెంట్ ఇందులో అందుబాటులో లేదు, ఎందుకంటే ఈ స్టోరేజ్ మోడల్ NVMe డ్రైవ్‌ల పనితీరు అవసరం లేని సమస్యలను పరిష్కరించడానికి ఉంచబడింది.

తరచుగా యాక్సెస్ చేయని ఆర్కైవల్ సమాచారం లేదా డేటాను ఉంచడానికి నిల్వ సిస్టమ్ కొనుగోలు చేయబడింది. అందువల్ల, దాని కార్యాచరణ యొక్క ప్రామాణిక సెట్ మాకు సరిపోతుంది: టైరింగ్ (ఈజీ టైర్), థిన్ ప్రొవిజన్. 1000-2000 IOPS స్థాయిలో NLSAS డిస్క్‌ల పనితీరు కూడా మాకు చాలా సంతృప్తికరంగా ఉంది.

మా అనుభవం - మేము ఫర్మ్‌వేర్‌ను సమయానికి ఎలా అప్‌డేట్ చేయలేదు

ఇప్పుడు సాఫ్ట్‌వేర్ నవీకరణ గురించి. కొనుగోలు సమయంలో, సిస్టమ్ ఇప్పటికే స్పెక్ట్రమ్ వర్చువలైజ్ సాఫ్ట్‌వేర్ యొక్క కొంచెం పాత వెర్షన్‌ను కలిగి ఉంది, అవి, <span style="font-family: arial; ">10</span>

మేము ఫర్మ్‌వేర్ వివరణలను అధ్యయనం చేసాము మరియు నవీకరణను ప్లాన్ చేసాము 8.2.1.9. మేము మరికొంత సమర్థంగా ఉండి ఉంటే, ఈ కథనం ఉనికిలో ఉండేది కాదు - ఇటీవలి ఫర్మ్‌వేర్‌లో బగ్ సంభవించి ఉండేది కాదు. అయితే, కొన్ని కారణాల వల్ల, ఈ సిస్టమ్ యొక్క నవీకరణ వాయిదా పడింది.

ఫలితంగా, కొద్దిగా నవీకరణ ఆలస్యం లింక్‌లోని వివరణలో వలె చాలా అసహ్యకరమైన చిత్రానికి దారితీసింది: https://www.ibm.com/support/pages/node/6172341

అవును, ఆ వెర్షన్ యొక్క ఫర్మ్‌వేర్‌లో APAR అని పిలవబడే (అధీకృత ప్రోగ్రామ్ విశ్లేషణ నివేదిక) HU02104 సంబంధితంగా ఉంది. ఇది క్రింది విధంగా కనిపిస్తుంది. లోడ్ కింద, కొన్ని పరిస్థితులలో, కాష్ ఓవర్‌ఫ్లో ప్రారంభమవుతుంది, అప్పుడు సిస్టమ్ రక్షిత మోడ్‌లోకి వెళుతుంది, దీనిలో ఇది పూల్ కోసం I/Oని నిలిపివేస్తుంది. మా విషయంలో, RAID 3 మోడ్‌లో RAID సమూహం కోసం 6 డిస్క్‌లను డిస్‌కనెక్ట్ చేస్తున్నట్లుగా కనిపించింది. డిస్‌కనెక్ట్ 6 నిమిషాల పాటు జరుగుతుంది. తరువాత, పూల్‌లోని వాల్యూమ్‌లకు యాక్సెస్ పునరుద్ధరించబడుతుంది.

IBM స్పెక్ట్రమ్ వర్చువలైజ్ సందర్భంలో లాజికల్ ఎంటిటీల నిర్మాణం మరియు నామకరణం గురించి ఎవరికైనా తెలియకపోతే, నేను ఇప్పుడు క్లుప్తంగా వివరిస్తాను.

మీ అధిక లభ్యత నిల్వ సిస్టమ్‌లో సాఫ్ట్‌వేర్‌ను పరీక్షించడం ఎందుకు ముఖ్యం (99,9999%)నిల్వ వ్యవస్థ తార్కిక మూలకాల నిర్మాణం

డిస్క్‌లు MDisk (మేనేజ్డ్ డిస్క్) అని పిలువబడే సమూహాలలో సేకరించబడతాయి. MDisk ఒక క్లాసిక్ RAID (0,1,10,5,6) లేదా వర్చువలైజ్ చేయబడినది కావచ్చు - DRAID (డిస్ట్రిబ్యూటెడ్ RAID). DRAIDని ఉపయోగించడం శ్రేణి పనితీరును పెంచడానికి మిమ్మల్ని అనుమతిస్తుంది, ఎందుకంటే... సమూహంలోని అన్ని డిస్క్‌లు ఉపయోగించబడతాయి మరియు పునర్నిర్మాణ సమయం తగ్గుతుంది, ఎందుకంటే నిర్దిష్ట బ్లాక్‌లు మాత్రమే పునరుద్ధరించబడాలి మరియు విఫలమైన డిస్క్ నుండి మొత్తం డేటా కాదు.

మీ అధిక లభ్యత నిల్వ సిస్టమ్‌లో సాఫ్ట్‌వేర్‌ను పరీక్షించడం ఎందుకు ముఖ్యం (99,9999%)RAID-5 మోడ్‌లో డిస్ట్రిబ్యూటెడ్ RAID (DRAID)ని ఉపయోగిస్తున్నప్పుడు డిస్క్‌ల అంతటా డేటా బ్లాక్‌ల పంపిణీ.

మరియు ఈ రేఖాచిత్రం ఒక డిస్క్ వైఫల్యం సంభవించినప్పుడు DRAID పునర్నిర్మాణం ఎలా పని చేస్తుందనే తర్కాన్ని చూపుతుంది:

మీ అధిక లభ్యత నిల్వ సిస్టమ్‌లో సాఫ్ట్‌వేర్‌ను పరీక్షించడం ఎందుకు ముఖ్యం (99,9999%)ఒక డిస్క్ విఫలమైనప్పుడు DRAID రీబిల్డ్ యొక్క లాజిక్

తరువాత, ఒకటి లేదా అంతకంటే ఎక్కువ MDiskలు పూల్ అని పిలవబడేవి. ఒకే పూల్‌లో, ఒకే రకమైన డిస్క్‌లపై వేర్వేరు RAID/DRAID స్థాయిలతో MDiskని ఉపయోగించడం సిఫార్సు చేయబడదు. మేము దీని గురించి చాలా లోతుగా వెళ్ళము, ఎందుకంటే... మేము దీనిని క్రింది కథనాలలో ఒకదానిలో కవర్ చేయడానికి ప్లాన్ చేస్తున్నాము. బాగా, వాస్తవానికి, పూల్ వాల్యూమ్‌లుగా విభజించబడింది, ఇది హోస్ట్‌లకు ఒకటి లేదా మరొక బ్లాక్ యాక్సెస్ ప్రోటోకాల్‌ను ఉపయోగించి ప్రదర్శించబడుతుంది.

కాబట్టి, మేము వివరించిన పరిస్థితి ఫలితంగా APAR HU02104, మూడు డిస్క్‌ల తార్కిక వైఫల్యం కారణంగా, MDisk పని చేయడం ఆగిపోయింది, దీని ఫలితంగా పూల్ మరియు సంబంధిత వాల్యూమ్‌ల వైఫల్యం ఏర్పడింది.

ఈ సిస్టమ్‌లు చాలా స్మార్ట్‌గా ఉన్నందున, వాటిని IBM స్టోరేజ్ అంతర్దృష్టుల క్లౌడ్-ఆధారిత పర్యవేక్షణ సిస్టమ్‌కి కనెక్ట్ చేయవచ్చు, ఇది సమస్య ఏర్పడితే IBM మద్దతుకు స్వయంచాలకంగా సేవా అభ్యర్థనను పంపుతుంది. ఒక అప్లికేషన్ సృష్టించబడింది మరియు IBM నిపుణులు రిమోట్‌గా డయాగ్నస్టిక్‌లను నిర్వహిస్తారు మరియు సిస్టమ్ వినియోగదారుని సంప్రదించండి. 

దీనికి ధన్యవాదాలు, సమస్య చాలా త్వరగా పరిష్కరించబడింది మరియు మా సిస్టమ్‌ను గతంలో ఎంచుకున్న ఫర్మ్‌వేర్ 8.2.1.9కి నవీకరించడానికి మద్దతు సేవ నుండి ప్రాంప్ట్ సిఫార్సు వచ్చింది, ఆ సమయంలో ఇది ఇప్పటికే పరిష్కరించబడింది. ఇది నిర్ధారిస్తుంది సంబంధిత విడుదల గమనిక.

ఫలితాలు మరియు మా సిఫార్సులు

సామెత చెప్పినట్లుగా: "అంతా బాగానే ఉంది, అది బాగానే ముగుస్తుంది." ఫర్మ్‌వేర్‌లోని బగ్ తీవ్రమైన సమస్యలను కలిగించలేదు - సర్వర్లు వీలైనంత త్వరగా మరియు డేటా నష్టం లేకుండా పునరుద్ధరించబడ్డాయి. కొంతమంది క్లయింట్లు వర్చువల్ మెషీన్‌లను పునఃప్రారంభించవలసి ఉంటుంది, అయితే సాధారణంగా మేము అన్ని మౌలిక సదుపాయాల అంశాలు మరియు క్లయింట్ మెషీన్‌ల యొక్క రోజువారీ బ్యాకప్‌లను తయారు చేయడం వలన మేము మరింత ప్రతికూల పరిణామాలకు సిద్ధంగా ఉన్నాము. 

99,9999% వాగ్దానం చేయబడిన లభ్యతతో విశ్వసనీయమైన సిస్టమ్‌లకు కూడా శ్రద్ధ మరియు సకాలంలో నిర్వహణ అవసరమని మేము నిర్ధారణను అందుకున్నాము. పరిస్థితి ఆధారంగా, మేము మా కోసం అనేక తీర్మానాలు చేసాము మరియు మా సిఫార్సులను పంచుకుంటాము:

  • అప్‌డేట్‌ల విడుదలను పర్యవేక్షించడం, క్లిష్టమైన సమస్యల సవరణల కోసం విడుదల గమనికలను అధ్యయనం చేయడం మరియు ప్రణాళికాబద్ధమైన అప్‌డేట్‌లను సకాలంలో నిర్వహించడం అత్యవసరం.

    ఇది సంస్థాగత మరియు చాలా స్పష్టమైన విషయం, ఇది దృష్టి పెట్టడం విలువైనది కాదు. అయితే, ఈ "స్థాయి మైదానంలో" మీరు చాలా సులభంగా పొరపాట్లు చేయవచ్చు. వాస్తవానికి, ఈ క్షణం పైన వివరించిన ఇబ్బందులను జోడించింది. నవీకరణ నిబంధనలను రూపొందించేటప్పుడు చాలా జాగ్రత్తగా ఉండండి మరియు వాటితో సమ్మతిని తక్కువ జాగ్రత్తగా పర్యవేక్షించండి. ఈ పాయింట్ "క్రమశిక్షణ" అనే భావనకు సంబంధించినది.

  • సిస్టమ్‌ను తాజా సాఫ్ట్‌వేర్ వెర్షన్‌తో ఉంచడం ఎల్లప్పుడూ మంచిది. అంతేకాకుండా, ప్రస్తుతది పెద్ద సంఖ్యాపరమైన హోదాను కలిగి ఉండదు, కానీ తర్వాత విడుదల తేదీని కలిగి ఉంటుంది. 

    ఉదాహరణకు, IBM దాని నిల్వ సిస్టమ్‌ల కోసం కనీసం రెండు సాఫ్ట్‌వేర్ విడుదలలను తాజాగా ఉంచుతుంది. ఈ రచన సమయంలో, ఇవి 8.2 మరియు 8.3. 8.2కి సంబంధించిన నవీకరణలు ముందుగా వస్తాయి. 8.3 కోసం ఇదే విధమైన నవీకరణ సాధారణంగా కొంచెం ఆలస్యంతో విడుదల చేయబడుతుంది.

    విడుదల 8.3 అనేక ఫంక్షనల్ ప్రయోజనాలను కలిగి ఉంది, ఉదాహరణకు, ఒకటి లేదా అంతకంటే ఎక్కువ కొత్త డిస్క్‌లను జోడించడం ద్వారా MDisk (DRAID మోడ్‌లో) విస్తరించే సామర్థ్యం (ఈ ఫీచర్ వెర్షన్ 8.3.1 నుండి కనిపించింది). ఇది చాలా ప్రాథమిక కార్యాచరణ, కానీ 8.2లో, దురదృష్టవశాత్తు, అలాంటి లక్షణం లేదు.

  • కొన్ని కారణాల వల్ల అప్‌డేట్ చేయడం సాధ్యం కాకపోతే, 8.2.1.9 మరియు 8.3.1.0 వెర్షన్‌లకు ముందు స్పెక్ట్రమ్ వర్చువలైజ్ సాఫ్ట్‌వేర్ వెర్షన్‌ల కోసం (పైన వివరించిన బగ్ సంబంధితంగా ఉంటుంది), దాని సంభవించే ప్రమాదాన్ని తగ్గించడానికి, IBM సాంకేతిక మద్దతు సిఫార్సు చేస్తుంది దిగువ చిత్రంలో చూపిన విధంగా పూల్ స్థాయిలో సిస్టమ్ పనితీరును పరిమితం చేయడం (చిత్రం GUI యొక్క రస్సిఫైడ్ వెర్షన్‌లో తీయబడింది). 10000 IOPS విలువ ఉదాహరణగా చూపబడింది మరియు మీ సిస్టమ్ లక్షణాల ప్రకారం ఎంపిక చేయబడుతుంది.

మీ అధిక లభ్యత నిల్వ సిస్టమ్‌లో సాఫ్ట్‌వేర్‌ను పరీక్షించడం ఎందుకు ముఖ్యం (99,9999%)IBM నిల్వ పనితీరును పరిమితం చేస్తోంది

  • నిల్వ వ్యవస్థలపై లోడ్‌ను సరిగ్గా లెక్కించడం మరియు ఓవర్‌లోడింగ్‌ను నివారించడం అవసరం. దీన్ని చేయడానికి, మీరు IBM సైజర్‌ని (మీకు యాక్సెస్ ఉంటే) లేదా భాగస్వాముల సహాయం లేదా మూడవ పక్ష వనరులను ఉపయోగించవచ్చు. నిల్వ సిస్టమ్‌లోని లోడ్ ప్రొఫైల్‌ను అర్థం చేసుకోవడం అత్యవసరం, ఎందుకంటే MB/s మరియు IOPSలలో పనితీరు కనీసం కింది పారామితులపై ఆధారపడి చాలా తేడా ఉంటుంది:

    • ఆపరేషన్ రకం: చదవడం లేదా వ్రాయడం,

    • ఆపరేషన్ బ్లాక్ పరిమాణం,

    • మొత్తం I/O స్ట్రీమ్‌లో రీడ్ అండ్ రైట్ ఆపరేషన్‌ల శాతం.

    అలాగే, డేటా బ్లాక్‌లు ఎలా చదవబడుతున్నాయనే దాని ద్వారా కార్యకలాపాల వేగం ప్రభావితమవుతుంది: వరుసగా లేదా యాదృచ్ఛిక క్రమంలో. అప్లికేషన్ వైపు బహుళ డేటా యాక్సెస్ కార్యకలాపాలను నిర్వహిస్తున్నప్పుడు, డిపెండెంట్ ఆపరేషన్ల భావన ఉంది. దీనిని పరిగణనలోకి తీసుకోవడం కూడా మంచిది. ఇవన్నీ OS, స్టోరేజ్ సిస్టమ్, సర్వర్లు/హైపర్‌వైజర్‌ల పనితీరు కౌంటర్ల నుండి మొత్తం డేటాను చూడడానికి సహాయపడతాయి, అలాగే అప్లికేషన్‌లు, DBMSలు మరియు డిస్క్ వనరుల యొక్క ఇతర “వినియోగదారులు” యొక్క ఆపరేటింగ్ ఫీచర్‌లను అర్థం చేసుకోవచ్చు.

  • చివరకు, బ్యాకప్‌లు తాజాగా మరియు పని చేస్తున్నాయని నిర్ధారించుకోండి. బ్యాకప్ షెడ్యూల్ వ్యాపారం కోసం ఆమోదయోగ్యమైన RPO విలువల ఆధారంగా కాన్ఫిగర్ చేయబడాలి మరియు ఆమోదయోగ్యమైన RTO విలువను నిర్ధారించడానికి బ్యాకప్‌ల యొక్క ఆవర్తన సమగ్రత తనిఖీలను ధృవీకరించాలి (కొంతమంది బ్యాకప్ సాఫ్ట్‌వేర్ విక్రేతలు వారి ఉత్పత్తులలో స్వయంచాలక ధృవీకరణను అమలు చేస్తారు).

చివరి వరకు చదివినందుకు ధన్యవాదాలు.
వ్యాఖ్యలలో మీ ప్రశ్నలు మరియు వ్యాఖ్యలకు సమాధానం ఇవ్వడానికి మేము సిద్ధంగా ఉన్నాము. అలాగే మా టెలిగ్రామ్ ఛానెల్‌కు సభ్యత్వాన్ని పొందమని మేము మిమ్మల్ని ఆహ్వానిస్తున్నాము, దీనిలో మేము రెగ్యులర్ ప్రమోషన్‌లను నిర్వహిస్తాము (IaaSపై తగ్గింపులు మరియు VPSలో 100% వరకు ప్రమోషనల్ కోడ్‌ల కోసం బహుమతులు), ఆసక్తికరమైన వార్తలను వ్రాయండి మరియు Habr బ్లాగ్‌లో కొత్త కథనాలను ప్రకటిస్తాము.

మూలం: www.habr.com

ఒక వ్యాఖ్యను జోడించండి