ఏ ఫర్మ్వేర్ వెర్షన్ చాలా “సరైనది” మరియు “పని చేస్తోంది”? స్టోరేజీ సిస్టమ్ 99,9999% తప్పుని తట్టుకునేలా హామీ ఇస్తే, సాఫ్ట్వేర్ అప్డేట్ లేకుండా కూడా అది అంతరాయం లేకుండా పని చేస్తుందా? లేదా, దీనికి విరుద్ధంగా, గరిష్ట తప్పు సహనాన్ని పొందడానికి, మీరు ఎల్లప్పుడూ తాజా ఫర్మ్వేర్ను ఇన్స్టాల్ చేయాలా? మేము మా అనుభవం ఆధారంగా ఈ ప్రశ్నలకు సమాధానమివ్వడానికి ప్రయత్నిస్తాము.
ఒక చిన్న పరిచయం
సాఫ్ట్వేర్ యొక్క ప్రతి సంస్కరణ, అది ఆపరేటింగ్ సిస్టమ్ అయినా లేదా పరికరం కోసం డ్రైవర్ అయినా, తరచుగా లోపాలు/బగ్లు మరియు ఇతర “ఫీచర్లు” కలిగి ఉంటాయని, అవి పరికరాల సేవా జీవితం ముగిసే వరకు “కనిపించని” లేదా “ఓపెన్” అని మనమందరం అర్థం చేసుకున్నాము. కొన్ని షరతులలో మాత్రమే. అటువంటి సూక్ష్మ నైపుణ్యాల సంఖ్య మరియు ప్రాముఖ్యత సాఫ్ట్వేర్ యొక్క సంక్లిష్టత (కార్యాచరణ) మరియు దాని అభివృద్ధి సమయంలో పరీక్ష నాణ్యతపై ఆధారపడి ఉంటుంది.
తరచుగా, వినియోగదారులు "ఫ్యాక్టరీ నుండి ఫర్మ్వేర్" (ప్రసిద్ధ "ఇది పని చేస్తుంది, కాబట్టి దానితో గందరగోళానికి గురికావద్దు") లేదా ఎల్లప్పుడూ తాజా సంస్కరణను ఇన్స్టాల్ చేయండి (వారి అవగాహనలో, తాజాది అంటే చాలా పని చేస్తుంది). మేము వేరొక విధానాన్ని ఉపయోగిస్తాము - మేము ఉపయోగించిన ప్రతిదానికీ విడుదల గమనికలను పరిశీలిస్తాము
వారు చెప్పినట్లుగా, అనుభవంతో మేము ఈ నిర్ణయానికి వచ్చాము. మా ఆపరేషన్ ఉదాహరణను ఉపయోగించి, మీరు సాఫ్ట్వేర్ అప్డేట్లు మరియు వర్ణనలను తక్షణమే పర్యవేక్షించకుంటే, వాగ్దానం చేయబడిన 99,9999% స్టోరేజీ సిస్టమ్ల విశ్వసనీయత ఏదీ అర్థం కాదని మేము మీకు తెలియజేస్తాము. మా కేసు ఏదైనా విక్రేత నుండి నిల్వ సిస్టమ్ల వినియోగదారులకు అనుకూలంగా ఉంటుంది, ఎందుకంటే ఏదైనా తయారీదారు నుండి హార్డ్వేర్తో ఇలాంటి పరిస్థితి సంభవించవచ్చు.
కొత్త నిల్వ వ్యవస్థను ఎంచుకోవడం
గత సంవత్సరం చివరలో, మా అవస్థాపనకు ఆసక్తికరమైన డేటా నిల్వ వ్యవస్థ జోడించబడింది: IBM FlashSystem 5000 లైన్ నుండి ఒక జూనియర్ మోడల్, కొనుగోలు సమయంలో దీనిని Storwize V5010e అని పిలుస్తారు. ఇప్పుడు అది FlashSystem 5010 పేరుతో విక్రయించబడింది, అయితే వాస్తవానికి ఇది అదే స్పెక్ట్రమ్ వర్చువలైజ్ లోపల ఉన్న అదే హార్డ్వేర్ బేస్.
ఏకీకృత నిర్వహణ వ్యవస్థ యొక్క ఉనికి, మార్గం ద్వారా, IBM FlashSystem మధ్య ప్రధాన వ్యత్యాసం. యువ సిరీస్ యొక్క నమూనాల కోసం, ఇది మరింత ఉత్పాదక నమూనాల నుండి ఆచరణాత్మకంగా భిన్నంగా లేదు. నిర్దిష్ట మోడల్ను ఎంచుకోవడం సరైన హార్డ్వేర్ బేస్ను మాత్రమే అందిస్తుంది, దీని లక్షణాలు ఒకటి లేదా మరొక కార్యాచరణను ఉపయోగించడం లేదా అధిక స్థాయి స్కేలబిలిటీని అందించడం సాధ్యం చేస్తాయి. సాఫ్ట్వేర్ హార్డ్వేర్ను గుర్తిస్తుంది మరియు ఈ ప్లాట్ఫారమ్కు అవసరమైన మరియు తగినంత కార్యాచరణను అందిస్తుంది.
IBM ఫ్లాష్సిస్టమ్ 5010
మా మోడల్ 5010 గురించి క్లుప్తంగా. ఇది ఎంట్రీ-లెవల్ డ్యూయల్-కంట్రోలర్ బ్లాక్ స్టోరేజ్ సిస్టమ్. ఇది NLSAS, SAS, SSD డిస్క్లను కలిగి ఉంటుంది. NVMe ప్లేస్మెంట్ ఇందులో అందుబాటులో లేదు, ఎందుకంటే ఈ స్టోరేజ్ మోడల్ NVMe డ్రైవ్ల పనితీరు అవసరం లేని సమస్యలను పరిష్కరించడానికి ఉంచబడింది.
తరచుగా యాక్సెస్ చేయని ఆర్కైవల్ సమాచారం లేదా డేటాను ఉంచడానికి నిల్వ సిస్టమ్ కొనుగోలు చేయబడింది. అందువల్ల, దాని కార్యాచరణ యొక్క ప్రామాణిక సెట్ మాకు సరిపోతుంది: టైరింగ్ (ఈజీ టైర్), థిన్ ప్రొవిజన్. 1000-2000 IOPS స్థాయిలో NLSAS డిస్క్ల పనితీరు కూడా మాకు చాలా సంతృప్తికరంగా ఉంది.
మా అనుభవం - మేము ఫర్మ్వేర్ను సమయానికి ఎలా అప్డేట్ చేయలేదు
ఇప్పుడు సాఫ్ట్వేర్ నవీకరణ గురించి. కొనుగోలు సమయంలో, సిస్టమ్ ఇప్పటికే స్పెక్ట్రమ్ వర్చువలైజ్ సాఫ్ట్వేర్ యొక్క కొంచెం పాత వెర్షన్ను కలిగి ఉంది, అవి, <span style="font-family: arial; ">10</span>
మేము ఫర్మ్వేర్ వివరణలను అధ్యయనం చేసాము మరియు నవీకరణను ప్లాన్ చేసాము 8.2.1.9. మేము మరికొంత సమర్థంగా ఉండి ఉంటే, ఈ కథనం ఉనికిలో ఉండేది కాదు - ఇటీవలి ఫర్మ్వేర్లో బగ్ సంభవించి ఉండేది కాదు. అయితే, కొన్ని కారణాల వల్ల, ఈ సిస్టమ్ యొక్క నవీకరణ వాయిదా పడింది.
ఫలితంగా, కొద్దిగా నవీకరణ ఆలస్యం లింక్లోని వివరణలో వలె చాలా అసహ్యకరమైన చిత్రానికి దారితీసింది:
అవును, ఆ వెర్షన్ యొక్క ఫర్మ్వేర్లో APAR అని పిలవబడే (అధీకృత ప్రోగ్రామ్ విశ్లేషణ నివేదిక) HU02104 సంబంధితంగా ఉంది. ఇది క్రింది విధంగా కనిపిస్తుంది. లోడ్ కింద, కొన్ని పరిస్థితులలో, కాష్ ఓవర్ఫ్లో ప్రారంభమవుతుంది, అప్పుడు సిస్టమ్ రక్షిత మోడ్లోకి వెళుతుంది, దీనిలో ఇది పూల్ కోసం I/Oని నిలిపివేస్తుంది. మా విషయంలో, RAID 3 మోడ్లో RAID సమూహం కోసం 6 డిస్క్లను డిస్కనెక్ట్ చేస్తున్నట్లుగా కనిపించింది. డిస్కనెక్ట్ 6 నిమిషాల పాటు జరుగుతుంది. తరువాత, పూల్లోని వాల్యూమ్లకు యాక్సెస్ పునరుద్ధరించబడుతుంది.
IBM స్పెక్ట్రమ్ వర్చువలైజ్ సందర్భంలో లాజికల్ ఎంటిటీల నిర్మాణం మరియు నామకరణం గురించి ఎవరికైనా తెలియకపోతే, నేను ఇప్పుడు క్లుప్తంగా వివరిస్తాను.
నిల్వ వ్యవస్థ తార్కిక మూలకాల నిర్మాణం
డిస్క్లు MDisk (మేనేజ్డ్ డిస్క్) అని పిలువబడే సమూహాలలో సేకరించబడతాయి. MDisk ఒక క్లాసిక్ RAID (0,1,10,5,6) లేదా వర్చువలైజ్ చేయబడినది కావచ్చు - DRAID (డిస్ట్రిబ్యూటెడ్ RAID). DRAIDని ఉపయోగించడం శ్రేణి పనితీరును పెంచడానికి మిమ్మల్ని అనుమతిస్తుంది, ఎందుకంటే... సమూహంలోని అన్ని డిస్క్లు ఉపయోగించబడతాయి మరియు పునర్నిర్మాణ సమయం తగ్గుతుంది, ఎందుకంటే నిర్దిష్ట బ్లాక్లు మాత్రమే పునరుద్ధరించబడాలి మరియు విఫలమైన డిస్క్ నుండి మొత్తం డేటా కాదు.
RAID-5 మోడ్లో డిస్ట్రిబ్యూటెడ్ RAID (DRAID)ని ఉపయోగిస్తున్నప్పుడు డిస్క్ల అంతటా డేటా బ్లాక్ల పంపిణీ.
మరియు ఈ రేఖాచిత్రం ఒక డిస్క్ వైఫల్యం సంభవించినప్పుడు DRAID పునర్నిర్మాణం ఎలా పని చేస్తుందనే తర్కాన్ని చూపుతుంది:
ఒక డిస్క్ విఫలమైనప్పుడు DRAID రీబిల్డ్ యొక్క లాజిక్
తరువాత, ఒకటి లేదా అంతకంటే ఎక్కువ MDiskలు పూల్ అని పిలవబడేవి. ఒకే పూల్లో, ఒకే రకమైన డిస్క్లపై వేర్వేరు RAID/DRAID స్థాయిలతో MDiskని ఉపయోగించడం సిఫార్సు చేయబడదు. మేము దీని గురించి చాలా లోతుగా వెళ్ళము, ఎందుకంటే... మేము దీనిని క్రింది కథనాలలో ఒకదానిలో కవర్ చేయడానికి ప్లాన్ చేస్తున్నాము. బాగా, వాస్తవానికి, పూల్ వాల్యూమ్లుగా విభజించబడింది, ఇది హోస్ట్లకు ఒకటి లేదా మరొక బ్లాక్ యాక్సెస్ ప్రోటోకాల్ను ఉపయోగించి ప్రదర్శించబడుతుంది.
కాబట్టి, మేము వివరించిన పరిస్థితి ఫలితంగా APAR HU02104, మూడు డిస్క్ల తార్కిక వైఫల్యం కారణంగా, MDisk పని చేయడం ఆగిపోయింది, దీని ఫలితంగా పూల్ మరియు సంబంధిత వాల్యూమ్ల వైఫల్యం ఏర్పడింది.
ఈ సిస్టమ్లు చాలా స్మార్ట్గా ఉన్నందున, వాటిని IBM స్టోరేజ్ అంతర్దృష్టుల క్లౌడ్-ఆధారిత పర్యవేక్షణ సిస్టమ్కి కనెక్ట్ చేయవచ్చు, ఇది సమస్య ఏర్పడితే IBM మద్దతుకు స్వయంచాలకంగా సేవా అభ్యర్థనను పంపుతుంది. ఒక అప్లికేషన్ సృష్టించబడింది మరియు IBM నిపుణులు రిమోట్గా డయాగ్నస్టిక్లను నిర్వహిస్తారు మరియు సిస్టమ్ వినియోగదారుని సంప్రదించండి.
దీనికి ధన్యవాదాలు, సమస్య చాలా త్వరగా పరిష్కరించబడింది మరియు మా సిస్టమ్ను గతంలో ఎంచుకున్న ఫర్మ్వేర్ 8.2.1.9కి నవీకరించడానికి మద్దతు సేవ నుండి ప్రాంప్ట్ సిఫార్సు వచ్చింది, ఆ సమయంలో ఇది ఇప్పటికే పరిష్కరించబడింది. ఇది నిర్ధారిస్తుంది
ఫలితాలు మరియు మా సిఫార్సులు
సామెత చెప్పినట్లుగా: "అంతా బాగానే ఉంది, అది బాగానే ముగుస్తుంది." ఫర్మ్వేర్లోని బగ్ తీవ్రమైన సమస్యలను కలిగించలేదు - సర్వర్లు వీలైనంత త్వరగా మరియు డేటా నష్టం లేకుండా పునరుద్ధరించబడ్డాయి. కొంతమంది క్లయింట్లు వర్చువల్ మెషీన్లను పునఃప్రారంభించవలసి ఉంటుంది, అయితే సాధారణంగా మేము అన్ని మౌలిక సదుపాయాల అంశాలు మరియు క్లయింట్ మెషీన్ల యొక్క రోజువారీ బ్యాకప్లను తయారు చేయడం వలన మేము మరింత ప్రతికూల పరిణామాలకు సిద్ధంగా ఉన్నాము.
99,9999% వాగ్దానం చేయబడిన లభ్యతతో విశ్వసనీయమైన సిస్టమ్లకు కూడా శ్రద్ధ మరియు సకాలంలో నిర్వహణ అవసరమని మేము నిర్ధారణను అందుకున్నాము. పరిస్థితి ఆధారంగా, మేము మా కోసం అనేక తీర్మానాలు చేసాము మరియు మా సిఫార్సులను పంచుకుంటాము:
-
అప్డేట్ల విడుదలను పర్యవేక్షించడం, క్లిష్టమైన సమస్యల సవరణల కోసం విడుదల గమనికలను అధ్యయనం చేయడం మరియు ప్రణాళికాబద్ధమైన అప్డేట్లను సకాలంలో నిర్వహించడం అత్యవసరం.
ఇది సంస్థాగత మరియు చాలా స్పష్టమైన విషయం, ఇది దృష్టి పెట్టడం విలువైనది కాదు. అయితే, ఈ "స్థాయి మైదానంలో" మీరు చాలా సులభంగా పొరపాట్లు చేయవచ్చు. వాస్తవానికి, ఈ క్షణం పైన వివరించిన ఇబ్బందులను జోడించింది. నవీకరణ నిబంధనలను రూపొందించేటప్పుడు చాలా జాగ్రత్తగా ఉండండి మరియు వాటితో సమ్మతిని తక్కువ జాగ్రత్తగా పర్యవేక్షించండి. ఈ పాయింట్ "క్రమశిక్షణ" అనే భావనకు సంబంధించినది.
-
సిస్టమ్ను తాజా సాఫ్ట్వేర్ వెర్షన్తో ఉంచడం ఎల్లప్పుడూ మంచిది. అంతేకాకుండా, ప్రస్తుతది పెద్ద సంఖ్యాపరమైన హోదాను కలిగి ఉండదు, కానీ తర్వాత విడుదల తేదీని కలిగి ఉంటుంది.
ఉదాహరణకు, IBM దాని నిల్వ సిస్టమ్ల కోసం కనీసం రెండు సాఫ్ట్వేర్ విడుదలలను తాజాగా ఉంచుతుంది. ఈ రచన సమయంలో, ఇవి 8.2 మరియు 8.3. 8.2కి సంబంధించిన నవీకరణలు ముందుగా వస్తాయి. 8.3 కోసం ఇదే విధమైన నవీకరణ సాధారణంగా కొంచెం ఆలస్యంతో విడుదల చేయబడుతుంది.
విడుదల 8.3 అనేక ఫంక్షనల్ ప్రయోజనాలను కలిగి ఉంది, ఉదాహరణకు, ఒకటి లేదా అంతకంటే ఎక్కువ కొత్త డిస్క్లను జోడించడం ద్వారా MDisk (DRAID మోడ్లో) విస్తరించే సామర్థ్యం (ఈ ఫీచర్ వెర్షన్ 8.3.1 నుండి కనిపించింది). ఇది చాలా ప్రాథమిక కార్యాచరణ, కానీ 8.2లో, దురదృష్టవశాత్తు, అలాంటి లక్షణం లేదు.
-
కొన్ని కారణాల వల్ల అప్డేట్ చేయడం సాధ్యం కాకపోతే, 8.2.1.9 మరియు 8.3.1.0 వెర్షన్లకు ముందు స్పెక్ట్రమ్ వర్చువలైజ్ సాఫ్ట్వేర్ వెర్షన్ల కోసం (పైన వివరించిన బగ్ సంబంధితంగా ఉంటుంది), దాని సంభవించే ప్రమాదాన్ని తగ్గించడానికి, IBM సాంకేతిక మద్దతు సిఫార్సు చేస్తుంది దిగువ చిత్రంలో చూపిన విధంగా పూల్ స్థాయిలో సిస్టమ్ పనితీరును పరిమితం చేయడం (చిత్రం GUI యొక్క రస్సిఫైడ్ వెర్షన్లో తీయబడింది). 10000 IOPS విలువ ఉదాహరణగా చూపబడింది మరియు మీ సిస్టమ్ లక్షణాల ప్రకారం ఎంపిక చేయబడుతుంది.
IBM నిల్వ పనితీరును పరిమితం చేస్తోంది
-
నిల్వ వ్యవస్థలపై లోడ్ను సరిగ్గా లెక్కించడం మరియు ఓవర్లోడింగ్ను నివారించడం అవసరం. దీన్ని చేయడానికి, మీరు IBM సైజర్ని (మీకు యాక్సెస్ ఉంటే) లేదా భాగస్వాముల సహాయం లేదా మూడవ పక్ష వనరులను ఉపయోగించవచ్చు. నిల్వ సిస్టమ్లోని లోడ్ ప్రొఫైల్ను అర్థం చేసుకోవడం అత్యవసరం, ఎందుకంటే MB/s మరియు IOPSలలో పనితీరు కనీసం కింది పారామితులపై ఆధారపడి చాలా తేడా ఉంటుంది:
-
ఆపరేషన్ రకం: చదవడం లేదా వ్రాయడం,
-
ఆపరేషన్ బ్లాక్ పరిమాణం,
-
మొత్తం I/O స్ట్రీమ్లో రీడ్ అండ్ రైట్ ఆపరేషన్ల శాతం.
అలాగే, డేటా బ్లాక్లు ఎలా చదవబడుతున్నాయనే దాని ద్వారా కార్యకలాపాల వేగం ప్రభావితమవుతుంది: వరుసగా లేదా యాదృచ్ఛిక క్రమంలో. అప్లికేషన్ వైపు బహుళ డేటా యాక్సెస్ కార్యకలాపాలను నిర్వహిస్తున్నప్పుడు, డిపెండెంట్ ఆపరేషన్ల భావన ఉంది. దీనిని పరిగణనలోకి తీసుకోవడం కూడా మంచిది. ఇవన్నీ OS, స్టోరేజ్ సిస్టమ్, సర్వర్లు/హైపర్వైజర్ల పనితీరు కౌంటర్ల నుండి మొత్తం డేటాను చూడడానికి సహాయపడతాయి, అలాగే అప్లికేషన్లు, DBMSలు మరియు డిస్క్ వనరుల యొక్క ఇతర “వినియోగదారులు” యొక్క ఆపరేటింగ్ ఫీచర్లను అర్థం చేసుకోవచ్చు.
-
-
చివరకు, బ్యాకప్లు తాజాగా మరియు పని చేస్తున్నాయని నిర్ధారించుకోండి. బ్యాకప్ షెడ్యూల్ వ్యాపారం కోసం ఆమోదయోగ్యమైన RPO విలువల ఆధారంగా కాన్ఫిగర్ చేయబడాలి మరియు ఆమోదయోగ్యమైన RTO విలువను నిర్ధారించడానికి బ్యాకప్ల యొక్క ఆవర్తన సమగ్రత తనిఖీలను ధృవీకరించాలి (కొంతమంది బ్యాకప్ సాఫ్ట్వేర్ విక్రేతలు వారి ఉత్పత్తులలో స్వయంచాలక ధృవీకరణను అమలు చేస్తారు).
చివరి వరకు చదివినందుకు ధన్యవాదాలు.
వ్యాఖ్యలలో మీ ప్రశ్నలు మరియు వ్యాఖ్యలకు సమాధానం ఇవ్వడానికి మేము సిద్ధంగా ఉన్నాము. అలాగే
మూలం: www.habr.com