డేటా సెంటర్లలో ప్రమాదాలకు ప్రధాన కారణం కంప్యూటర్ మరియు కుర్చీ మధ్య రబ్బరు పట్టీ

ఆధునిక డేటా సెంటర్లలో పెద్ద ప్రమాదాల అంశం మొదటి వ్యాసంలో సమాధానం ఇవ్వని ప్రశ్నలను లేవనెత్తుతుంది - మేము దానిని అభివృద్ధి చేయాలని నిర్ణయించుకున్నాము.

డేటా సెంటర్లలో ప్రమాదాలకు ప్రధాన కారణం కంప్యూటర్ మరియు కుర్చీ మధ్య రబ్బరు పట్టీ

అప్‌టైమ్ ఇన్‌స్టిట్యూట్ గణాంకాల ప్రకారం, డేటా సెంటర్‌లలో ఎక్కువ సంఘటనలు విద్యుత్ సరఫరా వ్యవస్థ వైఫల్యాలకు సంబంధించినవి-అవి 39% సంఘటనలకు సంబంధించినవి. వాటిని మానవ కారకం అనుసరిస్తుంది, ఇది మరో 24% ప్రమాదాలకు కారణం. మూడవ అతి ముఖ్యమైన కారణం (15%) ఎయిర్ కండిషనింగ్ వ్యవస్థ యొక్క వైఫల్యం, మరియు నాల్గవ స్థానంలో (12%) ప్రకృతి వైపరీత్యాలు. ఇతర సమస్యల మొత్తం వాటా 10% మాత్రమే. గౌరవనీయమైన సంస్థ యొక్క డేటాను ప్రశ్నించకుండా, మేము వేర్వేరు ప్రమాదాలలో సాధారణమైనదాన్ని హైలైట్ చేస్తాము మరియు వాటిని నివారించవచ్చో అర్థం చేసుకోవడానికి ప్రయత్నిస్తాము. స్పాయిలర్: ఇది చాలా సందర్భాలలో సాధ్యమే.

ది సైన్స్ ఆఫ్ కాంటాక్ట్స్

సరళంగా చెప్పాలంటే, విద్యుత్ సరఫరాలో కేవలం రెండు సమస్యలు మాత్రమే ఉన్నాయి: అది ఉండవలసిన చోట పరిచయం లేదు, లేదా పరిచయం ఉండకూడని చోట పరిచయం ఉంది. ఆధునిక నిరంతర విద్యుత్ సరఫరా వ్యవస్థల విశ్వసనీయత గురించి మీరు చాలా కాలం పాటు మాట్లాడవచ్చు, కానీ అవి ఎల్లప్పుడూ మిమ్మల్ని రక్షించవు. మాతృ సంస్థ ఇంటర్నేషనల్ ఎయిర్‌లైన్స్ గ్రూప్ యాజమాన్యంలో ఉన్న బ్రిటిష్ ఎయిర్‌వేస్ ఉపయోగించే డేటా సెంటర్ యొక్క హై-ప్రొఫైల్ కేసును తీసుకోండి. హీత్రో విమానాశ్రయానికి సమీపంలో ఇటువంటి రెండు ఆస్తులు ఉన్నాయి - బోడిసియా హౌస్ మరియు కామెట్ హౌస్. వీటిలో మొదటిది, మే 27, 2017 న, ప్రమాదవశాత్తు విద్యుత్తు అంతరాయం ఏర్పడింది, ఇది UPS వ్యవస్థ యొక్క ఓవర్‌లోడ్ మరియు వైఫల్యానికి దారితీసింది. ఫలితంగా, కొన్ని ఐటీ పరికరాలు భౌతికంగా దెబ్బతిన్నాయి మరియు తాజా విపత్తు పరిష్కరించడానికి మూడు రోజులు పట్టింది.

విమానయాన సంస్థ వెయ్యికి పైగా విమానాలను రద్దు చేయవలసి వచ్చింది లేదా రీషెడ్యూల్ చేయాల్సి వచ్చింది, సుమారు 75 వేల మంది ప్రయాణికులు సమయానికి ప్రయాణించలేకపోయారు - డేటా సెంటర్ల కార్యాచరణను పునరుద్ధరించడానికి అవసరమైన ఖర్చులను లెక్కించకుండా పరిహారం చెల్లించడానికి $128 మిలియన్లు ఖర్చు చేశారు. బ్లాక్‌అవుట్‌కు కారణాల చరిత్ర అస్పష్టంగా ఉంది. ఇంటర్నేషనల్ ఎయిర్‌లైన్స్ గ్రూప్ CEO విల్లీ వాల్ష్ ప్రకటించిన అంతర్గత పరిశోధన ఫలితాలను మీరు విశ్వసిస్తే, ఇంజనీర్ల లోపం కారణంగా ఇది జరిగింది. అయినప్పటికీ, నిరంతర విద్యుత్ సరఫరా వ్యవస్థ అటువంటి షట్డౌన్ను తట్టుకోవలసి వచ్చింది - అందుకే ఇది వ్యవస్థాపించబడింది. డేటా సెంటర్‌ను ఔట్‌సోర్సింగ్ కంపెనీ CBRE మేనేజ్డ్ సర్వీసెస్ నిపుణులు నిర్వహిస్తారు, కాబట్టి బ్రిటిష్ ఎయిర్‌వేస్ లండన్ కోర్టు ద్వారా నష్టాన్ని తిరిగి పొందేందుకు ప్రయత్నించింది.

డేటా సెంటర్లలో ప్రమాదాలకు ప్రధాన కారణం కంప్యూటర్ మరియు కుర్చీ మధ్య రబ్బరు పట్టీ

ఇలాంటి సందర్భాలలో విద్యుత్తు అంతరాయం ఏర్పడుతుంది: మొదట విద్యుత్ సరఫరాదారు యొక్క తప్పు కారణంగా, కొన్నిసార్లు చెడు వాతావరణం లేదా అంతర్గత సమస్యల కారణంగా (మానవ తప్పిదాలతో సహా) బ్లాక్అవుట్ అవుతుంది, ఆపై నిరంతర విద్యుత్ సరఫరా వ్యవస్థ లోడ్ లేదా తక్కువ సమయంలో తట్టుకోలేకపోతుంది. -సైన్ వేవ్ యొక్క టర్మ్ అంతరాయం అనేక సేవల వైఫల్యాలకు కారణమవుతుంది, దీని పునరుద్ధరణకు చాలా సమయం మరియు డబ్బు పడుతుంది. అటువంటి ప్రమాదాలను నివారించడం సాధ్యమేనా? నిస్సందేహంగా. మీరు సిస్టమ్‌ను సరిగ్గా రూపొందించినట్లయితే, పెద్ద డేటా సెంటర్‌ల సృష్టికర్తలు కూడా తప్పుల నుండి తప్పించుకోలేరు.

మానవ కారకం

సంఘటనకు తక్షణ కారణం డేటా సెంటర్ సిబ్బంది యొక్క తప్పు చర్యలు అయినప్పుడు, సమస్యలు చాలా తరచుగా (కానీ ఎల్లప్పుడూ కాదు) IT అవస్థాపనలోని సాఫ్ట్‌వేర్ భాగాన్ని ప్రభావితం చేస్తాయి. పెద్ద పెద్ద సంస్థల్లో కూడా ఇలాంటి ప్రమాదాలు జరుగుతున్నాయి. ఫిబ్రవరి 2017లో, డేటా సెంటర్‌లలో ఒకదాని యొక్క టెక్నికల్ ఆపరేషన్ గ్రూప్‌లో తప్పుగా రిక్రూట్ చేయబడిన టీమ్ మెంబర్ కారణంగా, Amazon వెబ్ సర్వర్‌లలో కొంత భాగం డిసేబుల్ చేయబడింది. Amazon సింపుల్ స్టోరేజ్ సర్వీస్ (S3) క్లౌడ్ స్టోరేజ్ కస్టమర్‌ల కోసం బిల్లింగ్ ప్రాసెస్‌ను డీబగ్ చేస్తున్నప్పుడు ఎర్రర్ ఏర్పడింది. ఒక ఉద్యోగి బిల్లింగ్ సిస్టమ్ ఉపయోగించే అనేక వర్చువల్ సర్వర్‌లను తొలగించడానికి ప్రయత్నించాడు, కానీ పెద్ద క్లస్టర్‌ను కొట్టాడు.

డేటా సెంటర్లలో ప్రమాదాలకు ప్రధాన కారణం కంప్యూటర్ మరియు కుర్చీ మధ్య రబ్బరు పట్టీ

ఇంజనీర్ లోపం ఫలితంగా, ముఖ్యమైన అమెజాన్ క్లౌడ్ స్టోరేజ్ సాఫ్ట్‌వేర్ మాడ్యూల్‌లను అమలు చేస్తున్న సర్వర్‌లు తొలగించబడ్డాయి. US-EAST-3 అమెరికన్ ప్రాంతంలోని అన్ని S1 ఆబ్జెక్ట్‌ల మెటాడేటా మరియు లొకేషన్ గురించిన సమాచారాన్ని కలిగి ఉండే ఇండెక్సింగ్ సబ్‌సిస్టమ్‌పై మొదటి ప్రభావితమైంది. ఈ సంఘటన డేటాను హోస్ట్ చేయడానికి మరియు నిల్వ కోసం అందుబాటులో ఉన్న స్థలాన్ని నిర్వహించడానికి ఉపయోగించే సబ్‌సిస్టమ్‌ను కూడా ప్రభావితం చేసింది. వర్చువల్ మిషన్‌లను తొలగించిన తర్వాత, ఈ రెండు సబ్‌సిస్టమ్‌లకు పూర్తి పునఃప్రారంభం అవసరం, ఆపై అమెజాన్ ఇంజనీర్లు ఆశ్చర్యానికి గురయ్యారు - చాలా కాలం వరకు, పబ్లిక్ క్లౌడ్ స్టోరేజ్ కస్టమర్ అభ్యర్థనలను అందించలేకపోయింది.

అనేక పెద్ద వనరులు Amazon S3ని ఉపయోగిస్తున్నందున ప్రభావం విస్తృతంగా ఉంది. అంతరాయాలు Trello, Coursera, IFTTT మరియు అత్యంత అసహ్యకరమైన, S&P 500 జాబితా నుండి ప్రధాన Amazon భాగస్వాముల సేవలను ప్రభావితం చేశాయి. అటువంటి సందర్భాలలో నష్టాన్ని లెక్కించడం కష్టం, కానీ అది వందల మిలియన్ల US డాలర్ల ప్రాంతంలో ఉంది. మీరు చూడగలిగినట్లుగా, అతిపెద్ద క్లౌడ్ ప్లాట్‌ఫారమ్ యొక్క సేవను నిలిపివేయడానికి ఒక తప్పు ఆదేశం సరిపోతుంది. ఇది వివిక్త కేసు కాదు; మే 16, 2019న, నిర్వహణ పని సమయంలో, Yandex.Cloud సేవ తొలగించబడింది ru-central1-c జోన్‌లోని వినియోగదారుల వర్చువల్ మెషీన్‌లు కనీసం ఒక్కసారైనా సస్పెండ్ చేయబడిన స్థితిలో ఉన్నాయి. క్లయింట్ డేటా ఇప్పటికే ఇక్కడ దెబ్బతింది, వాటిలో కొన్ని తిరిగి పొందలేని విధంగా పోయాయి. వాస్తవానికి, వ్యక్తులు అసంపూర్ణంగా ఉంటారు, కానీ ఆధునిక సమాచార భద్రతా వ్యవస్థలు వారు నమోదు చేసిన ఆదేశాలను అమలు చేయడానికి ముందు విశేష వినియోగదారుల చర్యలను చాలాకాలంగా పర్యవేక్షించగలుగుతున్నాయి. అటువంటి పరిష్కారాలను Yandex లేదా Amazonలో అమలు చేస్తే, అటువంటి సంఘటనలను నివారించవచ్చు.

డేటా సెంటర్లలో ప్రమాదాలకు ప్రధాన కారణం కంప్యూటర్ మరియు కుర్చీ మధ్య రబ్బరు పట్టీ

ఘనీభవించిన శీతలీకరణ

జనవరి 2017లో, మెగాఫోన్ కంపెనీకి చెందిన డిమిట్రోవ్ డేటా సెంటర్‌లో పెద్ద ప్రమాదం జరిగింది. అప్పుడు మాస్కో ప్రాంతంలో ఉష్ణోగ్రత −35 °Cకి పడిపోయింది, ఇది సౌకర్యం యొక్క శీతలీకరణ వ్యవస్థ యొక్క వైఫల్యానికి దారితీసింది. ఆపరేటర్ యొక్క ప్రెస్ సర్వీస్ ఈ సంఘటనకు గల కారణాల గురించి ప్రత్యేకంగా మాట్లాడలేదు - రష్యన్ కంపెనీలు తమ స్వంత సౌకర్యాల వద్ద ప్రమాదాల గురించి మాట్లాడటానికి చాలా ఇష్టపడరు; ప్రచారం పరంగా, మేము పశ్చిమ దేశాల కంటే చాలా వెనుకబడి ఉన్నాము. వీధిలో వేయబడిన పైపులలో శీతలకరణిని గడ్డకట్టడం మరియు ఇథిలీన్ గ్లైకాల్ లీకేజీ గురించి సోషల్ నెట్‌వర్క్‌లలో ఒక సంస్కరణ ప్రసారం చేయబడింది. ఆమె ప్రకారం, సుదీర్ఘ సెలవుల కారణంగా ఆపరేషన్ సేవ త్వరగా 30 టన్నుల శీతలకరణిని పొందలేకపోయింది మరియు సిస్టమ్‌ను ఆపరేట్ చేయడానికి నిబంధనలను ఉల్లంఘించి మెరుగైన ఉచిత-శీతలీకరణను నిర్వహించడం ద్వారా మెరుగైన మార్గాలను ఉపయోగించి బయటపడింది. తీవ్రమైన చలి సమస్యను మరింత తీవ్రతరం చేసింది - జనవరిలో, శీతాకాలం అకస్మాత్తుగా రష్యాను తాకింది, అయినప్పటికీ ఎవరూ ఊహించలేదు. దీంతో రెండు రోజులుగా కొన్ని ఆపరేటర్‌ సేవలు అందుబాటులో లేకపోవడంతో సిబ్బంది సర్వర్‌ ర్యాక్‌లలో కొంత భాగానికి విద్యుత్‌ను నిలిపివేయాల్సి వచ్చింది.

డేటా సెంటర్లలో ప్రమాదాలకు ప్రధాన కారణం కంప్యూటర్ మరియు కుర్చీ మధ్య రబ్బరు పట్టీ

బహుశా, మనం ఇక్కడ వాతావరణ క్రమరాహిత్యం గురించి మాట్లాడవచ్చు, కానీ అలాంటి మంచు రాజధాని ప్రాంతానికి అసాధారణమైనది కాదు. మాస్కో ప్రాంతంలో శీతాకాలంలో ఉష్ణోగ్రతలు తక్కువ స్థాయికి పడిపోతాయి, కాబట్టి డేటా సెంటర్లు -42 ° C వద్ద స్థిరమైన ఆపరేషన్ యొక్క అంచనాతో నిర్మించబడ్డాయి. చాలా తరచుగా, శీతలకరణి ద్రావణంలో గ్లైకాల్స్ మరియు అదనపు నీటి యొక్క తగినంత అధిక సాంద్రత కారణంగా చల్లని వాతావరణంలో శీతలీకరణ వ్యవస్థలు విఫలమవుతాయి. పైపుల సంస్థాపనతో లేదా సిస్టమ్ యొక్క రూపకల్పన మరియు పరీక్షలో తప్పుడు లెక్కలతో సమస్యలు కూడా ఉన్నాయి, ప్రధానంగా డబ్బు ఆదా చేయాలనే కోరికతో సంబంధం కలిగి ఉంటుంది. తత్ఫలితంగా, నీలిరంగు నుండి తీవ్రమైన ప్రమాదం సంభవిస్తుంది, దీనిని నివారించవచ్చు.

ప్రకృతి వైపరీత్యాలు

చాలా తరచుగా, ఉరుములు మరియు/లేదా తుఫానులు డేటా సెంటర్ యొక్క ఇంజనీరింగ్ అవస్థాపనకు అంతరాయం కలిగిస్తాయి, ఇది సేవా అంతరాయాలకు మరియు/లేదా పరికరాలకు భౌతిక నష్టానికి దారితీస్తుంది. చెడు వాతావరణం వల్ల కలిగే సంఘటనలు చాలా తరచుగా జరుగుతాయి. 2012లో, శాండీ తుఫాను భారీ వర్షాలతో యునైటెడ్ స్టేట్స్ వెస్ట్ కోస్ట్‌ను చుట్టుముట్టింది. పీర్ 1 డేటా సెంటర్ దిగువ మాన్‌హాటన్‌లోని ఎత్తైన భవనంలో ఉంది బాహ్య విద్యుత్ సరఫరా కోల్పోయింది, ఉప్పు సముద్రపు నీరు నేలమాళిగలను ప్రవహించిన తరువాత. సదుపాయం యొక్క అత్యవసర జనరేటర్లు 18వ అంతస్తులో ఉన్నాయి మరియు వాటి ఇంధన సరఫరా పరిమితం చేయబడింది - 9/11 తీవ్రవాద దాడుల తర్వాత న్యూయార్క్‌లో ప్రవేశపెట్టిన నియమాలు పై అంతస్తులలో పెద్ద మొత్తంలో ఇంధనాన్ని నిల్వ చేయడాన్ని నిషేధించాయి.

ఫ్యూయల్ పంప్ కూడా ఫెయిల్ కావడంతో సిబ్బంది చేతితో జనరేటర్లకు డీజిల్‌ను తరలించే పనిలో చాలా రోజులు గడిపారు. బృందం యొక్క వీరత్వం డేటా సెంటర్‌ను తీవ్రమైన ప్రమాదం నుండి రక్షించింది, అయితే ఇది నిజంగా అవసరమా? మనం నత్రజని-ఆక్సిజన్ వాతావరణం మరియు చాలా నీరు ఉన్న గ్రహం మీద జీవిస్తున్నాము. ఉరుములు మరియు తుఫానులు ఇక్కడ (ముఖ్యంగా తీర ప్రాంతాలలో) సర్వసాధారణం. డిజైనర్లు బహుశా ఇందులో ఉన్న నష్టాలను పరిగణలోకి తీసుకొని తగిన నిరంతర విద్యుత్ సరఫరా వ్యవస్థను నిర్మించడం మంచిది. లేదా కనీసం ఒక ద్వీపంలోని ఎత్తైన ప్రదేశం కంటే డేటా సెంటర్ కోసం మరింత అనుకూలమైన స్థానాన్ని ఎంచుకోండి.

మిగతావన్నీ

అప్‌టైమ్ ఇన్‌స్టిట్యూట్ ఈ వర్గంలోని అనేక రకాల సంఘటనలను గుర్తిస్తుంది, వాటిలో సాధారణమైనదాన్ని ఎంచుకోవడం కష్టం. కాపర్ కేబుల్స్ దొంగతనం, డేటా సెంటర్లలోకి దూసుకెళ్లే కార్లు, పవర్ లైన్ సపోర్టులు మరియు ట్రాన్స్‌ఫార్మర్ సబ్‌స్టేషన్‌లు, మంటలు, ఎక్స్‌కవేటర్ ఆపరేటర్లు ఆప్టిక్స్‌ను దెబ్బతీయడం, ఎలుకలు (ఎలుకలు, కుందేళ్లు మరియు వొంబాట్‌లు, నిజానికి మార్సుపియల్‌లు), అలాగే షూటింగ్ ప్రాక్టీస్ చేయడానికి ఇష్టపడే వారు. వైర్లు - మెను విస్తృతమైనది. విద్యుత్ వైఫల్యాలు కూడా కారణం కావచ్చు దొంగతనం విద్యుత్ అక్రమ గంజాయి తోట. చాలా సందర్భాలలో, నిర్దిష్ట వ్యక్తులు సంఘటన యొక్క అపరాధులు అవుతారు, అనగా సమస్యకు పేరు మరియు ఇంటిపేరు ఉన్నప్పుడు మేము మళ్లీ మానవ కారకంతో వ్యవహరిస్తాము. మొదటి చూపులో ప్రమాదం సాంకేతిక లోపం లేదా ప్రకృతి వైపరీత్యాలతో సంబంధం కలిగి ఉన్నప్పటికీ, సదుపాయం సరిగ్గా రూపొందించబడి సరిగ్గా నిర్వహించబడితే దాన్ని నివారించవచ్చు. డేటా సెంటర్ అవస్థాపనకు తీవ్రమైన నష్టం లేదా ప్రకృతి వైపరీత్యం కారణంగా భవనాలు మరియు నిర్మాణాలను నాశనం చేయడం మాత్రమే మినహాయింపు. ఇవి నిజంగా బలవంతపు పరిస్థితులు, మరియు అన్ని ఇతర సమస్యలు కంప్యూటర్ మరియు కుర్చీ మధ్య రబ్బరు పట్టీ వల్ల సంభవిస్తాయి - బహుశా ఇది ఏదైనా సంక్లిష్ట వ్యవస్థలో అత్యంత నమ్మదగని భాగం.

మూలం: www.habr.com

ఒక వ్యాఖ్యను జోడించండి