Sababu kuu ya ajali katika vituo vya data ni gasket kati ya kompyuta na mwenyekiti

Mada ya ajali kubwa katika vituo vya kisasa vya data huibua maswali ambayo hayajajibiwa katika makala ya kwanza - tuliamua kuiendeleza.

Sababu kuu ya ajali katika vituo vya data ni gasket kati ya kompyuta na mwenyekiti

Kulingana na takwimu kutoka Taasisi ya Uptime, matukio mengi katika vituo vya data yanahusiana na hitilafu za mfumo wa usambazaji wa umeme-yanachukua 39% ya matukio. Wanafuatwa na sababu ya kibinadamu, ambayo inachangia 24% nyingine ya ajali. Sababu ya tatu muhimu zaidi (15%) ilikuwa kushindwa kwa mfumo wa hali ya hewa, na katika nafasi ya nne (12%) ilikuwa majanga ya asili. Sehemu ya jumla ya shida zingine ni 10% tu. Bila kuhoji data ya shirika linaloheshimiwa, tutaangazia jambo la kawaida katika ajali tofauti na kujaribu kuelewa ikiwa zingeweza kuepukwa. Spoiler: inawezekana katika hali nyingi.

Sayansi ya Mawasiliano

Ili kuiweka kwa urahisi, kuna matatizo mawili tu na ugavi wa umeme: ama hakuna mawasiliano ambapo inapaswa kuwa, au kuna mawasiliano ambapo haipaswi kuwasiliana. Unaweza kuzungumza kwa muda mrefu juu ya kuegemea kwa mifumo ya kisasa ya usambazaji wa umeme isiyoweza kuingiliwa, lakini sio kila wakati inakuokoa. Chukua kesi ya hali ya juu ya kituo cha data kinachotumiwa na British Airways, ambacho kinamilikiwa na kampuni mama ya International Airlines Group. Kuna mali mbili kama hizo ziko karibu na Uwanja wa Ndege wa Heathrow - Boadicea House na Comet House. Katika ya kwanza ya haya, Mei 27, 2017, kukatika kwa umeme kwa bahati mbaya kulitokea, ambayo ilisababisha kuzidiwa na kushindwa kwa mfumo wa UPS. Matokeo yake, baadhi ya vifaa vya IT viliharibiwa kimwili, na janga la hivi karibuni lilichukua siku tatu kutatua.

Shirika la ndege lililazimika kughairi au kupanga upya safari zaidi ya elfu moja, takriban abiria elfu 75 hawakuweza kuruka kwa wakati - dola milioni 128 zilitumika kulipa fidia, bila kuhesabu gharama zinazohitajika kurejesha utendakazi wa vituo vya data. Historia ya sababu za kukatika kwa umeme haijulikani. Ikiwa unaamini matokeo ya uchunguzi wa ndani uliotangazwa na Mkurugenzi Mkuu Mtendaji wa International Airlines Group Willie Walsh, ulitokana na hitilafu ya wahandisi. Walakini, mfumo wa usambazaji wa umeme usioweza kukatika ulilazimika kuhimili kuzimwa kama hiyo - ndiyo sababu iliwekwa. Kituo cha data kilisimamiwa na wataalamu kutoka kampuni ya nje ya CBRE Managed Services, hivyo British Airways ilijaribu kurejesha kiasi cha uharibifu kupitia mahakama ya London.

Sababu kuu ya ajali katika vituo vya data ni gasket kati ya kompyuta na mwenyekiti

Kukatika kwa umeme hutokea katika hali kama hizo: kwanza kuna kukatika kwa umeme kwa sababu ya kosa la mtoaji wa umeme, wakati mwingine kwa sababu ya hali mbaya ya hewa au shida za ndani (pamoja na makosa ya kibinadamu), na kisha mfumo wa usambazaji wa umeme usioweza kuharibika hauwezi kukabiliana na mzigo au kifupi. Kukatizwa kwa muda wa wimbi la sine husababisha kushindwa kwa huduma nyingi, na kusababisha urejesho ambao huchukua muda mwingi na pesa. Je, inawezekana kuepuka ajali hizo? Bila shaka. Ikiwa unatengeneza mfumo kwa usahihi, hata waundaji wa vituo vya data kubwa hawana kinga kutokana na makosa.

Sababu ya kibinadamu

Wakati sababu ya haraka ya tukio ni vitendo visivyo sahihi vya wafanyikazi wa kituo cha data, shida mara nyingi (lakini sio kila wakati) huathiri sehemu ya programu ya miundombinu ya IT. Ajali kama hizo hutokea hata katika makampuni makubwa. Mnamo Februari 2017, kwa sababu ya mshiriki wa timu aliyeajiriwa kimakosa wa kikundi cha operesheni ya kiufundi ya moja ya vituo vya data, sehemu ya seva za Huduma za Wavuti za Amazon zilizimwa. Hitilafu ilitokea wakati wa kutatua mchakato wa bili kwa wateja wa hifadhi ya wingu wa Amazon Simple Storage Service (S3). Mfanyakazi alijaribu kufuta idadi ya seva pepe zinazotumiwa na mfumo wa utozaji, lakini akagonga kundi kubwa zaidi.

Sababu kuu ya ajali katika vituo vya data ni gasket kati ya kompyuta na mwenyekiti

Kama matokeo ya hitilafu ya mhandisi, seva zinazoendesha moduli muhimu za programu za uhifadhi wa wingu za Amazon zilifutwa. Ya kwanza iliyoathiriwa ilikuwa mfumo mdogo wa kuorodhesha, ambao una taarifa kuhusu metadata na eneo la vitu vyote vya S3 katika eneo la US-EAST-1 la Marekani. Tukio hilo pia liliathiri mfumo mdogo unaotumiwa kupangisha data na kudhibiti nafasi inayopatikana kwa kuhifadhi. Baada ya kufuta mashine za mtandaoni, mifumo hii miwili ndogo ilihitaji kuanzishwa upya kamili, na kisha wahandisi wa Amazon walikuwa katika mshangao - kwa muda mrefu, hifadhi ya wingu ya umma haikuweza kuhudumia maombi ya wateja.

Athari ilikuwa imeenea, kwani rasilimali nyingi kubwa hutumia Amazon S3. Upungufu huo uliathiri Trello, Coursera, IFTTT na, kwa bahati mbaya zaidi, huduma za washirika wakuu wa Amazon kutoka orodha ya S & P 500. Uharibifu katika kesi hizo ni vigumu kuhesabu, lakini ilikuwa katika eneo la mamia ya mamilioni ya dola za Marekani. Kama unaweza kuona, amri moja mbaya inatosha kuzima huduma ya jukwaa kubwa zaidi la wingu. Hili si kisa cha pekee; mnamo Mei 16, 2019, wakati wa matengenezo, huduma ya Yandex.Cloud imefutwa mashine pepe za watumiaji katika ukanda wa ru-central1-c ambao walikuwa katika hali ILIYOSIMAIRISHWA angalau mara moja. Data ya mteja tayari imeharibiwa hapa, ambayo baadhi yake ilipotea kabisa. Bila shaka, watu si wakamilifu, lakini mifumo ya kisasa ya usalama wa habari kwa muda mrefu imeweza kufuatilia vitendo vya watumiaji waliobahatika kabla ya kutekeleza amri walizoingiza. Ikiwa ufumbuzi huo unatekelezwa katika Yandex au Amazon, matukio hayo yanaweza kuepukwa.

Sababu kuu ya ajali katika vituo vya data ni gasket kati ya kompyuta na mwenyekiti

Ubaridi uliogandishwa

Mnamo Januari 2017, ajali kubwa ilitokea katika kituo cha data cha Dmitrov cha kampuni ya Megafon. Kisha hali ya joto katika mkoa wa Moscow ilipungua hadi -35 Β° C, ambayo ilisababisha kushindwa kwa mfumo wa baridi wa kituo hicho. Huduma ya vyombo vya habari ya waendeshaji haikuzungumza haswa juu ya sababu za tukio hilo - kampuni za Urusi zinasita sana kuzungumza juu ya ajali katika vituo wanavyomiliki; kwa suala la utangazaji, tunabaki nyuma sana Magharibi. Kulikuwa na toleo linalozunguka kwenye mitandao ya kijamii kuhusu kufungia kwa baridi kwenye mabomba yaliyowekwa kando ya barabara na kuvuja kwa ethylene glycol. Kulingana naye, huduma ya operesheni haikuweza kupata haraka tani 30 za baridi kwa sababu ya likizo ndefu na kutoka nje kwa kutumia njia zilizoboreshwa, kuandaa uboreshaji wa baridi wa bure kwa kukiuka sheria za uendeshaji wa mfumo. Baridi kali ilizidisha shida - mnamo Januari, msimu wa baridi uligonga Urusi ghafla, ingawa hakuna mtu aliyetarajia. Kama matokeo, wafanyikazi walilazimika kuzima umeme kwenye sehemu ya safu za seva, ndiyo sababu huduma zingine za waendeshaji hazikupatikana kwa siku mbili.

Sababu kuu ya ajali katika vituo vya data ni gasket kati ya kompyuta na mwenyekiti

Labda, tunaweza kuzungumza juu ya hali ya hewa isiyo ya kawaida hapa, lakini theluji kama hiyo sio jambo la kawaida kwa mkoa wa mji mkuu. Hali ya joto katika majira ya baridi katika mkoa wa Moscow inaweza kushuka hadi viwango vya chini, hivyo vituo vya data vinajengwa kwa matarajio ya operesheni imara katika -42 Β° C. Mara nyingi, mifumo ya baridi hushindwa katika hali ya hewa ya baridi kwa sababu ya mkusanyiko wa juu wa glycols na maji ya ziada katika suluhisho la baridi. Pia kuna matatizo na ufungaji wa mabomba au kwa miscalculations katika kubuni na kupima mfumo, hasa kuhusishwa na hamu ya kuokoa fedha. Matokeo yake, ajali mbaya hutokea nje ya bluu, ambayo inaweza kuzuiwa.

Maafa ya asili

Mara nyingi, radi na/au vimbunga huharibu miundombinu ya uhandisi ya kituo cha data, hivyo kusababisha kukatizwa kwa huduma na/au uharibifu wa kimwili wa vifaa. Matukio yanayosababishwa na hali mbaya ya hewa hutokea mara nyingi kabisa. Mnamo 2012, Kimbunga Sandy kilikumba Pwani ya Magharibi ya Marekani na mvua kubwa. Iko katika jengo la ghorofa ya juu huko Manhattan ya Chini, kituo cha data cha Peer 1 kupoteza umeme wa nje, baada ya maji ya bahari yenye chumvi kujaa vyumba vya chini ya ardhi. Jenereta za dharura za kituo hicho zilipatikana kwenye ghorofa ya 18, na usambazaji wao wa mafuta ulikuwa mdogo - sheria zilizoanzishwa huko New York baada ya mashambulizi ya kigaidi ya 9/11 inakataza kuhifadhi kiasi kikubwa cha mafuta kwenye sakafu ya juu.

Pampu ya mafuta pia ilifeli, kwa hivyo wafanyikazi walitumia siku kadhaa kuvuta dizeli hadi kwa jenereta kwa mkono. Ushujaa wa timu uliokoa kituo cha data kutokana na ajali mbaya, lakini je, ilikuwa ni lazima? Tunaishi kwenye sayari yenye angahewa ya nitrojeni-oksijeni na maji mengi. Mvua ya radi na vimbunga ni ya kawaida hapa (hasa katika maeneo ya pwani). Wabunifu pengine wangefanya vyema kuzingatia hatari zinazohusika na kuunda mfumo ufaao wa usambazaji wa umeme usiokatizwa. Au angalau chagua eneo linalofaa zaidi kwa kituo cha data kuliko eneo la juu kwenye kisiwa.

Kila kitu kingine

Taasisi ya Uptime inabainisha matukio mbalimbali katika kitengo hiki, kati ya ambayo ni vigumu kuchagua moja ya kawaida. Wizi wa nyaya za shaba, magari yanayoanguka kwenye vituo vya data, viunga vya umeme na vituo vidogo vya transfoma, moto, waendeshaji uchimbaji wanaoharibu macho, panya (panya, sungura na hata wombats, ambao kwa kweli ni marsupial), na vile vile wale wanaopenda kufanya mazoezi ya kupiga risasi. waya - menyu ni pana. Kushindwa kwa nguvu kunaweza kusababisha hata kuiba umeme shamba la bangi haramu. Katika hali nyingi, watu maalum huwa wahalifu wa tukio hilo, i.e. tunashughulika tena na sababu ya kibinadamu, wakati shida ina jina na jina. Hata ikiwa kwa mtazamo wa kwanza ajali inahusishwa na hitilafu ya kiufundi au majanga ya asili, inaweza kuepukwa mradi kituo kimeundwa vizuri na kuendeshwa kwa usahihi. Isipokuwa ni matukio ya uharibifu mkubwa wa miundombinu ya kituo cha data au uharibifu wa majengo na miundo kutokana na maafa ya asili. Hizi ni hali za kweli za nguvu, na matatizo mengine yote yanasababishwa na gasket kati ya kompyuta na mwenyekiti - labda hii ndiyo sehemu isiyoaminika zaidi ya mfumo wowote tata.

Chanzo: mapenzi.com

Kuongeza maoni