Ang pangunahing sanhi ng mga aksidente sa mga data center ay ang gasket sa pagitan ng computer at ng upuan

Ang paksa ng mga pangunahing aksidente sa mga modernong data center ay nagtataas ng mga tanong na hindi nasagot sa unang artikulo - nagpasya kaming bumuo nito.

Ang pangunahing sanhi ng mga aksidente sa mga data center ay ang gasket sa pagitan ng computer at ng upuan

Ayon sa mga istatistika mula sa Uptime Institute, ang karamihan ng mga insidente sa mga data center ay nauugnay sa mga pagkabigo ng power supply systemβ€”ang mga ito ang bumubuo sa 39% ng mga insidente. Sinusundan sila ng kadahilanan ng tao, na bumubuo ng isa pang 24% ng mga aksidente. Ang ikatlong pinakamahalagang dahilan (15%) ay ang pagkabigo ng air conditioning system, at sa ikaapat na puwesto (12%) ay mga natural na sakuna. Ang kabuuang bahagi ng iba pang mga problema ay 10% lamang. Nang walang pagtatanong sa data ng isang respetadong organisasyon, iha-highlight namin ang isang bagay na karaniwan sa iba't ibang aksidente at susubukan naming maunawaan kung naiwasan ang mga ito. Spoiler: ito ay posible sa karamihan ng mga kaso.

Ang Agham ng Mga Contact

Sa madaling salita, dalawa lang ang problema sa power supply: alinman sa walang contact kung saan dapat ito, o may contact kung saan hindi dapat makipag-ugnayan. Maaari kang makipag-usap sa loob ng mahabang panahon tungkol sa pagiging maaasahan ng mga modernong hindi maaabala na mga sistema ng supply ng kuryente, ngunit hindi ka nila laging nai-save. Kunin ang high-profile case ng data center na ginagamit ng British Airways, na pag-aari ng parent company na International Airlines Group. Mayroong dalawang ganoong property na matatagpuan malapit sa Heathrow Airport - Boadicea House at Comet House. Sa una sa mga ito, noong Mayo 27, 2017, isang aksidenteng pagkawala ng kuryente ang naganap, na humantong sa labis na karga at pagkabigo ng sistema ng UPS. Bilang resulta, ang ilan sa mga kagamitan sa IT ay pisikal na nasira, at ang pinakabagong sakuna ay tumagal ng tatlong araw upang malutas.

Kinailangang kanselahin o i-reschedule ng airline ang higit sa isang libong flight, humigit-kumulang 75 libong mga pasahero ang hindi nakasakay sa oras - $128 milyon ang ginugol sa pagbabayad ng kabayaran, hindi binibilang ang mga gastos na kinakailangan upang maibalik ang pag-andar ng mga sentro ng data. Ang kasaysayan ng mga dahilan ng blackout ay hindi malinaw. Kung naniniwala ka sa mga resulta ng panloob na pagsisiyasat na inihayag ng CEO ng International Airlines Group na si Willie Walsh, ito ay dahil sa isang error ng mga inhinyero. Gayunpaman, ang hindi nakakagambalang sistema ng suplay ng kuryente ay kailangang makatiis sa gayong pagsara - kaya ito na-install. Ang data center ay pinamamahalaan ng mga espesyalista mula sa outsourcing company na CBRE Managed Services, kaya sinubukan ng British Airways na bawiin ang halaga ng pinsala sa pamamagitan ng London court.

Ang pangunahing sanhi ng mga aksidente sa mga data center ay ang gasket sa pagitan ng computer at ng upuan

Nangyayari ang mga pagkawala ng kuryente sa mga katulad na sitwasyon: una ay may blackout dahil sa kasalanan ng supplier ng kuryente, minsan dahil sa masamang panahon o mga internal na problema (kabilang ang mga pagkakamali ng tao), at pagkatapos ay hindi makayanan ng uninterruptible power supply system ang load o isang maikling -matagalang pagkagambala ng sine wave ay nagdudulot ng mga pagkabigo ng maraming serbisyo, na nagdudulot ng pagpapanumbalik na nangangailangan ng maraming oras at pera. Posible bang maiwasan ang mga ganitong aksidente? Walang alinlangan. Kung idinisenyo mo nang tama ang system, kahit na ang mga tagalikha ng malalaking data center ay hindi ligtas sa mga pagkakamali.

Human factor

Kapag ang agarang dahilan ng isang insidente ay ang mga maling aksyon ng mga tauhan ng data center, ang mga problema sa pinakamadalas (ngunit hindi palaging) ay nakakaapekto sa software na bahagi ng IT infrastructure. Ang ganitong mga aksidente ay nangyayari kahit sa malalaking korporasyon. Noong Pebrero 2017, dahil sa isang maling na-recruit na miyembro ng koponan ng pangkat ng teknikal na operasyon ng isa sa mga data center, na-disable ang bahagi ng mga server ng Amazon Web Services. May naganap na error habang nagde-debug sa proseso ng pagsingil para sa mga customer ng cloud storage ng Amazon Simple Storage Service (S3). Sinubukan ng isang empleyado na magtanggal ng ilang virtual server na ginagamit ng system ng pagsingil, ngunit tumama sa mas malaking cluster.

Ang pangunahing sanhi ng mga aksidente sa mga data center ay ang gasket sa pagitan ng computer at ng upuan

Bilang resulta ng error sa engineer, ang mga server na nagpapatakbo ng mahahalagang Amazon cloud storage software modules ay tinanggal. Ang unang naapektuhan ay ang indexing subsystem, na naglalaman ng impormasyon tungkol sa metadata at lokasyon ng lahat ng S3 object sa US-EAST-1 American region. Naapektuhan din ng insidente ang subsystem na ginagamit para mag-host ng data at pamahalaan ang espasyong magagamit para sa storage. Matapos tanggalin ang mga virtual machine, ang dalawang subsystem na ito ay nangangailangan ng kumpletong pag-restart, at pagkatapos ay nagulat ang mga inhinyero ng Amazon - sa loob ng mahabang panahon, ang pampublikong cloud storage ay hindi nakapagbigay ng serbisyo sa mga kahilingan ng customer.

Laganap ang epekto, dahil maraming malalaking mapagkukunan ang gumagamit ng Amazon S3. Naapektuhan ng mga outage ang Trello, Coursera, IFTTT at, ang pinaka hindi kasiya-siya, ang mga serbisyo ng mga pangunahing kasosyo sa Amazon mula sa listahan ng S&P 500. Ang pinsala sa mga ganitong kaso ay mahirap kalkulahin, ngunit ito ay nasa rehiyon ng daan-daang milyong dolyar ng US. Tulad ng nakikita mo, ang isang maling utos ay sapat na upang hindi paganahin ang serbisyo ng pinakamalaking cloud platform. Hindi ito isang nakahiwalay na kaso; noong Mayo 16, 2019, sa panahon ng maintenance work, ang serbisyo ng Yandex.Cloud inalis mga virtual machine ng mga user sa ru-central1-c zone na nasa status na SUSPENDED kahit isang beses. Nasira na ang data ng kliyente dito, ang ilan sa mga ito ay hindi na maibabalik. Siyempre, ang mga tao ay hindi perpekto, ngunit ang mga modernong sistema ng seguridad ng impormasyon ay matagal nang nasusubaybayan ang mga aksyon ng mga may pribilehiyong gumagamit bago isagawa ang mga utos na kanilang ipinasok. Kung ang mga naturang solusyon ay ipinatupad sa Yandex o Amazon, maiiwasan ang mga ganitong insidente.

Ang pangunahing sanhi ng mga aksidente sa mga data center ay ang gasket sa pagitan ng computer at ng upuan

Nagyeyelong paglamig

Noong Enero 2017, isang malaking aksidente ang naganap sa Dmitrov data center ng kumpanyang Megafon. Pagkatapos ang temperatura sa rehiyon ng Moscow ay bumaba sa βˆ’35 Β°C, na humantong sa pagkabigo ng sistema ng paglamig ng pasilidad. Ang serbisyo ng press ng operator ay hindi partikular na nag-uusap tungkol sa mga dahilan ng insidente - ang mga kumpanya ng Russia ay labis na nag-aatubili na pag-usapan ang tungkol sa mga aksidente sa mga pasilidad na pagmamay-ari nila; sa mga tuntunin ng publisidad, nahuhuli tayo sa Kanluran. Mayroong isang bersyon na nagpapalipat-lipat sa mga social network tungkol sa pagyeyelo ng coolant sa mga tubo na inilatag sa kahabaan ng kalye at pagtagas ng ethylene glycol. Ayon sa kanya, ang serbisyo ng operasyon ay hindi mabilis na nakakuha ng 30 tonelada ng coolant dahil sa mahabang bakasyon at nakalabas gamit ang mga improvised na paraan, na nag-aayos ng improvised free-cooling na lumalabag sa mga patakaran para sa pagpapatakbo ng system. Ang matinding lamig ay nagpalala sa problema - noong Enero, ang taglamig ay biglang tumama sa Russia, bagaman walang sinuman ang umaasa. Bilang resulta, kinailangan ng staff na patayin ang kuryente sa bahagi ng mga server rack, kaya naman hindi available ang ilang serbisyo ng operator sa loob ng dalawang araw.

Ang pangunahing sanhi ng mga aksidente sa mga data center ay ang gasket sa pagitan ng computer at ng upuan

Marahil, maaari nating pag-usapan ang tungkol sa anomalya ng panahon dito, ngunit ang gayong mga hamog na nagyelo ay hindi karaniwan para sa rehiyon ng kabisera. Ang mga temperatura sa taglamig sa rehiyon ng Moscow ay maaaring bumaba sa mas mababang antas, kaya ang mga sentro ng data ay itinayo na may inaasahang matatag na operasyon sa βˆ’42Β°C. Kadalasan, nabigo ang mga sistema ng paglamig sa malamig na panahon dahil sa hindi sapat na mataas na konsentrasyon ng glycols at labis na tubig sa solusyon ng coolant. Mayroon ding mga problema sa pag-install ng mga tubo o sa mga maling kalkulasyon sa disenyo at pagsubok ng system, pangunahin na nauugnay sa pagnanais na makatipid ng pera. Bilang isang resulta, ang isang malubhang aksidente ay nangyayari nang hindi inaasahan, na maaaring napigilan.

Mga likas na sakuna

Kadalasan, ang mga bagyo at/o mga bagyo ay nakakagambala sa imprastraktura ng engineering ng isang data center, na humahantong sa mga pagkaantala ng serbisyo at/o pisikal na pinsala sa kagamitan. Ang mga insidente na dulot ng masamang panahon ay nangyayari nang madalas. Noong 2012, ang Hurricane Sandy ay tumawid sa West Coast ng United States na may malakas na pag-ulan. Matatagpuan sa isang mataas na gusali sa Lower Manhattan, ang Peer 1 data center nawalan ng panlabas na suplay ng kuryente, pagkatapos bumaha ng maalat na tubig dagat sa mga basement. Ang mga emergency generator ng pasilidad ay matatagpuan sa ika-18 palapag, at ang kanilang suplay ng gasolina ay limitado - ang mga panuntunang ipinakilala sa New York pagkatapos ng 9/11 na pag-atake ng mga terorista ay nagbabawal sa pag-imbak ng maraming dami ng gasolina sa mga itaas na palapag.

Nabigo rin ang fuel pump, kaya ilang araw na naghakot ng diesel sa mga generator gamit ang kamay. Ang kabayanihan ng koponan ay nagligtas sa data center mula sa isang malubhang aksidente, ngunit ito ba ay talagang kinakailangan? Nakatira tayo sa isang planeta na may nitrogen-oxygen na kapaligiran at maraming tubig. Ang mga bagyo at bagyo ay karaniwan dito (lalo na sa mga lugar sa baybayin). Malamang na mainam na isaalang-alang ng mga taga-disenyo ang mga panganib na kasangkot at bumuo ng isang naaangkop na sistema ng supply ng kuryente na walang harang. O hindi bababa sa pumili ng isang mas angkop na lokasyon para sa data center kaysa sa isang mataas na gusali sa isang isla.

Lahat ng iba pa

Tinutukoy ng Uptime Institute ang iba't ibang insidente sa kategoryang ito, kung saan mahirap pumili ng tipikal. Pagnanakaw ng mga tansong kable, mga sasakyang bumagsak sa mga sentro ng data, mga suporta sa linya ng kuryente at mga substation ng transformer, sunog, mga operator ng excavator na sumisira sa optika, mga daga (mga daga, kuneho at maging mga wombat, na talagang mga marsupial), gayundin ang mga mahilig magsanay ng pagbaril sa wires - ang menu ay malawak. Maaaring maging sanhi ng pagkasira ng kuryente pagnanakaw kuryente ilegal na plantasyon ng marijuana. Sa karamihan ng mga kaso, ang mga partikular na tao ang nagiging salarin ng insidente, ibig sabihin, muli tayong nakikitungo sa kadahilanan ng tao, kapag ang problema ay may pangalan at apelyido. Kahit na sa unang tingin ang aksidente ay nauugnay sa isang teknikal na malfunction o natural na mga sakuna, ito ay maiiwasan kung ang pasilidad ay maayos na idinisenyo at pinapatakbo nang tama. Ang tanging pagbubukod ay ang mga kaso ng kritikal na pinsala sa imprastraktura ng data center o pagkasira ng mga gusali at istruktura dahil sa isang natural na sakuna. Ang mga ito ay tunay na force majeure na mga pangyayari, at ang lahat ng iba pang mga problema ay sanhi ng gasket sa pagitan ng computer at ng upuan - marahil ito ang pinaka hindi mapagkakatiwalaang bahagi ng anumang kumplikadong sistema.

Pinagmulan: www.habr.com

Magdagdag ng komento