Mga pangunahing aksidente sa mga data center: sanhi at kahihinatnan

Ang mga modernong data center ay maaasahan, ngunit ang anumang kagamitan ay nasira paminsan-minsan. Sa maikling artikulong ito, nakolekta namin ang pinakamahalagang insidente ng 2018.

Mga pangunahing aksidente sa mga data center: sanhi at kahihinatnan

Ang impluwensya ng mga digital na teknolohiya sa ekonomiya ay lumalaki, ang dami ng impormasyon na naproseso ay tumataas, ang mga bagong pasilidad ay itinatayo, at ito ay mabuti hangga't lahat ay gumagana. Sa kasamaang palad, ang pang-ekonomiyang epekto ng mga pagkabigo sa data center ay tumataas din mula noong nagsimulang mag-host ang mga tao ng kritikal na negosyo na imprastraktura ng IT bilang isang hindi maiiwasang resulta ng digitalization. Naglalathala kami ng maliit na seleksyon ng mga pinakakilalang aksidente na naganap sa iba't ibang bansa noong nakaraang taon.

Amerika

Ang bansang ito ay kinikilalang pinuno sa larangan ng pagtatayo ng data center. Ang United States ang may pinakamalaking bilang ng malalaking komersyal at corporate data center na nagsisilbi sa mga pandaigdigang serbisyo, kaya ang mga kahihinatnan ng mga insidente doon ay pinakamahalaga. Noong unang bahagi ng Marso, apat na pasilidad ng Equinix ang nakaranas ng pagkawala ng kuryente dahil sa isang malakas na bagyo. Ginamit ang espasyo para sa kagamitan ng Amazon Web Services (AWS); ang aksidente ay humantong sa hindi pagkakaroon ng maraming sikat na serbisyo: GitHub, MongoDB, NewVoiceMedia, Slack, Zillow, Atlassian, Twilio at mCapital One, pati na rin ang Amazon Alexa virtual assistant, ay naapektuhan.

Noong Setyembre, tumama ang mga anomalya ng panahon sa mga data center ng Microsoft na matatagpuan sa Texas. Pagkatapos, dahil sa isang bagyo, nagambala ang sistema ng supply ng kuryente sa buong rehiyon, at sa data center na lumipat sa kuryente mula sa diesel generator set, hindi alam kung bakit nakapatay ang paglamig. Kinailangan ng ilang araw upang maalis ang mga kahihinatnan ng aksidente, at bagaman, salamat sa pagbabalanse ng pag-load, ang pagkabigo na ito ay hindi naging kritikal, ang isang bahagyang pagbagal sa pagpapatakbo ng mga serbisyo ng Microsoft cloud ay napansin ng mga gumagamit sa buong mundo.

Россия

Ang pinakamalubhang aksidente ay naganap noong Agosto 20 sa isa sa mga sentro ng data ng Rostelecom. Dahil dito, huminto ang mga server ng Unified State Register of Real Estate sa loob ng 66 na oras, at samakatuwid kailangan nilang ilipat sa isang backup na site. Nagawa lamang ng Rosreestr na ibalik ang pagproseso ng mga aplikasyon na natanggap sa lahat ng mga channel noong Setyembre 3 - sinusubukan ng organisasyon ng gobyerno na mabawi ang isang malaking halaga mula sa Rostelecom dahil sa paglabag sa kasunduan sa antas ng serbisyo.

Noong Pebrero 16, dahil sa mga problema sa mga network ng Lenenergo, ang backup na power supply system sa data center ng Xelnet (St. Petersburg) ay na-on. Ang isang panandaliang pagkagambala ng sine wave ay humantong sa mga pagkagambala sa pagpapatakbo ng maraming mga serbisyo: sa partikular, ang malaking cloud provider na 1cloud ay naapektuhan, ngunit ang pinaka-kapansin-pansing problema para sa Russian Internet audience ay ang kawalan ng kakayahang ma-access ang VKontakte social networking site. . Ang pinaka-kagiliw-giliw na bagay ay tumagal ng halos 12 oras upang ganap na maalis ang mga kahihinatnan ng isang panandaliang pagkawala ng kuryente.

Ang European Union

Ilang seryosong insidente ang naitala sa EU noong 2018. Noong Marso, nagkaroon ng pagkabigo sa data center ng airline KLM: ang power supply ay naputol sa loob ng 10 minuto, at ang kapangyarihan ng mga diesel generator set ay hindi sapat upang patakbuhin ang kagamitan. Bumagsak ang ilang server, at kinailangang kanselahin o i-reschedule ng airline ang ilang dosenang flight.

Ito ay hindi lamang ang insidente na may kaugnayan sa paglalakbay sa himpapawid - na noong Abril, isang pagkabigo ang naganap sa sistema ng suplay ng kuryente ng sentro ng data ng Eurocontrol. Kinokontrol ng organisasyon ang paggalaw ng sasakyang panghimpapawid sa European Union, at habang ang mga espesyalista ay gumugol ng 5 oras sa pag-aalis ng mga kahihinatnan ng aksidente, ang mga pasahero ay muling kinailangang magtiis ng mga pagkaantala at muling pag-iskedyul ng mga flight.

Ang mga napakaseryosong problema ay lumitaw dahil sa mga aksidente sa mga data center na nagsisilbi sa sektor ng pananalapi. Ang halaga ng mga pagkaantala sa mga transaksyon dito ay karaniwang mataas, at ang antas ng pagiging maaasahan ng mga pasilidad ay angkop, ngunit hindi nito pinipigilan ang mga insidente. Noong Abril 18, ang Nordic NASDAQ stock exchange (Helsinki, Finland) ay hindi nakapag-trade sa buong Hilagang Europa sa araw dahil sa hindi awtorisadong pag-activate ng isang gas fire extinguishing system sa DigiPlex commercial data center, na biglang na-de-energize.

Noong Hunyo 7, ang mga pagkawala ng data center ay nagpilit sa London Stock Exchange (LSE) na iantala ang pagsisimula ng kalakalan sa loob ng isang oras. Bilang karagdagan, noong Hunyo, sa Europa, dahil sa isang pagkabigo sa isang data center, ang mga serbisyo ng internasyonal na sistema ng pagbabayad na VISA ay hindi pinagana sa buong araw, at ang mga detalye ng insidente ay hindi kailanman isiniwalat.

Hapon

Noong tag-araw ng 2018, naganap ang sunog sa mga underground na antas ng isang Amazon data center na itinatayo sa isang suburb sa Tokyo, na ikinamatay ng 5 manggagawa at ikinasugat ng hindi bababa sa 50. Napinsala ng apoy ang humigit-kumulang 5000 m2 ng pasilidad. Ang pagsisiyasat ay nagpakita na ang sanhi ng sunog ay human error: dahil sa pabaya sa paghawak ng acetylene torches, ang pagkakabukod ay nag-apoy.

Mga sanhi ng pagkabigo

Ang listahan sa itaas ng mga insidente ay malayo sa kumpleto; dahil sa mga aksidente sa mga data center, ang mga kliyente ng mga bangko at telecom operator ay nagdurusa, ang mga serbisyo ng mga cloud provider ay nag-o-offline, at maging ang gawain ng mga serbisyong pang-emergency ay naantala. Ang isang maliit na pagkawala ng serbisyo ay maaaring humantong sa malalaking pagkalugi, at ang karamihan ng mga pagkawala (39%) ay nauugnay sa sistema ng kuryente, ayon sa Uptime Institute. Sa pangalawang lugar (24%) ay ang kadahilanan ng tao, at sa pangatlo (15%) ay ang air conditioning system. 12% lang ng mga aksidente sa mga data center ang maaaring maiugnay sa mga natural na phenomena, at 10% lang sa mga ito ay nangyayari para sa mga dahilan maliban sa mga nakalista.

Sa kabila ng mahigpit na pagiging maaasahan at mga pamantayan sa kaligtasan, walang pasilidad ang hindi ligtas sa mga insidente. Karamihan sa mga ito ay nangyayari dahil sa pagkawala ng kuryente o mga pagkakamali ng tao. Dapat munang bigyang-pansin ng mga may-ari ng mga data center at server room ang dalawang salik na ito, at dapat maunawaan ng mga customer: kahit na ang mga pinuno ng merkado ay hindi magagarantiya ng ganap na pagiging maaasahan. Kung ang kagamitan o isang serbisyo sa cloud ay nagsisilbi sa mga prosesong kritikal sa negosyo, dapat mong isipin ang tungkol sa isang backup na site.

Pinagmulan ng larawan: telecombloger.ru

Pinagmulan: www.habr.com

Magdagdag ng komento