Ang panguna nga hinungdan sa mga aksidente sa mga sentro sa datos mao ang gasket tali sa kompyuter ug sa lingkuranan

Ang hilisgutan sa dagkong mga aksidente sa modernong mga sentro sa datos nagpatunghag mga pangutana nga wala matubag sa unang artikulo - nakahukom kami sa pagpalambo niini.

Ang panguna nga hinungdan sa mga aksidente sa mga sentro sa datos mao ang gasket tali sa kompyuter ug sa lingkuranan

Sumala sa estadistika gikan sa Uptime Institute, ang kadaghanan sa mga insidente sa mga sentro sa datos may kalabutan sa mga kapakyasan sa sistema sa suplay sa kuryente-kini maoy hinungdan sa 39% sa mga insidente. Gisundan sila sa tawhanong hinungdan, nga maoy hinungdan sa laing 24% sa mga aksidente. Ang ikatulo nga labing importante nga rason (15%) mao ang kapakyasan sa air conditioning system, ug sa ikaupat nga dapit (12%) mao ang natural nga mga katalagman. Ang kinatibuk-ang bahin sa ubang mga kasamok mao lamang ang 10%. Kung wala’y pagduhaduha sa datos sa usa ka respetado nga organisasyon, among ipasiugda ang usa ka butang nga kasagaran sa lainlaing mga aksidente ug sulayan nga masabtan kung kini malikayan. Spoiler: kini posible sa kadaghanan sa mga kaso.

Ang Siyensiya sa mga Kontak

Sa yanong pagkasulti, duha ra ang mga problema sa suplay sa kuryente: bisan kung wala’y kontak kung diin kini kinahanglan, o adunay kontak kung diin kinahanglan nga wala’y kontak. Mahimo ka maghisgot sa dugay nga panahon bahin sa pagkakasaligan sa moderno nga dili mapugngan nga mga sistema sa suplay sa kuryente, apan dili kini kanunay nga makaluwas kanimo. Kuhaa ang high-profile nga kaso sa data center nga gigamit sa British Airways, nga gipanag-iya sa parent company nga International Airlines Group. Adunay duha ka ingon nga mga kabtangan nga nahimutang duol sa Heathrow Airport - Boadicea House ug Comet House. Sa una niini, kaniadtong Mayo 27, 2017, usa ka aksidente nga pagkawala sa kuryente ang nahitabo, nga misangpot sa usa ka overload ug kapakyasan sa sistema sa UPS. Ingon usa ka sangputanan, pipila sa mga kagamitan sa IT ang pisikal nga nadaot, ug ang labing bag-o nga katalagman mikabat ug tulo ka adlaw aron masulbad.

Kinahanglan nga kanselahon o i-reschedule sa eroplano ang labaw sa usa ka libo nga mga biyahe, mga 75 ka libo nga mga pasahero ang wala makalupad sa oras - $ 128 milyon ang gigasto sa pagbayad sa bayad, wala mag-ihap sa mga gasto nga gikinahanglan aron mapasig-uli ang pag-andar sa mga sentro sa datos. Ang kasaysayan sa mga hinungdan sa blackout dili klaro. Kung nagtuo ka sa mga resulta sa internal nga imbestigasyon nga gipahibalo sa CEO sa International Airlines Group nga si Willie Walsh, kini tungod sa usa ka sayup sa mga inhenyero. Bisan pa, ang dili mapugngan nga sistema sa suplay sa kuryente kinahanglan nga makasukol sa ingon nga pagsira - mao nga kini gi-install. Ang data center gidumala sa mga espesyalista gikan sa outsourcing company nga CBRE Managed Services, mao nga ang British Airways misulay sa pagbawi sa kantidad sa kadaot pinaagi sa korte sa London.

Ang panguna nga hinungdan sa mga aksidente sa mga sentro sa datos mao ang gasket tali sa kompyuter ug sa lingkuranan

Ang pagkawala sa kuryente mahitabo sa susama nga mga sitwasyon: una adunay usa ka blackout tungod sa kasaypanan sa suplayer sa elektrisidad, usahay tungod sa dili maayo nga panahon o internal nga mga problema (lakip ang mga sayop sa tawo), ug unya ang walay hunong nga sistema sa suplay sa kuryente dili makasagubang sa load o sa usa ka mubo. -term nga paghunong sa sine wave hinungdan sa mga kapakyasan sa daghang mga serbisyo, hinungdan sa pagpasig-uli sa nga nagkinahanglan og daghang panahon ug salapi. Posible ba nga malikayan ang ingon nga mga aksidente? Sa walay duhaduha. Kung imong gidesinyo sa husto ang sistema, bisan ang mga tiglalang sa dagkong mga sentro sa datos dili luwas sa mga sayup.

Ang hinungdan sa tawo

Kung ang gilayon nga hinungdan sa usa ka insidente mao ang dili husto nga mga aksyon sa mga kawani sa data center, ang mga problema sa kasagaran (apan dili kanunay) makaapekto sa software nga bahin sa imprastraktura sa IT. Ang maong mga aksidente mahitabo bisan sa dagkong mga korporasyon. Kaniadtong Pebrero 2017, tungod sa usa ka sayup nga gi-recruit nga miyembro sa koponan sa grupo sa teknikal nga operasyon sa usa sa mga sentro sa datos, ang bahin sa mga server sa Amazon Web Services na-disable. Usa ka sayup ang nahitabo samtang nag-debug sa proseso sa pagsingil alang sa Amazon Simple Storage Service (S3) nga mga kostumer sa pagtipig sa panganod. Usa ka empleyado misulay sa pagtangtang sa daghang mga virtual server nga gigamit sa sistema sa pagsingil, apan naigo ang usa ka mas dako nga cluster.

Ang panguna nga hinungdan sa mga aksidente sa mga sentro sa datos mao ang gasket tali sa kompyuter ug sa lingkuranan

Ingon usa ka sangputanan sa usa ka sayup sa engineer, ang mga server nga nagpadagan sa hinungdanon nga mga module sa software sa pagtipig sa cloud sa Amazon natangtang. Ang una nga naapektuhan mao ang subsystem sa pag-indeks, nga adunay kasayuran bahin sa metadata ug lokasyon sa tanan nga mga butang sa S3 sa US-EAST-1 nga rehiyon sa Amerika. Ang insidente nakaapekto usab sa subsystem nga gigamit sa pag-host sa datos ug pagdumala sa luna nga magamit alang sa pagtipig. Pagkahuman sa pagtangtang sa mga virtual nga makina, kining duha nga mga subsystem nanginahanglan usa ka kompleto nga pag-restart, ug dayon ang mga inhenyero sa Amazon nasurpresa - sa dugay nga panahon, ang publiko nga pagtipig sa panganod wala makaserbisyo sa mga hangyo sa kustomer.

Ang epekto kaylap, tungod kay daghang dagkong mga kahinguhaan ang naggamit sa Amazon S3. Ang mga outage nakaapekto sa Trello, Coursera, IFTTT ug, labing dili maayo, ang mga serbisyo sa mga mayor nga kasosyo sa Amazon gikan sa lista sa S&P 500. Ang kadaot sa maong mga kaso lisud kalkulahon, apan kini anaa sa rehiyon sa gatusan ka milyon nga dolyar sa US. Sama sa imong nakita, ang usa ka sayup nga sugo igo na aron ma-disable ang serbisyo sa pinakadako nga cloud platform. Dili kini usa ka hilit nga kaso; sa Mayo 16, 2019, sa panahon sa pagmentinar, ang serbisyo sa Yandex.Cloud gipapas mga virtual machine sa mga tiggamit sa ru-central1-c zone nga naa sa status nga SUSPENDED labing menos kausa. Ang datos sa kliyente nadaot na dinhi, ang pipila niini dili na mabawi. Siyempre, ang mga tawo dili hingpit, apan ang modernong sistema sa seguridad sa impormasyon dugay na nga nakahimo sa pag-monitor sa mga aksyon sa mga pribilihiyo nga tiggamit sa wala pa ipatuman ang mga sugo nga ilang gisulod. Kung ang ingon nga mga solusyon gipatuman sa Yandex o Amazon, malikayan ang ingon nga mga insidente.

Ang panguna nga hinungdan sa mga aksidente sa mga sentro sa datos mao ang gasket tali sa kompyuter ug sa lingkuranan

Nagyelo nga pagpabugnaw

Niadtong Enero 2017, usa ka dakong aksidente ang nahitabo sa Dmitrov data center sa kompanya nga Megafon. Unya ang temperatura sa rehiyon sa Moscow mius-os ngadto sa βˆ’35 Β°C, nga misangpot sa pagkapakyas sa sistema sa pagpabugnaw sa pasilidad. Ang serbisyo sa press sa operator wala maghisgot bahin sa mga hinungdan sa insidente - ang mga kompanya sa Russia hilabihan nga nagpanuko sa paghisgot bahin sa mga aksidente sa mga pasilidad nga ilang gipanag-iya; sa mga termino sa publisidad, layo kami sa Kasadpan. Adunay usa ka bersyon nga nagpalibot sa mga social network bahin sa pagyelo sa coolant sa mga tubo nga gibutang sa daplin sa dalan ug pagtulo sa ethylene glycol. Matod niya, ang serbisyo sa operasyon dili dali makakuha og 30 ka tonelada nga coolant tungod sa taas nga mga holiday ug nakagawas gamit ang mga improvised nga paagi, nag-organisar sa improvised free-cooling nga naglapas sa mga lagda sa pag-operate sa sistema. Ang grabe nga katugnaw nakapasamot sa problema - kaniadtong Enero, ang tingtugnaw kalit nga miigo sa Russia, bisan kung wala’y nagpaabut niini. Ingon usa ka sangputanan, ang mga kawani kinahanglan nga palongon ang kuryente sa bahin sa mga racks sa server, mao nga ang pipila nga mga serbisyo sa operator wala magamit sa duha ka adlaw.

Ang panguna nga hinungdan sa mga aksidente sa mga sentro sa datos mao ang gasket tali sa kompyuter ug sa lingkuranan

Tingali, mahimo naton hisgutan ang usa ka anomaliya sa panahon dinhi, apan ang ingon nga mga katugnaw dili usa ka butang nga talagsaon alang sa kaulohan nga rehiyon. Ang mga temperatura sa tingtugnaw sa rehiyon sa Moscow mahimong mous-os ngadto sa mas ubos nga lebel, busa ang mga sentro sa datos gitukod uban ang pagpaabot sa lig-on nga operasyon sa βˆ’42Β°C. Kasagaran, ang mga sistema sa pagpabugnaw mapakyas sa bugnaw nga panahon tungod sa dili igo nga taas nga konsentrasyon sa glycols ug sobra nga tubig sa solusyon sa coolant. Adunay usab mga problema sa pag-instalar sa mga tubo o sa sayop nga pagkalkula sa disenyo ug pagsulay sa sistema, nga nag-una nga nalangkit sa tinguha nga makadaginot sa salapi. Ingon usa ka sangputanan, usa ka grabe nga aksidente ang nahitabo nga wala’y hinungdan, nga mahimo’g mapugngan.

Natural nga mga katalagman

Kasagaran, ang mga dalugdog ug/o mga bagyo makabalda sa imprastraktura sa inhenyero sa usa ka sentro sa datos, nga mosangput sa mga pagkabalda sa serbisyo ug/o pisikal nga kadaot sa mga kagamitan. Ang mga insidente tungod sa dili maayo nga panahon mahitabo kanunay. Niadtong 2012, ang Hurricane Sandy mibanlas sa Kasadpang Baybayon sa Estados Unidos nga adunay kusog nga ulan. Nahimutang sa usa ka taas nga building sa Lower Manhattan, ang Peer 1 data center nawala nga suplay sa kuryente sa gawas, human ang parat nga tubig sa dagat mibaha sa mga silong. Ang mga emergency generator sa pasilidad nahimutang sa ika-18 nga andana, ug ang ilang suplay sa gasolina limitado - ang mga lagda nga gipaila sa New York pagkahuman sa 9/11 nga pag-atake sa mga terorista nagdili sa pagtipig sa daghang mga gasolina sa taas nga andana.

Napakyas usab ang fuel pump, busa ang mga kawani migugol ug pipila ka adlaw sa paghakot sa diesel ngadto sa mga generator pinaagi sa kamot. Ang kabayanihan sa team nagluwas sa data center gikan sa usa ka seryoso nga aksidente, apan gikinahanglan ba gyud kini? Nagpuyo kita sa usa ka planeta nga adunay atmospera nga nitrogen-oxygen ug daghang tubig. Ang mga bagyo ug mga bagyo kasagaran dinhi (ilabi na sa mga lugar sa baybayon). Maayo tingali nga hunahunaon sa mga tigdesinyo ang mga peligro nga nalangkit ug magtukod usa ka angay nga dili mabalda nga sistema sa suplay sa kuryente. O labing menos pilia ang usa ka mas angay nga lokasyon alang sa data center kaysa usa ka taas nga pagtaas sa usa ka isla.

Ang uban pa

Gipaila sa Uptime Institute ang lainlaing mga insidente sa kini nga kategorya, diin lisud ang pagpili sa usa ka kasagaran. Ang pagpangawat sa mga kable nga tumbaga, mga sakyanan nga nahagsa sa mga sentro sa datos, mga suporta sa linya sa kuryente ug mga substation sa transformer, mga sunog, mga operator sa excavator nga makadaot sa mga optika, mga ilaga (mga ilaga, rabbits ug bisan mga wombat, nga sa pagkatinuod mga marsupial), ingon man usab niadtong gusto nga magpraktis sa pagpamusil sa wires - ang menu kay halapad . Ang pagkapakyas sa kuryente mahimong hinungdan pagpangawat kuryente nga illegal nga plantasyon sa marijuana. Sa kadaghanan nga mga kaso, ang piho nga mga tawo ang nahimong hinungdan sa insidente, i.e. nag-atubang na usab kami sa hinungdan sa tawo, kung ang problema adunay ngalan ug apelyido. Bisan kung sa una nga pagtan-aw ang aksidente adunay kalabotan sa usa ka teknikal nga malfunction o natural nga mga katalagman, mahimo kini malikayan kung ang pasilidad husto nga gidisenyo ug gipalihok sa husto. Ang bugtong eksepsiyon mao ang mga kaso sa kritikal nga kadaot sa imprastraktura sa data center o pagkaguba sa mga bilding ug mga istruktura tungod sa usa ka natural nga katalagman. Kini ang tinuod nga force majeure nga mga kahimtang, ug ang tanan nga uban nga mga problema gipahinabo sa gasket tali sa kompyuter ug sa lingkuranan - tingali kini ang labing dili kasaligan nga bahin sa bisan unsang komplikado nga sistema.

Source: www.habr.com

Idugang sa usa ka comment