Accidents importants en centres de dades: causes i conseqüències

Els centres de dades moderns són fiables, però qualsevol equip es trenca de tant en tant. En una breu nota, hem recollit les incidències més significatives del 2018.

Accidents importants en centres de dades: causes i conseqüències

L'impacte de les tecnologies digitals en l'economia està creixent, augmenta el volum d'informació processada, s'estan construint noves instal·lacions, i això és bo sempre que tot funcioni. Malauradament, l'impacte de les fallades del centre de dades en l'economia també ha anat augmentant des que la gent va començar a col·locar-hi una infraestructura informàtica crítica per a l'empresa: aquesta és una conseqüència inevitable de la digitalització. Publiquem una petita selecció dels accidents més destacats ocorreguts en diferents països durant l'any passat.

EUA

Aquest país és un líder reconegut en el camp de la construcció de centres de dades. Els Estats Units tenen els centres de dades comercials i corporatius més grans que ofereixen serveis globals, de manera que les conseqüències dels incidents en ells són més importants. A principis de març, a causa d'un potent cicló, quatre instal·lacions d'Equinix van patir talls de llum. La zona es va utilitzar per a equips d'Amazon Web Services (AWS), l'accident va provocar la indisponibilitat de molts serveis populars: GitHub, MongoDB, NewVoiceMedia, Slack, Zillow, Atlassian, Twilio i mCapital One es van veure afectats, així com el virtual d'Amazon Alexa. assistent.

Al setembre, les anomalies meteorològiques van afectar els centres de dades de Microsoft situats a Texas, després, a causa d'una tempesta, el sistema d'alimentació de tota la regió es va interrompre i es va apagar la refrigeració al centre de dades que va passar a l'alimentació d'un generador dièsel. Van trigar diversos dies a netejar les conseqüències de l'accident i, tot i que la fallada no es va convertir en crítica gràcies a l'equilibri de càrrega, els usuaris de tot el món van notar una certa desacceleració dels serveis al núvol de Microsoft.

Rússia

L'accident més greu es va produir el 20 d'agost en un dels centres de dades de Rostelecom. A causa d'això, els servidors del Registre Estatal Unificat de la Propietat Immobiliària es van aturar durant 66 hores i, per tant, van haver de ser traslladats a un lloc de còpia de seguretat. Rosreestr va poder restablir el processament de les sol·licituds rebudes per tots els canals només el 3 de setembre: l'organització estatal intenta recuperar una gran quantitat de Rostelecom per violar l'acord de nivell de servei.

El 16 de febrer, a causa de problemes a les xarxes de Lenenergo, es va encendre el sistema d'alimentació de reserva al centre de dades de l'empresa Xelnet (Sant Petersburg). Una interrupció a curt termini del sinusoide va provocar interrupcions en el funcionament de molts serveis: el gran proveïdor de núvols 1cloud va patir, en particular, però el problema més notable per al públic rus d'Internet va ser la impossibilitat d'accedir a la xarxa social VKontakte. El més interessant és que es van trigar unes 12 hores a eliminar completament les conseqüències d'una fallada de corrent a curt termini.

La Unió Europea

A la UE, el 2018 es van registrar diversos incidents greus. Al març, es va produir una fallada al centre de dades de la companyia aèria KLM: la font d'alimentació es va apagar durant 10 minuts i la potència dels grups electrògens dièsel era insuficient per fer funcionar l'equip. Part dels servidors es van caure i la companyia aèria va haver de cancel·lar o reprogramar diverses desenes de vols.

Aquest no és l'únic incident relacionat amb el transport aeri: ja a l'abril es va produir una fallada en el sistema de subministrament elèctric del centre de dades d'Eurocontrol. L'organització gestiona el moviment d'avions a la Unió Europea, i mentre que els especialistes van eliminar les conseqüències de l'accident durant 5 hores, els passatgers van haver de tornar a suportar retards i transbordaments de vols.

Els problemes molt greus sorgeixen a causa d'accidents en centres de dades que donen servei al sector financer. El cost de les interrupcions en les transaccions sol ser elevat aquí i el nivell de fiabilitat dels objectes és adequat, però això no us estalvia d'incidències. El 18 d'abril, la borsa nòrdica NASDAQ (Hèlsinki, Finlàndia) no va poder negociar a tot el nord d'Europa durant el dia a causa de l'inici no autoritzat d'un sistema d'extinció d'incendis de gas en un centre de dades comercial DigiPlex, que va quedar apagat.

El 7 de juny, les interrupcions del centre de dades van obligar la Borsa de Londres (LSE) a ajornar l'inici de la negociació durant una hora. A més, al juny, a Europa, a causa d'una fallada al centre de dades, els serveis del sistema de pagament internacional VISA es van desactivar durant tot el dia i no es van donar a conèixer els detalls de l'incident.

Japó

L'estiu del 2018 es va produir un incendi als nivells subterranis del centre de dades d'Amazon en construcció als suburbis de Tòquio, en el qual van morir 5 treballadors i almenys 50 van resultar ferits. El foc va danyar uns 5000 m2 de les instal·lacions del instal·lació. La investigació va demostrar que la causa del foc va ser un factor humà: a causa de la manipulació descuidada de les torxes d'acetilè, l'aïllament es va encendre.

Motius dels fracassos

La llista d'incidències anterior està lluny de ser completa, a causa d'accidents en centres de dades, clients de bancs i operadors de telecomunicacions pateixen, els proveïdors de núvol es desconnecten i fins i tot els serveis d'emergència es veuen interromputs. Una petita interrupció del servei pot provocar pèrdues importants, amb la majoria de fallades (39%) relacionades amb el sistema d'alimentació, segons l'Institut Uptime. En segon lloc (24%) es troba el factor humà, i en tercer (15%) el sistema de climatització. Només el 12% dels accidents als centres de dades es poden atribuir a fenòmens naturals, i només el 10% d'ells es produeixen per causes diferents dels enumerats.

Malgrat els estrictes estàndards de fiabilitat i seguretat, cap objecte està assegurat contra incidents. La majoria es deuen a fallades d'alimentació o errors humans. En primer lloc, els propietaris de centres de dades i sales de servidors haurien de prestar atenció a aquests dos factors, i els clients haurien d'entendre que fins i tot els líders del mercat no poden garantir una fiabilitat absoluta. Si l'equip o el servei al núvol serveixen processos crítics per a l'empresa, hauríeu de pensar en un lloc de còpia de seguretat.

Font de la foto: telecombloger.ru

Font: www.habr.com

Afegeix comentari