La principal causa d'accidents als centres de dades és la junta entre l'ordinador i la cadira

El tema dels accidents importants als centres de dades moderns planteja preguntes que no es van respondre al primer article: vam decidir desenvolupar-lo.

La principal causa d'accidents als centres de dades és la junta entre l'ordinador i la cadira

Segons les estadístiques de l'Uptime Institute, la majoria dels incidents als centres de dades estan relacionats amb fallades del sistema de subministrament d'alimentació: representen el 39% dels incidents. Els segueix el factor humà, que representa un altre 24% dels accidents. El tercer motiu més important (15%) va ser la fallada del sistema d'aire condicionat, i en quart lloc (12%) els desastres naturals. La quota total d'altres problemes és només del 10%. Sense qüestionar les dades d'una organització respectada, destacarem quelcom habitual en diferents accidents i intentarem entendre si s'haurien pogut evitar. Spoiler: és possible en la majoria dels casos.

La ciència dels contactes

Per dir-ho simplement, només hi ha dos problemes amb l'alimentació: o no hi ha contacte on hauria d'estar, o hi ha contacte on no hi hauria d'haver-hi. Pots parlar durant molt de temps sobre la fiabilitat dels sistemes d'alimentació ininterrompuda moderns, però no sempre t'estalvien. Preneu el cas d'alt perfil del centre de dades utilitzat per British Airways, que és propietat de la companyia matriu International Airlines Group. Hi ha dues propietats d'aquest tipus ubicades a prop de l'aeroport d'Heathrow: Boadicea House i Comet House. En el primer d'ells, el 27 de maig de 2017, es va produir un tall d'alimentació accidental, que va provocar una sobrecàrrega i una fallada del sistema SAI. Com a resultat, alguns dels equips informàtics van quedar danyats físicament i l'últim desastre va trigar tres dies a resoldre's.

La companyia aèria va haver de cancel·lar o reprogramar més d'un miler de vols, uns 75 mil passatgers no van poder volar a temps: es van gastar 128 milions de dòlars en el pagament d'una compensació, sense comptar els costos necessaris per restaurar la funcionalitat dels centres de dades. La història dels motius de l'apagada no està clara. Si creieu els resultats de la investigació interna anunciada pel director general de l'International Airlines Group, Willie Walsh, va ser a causa d'un error dels enginyers. No obstant això, el sistema d'alimentació ininterrompuda va haver de suportar aquesta parada, per això es va instal·lar. El centre de dades estava gestionat per especialistes de l'empresa d'externalització CBRE Managed Services, per la qual cosa British Airways va intentar recuperar l'import dels danys a través d'un jutjat de Londres.

La principal causa d'accidents als centres de dades és la junta entre l'ordinador i la cadira

Els talls d'energia es produeixen en escenaris similars: primer hi ha un apagament per culpa del proveïdor d'electricitat, de vegades per mal temps o problemes interns (inclosos errors humans), i després el sistema d'alimentació ininterrompuda no pot fer front a la càrrega o un curt. -La interrupció temporal de l'ona sinusoïdal provoca fallades de molts serveis, provocant la restauració dels quals requereix molt de temps i diners. És possible evitar aquest tipus d'accidents? Sens dubte. Si dissenyeu el sistema correctament, fins i tot els creadors de grans centres de dades no són immunes als errors.

Factor humà

Quan la causa immediata d'un incident són les accions incorrectes del personal del centre de dades, els problemes més sovint (però no sempre) afecten la part del programari de la infraestructura informàtica. Aquests accidents es produeixen fins i tot a les grans corporacions. El febrer de 2017, a causa d'un membre de l'equip reclutat incorrectament del grup d'operacions tècniques d'un dels centres de dades, es va desactivar part dels servidors d'Amazon Web Services. S'ha produït un error en depurar el procés de facturació dels clients d'emmagatzematge al núvol d'Amazon Simple Storage Service (S3). Un empleat va intentar suprimir una sèrie de servidors virtuals utilitzats pel sistema de facturació, però va colpejar un clúster més gran.

La principal causa d'accidents als centres de dades és la junta entre l'ordinador i la cadira

Com a resultat d'un error d'enginyer, es van suprimir els servidors que executaven importants mòduls de programari d'emmagatzematge al núvol d'Amazon. El primer afectat va ser el subsistema d'indexació, que conté informació sobre les metadades i la ubicació de tots els objectes S3 a la regió nord-americana US-EAST-1. L'incident també va afectar el subsistema utilitzat per allotjar dades i gestionar l'espai disponible per a l'emmagatzematge. Després d'eliminar les màquines virtuals, aquests dos subsistemes van requerir un reinici complet i, aleshores, els enginyers d'Amazon van tenir una sorpresa: durant molt de temps, l'emmagatzematge al núvol públic no va poder atendre les sol·licituds dels clients.

L'impacte va ser generalitzat, ja que molts recursos grans utilitzen Amazon S3. Les interrupcions van afectar Trello, Coursera, IFTTT i, el que és més desagradable, els serveis dels principals socis d'Amazon de la llista S&P 500. Els danys en aquests casos són difícils de calcular, però van ser al voltant de centenars de milions de dòlars nord-americans. Com podeu veure, n'hi ha prou amb una comanda incorrecta per desactivar el servei de la plataforma de núvol més gran. Aquest no és un cas aïllat; el 16 de maig de 2019, durant els treballs de manteniment, el servei Yandex.Cloud esborrat màquines virtuals d'usuaris de la zona ru-central1-c que es trobaven en l'estat SUSPENDRE almenys una vegada. Les dades dels clients ja s'han danyat aquí, algunes de les quals s'han perdut irremeiablement. Per descomptat, les persones són imperfectes, però els sistemes moderns de seguretat de la informació fa temps que poden controlar les accions dels usuaris privilegiats abans d'executar les ordres que van introduir. Si aquestes solucions s'implementen a Yandex o Amazon, aquests incidents es poden evitar.

La principal causa d'accidents als centres de dades és la junta entre l'ordinador i la cadira

Refrigeració congelada

El gener de 2017, es va produir un accident important al centre de dades Dmitrov de l'empresa Megafon. Aleshores, la temperatura a la regió de Moscou va baixar fins a -35 °C, cosa que va provocar una fallada del sistema de refrigeració de la instal·lació. El servei de premsa de l'operador no va parlar especialment dels motius de l'incident: les empreses russes es mostren molt reticents a parlar d'accidents a les instal·lacions que tenen; pel que fa a la publicitat, estem molt endarrerits d'Occident. A les xarxes socials circulava una versió sobre la congelació de refrigerant a les canonades col·locades al carrer i les fuites d'etilenglicol. Segons ella, el servei d'operació no va poder obtenir ràpidament 30 tones de refrigerant a causa de les llargues vacances i va sortir amb mitjans improvisats, organitzant una refrigeració gratuïta improvisada en violació de les normes d'operació del sistema. Un fred intens va agreujar el problema: al gener, l'hivern va colpejar de sobte Rússia, tot i que ningú s'ho esperava. Com a conseqüència, el personal va haver d'apagar part dels bastidors de servidors, motiu pel qual alguns serveis de l'operador no van estar disponibles durant dos dies.

La principal causa d'accidents als centres de dades és la junta entre l'ordinador i la cadira

Probablement, aquí podem parlar d'una anomalia meteorològica, però aquestes gelades no són una cosa inusual per a la regió de la capital. Les temperatures a l'hivern a la regió de Moscou poden baixar a nivells més baixos, de manera que els centres de dades es construeixen amb l'expectativa d'un funcionament estable a -42 °C. Molt sovint, els sistemes de refrigeració fallen en temps fred a causa d'una concentració insuficient de glicols i un excés d'aigua a la solució de refrigerant. També hi ha problemes amb la instal·lació de canonades o amb errors de càlcul en el disseny i proves del sistema, principalment associats amb el desig d'estalviar diners. Com a conseqüència, es produeix un accident greu que es podria haver evitat.

Desastres naturals

Molt sovint, les tempestes i/o huracans interrompen la infraestructura d'enginyeria d'un centre de dades, provocant interrupcions del servei i/o danys físics als equips. Els incidents provocats pel mal temps es produeixen amb força freqüència. El 2012, l'huracà Sandy va arrasar la costa oest dels Estats Units amb fortes pluges. Situat en un edifici de gran alçada al Baix Manhattan, el centre de dades Peer 1 pèrdua d'alimentació externa, després que l'aigua salada del mar inundés els soterranis. Els generadors d'emergència de la instal·lació es trobaven al pis 18 i el seu subministrament de combustible era limitat: les regles introduïdes a Nova York després dels atemptats terroristes de l'9 de setembre prohibeixen emmagatzemar grans quantitats de combustible als pisos superiors.

La bomba de combustible també va fallar, de manera que el personal va passar diversos dies transportant gasoil fins als generadors a mà. L'heroisme de l'equip va salvar el centre de dades d'un greu accident, però era realment necessari? Vivim en un planeta amb una atmosfera de nitrogen-oxigen i molta aigua. Aquí són habituals les tempestes i els huracans (sobretot a les zones costaneres). Els dissenyadors probablement farien bé en considerar els riscos que implica i construir un sistema d'alimentació ininterrompuda adequat. O almenys escolliu una ubicació més adequada per al centre de dades que un gratacel a una illa.

Qualsevol altra cosa

Uptime Institute identifica una varietat d'incidències en aquesta categoria, entre les quals és difícil triar-ne una de típica. Robatori de cables de coure, cotxes que xoquen contra centres de dades, suports de línies elèctriques i subestacions transformadores, incendis, operadors d'excavadores que danyin l'òptica, rosegadors (rates, conills i fins i tot wombats, que en realitat són marsupials), així com els que els agrada practicar el tir a cables - el menú és ampli. Fins i tot poden causar fallades de corrent robar electricitat plantació il·legal de marihuana. En la majoria dels casos, persones concretes esdevenen els culpables de l'incident, és a dir, tornem a tractar amb el factor humà, quan el problema té nom i cognom. Encara que a primera vista l'accident estigui associat a un mal funcionament tècnic o catàstrofes naturals, es pot evitar sempre que la instal·lació estigui correctament dissenyada i operada correctament. Les úniques excepcions són els casos de danys crítics a la infraestructura del centre de dades o la destrucció d'edificis i estructures a causa d'un desastre natural. Aquestes són circumstàncies de força major i tots els altres problemes són causats per la junta entre l'ordinador i la cadira, potser aquesta és la part més poc fiable de qualsevol sistema complex.

Font: www.habr.com

Afegeix comentari