🥇Hem d'"apagar" els servidors si la prova de fum del centre de dades "es va incendiar"?

Com et sentiries si un bon dia d'estiu el centre de dades amb el teu equip tingués aquest aspecte?

Hola a tots! Em dic Dmitry Samsonov, treballo com a administrador de sistemes líder a "Els companys de classe" La foto mostra un dels quatre centres de dades on s'instal·la l'equip al servei del nostre projecte. Darrere d'aquestes parets hi ha uns 4 mil equips: servidors, sistemes d'emmagatzematge de dades, equips de xarxa, etc. - gairebé ⅓ de tots els nostres equips.
Большинство серверов — это Linux. Есть и несколько десятков серверов на Windows (MS SQL) — наше наследие, от которого мы на протяжении многих лет планомерно отказываемся.
Així, el 5 de juny de 2019 a les 14:35, els enginyers d'un dels nostres centres de dades van informar d'una alarma d'incendi.

Negació

14:45. Els incidents menors de fum als centres de dades són més freqüents del que creieu. Els indicadors dins de les sales eren normals, per la qual cosa la nostra primera reacció va ser relativament tranquil·la: van introduir la prohibició de treballar amb producció, és a dir, de qualsevol canvi de configuració, de desplegar noves versions, etc., excepte per als treballs relacionats amb la reparació d'alguna cosa.

Ira

Alguna vegada has intentat esbrinar pels bombers on es va produir el foc exactament al terrat, o pujar tu mateix a un sostre en flames per avaluar la situació? Quin serà el grau de confiança en la informació rebuda a través de cinc persones?

14: 50. S'ha rebut informació que el foc s'acosta al sistema de refrigeració. Però vindrà? L'administrador del sistema de torn elimina el trànsit extern dels fronts d'aquest centre de dades.

De moment, els fronts de tots els nostres serveis estan duplicats en tres centres de dades, s'utilitza l'equilibri a nivell de DNS, que ens permet eliminar les adreces d'un centre de dades del DNS, protegint així els usuaris de possibles problemes d'accés als serveis. . Si ja s'han produït problemes al centre de dades, abandona la rotació automàticament. Podeu llegir més aquí: Equilibri de càrrega i tolerància a fallades a Odnoklassniki.

El foc encara no ens ha afectat de cap manera, ni els usuaris ni els equips han patit danys. Això és un accident? El primer apartat del document “Pla d'Acció d'Accidents” defineix el concepte d'”Accident”, i l'apartat acaba així:
«Si hi ha algun dubte de si hi ha un accident o no, és un accident!»

14:53. Es nomena un coordinador d'emergències.

El coordinador és la persona que controla la comunicació entre tots els participants, valora l'envergadura de l'accident, utilitza el Pla d'Acció d'Emergència, atrau el personal necessari, supervisa la realització de les reparacions i, el més important, delega qualsevol tasca. És a dir, aquesta és la persona que gestiona tot el procés de resposta a l'emergència.

Negociació

15:01. Comencem a desactivar servidors que no estan relacionats amb la producció.
15:03. Desactivem correctament tots els serveis reservats.
Això inclou no només els fronts (als quals en aquest moment els usuaris ja no accedeixen) i els seus serveis auxiliars (lògica de negoci, memòria cau, etc.), sinó també diverses bases de dades amb factor de replicació 2 o més (Cassandra, emmagatzematge de dades binàries, magatzem refrigerat, NewSQL etc.).
15: 06. S'ha rebut informació que un incendi amenaça una de les sales del centre de dades. No tenim equipament en aquesta sala, però el fet que el foc es pugui propagar des del terrat fins als passadissos canvia molt la imatge del que està passant.
(Més tard va resultar que no hi havia cap amenaça física per a la sala, ja que estava tancada hermèticament des del sostre. L'amenaça era només per al sistema de refrigeració d'aquesta sala.)
15:07. Permetem l'execució d'ordres en servidors en mode accelerat sense comprovacions addicionals (sense la nostra calculadora preferida).
15:08. La temperatura a les sales està dins dels límits normals.
15: 12. S'ha registrat un augment de la temperatura a les sales.
15:13. Més de la meitat dels servidors del centre de dades estan apagats. Continuem.
15:16. Es va decidir apagar tots els equips.
15:21. Comencem a apagar l'alimentació dels servidors sense estat sense tancar correctament l'aplicació i el sistema operatiu.
15:23. S'assigna un grup de persones responsables de MS SQL (n'hi ha pocs, la dependència dels serveis d'ells no és gran, però el procediment per restaurar la funcionalitat triga més i és més complicat que, per exemple, Cassandra).

Depressió

15: 25. Es va rebre informació sobre l'apagada de l'electricitat en quatre sales de 16 (núm. 6, 7, 8, 9). El nostre equipament es troba als pavellons 7 i 8. No hi ha informació sobre les nostres dues sales (núm. 1 i 3).
Normalment, durant els incendis, la font d'alimentació s'apaga immediatament, però en aquest cas, gràcies al treball coordinat dels bombers i el personal tècnic del centre de dades, no es va apagar a tot arreu i no immediatament, sinó segons calia.
(Més tard es va descobrir que l'alimentació no estava apagada als pavellons 8 i 9.)
15:28. Estem començant a desplegar bases de dades MS SQL a partir de còpies de seguretat en altres centres de dades.
Quant de temps trigarà? Hi ha prou capacitat de xarxa per a tota la ruta?
15: 37. Es va registrar un tancament d'algunes parts de la xarxa.
La gestió i la xarxa de producció estan físicament aïllades l'una de l'altra. Si la xarxa de producció està disponible, podeu anar al servidor, aturar l'aplicació i apagar el sistema operatiu. Si no està disponible, podeu iniciar sessió mitjançant IPMI, aturar l'aplicació i apagar el sistema operatiu. Si no hi ha cap de les xarxes, no podeu fer res. "Gràcies, Cap!", pensaràs.
"I, en general, hi ha molta confusió", també podríeu pensar.
El cas és que els servidors, fins i tot sense foc, generen una gran quantitat de calor. Més precisament, quan hi ha refredament, generen calor, i quan no hi ha refrigeració creen un infern infernal que, en el millor dels casos, fon una part de l'equip i n'apaga una altra i, en el pitjor... foc a l'interior de la sala, que gairebé segur que ho destruirà tot.

15:39. Solucionem problemes amb la base de dades conf.

La base de dades conf és el backend del servei del mateix nom, que és utilitzat per totes les aplicacions de producció per canviar ràpidament la configuració. Sense aquesta base, no podem controlar el funcionament del portal, però el mateix portal pot funcionar.

15:41. Els sensors de temperatura dels equips de la xarxa central registren lectures properes al màxim permès. Es tracta d'una caixa que ocupa tot un bastidor i assegura el funcionament de totes les xarxes dins del centre de dades.

15:42. El rastrejador de problemes i la wiki no estan disponibles, canvieu al mode d'espera.
Això no és producció, però en cas d'accident, la disponibilitat de qualsevol base de coneixement pot ser crítica.
15:50. Un dels sistemes de control s'ha apagat.
N'hi ha diversos, i són responsables de diferents aspectes dels serveis. Alguns d'ells estan configurats per funcionar de manera autònoma dins de cada centre de dades (és a dir, només supervisen el seu propi centre de dades), altres consisteixen en components distribuïts que sobreviuen de manera transparent a la pèrdua de qualsevol centre de dades.
En aquest cas va deixar de funcionar sistema de detecció d'anomalies d'indicadors de lògica empresarial, que funciona en mode d'espera mestre. S'ha canviat al mode d'espera.

Adopció

15:51. Tots els servidors, excepte MS SQL, es van apagar mitjançant IPMI sense tancar-se correctament.
Esteu preparat per a una gestió massiva de servidors mitjançant IPMI si cal?

El mateix moment en què es completa el rescat dels equips del centre de dades en aquesta etapa. S'ha fet tot el que es podia fer. Alguns companys poden descansar.
16: 13. S'ha rebut informació que les canonades de freó dels aparells d'aire condicionat van esclatar al terrat; això retardarà la posada en marxa del centre de dades després d'eliminar el foc.
16:19. Segons les dades rebudes del personal tècnic del centre de dades, l'augment de la temperatura a les sales s'ha aturat.
17:10. S'ha restaurat la base de dades conf. Ara podem canviar la configuració de l'aplicació.
Per què és tan important si tot és tolerant a errors i funciona fins i tot sense un centre de dades?
En primer lloc, no tot és tolerant a errors. Hi ha diversos serveis secundaris que encara no han sobreviscut prou bé a una fallada del centre de dades i hi ha bases de dades en mode d'espera mestre. La capacitat de gestionar la configuració us permet fer tot el necessari per minimitzar l'impacte de les conseqüències d'un accident sobre els usuaris fins i tot en condicions difícils.
En segon lloc, va quedar clar que el funcionament del centre de dades no es restabliria completament en les properes hores, per la qual cosa va ser necessari prendre mesures per garantir que la indisponibilitat a llarg termini de les rèpliques no comportaria problemes addicionals, com ara discs plens en la resta de centres de dades.
17:29. Hora de la pizza! Fem feina a persones, no robots.

Rehabilitació

18:02. Als pavellons número 8 (nostre), 9, 10 i 11 la temperatura s'ha estabilitzat. Un dels que roman fora de línia (núm. 7) allotja el nostre equipament, i allà la temperatura continua pujant.
18:31. Van donar el vistiplau a la posada en marxa dels equipaments dels pavellons 1 i 3, que no es van veure afectats pel foc.

Actualment s'estan posant en marxa servidors als pavellons núms 1, 3, 8, començant pels més crítics. Es comprova el correcte funcionament de tots els serveis en execució. Encara hi ha problemes amb el pavelló número 7.

18:44. El personal tècnic del centre de dades va descobrir que a l'habitació número 7 (on només hi ha el nostre equip) molts servidors no estan apagats. Segons les nostres dades, hi romanen en línia 26 servidors. Després d'una segona comprovació, trobem 58 servidors.
20:18. Els tècnics del centre de dades bufen aire a través d'una habitació sense aire condicionat a través de conductes mòbils que recorren els passadissos.
23:08. El primer administrador va ser enviat a casa. Algú ha de dormir a la nit per continuar treballant demà. A continuació, llançarem alguns administradors i desenvolupadors més.
02:56. Vam posar en marxa tot el que es podia posar en marxa. Fem moltes comprovacions de tots els serveis mitjançant proves automàtiques.

03:02. S'ha restaurat l'aire condicionat al darrer vestíbul 7.
03:36. Hem fet girar els fronts del centre de dades en DNS. A partir d'aquest moment comença a arribar el trànsit d'usuaris.
Enviem la majoria de l'equip administratiu a casa. Però deixem enrere algunes persones.

Petites preguntes freqüents:
P: Què va passar de 18:31 a 02:56?
R: Seguint el “Pla d'acció per a desastres”, posem en marxa tots els serveis, començant pels més importants. En aquest cas, el coordinador del xat lliura el servei a un administrador gratuït, que verifica si el SO i l'aplicació s'han iniciat, si hi ha errors i si els indicadors són normals. Un cop finalitzat el llançament, informa al xat que està lliure i rep un nou servei del coordinador.
El procés es veu alentit encara més pel maquinari fallit. Fins i tot si aturar el sistema operatiu i apagar els servidors ha anat correctament, alguns servidors no tornen a causa d'una fallada sobtada dels discs, la memòria i el xassís. Quan es perd energia, la taxa de fallada augmenta.
P: Per què no podeu executar-ho tot alhora i arreglar el que sorgeix a la supervisió?
R: Tot s'ha de fer de manera gradual, perquè hi ha dependències entre serveis. I tot s'ha de revisar immediatament, sense esperar a la supervisió, perquè és millor fer front als problemes immediatament, sense esperar que empitjorin.

7:40. L'últim administrador (coordinador) es va anar a dormir. La feina del primer dia s'ha acabat.
8:09. Els primers desenvolupadors, enginyers de centres de dades i administradors (inclòs el nou coordinador) van començar els treballs de restauració.
09:37. Comencem a aixecar el pavelló no 7 (l'últim).
Paral·lelament, continuem restaurant el que no s'ha solucionat en altres sales: substituint discs/memòria/servidors, arreglant tot el que es “crema” a la supervisió, canviant els rols en els esquemes master-standby i altres petites coses, de les quals hi ha tanmateix força.
17:08. Permetem tot el treball regular amb producció.
21:45. S'han acabat els treballs del segon dia.
09:45. Avui és divendres. Encara hi ha alguns petits problemes en el seguiment. S'acosta el cap de setmana, tothom vol relaxar-se. Continuem reparant massivament tot el que podem. Les tasques d'administració habituals que es podrien haver ajornat es van ajornar. El coordinador és nou.
15:40. De sobte, la meitat de la pila d'equips de xarxa bàsica d'un ALTRE centre de dades es va reiniciar. Els fronts es van treure de la rotació per minimitzar els riscos. No hi ha cap efecte per als usuaris. Més tard va resultar que es tractava d'un xassís defectuós. El coordinador està treballant en la reparació de dos accidents alhora.
17:17. S'ha restaurat el funcionament de la xarxa en un altre centre de dades, s'ha comprovat tot. El centre de dades es posa en rotació.
18:29. S'han acabat els treballs del tercer dia i, en general, la restauració després de l'accident.

Paraula posterior

04.04.2013/XNUMX/XNUMX, el dia de l'error 404, "Companys de classe" va sobreviure a l'accident més gran —durant tres dies el portal va estar totalment o parcialment indisponible. Durant tot aquest temps, més de 100 persones de diferents ciutats, de diferents empreses (moltes gràcies de nou!), de forma remota i directament en centres de dades, de manera manual i automàtica, van reparar milers de servidors.
Hem extret conclusions. Per evitar que això torni a passar, hem dut a terme i continuem fent una gran feina fins avui.

Quines són les principals diferències entre l'accident actual i el 404?

Tenim un "Pla d'Acció d'Accidents". Un cop al trimestre, fem exercicis: representem una situació d'emergència, que un grup d'administradors (tots al seu torn) han d'eliminar mitjançant el "Pla d'acció d'emergència". Els principals administradors de sistemes es tornen fent de coordinadors.
Trimestralment, en mode de prova, aïllem els centres de dades (tots al seu torn) a través de xarxes LAN i WAN, la qual cosa ens permet identificar ràpidament els colls d'ampolla.
Menys discs trencats, perquè hem endurit els estàndards: menys hores de funcionament, llindars més estrictes per a SMART,
Vam abandonar completament BerkeleyDB, una base de dades antiga i inestable que va requerir molt de temps per recuperar-se després d'un reinici del servidor.
Hem reduït el nombre de servidors amb MS SQL i hem reduït la dependència dels restants.
Tenim el nostre núvol - un núvol, on ja fa dos anys que estem migrant activament tots els serveis. El núvol simplifica enormement tot el cicle de treball amb l'aplicació i, en cas d'accident, proporciona eines úniques com:
- aturada correcta de totes les aplicacions amb un sol clic;
- migració fàcil d'aplicacions des de servidors fallits;
- llançament automàtic classificat (per ordre de prioritat del servei) d'un centre de dades sencer.

L'accident descrit en aquest article va ser el més gran des del dia 404. Per descomptat, no tot va anar bé. Per exemple, durant la indisponibilitat d'un centre de dades de víctimes d'incendi en un altre centre de dades, un disc d'un dels servidors va fallar, és a dir, només una de les tres rèpliques del clúster Cassandra va romandre accessible, per això el 4,2% de l'aplicació mòbil. els usuaris no han pogut iniciar sessió. Al mateix temps, els usuaris ja connectats van continuar treballant. En total, com a conseqüència de l'accident, es van identificar més de 30 problemes, des d'errors banals fins a deficiències en l'arquitectura del servei.

Però la diferència més important entre l'accident actual i el 404 és que mentre estàvem eliminant les conseqüències del foc, els usuaris encara estaven enviant missatges de text i fent videotrucades a Tamtam, jugava, escoltava música, es donava regals, mirava vídeos, sèries de televisió i canals de televisió a bo, i també s'ha emès en streaming D'acord en directe.

Com van els teus accidents?

Font: www.habr.com