El final del primer i l'inici del segon mes de l'estiu del 2019 va resultar difícil i va estar marcat per diverses caigudes importants dels serveis informàtics globals. Entre els destacables: dos incidents greus a la infraestructura de CloudFlare (el primer - amb mans tortes i actitud negligent cap a BGP per part d'alguns ISP dels EUA; el segon - amb un desplegament tort dels mateixos CF, que va afectar tothom que utilitzava CF). , i aquests són molts serveis notables) i el funcionament inestable de la infraestructura CDN de Facebook (afectat tots els productes de FB, inclosos Instagram i WhatsApp). També hem hagut de quedar atrapats en la distribució, tot i que la nostra interrupció era molt menys notable en el context global. Algú ja ha començat a arrossegar helicòpters negres i conspiracions "sobiranes", per la qual cosa estem publicant una autopsia pública del nostre incident.
03.07.2019, 16: 05
Es van començar a registrar problemes amb els recursos, similars a una ruptura de la connectivitat de la xarxa interna. En no haver-ho comprovat del tot, van començar a criticar el rendiment del canal extern cap a DataLine, ja que va quedar clar que el problema era l'accés a Internet de la xarxa interna (NAT), fins al punt de posar la sessió BGP cap a DataLine.
03.07.2019, 16: 35
Va ser obvi que l'equip que proporcionava traducció d'adreces de xarxa i accés des de la xarxa local del lloc a Internet (NAT) havia fallat. Els intents de reiniciar l'equip no van portar a res, la recerca d'opcions alternatives per organitzar la connectivitat va començar abans de rebre resposta del suport tècnic, ja que per experiència, això probablement no hauria servit de res.
El problema es va agreujar una mica pel fet que aquest equipament també finalitzava les connexions entrants dels clients. VPN empleats, les tasques de restauració remotes s'han tornat més difícils de dur a terme.
03.07.2019, 16: 40
Vam intentar reviure un esquema NAT de còpia de seguretat existent anteriorment que havia funcionat molt abans. Però va quedar clar que diverses reformes de la xarxa van fer que aquest esquema fos gairebé completament inoperant, ja que la seva restauració podria, en el millor dels casos, no funcionar o, en el pitjor, trencar el que ja funcionava.
Vam començar a treballar en un parell d'idees per transferir trànsit a un conjunt de nous encaminadors al servei de la columna vertebral, però semblaven inviables a causa de les peculiaritats de la distribució de rutes a la xarxa central.
03.07.2019, 17: 05
Al mateix temps, es va identificar un problema en el mecanisme de resolució de noms als servidors de noms, que va provocar errors en la resolució de punts finals a les aplicacions i van començar a omplir ràpidament els fitxers dels hosts amb registres de serveis crítics.
03.07.2019, 17: 27
S'ha restaurat la funcionalitat limitada d'Habr.
03.07.2019, 17: 43
Però al final, es va trobar una solució relativament segura per organitzar el trànsit a través d'un dels encaminadors fronterers, que es va instal·lar ràpidament. S'ha restablert la connectivitat a Internet.
Durant els minuts següents, van arribar moltes notificacions dels sistemes de monitorització sobre la restauració de la funcionalitat dels agents de monitoratge, però alguns dels serveis van resultar inoperants perquè el mecanisme de resolució de noms dels servidors de noms (dns) estava trencat.

03.07.2019, 17: 52
NS es va reiniciar i es va esborrar la memòria cau. S'ha restaurat la resolució.
03.07.2019, 17: 55
Tots els serveis van començar a funcionar excepte MK, Freelansim i Toaster.
03.07.2019, 18: 02
MK i Freelansim van començar a treballar.
03.07.2019, 18: 07
Recupereu una sessió BGP innocent amb DataLine.
03.07.2019, 18: 25
Van començar a registrar problemes amb els recursos, que es va deure a un canvi en l'adreça externa del pool NAT i a la seva absència a l'acl d'una sèrie de serveis, que es va corregir ràpidament. La torradora va començar a funcionar de seguida.
03.07.2019, 20: 30
Hem detectat errors relacionats amb els robots de Telegram. Va resultar que es van oblidar de registrar l'adreça externa en un parell d'acl (servidors intermediaris), que es va corregir ràpidament.

Troballes
- L'equip, que abans havia sembrat dubtes sobre la seva idoneïtat, va fallar. Hi havia previst eliminar-lo de la feina, ja que interferia en el desenvolupament de la xarxa i tenia problemes de compatibilitat, però al mateix temps realitzava una funció crítica, per la qual cosa qualsevol substitució era tècnicament difícil sense interrompre els serveis. Ara pots seguir endavant.
- El problema del DNS es pot evitar apropant-los a la nova xarxa troncal fora de la xarxa NAT i encara tenint una connectivitat completa a la xarxa grisa sense traducció (que era el pla abans de l'incident).
- No hauríeu d'utilitzar noms de domini en muntar clústers RDBMS, ja que la comoditat de canviar l'adreça IP de manera transparent no és especialment necessària, ja que aquestes manipulacions encara requereixen la reconstrucció del clúster. Aquesta decisió va ser dictada per raons històriques i, en primer lloc, per l'obvietat dels punts finals per nom a les configuracions RDBMS. En general, una trampa clàssica.
- En principi, s'han fet exercicis equiparables a la “sobiranització del Runet” hi ha alguna cosa a pensar en termes d'enfortiment de les capacitats de supervivència autònoma.
Font: www.habr.com
