Habr postmortem rapport: det faldt på en avis

Slutningen af ​​den første og begyndelsen af ​​den anden måned af sommeren 2019 viste sig at være svær og var præget af flere store fald i globale it-tjenester. Blandt de bemærkelsesværdige: to alvorlige hændelser i CloudFlare-infrastrukturen (den første - med skæve hænder og uagtsom holdning til BGP fra nogle internetudbydere fra USA; den anden - med en skæv udrulning af CF selv, som påvirkede alle, der brugte CF , og disse er mange bemærkelsesværdige tjenester) og ustabil drift af Facebook CDN-infrastrukturen (påvirkede alle FB-produkter, inklusive Instagram og WhatsApp). Vi var også nødt til at blive fanget i distributionen, selvom vores udfald var meget mindre mærkbar på den globale baggrund. Nogen er allerede begyndt at slæbe sorte helikoptere og "suveræne" konspirationer ind, så vi frigiver en offentlig post mortem af vores hændelse.

Habr postmortem rapport: det faldt på en avis

03.07.2019, 16: 05
Problemer med ressourcer begyndte at blive registreret, svarende til et sammenbrud i den interne netværksforbindelse. Efter ikke at have tjekket alt fuldstændigt, begyndte de at fejle ydeevnen af ​​den eksterne kanal over for DataLine, da det blev klart, at problemet var med det interne netværks adgang til internettet (NAT), til det punkt, hvor BGP-sessionen sattes mod DataLine.

03.07.2019, 16: 35
Det blev tydeligt, at det udstyr, der leverede netværksadresseoversættelse og adgang fra webstedets lokale netværk til internettet (NAT), var fejlet. Forsøg på at genstarte udstyret førte ikke til noget, søgningen efter alternative muligheder for at organisere tilslutning begyndte, før man modtog et svar fra teknisk support, da det af erfaring højst sandsynligt ikke ville have hjulpet.

Problemet blev noget forværret af det faktum, at dette udstyr også afsluttede indgående forbindelser for klient-VPN-medarbejdere, og fjerngendannelsesarbejde blev vanskeligere at udføre.

03.07.2019, 16: 40
Vi forsøgte at genoplive en tidligere eksisterende backup NAT-ordning, der havde fungeret godt før. Men det blev klart, at en række netværksrenoveringer gjorde denne ordning næsten fuldstændig ude af drift, da dens restaurering i bedste fald ikke kunne fungere, eller i værste fald bryde det, der allerede fungerede.

Vi begyndte at arbejde på et par ideer til at overføre trafik til et sæt nye routere, der betjener rygraden, men de virkede ubrugelige på grund af de særlige kendetegn ved fordelingen af ​​ruter i kernenetværket.

03.07.2019, 17: 05
Samtidig blev der identificeret et problem i navneløsningsmekanismen på navneservere, hvilket førte til fejl ved løsning af endepunkter i applikationer, og de begyndte hurtigt at fylde værtsfiler med registreringer af kritiske tjenester.

03.07.2019, 17: 27
Habrs begrænsede funktionalitet er blevet gendannet.

03.07.2019, 17: 43
Men i sidste ende blev der fundet en forholdsvis sikker løsning til at organisere trafikken gennem en af ​​grænserouterne, som hurtigt blev installeret. Internetforbindelsen er blevet genoprettet.

I løbet af de næste par minutter kom der en masse meddelelser fra overvågningssystemerne om genoprettelse af overvågningsagenternes funktionalitet, men nogle af tjenesterne viste sig ikke at fungere, fordi navneløsningsmekanismen på navneserverne (dns) var brudt.

Habr postmortem rapport: det faldt på en avis

03.07.2019, 17: 52
NS blev genstartet, og cachen blev ryddet. Løsning er blevet genoprettet.

03.07.2019, 17: 55
Alle tjenester begyndte at fungere undtagen MK, Freelansim og Toaster.

03.07.2019, 18: 02
MK og Freelansim begyndte at arbejde.

03.07.2019, 18: 07
Få en uskyldig BGP-session tilbage med DataLine.

03.07.2019, 18: 25
De begyndte at registrere problemer med ressourcer, hvilket skyldtes en ændring i den eksterne adresse for NAT-puljen og dens fravær i acl'en for en række tjenester, hvilket blev rettet omgående. Brødristeren begyndte at arbejde med det samme.

03.07.2019, 20: 30
Vi har bemærket fejl relateret til Telegram-bots. Det viste sig, at de glemte at registrere den eksterne adresse i et par acl (proxy-servere), hvilket prompte blev rettet.

Habr postmortem rapport: det faldt på en avis

Fund

  • Udstyret, som tidligere havde sået tvivl om dets egnethed, svigtede. Der var planer om at fjerne det fra arbejdet, da det forstyrrede udviklingen af ​​netværket og havde kompatibilitetsproblemer, men samtidig udførte det en kritisk funktion, hvorfor enhver udskiftning var teknisk vanskelig uden at afbryde tjenester. Nu kan du komme videre.
  • DNS-problemet kan undgås ved at flytte dem tættere på det nye backbone-netværk uden for NAT-netværket og stadig have fuld forbindelse til det grå netværk uden oversættelse (hvilket var planen før hændelsen).
  • Du bør ikke bruge domænenavne, når du samler RDBMS-klynger, da bekvemmeligheden ved transparent ændring af IP-adressen ikke er særlig nødvendig, da sådanne manipulationer stadig kræver genopbygning af klyngen. Denne beslutning blev dikteret af historiske årsager og først og fremmest af åbenlyse endepunkter ved navn i RDBMS-konfigurationer. Generelt en klassisk fælde.
  • I princippet er der gennemført øvelser, der kan sammenlignes med "suveræniseringen af ​​Runet", der er noget at tænke på i forhold til at styrke mulighederne for autonom overlevelse.

Kilde: www.habr.com

Tilføj en kommentar