Habrova posmrtná správa: padla na noviny

Koniec prvého a začiatok druhého mesiaca leta 2019 sa ukázal ako ťažký a bol poznačený niekoľkými veľkými prepadmi globálnych IT služieb. Medzi tie pozoruhodné: dva vážne incidenty v infraštruktúre CloudFlare (prvý - s pokrivenými rukami a nedbanlivým prístupom k BGP zo strany niektorých ISP z USA; druhý - s krivým nasadením samotných CF, ktorý postihol každého, kto používa CF , a to sú mnohé pozoruhodné služby) a nestabilná prevádzka infraštruktúry Facebook CDN (zasiahla všetky FB produkty vrátane Instagramu a WhatsAppu). Museli sme spadnúť aj pod distribúciu, hoci náš výpadok bol na globálnom pozadí oveľa menej citeľný. Niekto už začal naťahovať čierne helikoptéry a „suverénne“ konšpirácie, preto zverejňujeme verejnú post mortem nášho incidentu.

Habrova posmrtná správa: padla na noviny

03.07.2019, 16: 05
Začali sa zaznamenávať problémy so zdrojmi, podobne ako výpadok internej sieťovej konektivity. Po tom, čo všetko úplne neskontrolovali, začali kritizovať výkon externého kanála smerom k DataLine, pretože sa ukázalo, že problém bol s prístupom internej siete na internet (NAT) až do bodu, keď reláciu BGP presunuli na DataLine.

03.07.2019, 16: 35
Ukázalo sa, že zariadenie poskytujúce preklad sieťových adries a prístup z lokálnej siete lokality do internetu (NAT) zlyhalo. Pokusy o reštart zariadenia neviedli k ničomu, hľadanie alternatívnych možností na organizovanie konektivity sa začalo pred prijatím odpovede od technickej podpory, pretože zo skúseností by to s najväčšou pravdepodobnosťou nepomohlo.

Problém bol do istej miery zhoršený skutočnosťou, že toto zariadenie ukončovalo aj prichádzajúce spojenia klientov VPN zamestnancov a práca na vzdialenej obnove bola náročnejšia.

03.07.2019, 16: 40
Pokúsili sme sa oživiť predtým existujúcu schému zálohovania NAT, ktorá predtým dobre fungovala. Ukázalo sa však, že niekoľko renovácií siete spôsobilo, že táto schéma bola takmer úplne nefunkčná, pretože jej obnovenie by v najlepšom prípade mohlo nefungovať alebo v najhoršom prípade prerušiť to, čo už fungovalo.

Začali sme pracovať na niekoľkých nápadoch, ako preniesť prevádzku na súpravu nových smerovačov slúžiacich chrbticovej sieti, ale zdajú sa nefunkčné kvôli zvláštnostiam distribúcie trás v základnej sieti.

03.07.2019, 17: 05
Zároveň bol identifikovaný problém v mechanizme rozlišovania názvov na názvových serveroch, ktorý viedol k chybám pri riešení koncových bodov v aplikáciách a začali rýchlo zapĺňať súbory hostiteľov záznamami o kritických službách.

03.07.2019, 17: 27
Habrova obmedzená funkčnosť bola obnovená.

03.07.2019, 17: 43
Ale nakoniec sa našlo relatívne bezpečné riešenie na organizáciu dopravy cez jeden z hraničných smerovačov, ktorý bol rýchlo nainštalovaný. Internetové pripojenie bolo obnovené.

V priebehu niekoľkých nasledujúcich minút prišlo z monitorovacích systémov veľa upozornení o obnovení funkčnosti monitorovacích agentov, ale niektoré služby sa ukázali ako nefunkčné, pretože mechanizmus rozlišovania mien na menných serveroch (dns) bol poškodený.

Habrova posmrtná správa: padla na noviny

03.07.2019, 17: 52
NS bol reštartovaný a vyrovnávacia pamäť bola vymazaná. Rozlíšenie bolo obnovené.

03.07.2019, 17: 55
Všetky služby začali fungovať okrem MK, Freelansim a Toaster.

03.07.2019, 18: 02
MK a Freelansim začali pracovať.

03.07.2019, 18: 07
Vráťte späť nevinnú reláciu BGP s DataLine.

03.07.2019, 18: 25
Začali evidovať problémy so zdrojmi, čo bolo spôsobené zmenou externej adresy NAT poolu a jeho absenciou v acl množstva služieb, čo bolo promptne napravené. Hriankovač začal okamžite fungovať.

03.07.2019, 20: 30
Všimli sme si chyby súvisiace s telegramovými robotmi. Ukázalo sa, že zabudli zaregistrovať externú adresu v niekoľkých acl (proxy serveroch), čo bolo okamžite opravené.

Habrova posmrtná správa: padla na noviny

Závery

  • Zariadenie, ktoré predtým zasievalo pochybnosti o jeho vhodnosti, zlyhalo. Boli plány na jeho vyradenie z prevádzky, keďže zasahoval do rozvoja siete a mal problémy s kompatibilitou, no zároveň vykonával kritickú funkciu, a preto bola akákoľvek výmena technicky náročná bez prerušenia služieb. Teraz môžete ísť ďalej.
  • Problému s DNS sa dá vyhnúť tak, že ich presuniete bližšie k novej chrbticovej sieti mimo siete NAT a budú mať stále plnú konektivitu k sivej sieti bez prekladu (čo bol plán pred incidentom).
  • Pri zostavovaní klastrov RDBMS by ste nemali používať názvy domén, pretože pohodlie pri transparentnej zmene adresy IP nie je obzvlášť potrebné, pretože takéto manipulácie stále vyžadujú prebudovanie klastra. Toto rozhodnutie bolo diktované historickými dôvodmi a predovšetkým zrejmosťou koncových bodov podľa názvu v konfiguráciách RDBMS. Vo všeobecnosti klasická pasca.
  • V zásade sa uskutočnili cvičenia porovnateľné so „suverenizáciou Runetu“, je o čom premýšľať, pokiaľ ide o posilnenie schopností autonómneho prežitia.

Zdroj: hab.com

Pridať komentár