Posmrtno poročilo Habr: padlo je na časopis

Konec prvega in začetek drugega meseca poletja 2019 se je izkazal za težkega in ga je zaznamovalo več velikih padcev globalnih storitev IT. Med opaznimi sta dva resna incidenta v infrastrukturi CloudFlare (prvi - s pokvarjenimi rokami in malomarnim odnosom do BGP s strani nekaterih ponudnikov internetnih storitev iz ZDA; drugi - s pokvarjeno uvedbo samih CF, ki je prizadela vse, ki uporabljajo CF , in to so številne opazne storitve) in nestabilno delovanje Facebook CDN infrastrukture (prizadelo vse izdelke FB, vključno z Instagramom in WhatsAppom). Morali smo se ujeti tudi pri distribuciji, čeprav je bil naš izpad v globalnem ozadju veliko manj opazen. Nekdo je že začel vleči črne helikopterje in »suverene« zarote, zato objavljamo javni post mortem našega incidenta.

Posmrtno poročilo Habr: padlo je na časopis

03.07.2019, 16: 05
Začele so se beležiti težave z viri, podobne razpadu notranje omrežne povezljivosti. Ker niso v celoti preverili vsega, so začeli kriviti delovanje zunanjega kanala proti DataLine, saj je postalo jasno, da je težava v dostopu notranjega omrežja do interneta (NAT), do te mere, da je seja BGP preusmerjena proti DataLine.

03.07.2019, 16: 35
Postalo je očitno, da je oprema, ki je zagotavljala prevajanje omrežnih naslovov in dostop iz lokalnega omrežja spletnega mesta v internet (NAT), odpovedala. Poskusi ponovnega zagona opreme niso privedli do ničesar, iskanje alternativnih možnosti za organizacijo povezljivosti se je začelo, preden smo prejeli odgovor tehnične podpore, saj po izkušnjah to najverjetneje ne bi pomagalo.

Težavo je nekoliko poslabšalo dejstvo, da je ta oprema prekinjala tudi dohodne povezave zaposlenih v odjemalskem VPN-ju, delo na daljavo pa je postalo težje izvajati.

03.07.2019, 16: 40
Poskušali smo oživiti predhodno obstoječo rezervno shemo NAT, ki je prej dobro delovala. Toda postalo je jasno, da je zaradi številnih prenov omrežja ta shema skoraj popolnoma nedelujoča, saj bi lahko njena obnova v najboljšem primeru ne delovala ali v najslabšem primeru pokvarila tisto, kar je že delovalo.

Začeli smo delati na nekaj zamislih za prenos prometa na nabor novih usmerjevalnikov, ki služijo hrbtenici, vendar so se zdele neizvedljive zaradi posebnosti porazdelitve poti v jedrnem omrežju.

03.07.2019, 17: 05
Hkrati je bila ugotovljena težava v mehanizmu razreševanja imen na imenskih strežnikih, ki je povzročila napake pri razreševanju končnih točk v aplikacijah, te pa so pričele hitro polniti datoteke hosts z zapisi kritičnih storitev.

03.07.2019, 17: 27
Omejena funkcionalnost Habra je bila obnovljena.

03.07.2019, 17: 43
Toda na koncu se je našla razmeroma varna rešitev za organizacijo prometa prek enega od obmejnih usmerjevalnikov, ki je bila hitro nameščena. Internetna povezava je bila obnovljena.

V naslednjih nekaj minutah je iz nadzornih sistemov prišlo veliko obvestil o ponovni vzpostavitvi funkcionalnosti nadzornih agentov, vendar se je izkazalo, da nekatere storitve ne delujejo, ker je bil pokvarjen mehanizem za razreševanje imen na imenskih strežnikih (dns).

Posmrtno poročilo Habr: padlo je na časopis

03.07.2019, 17: 52
NS je bil znova zagnan in predpomnilnik je bil počiščen. Razreševanje je bilo obnovljeno.

03.07.2019, 17: 55
Delovati so začele vse storitve razen MK, Freelansim in Toaster.

03.07.2019, 18: 02
MK in Freelansim sta začela delati.

03.07.2019, 18: 07
Vrnite nedolžno sejo BGP z DataLine.

03.07.2019, 18: 25
Začeli so beležiti težave z viri, ki so bile posledica spremembe zunanjega naslova bazena NAT in njegove odsotnosti v acl številnih storitev, kar je bilo takoj popravljeno. Toaster je takoj začel delovati.

03.07.2019, 20: 30
Opazili smo napake, povezane z roboti Telegram. Izkazalo se je, da so pozabili registrirati zunanji naslov v nekaj acl (proxy strežnikih), kar je bilo takoj popravljeno.

Posmrtno poročilo Habr: padlo je na časopis

Ugotovitve

  • Odpovedala je oprema, ki je že prej sejala dvome o njeni ustreznosti. Načrtovali so ga, da bi ga izločili iz dela, saj je motil razvoj omrežja in imel težave z združljivostjo, hkrati pa je opravljal kritično funkcijo, zato je bila vsaka zamenjava tehnično težka brez prekinitve storitev. Zdaj lahko greš naprej.
  • Težavi DNS se je mogoče izogniti tako, da jih premaknete bližje novemu hrbteničnemu omrežju zunaj omrežja NAT in še vedno imate popolno povezljivost s sivim omrežjem brez prevajanja (kar je bil načrt pred incidentom).
  • Pri sestavljanju gruč RDBMS ne smete uporabljati imen domen, saj udobje preglednega spreminjanja naslova IP ni posebej potrebno, saj takšne manipulacije še vedno zahtevajo ponovno izgradnjo gruče. To odločitev so narekovali zgodovinski razlogi in predvsem očitnost končnih točk po imenu v konfiguracijah RDBMS. Na splošno klasična past.
  • Načeloma so bile izvedene vaje, primerljive s »suverenizacijo Runeta«, o krepitvi zmožnosti avtonomnega preživetja je treba razmišljati.

Vir: www.habr.com

Dodaj komentar