Habrova posmrtná zpráva: padla na noviny

Konec prvního a začátek druhého měsíce léta 2019 se ukázal jako těžký a byl poznamenán několika velkými propady globálních IT služeb. Mezi ty pozoruhodné: dva vážné incidenty v infrastruktuře CloudFlare (první - s křivýma rukama a nedbalým přístupem k BGP ze strany některých ISP z USA; druhý - s křivým nasazením samotných CF, které postihly všechny uživatele CF , a to je mnoho pozoruhodných služeb) a nestabilní provoz Facebook CDN infrastruktury (zasáhl všechny FB produkty včetně Instagramu a WhatsAppu). Museli jsme se také chytit distribuce, i když na globálním pozadí byl náš výpadek mnohem méně patrný. Někdo už začal zatahovat černé helikoptéry a „suverénní“ konspirace, takže zveřejňujeme veřejnou pitvu našeho incidentu.

Habrova posmrtná zpráva: padla na noviny

03.07.2019, 16: 05
Začaly se zaznamenávat problémy se zdroji, podobně jako výpadek vnitřní síťové konektivity. Poté, co vše úplně nezkontrolovali, začali kritizovat výkon externího kanálu směrem k DataLine, protože se ukázalo, že problém byl s přístupem vnitřní sítě k internetu (NAT), až do té míry, že relaci BGP přesunuli na DataLine.

03.07.2019, 16: 35
Bylo zřejmé, že selhalo zařízení zajišťující překlad síťových adres a přístup z místní sítě webu k Internetu (NAT). Pokusy o restart zařízení nevedly k ničemu, hledání alternativních možností pro uspořádání připojení začalo před obdržením odpovědi od technické podpory, protože ze zkušenosti by to s největší pravděpodobností nepomohlo.

Problém poněkud zhoršila skutečnost, že toto zařízení ukončovalo i příchozí spojení klientských VPN zaměstnanců a provádění vzdálené obnovy bylo obtížnější.

03.07.2019, 16: 40
Pokusili jsme se oživit dříve existující záložní NAT schéma, které dříve dobře fungovalo. Ukázalo se však, že řada rekonstrukcí sítě způsobila, že toto schéma bylo téměř zcela nefunkční, protože jeho obnovení by v nejlepším případě mohlo nefungovat, nebo v nejhorším případě přerušit to, co již fungovalo.

Začali jsme pracovat na několika nápadech, jak přenést provoz na sadu nových směrovačů obsluhujících páteř, ale zdály se nefunkční kvůli zvláštnostem distribuce tras v jádrové síti.

03.07.2019, 17: 05
Zároveň byl identifikován problém v mechanismu rozlišení názvů na jmenných serverech, který vedl k chybám při řešení koncových bodů v aplikacích a začaly rychle plnit soubory hostitelů záznamy kritických služeb.

03.07.2019, 17: 27
Habrova omezená funkčnost byla obnovena.

03.07.2019, 17: 43
Nakonec se ale našlo relativně bezpečné řešení pro organizaci provozu přes jeden z hraničních routerů, který byl rychle nainstalován. Internetové připojení bylo obnoveno.

Během několika dalších minut přišlo z monitorovacích systémů mnoho oznámení o obnovení funkčnosti monitorovacích agentů, ale některé služby se ukázaly jako nefunkční, protože byl porušen mechanismus rozlišení jmen na jmenných serverech (dns).

Habrova posmrtná zpráva: padla na noviny

03.07.2019, 17: 52
NS byl restartován a mezipaměť byla vymazána. Rozlišení bylo obnoveno.

03.07.2019, 17: 55
Všechny služby začaly fungovat kromě MK, Freelansim a Toaster.

03.07.2019, 18: 02
MK a Freelansim začali pracovat.

03.07.2019, 18: 07
Přiveďte zpět nevinnou relaci BGP s DataLine.

03.07.2019, 18: 25
Začaly evidovat problémy se zdroji, což bylo způsobeno změnou externí adresy NAT poolu a jeho absencí v acl řady služeb, což bylo promptně napraveno. Toustovač začal okamžitě fungovat.

03.07.2019, 20: 30
Zaznamenali jsme chyby související s roboty Telegram. Ukázalo se, že zapomněli zaregistrovat externí adresu v několika acl (proxy serverech), což bylo okamžitě opraveno.

Habrova posmrtná zpráva: padla na noviny

Závěry

  • Zařízení, které dříve zasévalo pochybnosti o jeho vhodnosti, selhalo. Byly plány na jeho vyřazení z provozu, protože narušoval vývoj sítě a měl problémy s kompatibilitou, ale zároveň plnil kritickou funkci, a proto byla jakákoliv výměna bez přerušení služeb technicky obtížná. Nyní můžete jít dál.
  • Problému s DNS lze předejít tím, že je přesunete blíže k nové páteřní síti mimo síť NAT a budete mít stále plnou konektivitu k šedé síti bez překladu (což byl plán před incidentem).
  • Při sestavování clusterů RDBMS byste neměli používat názvy domén, protože pohodlí transparentní změny IP adresy není nijak zvlášť nutné, protože takové manipulace stále vyžadují opětovné sestavení clusteru. Toto rozhodnutí bylo diktováno historickými důvody a především zřejmostí jmenovitých koncových bodů v konfiguracích RDBMS. Obecně klasická past.
  • V zásadě byla provedena cvičení srovnatelná se „suverenizací Runetu“, je o čem přemýšlet, pokud jde o posílení schopností autonomního přežití.

Zdroj: www.habr.com

Přidat komentář