Habr halotti jelentés: egy újságra esett

2019 nyarának első hónapjának vége és második hónapjának eleje nehéznek bizonyult, és a globális IT-szolgáltatások több jelentős visszaesése jellemezte. A figyelemre méltó incidensek közé tartozik: két súlyos incidens a CloudFlare infrastruktúrájában (az első - ferde kezekkel és egyes amerikai internetszolgáltatók hanyag hozzáállásával a BGP-vel szemben; a második - maguk a CF ferde telepítésével, ami mindenkit érintett, aki CF-et használ. , és ezek számos figyelemre méltó szolgáltatás) és a Facebook CDN-infrastruktúra instabil működése (az összes FB-terméket érintette, beleértve az Instagramot és a WhatsApp-ot is). A disztribúcióba is bele kellett akadnunk, bár a leállásunk a globális háttérben sokkal kevésbé volt feltűnő. Valaki már elkezdte berángatni a fekete helikoptereket és a „szuverén” összeesküvéseket, ezért nyilvános post mortem jelentést teszünk közzé az esetünkről.

Habr halotti jelentés: egy újságra esett

03.07.2019, 16: 05
Az erőforrásokkal kapcsolatos problémákat elkezdték rögzíteni, hasonlóan a belső hálózati kapcsolat meghibásodásához. Mivel nem ellenőriztek mindent teljesen, elkezdték a külső csatorna teljesítményét a DataLine felé hibáztatni, mivel világossá vált, hogy a probléma a belső hálózat internet-hozzáférésével (NAT) van, egészen addig a pontig, hogy a BGP munkamenetet a DataLine felé tették.

03.07.2019, 16: 35
Nyilvánvalóvá vált, hogy a hálózati címfordítást és az oldal helyi hálózatáról az Internetre (NAT) való hozzáférést biztosító berendezés meghibásodott. A berendezés újraindítására tett kísérletek nem vezettek semmire, a kapcsolat megszervezésének alternatív lehetőségeinek keresése megkezdődött, mielőtt a műszaki támogatástól választ kaptak volna, mivel a tapasztalatok alapján ez valószínűleg nem segített volna.

A problémát némileg súlyosbította, hogy ez a berendezés a kliens VPN-alkalmazottak bejövő kapcsolatait is megszakította, és a távoli helyreállítási munkák elvégzése is nehezebbé vált.

03.07.2019, 16: 40
Megpróbáltunk újraéleszteni egy korábban létező, korábban jól működő biztonsági mentési NAT-sémát. De világossá vált, hogy számos hálózat-felújítás szinte teljesen működésképtelenné tette ezt a konstrukciót, mivel a helyreállítása legjobb esetben nem működhet, vagy rosszabb esetben megtörheti azt, ami már működött.

Elkezdtünk dolgozni néhány olyan ötleten, hogy a forgalmat a gerinchálózatot kiszolgáló új routerekre irányítsuk át, de ezek kivitelezhetetlennek tűntek az alaphálózati útvonalak elosztásának sajátosságai miatt.

03.07.2019, 17: 05
Ezzel egyidejűleg a névszervereken a névfeloldási mechanizmusban hibát észleltek, ami hibákhoz vezetett az alkalmazások végpontjainak feloldása során, és elkezdték gyorsan feltölteni a gazdagép fájlokat a kritikus szolgáltatások rekordjaival.

03.07.2019, 17: 27
A Habr korlátozott funkcionalitása helyreállt.

03.07.2019, 17: 43
De végül viszonylag biztonságos megoldást találtak a forgalom megszervezésére az egyik határmenti routeren keresztül, amelyet gyorsan telepítettek. Az internetkapcsolat helyreállt.

A következő percekben rengeteg értesítés érkezett a felügyeleti rendszerektől a felügyeleti ügynökök működőképességének visszaállításáról, de néhány szolgáltatás működésképtelennek bizonyult, mert a névszervereken (dns) megszakadt a névfeloldási mechanizmus.

Habr halotti jelentés: egy újságra esett

03.07.2019, 17: 52
Az NS újraindult, és a gyorsítótár törlődött. A megoldás helyreállt.

03.07.2019, 17: 55
Az MK, a Freelansim és a Toaster kivételével minden szolgáltatás működni kezdett.

03.07.2019, 18: 02
MK és Freelansim elkezdett dolgozni.

03.07.2019, 18: 07
Hozzon vissza egy ártatlan BGP-munkamenetet a DataLine-nal.

03.07.2019, 18: 25
Elkezdték rögzíteni az erőforrásokkal kapcsolatos problémákat, ami a NAT-készlet külső címének megváltozása és számos szolgáltatás acl-jában való hiánya miatt következett be, amit azonnal kijavítottak. A kenyérpirító azonnal működni kezdett.

03.07.2019, 20: 30
A Telegram robotokkal kapcsolatos hibákat észleltünk. Kiderült, hogy elfelejtették bejegyezni a külső címet pár acl-ba (proxy szerverek), amit azonnal kijavítottak.

Habr halotti jelentés: egy újságra esett

Álláspontja

  • Az alkalmasságával kapcsolatban korábban kételyeket keltő berendezés meghibásodott. Tervezték a munkából való megszüntetését, mivel zavarta a hálózat fejlesztését, kompatibilitási problémákkal küzdött, ugyanakkor kritikus funkciót töltött be, ezért a csere a szolgáltatások megszakítása nélkül műszakilag nehézkes volt. Most már továbbléphet.
  • A DNS-probléma elkerülhető, ha közelebb helyezi őket az új gerinchálózathoz a NAT-hálózaton kívül, és továbbra is teljes mértékben csatlakoznak a szürke hálózathoz fordítás nélkül (ez volt a terv az incidens előtt).
  • Ne használjon tartományneveket az RDBMS-fürtök összeállításakor, mivel az IP-cím transzparens megváltoztatásának kényelme nem különösebben szükséges, mivel az ilyen manipulációk továbbra is megkövetelik a fürt újraépítését. Ezt a döntést történelmi okok, és mindenekelőtt a végpontok név szerinti nyilvánvalósága az RDBMS konfigurációkban diktálták. Általában egy klasszikus csapda.
  • Elvileg a „Rúna szuverenizálásához” hasonló gyakorlatokat hajtottak végre, van min gondolkodni az autonóm túlélési képességek megerősítésén.

Forrás: will.com

Hozzászólás