Habri surmajärgne teade: kukkus ajalehele

2019. aasta suve esimese kuu lõpp ja teise kuu algus kujunes keeruliseks ning seda iseloomustasid mitmed suured langused globaalsetes IT-teenustes. Märkimisväärsete hulgas: kaks tõsist intsidenti CloudFlare'i infrastruktuuris (esimene - kõverate kätega ja mõne USA Interneti-teenuse pakkuja hooletu suhtumisega BGP-sse; teine ​​- CF-i enda kõvera kasutuselevõtuga, mis mõjutas kõiki CF-i kasutajaid , ja need on paljud märkimisväärsed teenused) ja Facebooki CDN-i infrastruktuuri ebastabiilne töö (mõjutab kõiki FB tooteid, sealhulgas Instagrami ja WhatsAppi). Pidime ka levitamisega vahele jääma, kuigi meie katkestus oli globaalsel taustal palju vähem märgatav. Keegi on juba hakanud musti helikoptereid sisse vedama ja "suveräänseid" vandenõusid, nii et avaldame meie juhtumi avaliku post mortem.

Habri surmajärgne teade: kukkus ajalehele

03.07.2019, 16: 05
Sarnaselt sisemise võrguühenduse rikkega hakati registreerima probleeme ressurssidega. Kuna nad polnud kõike täielikult kontrollinud, hakkasid nad välise kanali jõudlust DataLine'i suunas süüdistama, kuna selgus, et probleem oli sisevõrgu Interneti-juurdepääsus (NAT), kuni BGP-seansi viimiseni DataLine'i poole.

03.07.2019, 16: 35
Selgus, et võrguaadressi tõlkimist ja saidi kohtvõrgust Internetti (NAT) pakkuvad seadmed olid üles öelnud. Seadmete taaskäivitamise katsed ei toonud kaasa midagi, ühenduvuse korraldamiseks alustati alternatiivsete võimaluste otsimist enne tehniliselt toelt vastuse saamist, kuna kogemuse põhjal poleks see tõenäoliselt aidanud.

Mõnevõrra süvendas probleemi asjaolu, et see seade katkestas ka VPN-kliendi töötajate sissetulevad ühendused ning kaugtaastetööd muutusid keerulisemaks.

03.07.2019, 16: 40
Püüdsime taaselustada varem eksisteerinud varu-NAT-skeemi, mis oli varem hästi toiminud. Kuid sai selgeks, et mitmed võrguuuendused muutsid selle skeemi peaaegu täielikult töövõimetuks, kuna selle taastamine ei pruugi parimal juhul töötada või halvemal juhul juba töötava rikkuda.

Hakkasime töötama paari idee kallal liikluse ülekandmiseks uutele magistraalliini teenindavatele ruuteritele, kuid need tundusid põhivõrgu marsruutide jaotuse iseärasuste tõttu teostamatud.

03.07.2019, 17: 05
Samal ajal tuvastati nimeserverite nimelahendusmehhanismi probleem, mis viis rakenduste lõpp-punktide lahendamisel vigadeni ja nad hakkasid kiiresti täitma hostifaile kriitiliste teenuste kirjetega.

03.07.2019, 17: 27
Habri piiratud funktsionaalsus on taastatud.

03.07.2019, 17: 43
Kuid lõpuks leiti suhteliselt turvaline lahendus liikluse korraldamiseks ühe piirimarsruuteri kaudu, mis sai kiiresti paigaldatud. Interneti-ühendus on taastatud.

Järgmiste minutite jooksul tuli seiresüsteemidelt palju teateid jälgimisagentide funktsionaalsuse taastamisest, kuid osa teenuseid osutus töövõimetuks, kuna nimeserverites (dns) oli nimelahendusmehhanism katki.

Habri surmajärgne teade: kukkus ajalehele

03.07.2019, 17: 52
NS taaskäivitati ja vahemälu tühjendati. Lahendus on taastatud.

03.07.2019, 17: 55
Kõik teenused hakkasid tööle peale MK, Freelansim ja Toaster.

03.07.2019, 18: 02
Tööd alustasid MK ja Freelansim.

03.07.2019, 18: 07
Tooge DataLine'iga tagasi süütu BGP-seanss.

03.07.2019, 18: 25
Nad hakkasid salvestama probleeme ressurssidega, mis oli tingitud NAT-i basseini välisaadressi muutumisest ja selle puudumisest mitmete teenuste acl-is, mis viivitamata parandati. Röster hakkas kohe tööle.

03.07.2019, 20: 30
Märkasime Telegrami robotitega seotud vigu. Selgus, et nad unustasid paaris acl-is (puhverserverites) välisaadressi registreerida, mis kohe parandati.

Habri surmajärgne teade: kukkus ajalehele

Järeldused

  • Varem kahtlusi selle sobivuse suhtes külvanud seadmed ebaõnnestusid. Plaanis oli see töölt kõrvaldada, kuna see segas võrgu arengut ja oli ühilduvusprobleemidega, kuid täitis samal ajal kriitilist funktsiooni, mistõttu oli iga asendamine ilma teenuseid katkestamata tehniliselt keeruline. Nüüd saate edasi liikuda.
  • DNS-i probleemi saab vältida, kui viite need NAT-võrgust väljapoole uuele magistraalvõrgule lähemale ja neil on endiselt täielik ühenduvus halli võrguga ilma tõlketa (mis oli plaan enne juhtumit).
  • RDBMS-i klastrite kokkupanemisel ei tohiks kasutada domeeninimesid, kuna IP-aadressi läbipaistva muutmise mugavus pole eriti vajalik, kuna sellised manipulatsioonid nõuavad siiski klastri uuesti ülesehitamist. Selle otsuse tingisid ajaloolised põhjused ja ennekõike lõpp-punktide ilmselgus nime järgi RDBMS-i konfiguratsioonides. Üldiselt klassikaline lõks.
  • Põhimõtteliselt on läbi viidud harjutusi, mis on võrreldavad "Ruuni suveräänistamisega", autonoomse ellujäämise võimekuse tugevdamise osas on, mille üle mõelda.

Allikas: www.habr.com

Lisa kommentaar