Habr Postmortem Bericht: et ass op eng Zeitung gefall

D'Enn vum éischten an Ufank vum zweete Mount vum Summer 2019 huet sech schwiereg erausgestallt a war duerch e puer gréisser Réckgang an de globalen IT Servicer markéiert. Ënnert den Notabelen: zwee sérieux Tëschefäll an der CloudFlare Infrastruktur (déi éischt - mat kromme Hänn a vernoléissegt Haltung vis-à-vis vun BGP vun e puer ISPs aus den USA; déi zweet - mat engem kromme Deployment vun CF selwer, déi jiddereen betraff huet, deen CF benotzt. , an dëst si vill Notabele Servicer) an onbestänneg Operatioun vun der Facebook CDN Infrastruktur (betraff all FB Produkter, dorënner Instagram a WhatsApp). Mir hu missen och an der Verdeelung agefaangen ginn, obwuel eisen Ausfall géint de globalen Hannergrond vill manner opfälleg war. Eppes huet scho ugefaang schwaarz Helikopteren a "souverän" Verschwörungen ze zéien, sou datt mir en ëffentleche Post Mortem vun eisem Tëschefall erausginn.

Habr Postmortem Bericht: et ass op eng Zeitung gefall

03.07.2019, 16: 05
Problemer mat Ressourcen ugefaang opgeholl ze ginn, ähnlech zu engem Decompte an intern Reseau Konnektivitéit. Nodeems se net alles komplett iwwerpréift hunn, hunn se ugefaang d'Performance vum externe Kanal op DataLine ze schueden, well et kloer gouf datt de Problem mam Internetzougang vum internen Netzwierk (NAT) war, bis zum Punkt fir d'BGP Sessioun op DataLine ze setzen.

03.07.2019, 16: 35
Et gouf offensichtlech datt d'Ausrüstung déi Netzwierkadress Iwwersetzung an Zougang vum lokalen Netzwierk vum Site zum Internet (NAT) ubitt, gescheitert ass. D'Versuche fir d'Ausrüstung nei ze starten hunn näischt gefouert, d'Sich no alternativen Optiounen fir d'Konnektivitéit ze organiséieren huet ugefaang ier Dir eng Äntwert vun der technescher Ënnerstëtzung kritt, well aus Erfahrung, dëst wahrscheinlech net gehollef hätt.

De Problem gouf e bësse verschäerft duerch d'Tatsaach datt dës Ausrüstung och opkommend Verbindunge vu Client VPN Mataarbechter ofgeschloss huet, an d'Remote Recovery Aarbecht gouf méi schwéier auszeféieren.

03.07.2019, 16: 40
Mir hu probéiert e virdru existente Backup NAT Schema z'erliewen, dee virdru gutt geschafft huet. Mä et gouf kloer, datt eng Rei vun Reseau Renovatiounsaarbechten dësem Schema bal komplett inoperative gemaach, well seng Restauratioun am beschten net schaffen kann, oder, am schlëmmste, briechen, wat scho geschafft huet.

Mir hunn ugefaang un e puer Iddien ze schaffen fir den Traffic op eng Rei vun neie Router ze transferéieren, déi de Backbone servéieren, awer si schéngen net ze schaffen wéinst de Besonneschheeten vun der Verdeelung vu Strecken am Kärnetz.

03.07.2019, 17: 05
Zur selwechter Zäit gouf e Problem am Nummresolutiounsmechanismus op Nummserver identifizéiert, wat zu Feeler bei der Léisung vun Endpunkten an Uwendungen gefouert huet, a si hunn ugefaang séier Hostdateien mat Rekorder vu kriteschen Servicer ze fëllen.

03.07.2019, 17: 27
Dem Habr seng limitéiert Funktionalitéit gouf restauréiert.

03.07.2019, 17: 43
Mä um Enn gouf eng relativ sécher Léisung fonnt fir de Verkéier duerch ee vun de Grenzrouter ze organiséieren, dee séier installéiert gouf. Internetverbindung gouf restauréiert.

An den nächste puer Minutten koumen vill Notifikatiounen aus den Iwwerwaachungssystemer iwwer d'Restauratioun vun der Funktionalitéit vun den Iwwerwaachungsagenten, awer e puer vun de Servicer hu sech als inoperabel erausgestallt, well den Nummresolutiounsmechanismus op den Nummserver (dns) gebrach ass.

Habr Postmortem Bericht: et ass op eng Zeitung gefall

03.07.2019, 17: 52
NS gouf nei gestart an de Cache gouf geläscht. D'Léisung gouf restauréiert.

03.07.2019, 17: 55
All Servicer ugefaang ze schaffen ausser MK, Freelansim an Toaster.

03.07.2019, 18: 02
MK an Freelansim ugefaang ze schaffen.

03.07.2019, 18: 07
Bréngt eng onschëlleg BGP Sessioun mat DataLine zréck.

03.07.2019, 18: 25
Si hunn ugefaang Problemer mat Ressourcen opzehuelen, wat wéinst enger Ännerung vun der externer Adress vum NAT-Pool a senger Verontreiung am Acl vun enger Rei vu Servicer war, déi prompt korrigéiert gouf. Den Toaster huet direkt ugefaang ze schaffen.

03.07.2019, 20: 30
Mir bemierken Feeler am Zesummenhang mat Telegram Bots. Et huet sech erausgestallt datt si vergiess hunn d'extern Adress an e puer acl (Proxy-Server) anzeschreiwen, déi prompt korrigéiert gouf.

Habr Postmortem Bericht: et ass op eng Zeitung gefall

Conclusiounen

  • D'Ausrüstung, déi virdru Zweifel iwwer seng Gëeegentheet gesaat hat, huet gescheitert. Et waren Pläng et aus der Aarbecht ze eliminéieren, well et d'Entwécklung vum Netz gestéiert huet an d'Kompatibilitéitsproblemer hat, awer gläichzäiteg huet et eng kritesch Funktioun gemaach, dofir war all Ersatz technesch schwéier ouni Ënnerbriechung vu Servicer. Elo kënnt Dir weidergoen.
  • D'DNS-Thema kann vermeit ginn andeems se se méi no un dat neit Backbone-Netz ausserhalb vum NAT-Netz plënneren an ëmmer nach voll Konnektivitéit zum groe Netz ouni Iwwersetzung hunn (wat de Plang virum Tëschefall war).
  • Dir sollt keng Domain Nimm benotzen wann Dir RDBMS Cluster montéiert, well d'Bequemlechkeet fir d'IP Adress transparent z'änneren ass net besonnesch néideg, well sou Manipulatiounen nach ëmmer d'Rekonstruktioun vum Cluster erfuerderen. Dës Entscheedung gouf diktéiert duerch historesch Grënn an, éischtens, duerch d'Selbstverständlechkeet vun Endpunkte mam Numm an RDBMS Konfiguratiounen. Am Allgemengen, eng klassesch Fal.
  • Prinzipiell sinn Übungen, déi mat der "Sovereignization of the Runet" vergläichbar sinn, gemaach ginn; et gëtt eppes ze denken wat d'Kapazitéite vum autonomen Iwwerliewe verstäerken.

Source: will.com

Setzt e Commentaire