Habr nadoodse verslag: het op 'n koerant geval

Die einde van die eerste en begin van die tweede maand van die somer 2019 was moeilik en is gekenmerk deur verskeie groot dalings in globale IT-dienste. Onder die noemenswaardige: twee ernstige voorvalle in die CloudFlare-infrastruktuur (die eerste - met krom hande en nalatige houding teenoor BGP aan die kant van sommige ISP's van die VSA; die tweede - met 'n skewe ontplooiing van CF self, wat almal geraak het wat CF gebruik het , en dit is baie noemenswaardige dienste) en onstabiele werking van die Facebook CDN-infrastruktuur (het alle FB-produkte beïnvloed, insluitend Instagram en WhatsApp). Ons moes ook onder die verspreiding val, hoewel ons onderbreking baie minder opvallend was teen die globale agtergrond. Iemand het reeds begin om swart helikopters en "soewereine" sameswerings in te sleep, so ons stel 'n openbare nadoodse ondersoek van ons voorval vry.

Habr nadoodse verslag: het op 'n koerant geval

03.07.2019, 16: 05
Probleme met hulpbronne het begin aangeteken word, soortgelyk aan 'n onderbreking in interne netwerkverbinding. Nadat hulle nie alles volledig nagegaan het nie, het hulle begin om foute te maak met die werkverrigting van die eksterne kanaal teenoor DataLine, aangesien dit duidelik geword het dat die probleem met die interne netwerk se toegang tot die internet (NAT) was, tot die punt dat die BGP-sessie t.o.v. DataLyn.

03.07.2019, 16: 35
Dit het duidelik geword dat die toerusting wat netwerkadresvertaling en toegang vanaf die webwerf se plaaslike netwerk na die internet (NAT) verskaf, misluk het. Pogings om die toerusting te herlaai het nie tot iets gelei nie, die soektog na alternatiewe opsies vir die organisering van konneksie het begin voordat 'n reaksie van tegniese ondersteuning ontvang is, aangesien dit uit ervaring heel waarskynlik nie sou gehelp het nie.

Die probleem is ietwat vererger deur die feit dat hierdie toerusting ook inkomende verbindings van kliënte VPN-werknemers beëindig het, en afstandherwinningswerk het moeiliker geword om uit te voer.

03.07.2019, 16: 40
Ons het probeer om 'n voorheen bestaande rugsteun-NAT-skema wat voorheen goed gewerk het, te laat herleef. Maar dit het duidelik geword dat 'n aantal netwerkopknappings hierdie skema byna heeltemal onwerksaam gemaak het, aangesien die herstel daarvan op sy beste nie kan werk nie, of, in die ergste geval, kan breek wat reeds werk.

Ons het begin werk aan 'n paar idees om verkeer oor te dra na 'n stel nuwe roeteerders wat die ruggraat bedien, maar dit het onwerkbaar gelyk as gevolg van die eienaardighede van die verspreiding van roetes in die kernnetwerk.

03.07.2019, 17: 05
Terselfdertyd is 'n probleem in die naamresolusiemeganisme op naambedieners geïdentifiseer, wat gelei het tot foute in die oplossing van eindpunte in toepassings, en hulle het vinnig gasheerlêers begin vul met rekords van kritieke dienste.

03.07.2019, 17: 27
Habr se beperkte funksionaliteit is herstel.

03.07.2019, 17: 43
Maar op die ou end is 'n relatief veilige oplossing gevind om verkeer deur een van die grensrouters te organiseer, wat vinnig geïnstalleer is. Internetverbinding is herstel.

Oor die volgende paar minute het baie kennisgewings vanaf die moniteringstelsels gekom oor die herstel van die moniteringsagente se funksionaliteit, maar sommige van die dienste het geblyk onwerksaam te wees omdat die naamresolusiemeganisme op die naambedieners (dns) gebreek was.

Habr nadoodse verslag: het op 'n koerant geval

03.07.2019, 17: 52
NS is herbegin en die kas is skoongemaak. Oplossing is herstel.

03.07.2019, 17: 55
Alle dienste het begin werk behalwe MK, Freelansim en Toaster.

03.07.2019, 18: 02
MK en Freelansim het begin werk.

03.07.2019, 18: 07
Het 'n onskuldige BGP-sessie met DataLine teruggekeer.

03.07.2019, 18: 25
Hulle het probleme met hulpbronne begin aanteken, wat te wyte was aan 'n verandering in die eksterne adres van die NAT-poel en die afwesigheid daarvan in die acl van 'n aantal dienste, wat dadelik reggestel is. Die Toaster het dadelik begin werk.

03.07.2019, 20: 30
Ons het foute opgemerk wat verband hou met Telegram-bots. Dit het geblyk dat hulle vergeet het om die eksterne adres in 'n paar acl (instaanbedieners) te registreer, wat dadelik reggestel is.

Habr nadoodse verslag: het op 'n koerant geval

Bevindinge

  • Die toerusting, wat voorheen twyfel oor die geskiktheid daarvan gesaai het, het misluk. Daar was planne om dit uit die werk te skakel, aangesien dit inmeng met die ontwikkeling van die netwerk en versoenbaarheidsprobleme gehad het, maar terselfdertyd het dit 'n kritieke funksie uitgevoer, en daarom was enige vervanging tegnies moeilik sonder om dienste te onderbreek. Nou kan jy aanbeweeg.
  • Die DNS-kwessie kan vermy word deur hulle nader aan die nuwe ruggraatnetwerk buite die NAT-netwerk te skuif en steeds met volle konnektiwiteit aan die grys netwerk sonder vertaling (wat die plan voor die voorval was).
  • U moet nie domeinname gebruik wanneer u RDBMS-klusters saamstel nie, aangesien die gerief om die IP-adres deursigtig te verander nie besonder nodig is nie, aangesien sulke manipulasies steeds die herbou van die groep vereis. Hierdie besluit is gedikteer deur historiese redes en eerstens deur die duidelikheid van eindpunte by naam in RDBMS-konfigurasies. Oor die algemeen 'n klassieke lokval.
  • In beginsel is oefeninge wat vergelykbaar is met die "soewereinisering van die Runet" uitgevoer, daar is iets om oor na te dink in terme van die versterking van die vermoëns van outonome oorlewing.

Bron: will.com

Voeg 'n opmerking