Habr obdukcija: palo je na novine

Kraj prvog i početak drugog mjeseca ljeta 2019. pokazali su se teškim i obilježili su ga nekoliko velikih padova globalnih IT usluga. Među značajnim: dva ozbiljna incidenta u CloudFlare infrastrukturi (prvi - s krivim rukama i nemarnim odnosom prema BGP-u od strane nekih ISP-ova iz SAD-a; drugi - s krivom implementacijom samog CF-a, što je utjecalo na sve koji koriste CF , a to su mnoge značajne usluge) i nestabilan rad Facebook CDN infrastrukture (utjecao na sve FB proizvode, uključujući Instagram i WhatsApp). Morali smo se uhvatiti i distribucije, iako je naš ispad bio mnogo manje vidljiv u odnosu na globalnu pozadinu. Netko je već počeo uvlačiti crne helikoptere i “suverene” urote, pa objavljujemo javni post mortem našeg incidenta.

Habr obdukcija: palo je na novine

03.07.2019, 16: 05
Počeli su se bilježiti problemi s resursima, slični prekidu interne mrežne povezanosti. Budući da nisu u potpunosti provjerili sve, počeli su kriviti performanse vanjskog kanala prema DataLineu, jer je postalo jasno da je problem bio u pristupu interne mreže internetu (NAT), do točke stavljanja BGP sesije prema DataLineu.

03.07.2019, 16: 35
Postalo je očito da je oprema koja je osiguravala prijevod mrežne adrese i pristup Internetu (NAT) s lokalne mreže stranice zakazala. Pokušaji ponovnog pokretanja opreme nisu doveli do ničega, potraga za alternativnim opcijama za organiziranje povezivanja započela je prije nego što je primljen odgovor od tehničke podrške, jer iz iskustva to najvjerojatnije ne bi pomoglo.

Problem je donekle pogoršan činjenicom da je ova oprema također prekidala dolazne veze klijentskih VPN zaposlenika, a posao oporavka na daljinu postalo je teže izvoditi.

03.07.2019, 16: 40
Pokušali smo oživjeti prethodno postojeću pričuvnu NAT shemu koja je prije dobro funkcionirala. Ali postalo je jasno da su brojne obnove mreže učinile ovu shemu gotovo potpuno neoperativnom, budući da bi njena obnova mogla, u najboljem slučaju, ne funkcionirati, ili, u najgorem slučaju, pokvariti ono što je već funkcioniralo.

Počeli smo raditi na nekoliko ideja za prijenos prometa na skup novih usmjerivača koji služe okosnici, ali su se činile neprovedivim zbog osobitosti distribucije ruta u jezgrenoj mreži.

03.07.2019, 17: 05
Istodobno, identificiran je problem u mehanizmu razlučivanja imena na poslužiteljima imena, što je dovelo do grešaka u razrješenju krajnjih točaka u aplikacijama, te su počele ubrzano puniti host datoteke zapisima kritičnih usluga.

03.07.2019, 17: 27
Ograničena funkcionalnost Habra je vraćena.

03.07.2019, 17: 43
No, na kraju je pronađeno relativno sigurno rješenje za organiziranje prometa preko jednog od graničnih rutera, koje je brzo instalirano. Internetska veza je uspostavljena.

Tijekom sljedećih nekoliko minuta iz sustava za nadzor stiglo je mnogo obavijesti o ponovnom uspostavljanju funkcionalnosti agenata za nadzor, no pokazalo se da neki servisi nisu radili jer je mehanizam razlučivanja imena na poslužiteljima imena (dns) bio pokvaren.

Habr obdukcija: palo je na novine

03.07.2019, 17: 52
NS je ponovno pokrenut i predmemorija je izbrisana. Razrješavanje je obnovljeno.

03.07.2019, 17: 55
Proradili su svi servisi osim MK, Freelansima i Tostera.

03.07.2019, 18: 02
MK i Freelansim su počeli s radom.

03.07.2019, 18: 07
Vratite nedužnu BGP sesiju s DataLineom.

03.07.2019, 18: 25
Počeli su bilježiti probleme s resursima, koji su bili posljedica promjene vanjske adrese NAT pool-a i njenog odsustva u acl-u niza usluga, što je odmah ispravljeno. Toster je odmah počeo raditi.

03.07.2019, 20: 30
Primijetili smo greške vezane uz Telegram botove. Ispostavilo se da su zaboravili registrirati vanjsku adresu u par acl (proxy servera), što je odmah ispravljeno.

Habr obdukcija: palo je na novine

Zaključci

  • Oprema, koja je prije sijala sumnje u svoju prikladnost, zakazala je. Bilo je planova eliminirati ga iz rada, jer je smetao razvoju mreže i imao problema s kompatibilnošću, ali je istovremeno obavljao kritičnu funkciju, zbog čega je svaka zamjena bila tehnički teška bez prekida servisa. Sada možete krenuti dalje.
  • Problem s DNS-om može se izbjeći premještanjem bliže novoj okosnici mreže izvan NAT mreže i još uvijek imaju potpunu povezanost sa sivom mrežom bez prijevoda (što je bio plan prije incidenta).
  • Ne biste trebali koristiti nazive domena prilikom sastavljanja RDBMS klastera, budući da pogodnost transparentne promjene IP adrese nije posebno potrebna, budući da takve manipulacije još uvijek zahtijevaju ponovnu izgradnju klastera. Ova odluka diktirana je povijesnim razlozima i, prije svega, očiglednošću krajnjih točaka po imenu u RDBMS konfiguracijama. Općenito, klasična zamka.
  • U principu, provedene su vježbe usporedive s "suverenizacijom Runeta", ima se o čemu razmišljati u smislu jačanja sposobnosti autonomnog preživljavanja.

Izvor: www.habr.com

Dodajte komentar