Habr pēcnāves ziņojums: tas uzkrita uz avīzes

2019. gada vasaras pirmā mēneÅ”a beigas un otrā mēneÅ”a sākums izvērtās grÅ«ts, un to iezÄ«mēja vairāki bÅ«tiski kritumi globālajos IT pakalpojumos. Starp ievērojamākajiem: divi nopietni incidenti CloudFlare infrastruktÅ«rā (pirmais - ar Ŕķībām rokām un nolaidÄ«gu attieksmi pret BGP no dažu ISP no ASV puses; otrs - ar greizu paÅ”u CF izvietoÅ”anu, kas skāra visus CF lietotājus , un tie ir daudzi ievērojami pakalpojumi) un nestabila Facebook CDN infrastruktÅ«ras darbÄ«ba (skārusi visus FB produktus, tostarp Instagram un WhatsApp). Nācās arÄ« pieÄ·erties izplatÄ«Å”anai, lai gan mÅ«su pārtraukums uz globālā fona bija daudz mazāk pamanāms. Kāds jau ir sācis vilkt iekŔā melnus helikopterus un ā€œsuverēnasā€ sazvērestÄ«bas, tāpēc mēs publicējam mÅ«su incidenta publisku post mortem.

Habr pēcnāves ziņojums: tas uzkrita uz avīzes

03.07.2019, 16: 05
Sāka reÄ£istrēt problēmas ar resursiem, lÄ«dzÄ«gi kā iekŔējā tÄ«kla savienojamÄ«bas bojājums. Nepārbaudot visu, viņi sāka vainot ārējā kanāla veiktspēju DataLine virzienā, jo kļuva skaidrs, ka problēma ir iekŔējā tÄ«kla piekļuvē internetam (NAT), lÄ«dz pat BGP sesijas novirzÄ«Å”anai uz DataLine.

03.07.2019, 16: 35
Kļuva skaidrs, ka iekārta, kas nodroÅ”ina tÄ«kla adreÅ”u tulkoÅ”anu un piekļuvi no vietnes lokālā tÄ«kla internetam (NAT), ir sabojājusies. Mēģinājumi pārstartēt iekārtu ne pie kā nedeva, alternatÄ«vu savienojamÄ«bas organizÄ“Å”anas iespēju meklÄ“Å”ana sākās pirms atbildes saņemÅ”anas no tehniskā atbalsta, jo no pieredzes tas, visticamāk, nebÅ«tu palÄ«dzējis.

Problēmu nedaudz saasināja tas, ka Ŕī iekārta pārtrauca arÄ« klientu VPN darbinieku ienākoÅ”os savienojumus un attālinātās atkopÅ”anas darbu veikÅ”ana kļuva grÅ«tāk veicama.

03.07.2019, 16: 40
Mēs mēģinājām atdzÄ«vināt iepriekÅ” esoÅ”o rezerves NAT shēmu, kas iepriekÅ” bija labi darbojusies. Taču kļuva skaidrs, ka vairāki tÄ«kla remontdarbi padarÄ«ja Å”o shēmu gandrÄ«z pilnÄ«bā nederÄ«gu, jo tās atjaunoÅ”ana labākajā gadÄ«jumā varēja nedarboties vai, sliktākajā gadÄ«jumā, sabojāt to, kas jau darbojās.

Mēs sākām strādāt pie pāris idejām, kā pārsÅ«tÄ«t trafiku uz jaunu marÅ”rutētāju komplektu, kas apkalpo mugurkaulu, taču tās Ŕķita nerealizējamas pamattÄ«kla marÅ”rutu sadalÄ«juma Ä«patnÄ«bu dēļ.

03.07.2019, 17: 05
Tajā paŔā laikā nosaukumu serveru nosaukumu atrisināŔanas mehānismā tika konstatēta problēma, kas izraisÄ«ja kļūdas lietojumprogrammu galapunktu atrisināŔanā, un tie sāka ātri aizpildÄ«t saimniekdatoru failus ar kritisko pakalpojumu ierakstiem.

03.07.2019, 17: 27
Habra ierobežotā funkcionalitāte ir atjaunota.

03.07.2019, 17: 43
Taču galu galā tika atrasts samērā droÅ”s risinājums satiksmes organizÄ“Å”anai caur vienu no robežmarÅ”rutētājiem, kas tika ātri uzstādÄ«ts. Interneta savienojums ir atjaunots.

Nākamo minÅ«Å”u laikā no uzraudzÄ«bas sistēmām tika saņemti daudz paziņojumu par monitoringa aÄ£entu funkcionalitātes atjaunoÅ”anu, taču daži pakalpojumi izrādÄ«jās nedarbojami, jo vārdu serveros (dns) bija bojāts nosaukumu atrisināŔanas mehānisms.

Habr pēcnāves ziņojums: tas uzkrita uz avīzes

03.07.2019, 17: 52
NS tika restartēts un keÅ”atmiņa tika notÄ«rÄ«ta. AtrisināŔana ir atjaunota.

03.07.2019, 17: 55
Visi pakalpojumi sāka darboties, izņemot MK, Freelansim un Toaster.

03.07.2019, 18: 02
MK un Freelansim sāka strādāt.

03.07.2019, 18: 07
Atgrieziet nevainīgu BGP sesiju ar DataLine.

03.07.2019, 18: 25
Viņi sāka reģistrēt problēmas ar resursiem, kas bija saistītas ar NAT pūla ārējās adreses maiņu un tās neesamību vairāku pakalpojumu ACL, kas tika nekavējoties novērstas. Tosteris sāka darboties uzreiz.

03.07.2019, 20: 30
Mēs pamanījām kļūdas saistībā ar Telegram robotprogrammatūru. Izrādījās, ka pāris acl (proxy serveros) aizmirsa reģistrēt ārējo adresi, kas tika operatīvi izlabots.

Habr pēcnāves ziņojums: tas uzkrita uz avīzes

Atzinumi

  • Iekārta, kas iepriekÅ” bija sējusi Å”aubas par tās piemērotÄ«bu, pievÄ«la. Bija plānots to likvidēt no darba, jo tas traucēja tÄ«kla attÄ«stÄ«bai un radÄ«ja saderÄ«bas problēmas, bet tajā paŔā laikā pildÄ«ja kritisku funkciju, tāpēc jebkura nomaiņa bija tehniski sarežģīta, nepārtraucot pakalpojumus. Tagad jÅ«s varat doties tālāk.
  • No DNS problēmas var izvairÄ«ties, pārvietojot tos tuvāk jaunajam mugurkaula tÄ«klam ārpus NAT tÄ«kla un joprojām nodroÅ”inot pilnÄ«gu savienojumu ar pelēko tÄ«klu bez tulkoÅ”anas (kas bija plāns pirms incidenta).
  • RDBMS klasteru komplektÄ“Å”anas laikā nevajadzētu izmantot domēna nosaukumus, jo IP adreses pārskatāmas maiņas ērtÄ«ba nav Ä«paÅ”i nepiecieÅ”ama, jo Ŕādām manipulācijām joprojām ir jāpārveido klasteris. Å o lēmumu noteica vēsturiski iemesli un, pirmkārt, galapunktu acÄ«mredzamÄ«ba pēc nosaukuma RDBMS konfigurācijās. Vispār klasisks lamatas.
  • Principā ir veikti vingrinājumi, kas salÄ«dzināmi ar ā€œRÅ«nas suverenizācijuā€, ir par ko padomāt par autonomās izdzÄ«voÅ”anas spēju stiprināŔanu.

Avots: www.habr.com

Pievieno komentāru