2019. gada vasaras pirmÄ mÄneÅ”a beigas un otrÄ mÄneÅ”a sÄkums izvÄrtÄs grÅ«ts, un to iezÄ«mÄja vairÄki bÅ«tiski kritumi globÄlajos IT pakalpojumos. Starp ievÄrojamÄkajiem: divi nopietni incidenti CloudFlare infrastruktÅ«rÄ (pirmais - ar ŔķībÄm rokÄm un nolaidÄ«gu attieksmi pret BGP no dažu ISP no ASV puses; otrs - ar greizu paÅ”u CF izvietoÅ”anu, kas skÄra visus CF lietotÄjus , un tie ir daudzi ievÄrojami pakalpojumi) un nestabila Facebook CDN infrastruktÅ«ras darbÄ«ba (skÄrusi visus FB produktus, tostarp Instagram un WhatsApp). NÄcÄs arÄ« pieÄ·erties izplatÄ«Å”anai, lai gan mÅ«su pÄrtraukums uz globÄlÄ fona bija daudz mazÄk pamanÄms. KÄds jau ir sÄcis vilkt iekÅ”Ä melnus helikopterus un āsuverÄnasā sazvÄrestÄ«bas, tÄpÄc mÄs publicÄjam mÅ«su incidenta publisku post mortem.
03.07.2019, 16: 05
SÄka reÄ£istrÄt problÄmas ar resursiem, lÄ«dzÄ«gi kÄ iekÅ”ÄjÄ tÄ«kla savienojamÄ«bas bojÄjums. NepÄrbaudot visu, viÅi sÄka vainot ÄrÄjÄ kanÄla veiktspÄju DataLine virzienÄ, jo kļuva skaidrs, ka problÄma ir iekÅ”ÄjÄ tÄ«kla piekļuvÄ internetam (NAT), lÄ«dz pat BGP sesijas novirzÄ«Å”anai uz DataLine.
03.07.2019, 16: 35
Kļuva skaidrs, ka iekÄrta, kas nodroÅ”ina tÄ«kla adreÅ”u tulkoÅ”anu un piekļuvi no vietnes lokÄlÄ tÄ«kla internetam (NAT), ir sabojÄjusies. MÄÄ£inÄjumi pÄrstartÄt iekÄrtu ne pie kÄ nedeva, alternatÄ«vu savienojamÄ«bas organizÄÅ”anas iespÄju meklÄÅ”ana sÄkÄs pirms atbildes saÅemÅ”anas no tehniskÄ atbalsta, jo no pieredzes tas, visticamÄk, nebÅ«tu palÄ«dzÄjis.
ProblÄmu nedaudz saasinÄja tas, ka Ŕī iekÄrta pÄrtrauca arÄ« klientu VPN darbinieku ienÄkoÅ”os savienojumus un attÄlinÄtÄs atkopÅ”anas darbu veikÅ”ana kļuva grÅ«tÄk veicama.
03.07.2019, 16: 40
MÄs mÄÄ£inÄjÄm atdzÄ«vinÄt iepriekÅ” esoÅ”o rezerves NAT shÄmu, kas iepriekÅ” bija labi darbojusies. TaÄu kļuva skaidrs, ka vairÄki tÄ«kla remontdarbi padarÄ«ja Å”o shÄmu gandrÄ«z pilnÄ«bÄ nederÄ«gu, jo tÄs atjaunoÅ”ana labÄkajÄ gadÄ«jumÄ varÄja nedarboties vai, sliktÄkajÄ gadÄ«jumÄ, sabojÄt to, kas jau darbojÄs.
MÄs sÄkÄm strÄdÄt pie pÄris idejÄm, kÄ pÄrsÅ«tÄ«t trafiku uz jaunu marÅ”rutÄtÄju komplektu, kas apkalpo mugurkaulu, taÄu tÄs Ŕķita nerealizÄjamas pamattÄ«kla marÅ”rutu sadalÄ«juma Ä«patnÄ«bu dÄļ.
03.07.2019, 17: 05
TajÄ paÅ”Ä laikÄ nosaukumu serveru nosaukumu atrisinÄÅ”anas mehÄnismÄ tika konstatÄta problÄma, kas izraisÄ«ja kļūdas lietojumprogrammu galapunktu atrisinÄÅ”anÄ, un tie sÄka Ätri aizpildÄ«t saimniekdatoru failus ar kritisko pakalpojumu ierakstiem.
03.07.2019, 17: 27
Habra ierobežotÄ funkcionalitÄte ir atjaunota.
03.07.2019, 17: 43
TaÄu galu galÄ tika atrasts samÄrÄ droÅ”s risinÄjums satiksmes organizÄÅ”anai caur vienu no robežmarÅ”rutÄtÄjiem, kas tika Ätri uzstÄdÄ«ts. Interneta savienojums ir atjaunots.
NÄkamo minÅ«Å”u laikÄ no uzraudzÄ«bas sistÄmÄm tika saÅemti daudz paziÅojumu par monitoringa aÄ£entu funkcionalitÄtes atjaunoÅ”anu, taÄu daži pakalpojumi izrÄdÄ«jÄs nedarbojami, jo vÄrdu serveros (dns) bija bojÄts nosaukumu atrisinÄÅ”anas mehÄnisms.
03.07.2019, 17: 52
NS tika restartÄts un keÅ”atmiÅa tika notÄ«rÄ«ta. AtrisinÄÅ”ana ir atjaunota.
03.07.2019, 17: 55
Visi pakalpojumi sÄka darboties, izÅemot MK, Freelansim un Toaster.
03.07.2019, 18: 02
MK un Freelansim sÄka strÄdÄt.
03.07.2019, 18: 07
Atgrieziet nevainīgu BGP sesiju ar DataLine.
03.07.2019, 18: 25
ViÅi sÄka reÄ£istrÄt problÄmas ar resursiem, kas bija saistÄ«tas ar NAT pÅ«la ÄrÄjÄs adreses maiÅu un tÄs neesamÄ«bu vairÄku pakalpojumu ACL, kas tika nekavÄjoties novÄrstas. Tosteris sÄka darboties uzreiz.
03.07.2019, 20: 30
MÄs pamanÄ«jÄm kļūdas saistÄ«bÄ ar Telegram robotprogrammatÅ«ru. IzrÄdÄ«jÄs, ka pÄris acl (proxy serveros) aizmirsa reÄ£istrÄt ÄrÄjo adresi, kas tika operatÄ«vi izlabots.
Atzinumi
- IekÄrta, kas iepriekÅ” bija sÄjusi Å”aubas par tÄs piemÄrotÄ«bu, pievÄ«la. Bija plÄnots to likvidÄt no darba, jo tas traucÄja tÄ«kla attÄ«stÄ«bai un radÄ«ja saderÄ«bas problÄmas, bet tajÄ paÅ”Ä laikÄ pildÄ«ja kritisku funkciju, tÄpÄc jebkura nomaiÅa bija tehniski sarežģīta, nepÄrtraucot pakalpojumus. Tagad jÅ«s varat doties tÄlÄk.
- No DNS problÄmas var izvairÄ«ties, pÄrvietojot tos tuvÄk jaunajam mugurkaula tÄ«klam Ärpus NAT tÄ«kla un joprojÄm nodroÅ”inot pilnÄ«gu savienojumu ar pelÄko tÄ«klu bez tulkoÅ”anas (kas bija plÄns pirms incidenta).
- RDBMS klasteru komplektÄÅ”anas laikÄ nevajadzÄtu izmantot domÄna nosaukumus, jo IP adreses pÄrskatÄmas maiÅas ÄrtÄ«ba nav Ä«paÅ”i nepiecieÅ”ama, jo Å”ÄdÄm manipulÄcijÄm joprojÄm ir jÄpÄrveido klasteris. Å o lÄmumu noteica vÄsturiski iemesli un, pirmkÄrt, galapunktu acÄ«mredzamÄ«ba pÄc nosaukuma RDBMS konfigurÄcijÄs. VispÄr klasisks lamatas.
- PrincipÄ ir veikti vingrinÄjumi, kas salÄ«dzinÄmi ar āRÅ«nas suverenizÄcijuā, ir par ko padomÄt par autonomÄs izdzÄ«voÅ”anas spÄju stiprinÄÅ”anu.
Avots: www.habr.com