Raport pas vdekjes Habr: ra në një gazetë

Fundi i muajit të parë dhe fillimi i muajit të dytë të verës 2019 rezultoi i vështirë dhe u shënua nga disa rënie të mëdha në shërbimet globale të IT. Ndër më të dukshmet: dy incidente serioze në infrastrukturën CloudFlare (i pari - me duar të shtrembër dhe qëndrim neglizhent ndaj BGP nga ana e disa ISP-ve nga SHBA; e dyta - me një vendosje të gabuar të vetë CF, e cila preku të gjithë që përdorin CF , dhe këto janë shumë shërbime të dukshme) dhe funksionimi i paqëndrueshëm i infrastrukturës CDN të Facebook (preku të gjitha produktet e FB, përfshirë Instagram dhe WhatsApp). Ne gjithashtu duhej të kapnim shpërndarjen, megjithëse ndërprerja jonë ishte shumë më pak e dukshme në sfondin global. Dikush tashmë ka filluar të tërheqë zvarrë helikopterët e zinj dhe komplotet "sovrane", ndaj ne po nxjerrim një post mortem publik të incidentit tonë.

Raport pas vdekjes Habr: ra në një gazetë

03.07.2019, 16: 05
Filluan të regjistroheshin problemet me burimet, të ngjashme me një prishje në lidhjen e brendshme të rrjetit. Duke mos kontrolluar plotësisht gjithçka, ata filluan të fajësojnë performancën e kanalit të jashtëm drejt DataLine, pasi u bë e qartë se problemi ishte me aksesin e rrjetit të brendshëm në internet (NAT), deri në vendosjen e seancës BGP drejt DataLine.

03.07.2019, 16: 35
U bë e qartë se pajisjet që ofrojnë përkthimin e adresave të rrjetit dhe aksesin nga rrjeti lokal i faqes në internet (NAT) kishin dështuar. Përpjekjet për të rindezur pajisjet nuk çuan në asgjë, kërkimi i opsioneve alternative për organizimin e lidhjes filloi përpara se të merrte një përgjigje nga mbështetja teknike, pasi nga përvoja, kjo me shumë mundësi nuk do të kishte ndihmuar.

Problemi u rëndua disi nga fakti se kjo pajisje ndërpreu gjithashtu lidhjet hyrëse të punonjësve të VPN-së së klientit dhe puna e rikuperimit në distancë u bë më e vështirë për t'u kryer.

03.07.2019, 16: 40
Ne u përpoqëm të ringjallnim një skemë rezervë ekzistuese të mëparshme NAT që kishte funksionuar mirë më parë. Por u bë e qartë se një sërë rinovimesh të rrjetit e bënë këtë skemë pothuajse plotësisht jofunksionale, pasi restaurimi i saj, në rastin më të mirë, mund të mos funksiononte, ose, në rastin më të keq, të prishte atë që tashmë funksiononte.

Ne filluam të punojmë për disa ide për të transferuar trafikun në një grup ruterash të rinj që shërbejnë shtyllën kurrizore, por ato dukeshin të pafuqishme për shkak të veçorive të shpërndarjes së rrugëve në rrjetin bazë.

03.07.2019, 17: 05
Në të njëjtën kohë, u identifikua një problem në mekanizmin e zgjidhjes së emrave në serverët e emrave, i cili çoi në gabime në zgjidhjen e pikave fundore në aplikacione dhe ata filluan të mbushnin shpejt skedarët e hosteve me regjistrime të shërbimeve kritike.

03.07.2019, 17: 27
Funksionaliteti i kufizuar i Habr është restauruar.

03.07.2019, 17: 43
Por në fund u gjet një zgjidhje relativisht e sigurt për organizimin e trafikut përmes njërit prej ruterave kufitar, i cili u instalua shpejt. Lidhja me internetin është rivendosur.

Gjatë minutave në vijim, erdhën shumë njoftime nga sistemet e monitorimit për rivendosjen e funksionalitetit të agjentëve të monitorimit, por disa nga shërbimet rezultuan të pafunksionueshme sepse mekanizmi i zgjidhjes së emrave në serverët e emrave (dns) ishte i prishur.

Raport pas vdekjes Habr: ra në një gazetë

03.07.2019, 17: 52
NS u rifillua dhe cache u pastrua. Zgjidhja është rikthyer.

03.07.2019, 17: 55
Të gjitha shërbimet filluan të funksionojnë përveç MK, Freelansim dhe Toster.

03.07.2019, 18: 02
MK dhe Freelansim filluan të punojnë.

03.07.2019, 18: 07
Riktheni një seancë të pafajshme BGP me DataLine.

03.07.2019, 18: 25
Ata filluan të regjistrojnë probleme me burimet, gjë që ishte për shkak të një ndryshimi në adresën e jashtme të grupit NAT dhe mungesës së tij në acl të një numri shërbimesh, gjë që u korrigjua menjëherë. Toasteri filloi të punojë menjëherë.

03.07.2019, 20: 30
Kemi vënë re gabime në lidhje me bot-et e Telegram. Doli se ata harruan të regjistronin adresën e jashtme në disa acl (proxy servers), të cilat u korrigjuan menjëherë.

Raport pas vdekjes Habr: ra në një gazetë

Gjetjet

  • Pajisja, e cila më parë kishte mbjellë dyshime për përshtatshmërinë e saj, dështoi. Kishte plane për ta eliminuar nga puna, pasi ndërhynte në zhvillimin e rrjetit dhe kishte probleme përputhshmërie, por njëkohësisht kryente një funksion kritik, prandaj çdo zëvendësim ishte teknikisht i vështirë pa ndërprerë shërbimet. Tani mund të vazhdoni.
  • Problemi DNS mund të shmanget duke i zhvendosur ato më pranë rrjetit të ri shtytës jashtë rrjetit NAT dhe të kenë akoma lidhje të plotë me rrjetin gri pa përkthim (që ishte plani para incidentit).
  • Ju nuk duhet të përdorni emra domenesh kur grumbulloni grupe RDBMS, pasi lehtësia e ndryshimit transparent të adresës IP nuk është veçanërisht e nevojshme, pasi manipulime të tilla ende kërkojnë rindërtimin e grupit. Ky vendim u diktua nga arsye historike dhe, para së gjithash, nga qartësia e pikave përfundimtare sipas emrit në konfigurimet RDBMS. Në përgjithësi, një kurth klasik.
  • Në parim, janë kryer ushtrime të krahasueshme me "sovranizimin e Runetit", ka diçka për të menduar në drejtim të forcimit të aftësive të mbijetesës autonome.

Burimi: www.habr.com

Shto një koment