Rrjedhja e rrugës BGP në Rostelecom çoi në ndërprerjen e lidhjes së rrjeteve më të mëdha

Si rezultat i një njoftimi të gabuar BGP të më shumë se 8800 prefikseve të rrjeteve të huaja u kthye ridrejtuar përmes rrjetit Rostelecom, i cili çoi në një kolaps afatshkurtër të rrugëzimit, ndërprerje të lidhjes së rrjetit dhe probleme me aksesin në disa shërbime në mbarë botën. Problem të përqafuar mbi 200 sisteme autonome në pronësi të kompanive të mëdha të internetit dhe rrjeteve të ofrimit të përmbajtjes duke përfshirë Akamai, Cloudflare, Digital Ocean, Amazon AWS, Hetzner, Level3, Facebook, Alibaba dhe Linode.

Njoftimi i gabuar u bë nga Rostelecom (AS12389) më 1 Prill në orën 22:28 (MSK), më pas u mor nga ofruesi Rascom (AS20764) dhe më tej përgjatë zinxhirit u përhap në Cogent (AS174) dhe Level3 (AS3356), fusha e së cilës mbulonte pothuajse të gjithë ofruesit e internetit të nivelit të parë (Niveli-1). Sherbime monitoringa BGP njoftoi menjëherë Rostelecom për problemin, kështu që incidenti zgjati rreth 10 minuta (sipas të dhëna të tjera efektet u vunë re për rreth një orë).

Ky nuk është incidenti i parë që lidhet me një gabim nga ana e Rostelecom. Në 2017 brenda 5-7 minutash përmes Rostelecom u ridrejtuan rrjetet e bankave më të mëdha dhe shërbimet financiare, duke përfshirë Visa dhe MasterCard. Me sa duket, në të dyja incidentet, burimi i problemit shërbeu puna në lidhje me menaxhimin e trafikut, për shembull, rrjedhjet e rrugës mund të ndodhin kur organizohet monitorimi i brendshëm, prioritizimi ose pasqyrimi i trafikut të shërbimeve të caktuara dhe CDN që kalon përmes Rostelecom (për shkak të rritjes së ngarkesës së rrjetit për shkak të punës masive në shtëpi në fund të marsit diskutuar çështja e uljes së prioritetit për trafikun e shërbimeve të huaja në favor të burimeve vendase). Për shembull, disa vjet më parë në Pakistan, një përpjekje mbështjellje Nënrrjetet e YouTube në ndërfaqen null bënë që këto nënrrjeta të shfaqen në njoftimet BGP dhe të mbarojnë të gjithë trafikun e YouTube në Pakistan.

Rrjedhja e rrugës BGP në Rostelecom çoi në ndërprerjen e lidhjes së rrjeteve më të mëdha

Është interesante që një ditë para incidentit me Rostelecom, një ofrues i vogël "Reality i Ri" (AS50048) nga qyteti i St. Sumerlya përmes Transtelecom ishte i shpallur 2658 prefikse që prekin Orange, Akamai, Rostelecom dhe rrjetet e më shumë se 300 kompanive. Rrjedhja e rrugës rezultoi në disa valë ridrejtimesh të trafikut që zgjasin disa minuta. Në kulmin e tij, problemi mbuloi deri në 13.5 milion adresa IP. Një ndërprerje e dukshme globale u shmang falë përdorimit të kufizimeve të rrugëve në Transtelecom për çdo klient.

Incidente të ngjashme ndodhin në rrjetin global rregullisht dhe do të vazhdojë derisa të zbatohet në mënyrë universale metodat e autorizimit Njoftimet BGP bazuar në RPKI (BGP Origin Validation), të cilat lejojnë marrjen e njoftimeve vetëm nga pronarët e rrjetit. Pa autorizim, çdo operator mund të reklamojë një nënrrjet me informacion fiktive për gjatësinë e itinerarit dhe të iniciojë tranzit përmes vetes së një pjese të trafikut nga sisteme të tjera që nuk aplikojnë filtrimin e reklamave.

Në të njëjtën kohë, në incidentin në shqyrtim, një kontroll duke përdorur depon RIPE RPKI doli të ishte të padobishme. Rastësisht, tre orë para rrjedhjes së rrugës BGP në Rostelecom, në procesin e përditësimit të softuerit RIPE, fshihet aksidentalisht 4100 regjistrime ROA (Autorizimi i origjinës së rrugës RPKI). Baza e të dhënave u rivendos vetëm në 2 Prill dhe gjatë gjithë kësaj kohe për klientët RIPE kontrolli ishte i pafuqishëm (problemi nuk ndikoi në depot RPKI të regjistruesve të tjerë). Sot RIPE ka çështje të reja dhe depo RPKI brenda 7 orëve ishte i padisponueshëm.

Filtrimi i bazuar në regjistër mund të përdoret gjithashtu si një zgjidhje për të bllokuar rrjedhjet IRR (Internet Routing Registry), i cili përcakton sisteme autonome përmes të cilave lejohet rutimi i prefikseve të dhëna. Kur ndërveproni me operatorë të vegjël, mund të kufizoni numrin maksimal të prefikseve të pranuara për seancat EBGP (përcaktimi i prefiksit maksimal) për të zvogëluar pasojat e gabimeve njerëzore.

Në shumicën e rasteve, incidentet janë rezultat i gabimeve të rastësishme të personelit, por kohët e fundit ka pasur edhe sulme të synuara, gjatë të cilave sulmuesit duke komprometuar infrastrukturën e ofruesve organizojnë ridrejtoj и përgjimi trafiku për zëvendësimet faqe specifike përmes organizimit të sulmeve MiTM për të zëvendësuar përgjigjet DNS.
Për ta bërë më të vështirë marrjen e certifikatave TLS gjatë sulmeve të tilla, autoriteti i certifikimit Let's Encrypt zhvendosur së fundmi për të kontrolluar domenin në shumë faqe duke përdorur nënrrjeta të ndryshme. Për të anashkaluar këtë kontroll, një sulmuesi do të duhet të arrijë njëkohësisht ridrejtimin e rrugës për disa sisteme autonome të ofruesve me lidhje të ndryshme, gjë që është shumë më e vështirë sesa ridrejtimi i një rruge të vetme.

Burimi: opennet.ru

Shto një koment