La filtració de la ruta BGP condueix a una desconnexió massiva a Internet

Empresa Cloudflare publicat informe de l'incident d'ahir, que va provocar tres hores De 13:34 a 16:26 (MSK), hi va haver problemes per accedir a molts recursos de la xarxa global, inclosa la infraestructura de Cloudflare, Facebook, Akamai, Apple, Linode i Amazon AWS. Problemes a la infraestructura de Cloudflare, que proporciona CDN per a 16 milions de llocs, observat de 14:02 a 16:02 (MSK). Cloudflare va estimar que aproximadament el 15% del trànsit global es va perdre durant l'interrupció.

El problema era causat fuga de ruta a través de BGP, durant la qual es van redirigir incorrectament uns 20 mil prefixos per a 2400 xarxes. La font de la filtració va ser el proveïdor DQE Communications, que va utilitzar programari BGP Optimizer per a l'optimització de l'encaminament. BGP Optimizer divideix els prefixos IP en altres més petits, per exemple, divideix 104.20.0.0/20 en 104.20.0.0/21 i 104.20.8.0/21 i, com a resultat, DQE Communications va mantenir al seu costat un gran nombre de rutes específiques que anul·len. rutes més habituals (és a dir, en lloc de rutes genèriques a Cloudflare, es van utilitzar rutes més granulars a subxarxes de Cloudflare específiques).

Aquestes rutes puntuals es van anunciar a un dels clients (Allegheny Technologies, AS396531) que també tenia connexió a través d'un altre proveïdor. Allegheny Technologies va transmetre les rutes rebudes a un altre proveïdor de transport públic (Verizon, AS701). A causa de la manca d'un filtratge adequat dels anuncis BGP i del límit del nombre de prefixos, Verizon va recollir aquest anunci i va emetre els 20 mil prefixos rebuts a la resta d'Internet. Els prefixos incorrectes, per la seva granularitat, es van percebre com una prioritat superior, ja que una ruta concreta té una prioritat més alta que una de general.

La filtració de la ruta BGP condueix a una desconnexió massiva a Internet

Com a resultat, el trànsit de moltes xarxes grans va començar a encaminar-se a través de Verizon a un petit proveïdor DQE Communications, incapaç de gestionar l'augment del trànsit, que va provocar un col·lapse (l'efecte és comparable a la substitució d'una part d'una autopista molt transitada per una carretera rural). ).

Per evitar incidents similars en el futur
recomanat:

  • Utilitzeu verificació anuncis basats en RPKI (BGP Origin Validation, permet rebre anuncis només dels propietaris de la xarxa);
  • Limiteu el nombre màxim de prefixos acceptats per a totes les sessions EBGP (establir el prefix màxim ajudaria a descartar immediatament la transmissió de 20 mil prefixos en una sessió);
  • Aplicar el filtratge basat en el registre IRR (Registre d'encaminament d'Internet, determina l'AS a través del qual es permet l'encaminament dels prefixos donats);
  • Utilitzeu la configuració predeterminada de denegació ("denegació per defecte") recomanada a RFC 8212 als encaminadors;
  • Atureu l'ús imprudent dels optimitzadors BGP.

La filtració de la ruta BGP condueix a una desconnexió massiva a Internet

Font: opennet.ru

Afegeix comentari