El error de configuración de BGP hace que Cloudflare se bloquee durante 27 minutos

empresa nubeflare, Proporcionar red de distribución de contenidos para 27 millones de recursos de Internet y que atiende el tráfico del 13% de los 1000 sitios más grandes, descubierto detalles del incidente, como resultado del cual se interrumpió el trabajo de muchos segmentos de la red Cloudflare durante 27 minutos, incluidos los responsables de entregar el tráfico a Londres, Chicago, Los Ángeles, Washington, Ámsterdam, París, Moscú y San Petersburgo. . El problema se debió a un cambio de configuración incorrecto en el enrutador Atlanta. Durante el incidente, que ocurrió el 17 de julio entre las 21:12 y las 21:39 (UTC), el volumen total de tráfico en la red Cloudflare disminuyó aproximadamente un 50%.

El error de configuración de BGP hace que Cloudflare se bloquee durante 27 minutos

Durante el trabajo técnico, queriendo eliminar parte del tráfico de una de las redes troncales, los ingenieros eliminaron una línea en el bloque de configuración que define la lista de rutas aceptadas a través de la red troncal, filtradas de acuerdo con la lista de prefijos especificada. Lo correcto hubiera sido desactivar todo el bloque, pero por error solo se eliminó la línea con la lista de prefijos.

{master}[editar] atl01# espectáculo | comparar
[editar opciones de política declaración de política 6-BBONE-OUT término 6-SITE-LOCAL de]! inactivo: lista de prefijos 6-SITIO-LOCAL {...}

Contenido del bloque:

de {
lista de prefijos 6-SITIO-LOCAL;
}
luego {
preferencia local 200;
comunidad agregar SITIO-LOCAL-RUTA;
comunidad agregar ATL01;
comunidad agregar NORTEAMÉRICA;
aceptar;
}

Debido a la eliminación de la vinculación a la lista de prefijos, la parte restante del bloque comenzó a distribuirse a todos los prefijos y el enrutador comenzó a enviar todas sus rutas BGP a enrutadores de otras redes troncales. Por coincidencia, las nuevas rutas tenían una prioridad más alta (preferencia local 200) en comparación con la prioridad (100) establecida para otras rutas por el sistema de optimización automática del tráfico. Como resultado, en lugar de eliminar el enrutamiento de la red troncal, se filtraron rutas BGP de mayor prioridad, como resultado de lo cual el tráfico dirigido a otras redes troncales se envió a Atlanta, lo que provocó una sobrecarga del enrutador y el colapso de parte de la red.

El error de configuración de BGP hace que Cloudflare se bloquee durante 27 minutos

Para evitar que ocurran incidentes similares en el futuro, se planea realizar varios cambios en la configuración principal de Cloudflare el lunes. Se agregará un límite en el número máximo de prefijos (prefijo máximo) para las sesiones BGP, lo que bloqueará una red troncal problemática si se enrutan demasiados prefijos a través de ella. Si esta restricción se hubiera agregado antes, el problema en cuestión habría provocado el cierre de la red troncal en Atlanta, pero no habría afectado el funcionamiento de toda la red, ya que la red de Cloudflare está diseñada para permitir que fallen las redes troncales individuales. Entre los cambios ya adoptados se encuentra una revisión de las prioridades (preferencia local) para las rutas locales, que no permitirá que un enrutador influya en el tráfico en otras partes de la red.

Fuente: opennet.ru

Añadir un comentario