L'error de configuració de BGP fa que Cloudflare es bloquegi durant 27 minuts

Companyia Cloudflare, proporcionant xarxa de lliurament de contingut per a 27 milions de recursos d'Internet i que serveix el trànsit del 13% dels 1000 llocs més grans, descobert detalls de l'incident, com a conseqüència del qual el treball de molts segments de la xarxa Cloudflare es va interrompre durant 27 minuts, inclosos els responsables de lliurar trànsit a Londres, Chicago, Los Angeles, Washington, Amsterdam, París, Moscou i Sant Petersburg. . El problema va ser causat per un canvi de configuració incorrecte al router d'Atlanta. Durant l'incident, que es va produir el 17 de juliol de 21:12 a 21:39 (UTC), el volum total de trànsit a la xarxa Cloudflare va disminuir aproximadament un 50%.

L'error de configuració de BGP fa que Cloudflare es bloquegi durant 27 minuts

Durant el treball tècnic, amb la voluntat d'eliminar part del trànsit d'una de les troncals, els enginyers van eliminar una línia del bloc de configuració que defineix la llista de rutes acceptades a través de la columna vertebral, filtrada d'acord amb la llista de prefixos especificada. Hauria estat correcte desactivar tot el bloc, però per error només es va eliminar la línia amb la llista de prefixos.

{master}[editar] atl01# mostra | comparar
[editar la declaració de política d'opcions de política 6-BBONE-OUT terme 6-SITE-LOCAL de] ! inactiu: llista de prefixos 6-SITE-LOCAL { … }

Bloc de contingut:

de {
llista de prefixos 6-SITE-LOCAL;
}
llavors {
local-preferència 200;
afegeix la comunitat SITE-LOCAL-ROUTE;
afegeix la comunitat ATL01;
agregar comunitat NORD-AMÈRICA;
acceptar;
}

A causa de l'eliminació de l'enllaç a la llista de prefixos, la part restant del bloc es va començar a distribuir a tots els prefixos i l'encaminador va començar a enviar totes les seves rutes BGP a encaminadors d'altres backbones. Per casualitat, les noves rutes tenien una prioritat més alta (preferència local 200) en comparació amb la prioritat (100) establerta per a altres rutes pel sistema d'optimització automàtica del trànsit. Com a resultat, en lloc d'eliminar l'encaminament de la columna vertebral, es van filtrar rutes BGP de prioritat més alta, com a conseqüència de la qual cosa es va enviar el trànsit adreçat a altres troncals a Atlanta, la qual cosa va provocar una sobrecàrrega de l'encaminador i el col·lapse d'una part de la xarxa.

L'error de configuració de BGP fa que Cloudflare es bloquegi durant 27 minuts

Per evitar que es produeixin incidents similars en el futur, es preveu fer diversos canvis a la configuració del backbon de Cloudflare dilluns. S'afegirà un límit al nombre màxim de prefixos (prefix màxim) per a les sessions BGP, cosa que bloquejarà una columna vertebral problemàtica si s'hi encaminen massa prefixos. Si aquesta restricció s'hagués afegit abans, el problema en qüestió hauria provocat l'aturada de la columna vertebral d'Atlanta, però no hauria afectat el funcionament de tota la xarxa, ja que la xarxa Cloudflare està dissenyada per permetre que fallin els backbones individuals. Entre els canvis ja adoptats, s'observa una revisió de les prioritats (preferència local) per a rutes locals, que no permetrà que un encaminador influeixi en el trànsit a altres parts de la xarxa.

Font: opennet.ru

Afegeix comentari