Une erreur de configuration BGP provoque le crash de Cloudflare pendant 27 minutes

Société Cloudflare, fournir réseau de diffusion de contenu pour 27 millions de ressources Internet et desservant le trafic de 13 % des 1000 plus grands sites, découvert détails de l'incident, à la suite duquel le travail de nombreux segments du réseau Cloudflare a été perturbé pendant 27 minutes, notamment ceux responsables de l'acheminement du trafic vers Londres, Chicago, Los Angeles, Washington, Amsterdam, Paris, Moscou et Saint-Pétersbourg . Le problème était dû à un changement de configuration incorrect sur le routeur Atlanta. Lors de l'incident, survenu le 17 juillet de 21h12 à 21h39 (UTC), le volume total de trafic sur le réseau Cloudflare a diminué d'environ 50 %.

Une erreur de configuration BGP provoque le crash de Cloudflare pendant 27 minutes

Au cours des travaux techniques, souhaitant supprimer une partie du trafic de l'un des backbones, les ingénieurs ont supprimé une ligne dans le bloc de paramètres qui définit la liste des itinéraires acceptés via le backbone, filtrée conformément à la liste de préfixes spécifiée. Il aurait été correct de désactiver tout le bloc, mais par erreur, seule la ligne avec la liste des préfixes a été supprimée.

{maître}[modifier] atl01# show | comparer
[modifier la déclaration de politique des options de politique 6-BBONE-OUT terme 6-SITE-LOCAL de] ! inactif : liste de préfixes 6-SITE-LOCAL { … }

Bloquer le contenu :

depuis {
liste de préfixes 6-SITE-LOCAL ;
}
alors {
préférence locale 200 ;
la communauté ajoute SITE-LOCAL-ROUTE ;
communauté ajouter ATL01 ;
communauté ajouter AMÉRIQUE DU NORD;
J'accepte;
}

En raison de la suppression de la liaison avec la liste des préfixes, la partie restante du bloc a commencé à être distribuée à tous les préfixes et le routeur a commencé à envoyer toutes ses routes BGP aux routeurs d'autres backbones. Par coïncidence, les nouveaux itinéraires avaient une priorité plus élevée (préférence locale 200) par rapport à la priorité (100) fixée pour les autres itinéraires par le système d'optimisation automatique du trafic. En conséquence, au lieu de supprimer le routage du backbone, des routes BGP de priorité plus élevée ont été divulguées, ce qui a entraîné l'envoi du trafic adressé à d'autres backbones à Atlanta, ce qui a entraîné une surcharge du routeur et l'effondrement d'une partie du réseau.

Une erreur de configuration BGP provoque le crash de Cloudflare pendant 27 minutes

Afin d'éviter que des incidents similaires ne se reproduisent à l'avenir, plusieurs modifications devraient être apportées lundi aux paramètres du backbon de Cloudflare. Une limite sur le nombre maximum de préfixes (maximum-prefix) sera ajoutée pour les sessions BGP, ce qui bloquera un backbone problématique si trop de préfixes y sont acheminés. Si cette restriction avait été ajoutée plus tôt, le problème en question aurait conduit à l'arrêt du backbone d'Atlanta, mais n'aurait pas affecté le fonctionnement de l'ensemble du réseau, puisque le réseau Cloudflare est conçu pour permettre la défaillance de certains backbones. Parmi les changements déjà adoptés, on note une révision des priorités (préférence locale) pour les routes locales, qui ne permettront pas à un routeur d'influencer le trafic dans d'autres parties du réseau.

Source: opennet.ru

Ajouter un commentaire