Erro de configuração do BGP faz com que o Cloudflare trave por 27 minutos

Empresa Cloudflare, fornecendo rede de distribuição de conteúdo para 27 milhões de recursos da Internet e atendendo ao tráfego de 13% dos 1000 maiores sites, descoberto detalhes do incidente, que resultou na interrupção do trabalho de vários segmentos da rede Cloudflare por 27 minutos, incluindo os responsáveis ​​​​pelo fornecimento de tráfego para Londres, Chicago, Los Angeles, Washington, Amsterdã, Paris, Moscou e São Petersburgo . O problema foi causado por uma alteração incorreta na configuração do roteador Atlanta. Durante o incidente, ocorrido no dia 17 de julho, das 21h12 às 21h39 (UTC), o volume total de tráfego na rede Cloudflare diminuiu aproximadamente 50%.

Erro de configuração do BGP faz com que o Cloudflare trave por 27 minutos

Durante o trabalho técnico, querendo retirar parte do tráfego de um dos backbones, os engenheiros apagaram uma linha do bloco de configurações que define a lista de rotas aceitas pelo backbone, filtradas de acordo com a lista de prefixos especificada. Teria sido correto desativar todo o bloco, mas por engano apenas a linha com a lista de prefixos foi apagada.

{mestre}[editar] atl01# mostrar | comparar
[editar declaração de política de opções de política 6-BBONE-OUT termo 6-SITE-LOCAL de]! inativo: lista de prefixos 6-SITE-LOCAL {…}

Bloquear conteúdo:

de {
lista de prefixos 6-SITE-LOCAL;
}
então {
preferência local 200;
comunidade adicionar SITE-LOCAL-ROUTE;
comunidade adiciona ATL01;
comunidade adicionar AMÉRICA DO NORTE;
aceitar;
}

Devido à retirada da vinculação à lista de prefixos, o restante do bloco passou a ser distribuído para todos os prefixos e o roteador passou a enviar todas as suas rotas BGP para roteadores de outros backbones. Por coincidência, as novas rotas tiveram uma prioridade mais elevada (preferência local 200) em comparação com a prioridade (100) definida para outras rotas pelo sistema automático de otimização de tráfego. Como resultado, em vez de remover o roteamento do backbone, houve vazamento de rotas BGP de maior prioridade, fazendo com que o tráfego endereçado a outros backbones fosse enviado para Atlanta, o que levou à sobrecarga do roteador e ao colapso de parte da rede.

Erro de configuração do BGP faz com que o Cloudflare trave por 27 minutos

Para evitar que incidentes semelhantes ocorram no futuro, várias alterações estão planejadas para serem feitas nas configurações de backbon da Cloudflare na segunda-feira. Um limite no número máximo de prefixos (prefixo máximo) será adicionado para sessões BGP, o que bloqueará um backbone problemático se muitos prefixos forem roteados através dele. Se esta restrição tivesse sido adicionada anteriormente, o problema em questão teria levado ao desligamento do backbone em Atlanta, mas não teria afetado o funcionamento de toda a rede, uma vez que a rede Cloudflare foi projetada para permitir a falha de backbones individuais. Dentre as mudanças já adotadas, destaca-se uma revisão de prioridades (preferência local) para rotas locais, que não permitirá que um roteador influencie o tráfego em outras partes da rede.

Fonte: opennet.ru

Adicionar um comentário