L'errore di cunfigurazione di BGP provoca un crash di Cloudflare per 27 minuti

Cumpagnia Cloudflare, furnisce rete di consegna di cuntenutu per 27 milioni di risorse Internet è serve u trafficu di u 13% di i 1000 siti più grande, scupertu dettagli di l'incidentu, cum'è u risultatu di quale u travagliu di parechji segmenti di a reta Cloudflare hè statu disturbatu per 27 minuti, cumpresi quelli rispunsevuli di furnisce u trafficu à Londra, Chicago, Los Angeles, Washington, Amsterdam, Parigi, Mosca è San Petruburgu. . U prublema hè stata causata da un cambiamentu di cunfigurazione incorrecta in u router Atlanta. Duranti l'incidentu, chì hè accadutu u 17 di lugliu da 21:12 à 21:39 (UTC), u voluminu tutale di u trafficu nantu à a reta Cloudflare hà diminuitu da circa 50%.

L'errore di cunfigurazione di BGP provoca un crash di Cloudflare per 27 minuti

Duranti u travagliu tecnicu, vulendu caccià una parte di u trafficu da una di e spine, l'ingegneri anu sguassatu una linea in u bloccu di paràmetri chì definisce a lista di rotte accettate à traversu a spina, filtrata in cunfurmità cù a lista specifica di prefissi. Saria statu currettu di disattivà tuttu u bloccu, ma per sbagliu solu a linea cù a lista di prefissi hè stata sguassata.

{master}[editar] atl01# mostra | paragunà
[edità policy-options policy-declaration 6-BBONE-OUT term 6-SITE-LOCAL from] ! inattivu: lista di prefissi 6-SITE-LOCAL { … }

Bloccu cuntenutu:

da {
prefix-list 6-SITE-LOCAL;
}
allora {
lucale-preferenza 200;
cumunità aghjunghje SITE-LOCAL-ROUTE;
cumunità aghjunghje ATL01;
cumunità aghjunghje NORD-AMERICA;
accettà;
}

A causa di l'eliminazione di u ligame à a lista di prefissi, a parte restante di u blocu hà cuminciatu à esse distribuitu à tutti i prefissi è u router hà cuminciatu à mandà tutte e so rotte BGP à i routers di l'altri backbones. Per coincidenza, i novi rotte avianu una priorità più alta (preferenza lucale 200) cumparatu cù a priorità (100) stabilita per altre rotte da u sistema di ottimisazione automatica di u trafficu. In u risultatu, invece di caccià u routing da u backbone, i percorsi BGP di priorità più altu sò stati filtrati, per via di quale u trafficu indirizzatu à l'altri backbones hè statu mandatu à Atlanta, chì hà purtatu à a sobrecarga di u router è u colapsu di una parte di a reta.

L'errore di cunfigurazione di BGP provoca un crash di Cloudflare per 27 minuti

Per impediscenu incidenti simili in u futuru, parechji cambiamenti sò previsti per esse fatti à i paràmetri di u backbon di Cloudflare u luni. Un limitu à u numeru massimu di prefissi (maximum-prefix) serà aghjuntu per e sessioni BGP, chì bluccarà un backbone problematicu se troppu prefissi sò instradati attraversu. Se sta restrizzione era stata aghjunta prima, u prublema in quistione averia purtatu à a chjusa di a spina in Atlanta, ma ùn averia micca affettatu l'operazione di a reta sana, postu chì a reta di Cloudflare hè stata pensata per permette à i backbones individuali di fallu. Trà i cambiamenti digià aduttatu, una rivisione di priorità (preferenza lucale) per e rotte lucali hè nutata, chì ùn permettenu micca un router per influenzà u trafficu in altre parti di a reta.

Source: opennet.ru

Add a comment