Habr postmortem report: nahulog kini sa usa ka mantalaan

Ang pagtapos sa una ug pagsugod sa ikaduhang bulan sa ting-init 2019 nahimo nga lisud ug gimarkahan sa daghang mga dagkong pagtulo sa mga serbisyo sa IT sa kalibutan. Lakip sa mga bantogan: duha ka seryoso nga mga insidente sa CloudFlare nga imprastraktura (ang una - nga adunay hiwi nga mga kamot ug walay pagtagad nga kinaiya ngadto sa BGP sa bahin sa pipila ka mga ISP gikan sa USA; ang ikaduha - uban sa usa ka hiwi nga deployment sa CF sa ilang kaugalingon, nga nakaapekto sa tanan nga naggamit sa CF , ug kini ang daghang mga bantog nga serbisyo) ug dili lig-on nga operasyon sa imprastraktura sa Facebook CDN (naapektuhan ang tanan nga mga produkto sa FB, lakip ang Instagram ug WhatsApp). Kinahanglan usab kami nga mahulog sa ilawom sa pag-apod-apod, bisan kung ang among pagkaguba dili kaayo mamatikdan sa tibuuk kalibutan. Adunay nagsugod na sa pagguyod sa mga itom nga helicopter ug "soberano" nga mga panagkunsabo, mao nga kami nagpagawas sa usa ka publiko nga post mortem sa among insidente.

Habr postmortem report: nahulog kini sa usa ka mantalaan

03.07.2019, 16: 05
Ang mga problema sa mga kahinguhaan nagsugod sa pagrekord, susama sa pagkaguba sa internal nga koneksyon sa network. Sa wala pa hingpit nga gisusi ang tanan, gisugdan nila ang pagkasayup sa pasundayag sa eksternal nga kanal padulong sa DataLine, tungod kay kini nahimong tin-aw nga ang problema mao ang pag-access sa internal nga network sa Internet (NAT), hangtod sa punto sa pagbutang sa sesyon sa BGP padulong sa DataLine.

03.07.2019, 16: 35
Nahimong tataw nga ang mga kagamitan nga naghatag sa paghubad sa adres sa network ug pag-access gikan sa lokal nga network sa site hangtod sa Internet (NAT) napakyas. Ang mga pagsulay sa pag-reboot sa ekipo wala mosangpot sa bisan unsa; ang pagpangita alang sa alternatibong mga kapilian alang sa pag-organisar sa koneksyon nagsugod sa wala pa makadawat og tubag gikan sa teknikal nga suporta, tungod kay gikan sa kasinatian, kini lagmit dili makatabang.

Ang problema medyo gipasamot sa kamatuoran nga kini nga ekipo nagtapos usab sa umaabot nga mga koneksyon sa mga empleyado sa VPN sa kliyente, ug ang remote recovery work nahimong mas lisud nga buhaton.

03.07.2019, 16: 40
Gisulayan namon nga buhion ang usa ka kaniadto nga backup nga laraw sa NAT nga nagtrabaho pag-ayo kaniadto. Apan nahimo nga tin-aw nga daghang mga pag-ayo sa network ang naghimo niini nga laraw nga halos wala’y mahimo, tungod kay ang pagpahiuli niini mahimo, sa labing kaayo, dili molihok, o, sa labing grabe, makaguba kung unsa ang nagtrabaho na.

Nagsugod kami sa pagtrabaho sa usa ka magtiayon nga mga ideya sa pagbalhin sa trapiko ngadto sa usa ka hugpong sa mga bag-ong routers nga nag-alagad sa backbone, apan sila daw dili mahimo tungod sa mga peculiarities sa pag-apod-apod sa mga ruta sa core network.

03.07.2019, 17: 05
Sa parehas nga oras, usa ka problema ang nahibal-an sa mekanismo sa resolusyon sa ngalan sa mga server sa ngalan, nga misangpot sa mga sayup sa pagsulbad sa mga endpoint sa mga aplikasyon, ug nagsugod sila nga dali nga pun-on ang mga file sa host sa mga rekord sa mga kritikal nga serbisyo.

03.07.2019, 17: 27
Ang limitado nga pagpaandar ni Habr gipahiuli.

03.07.2019, 17: 43
Apan sa katapusan, usa ka medyo luwas nga solusyon ang nakit-an alang sa pag-organisar sa trapiko pinaagi sa usa sa mga border router, nga dali nga na-install. Ang koneksyon sa Internet gipahiuli.

Sa sunod nga pipila ka minuto, daghang mga pahibalo ang gikan sa mga sistema sa pag-monitor bahin sa pagpahiuli sa pag-andar sa mga ahente sa pag-monitor, apan ang pipila sa mga serbisyo nahimo’g dili magamit tungod kay ang mekanismo sa resolusyon sa ngalan sa mga server sa ngalan (dns) nabuak.

Habr postmortem report: nahulog kini sa usa ka mantalaan

03.07.2019, 17: 52
Ang NS gi-restart ug ang cache na-clear. Ang pagsulbad gipahiuli.

03.07.2019, 17: 55
Ang tanan nga mga serbisyo nagsugod sa pagtrabaho gawas sa MK, Freelansim ug Toaster.

03.07.2019, 18: 02
Si MK ug Freelansim nagsugod sa pagtrabaho.

03.07.2019, 18: 07
Ibalik ang inosente nga sesyon sa BGP sa DataLine.

03.07.2019, 18: 25
Nagsugod sila sa pagrekord sa mga problema sa mga kahinguhaan, nga tungod sa usa ka pagbag-o sa gawas nga adres sa NAT pool ug ang pagkawala niini sa acl sa daghang mga serbisyo, nga gitul-id dayon. Ang Toaster nagsugod sa pagtrabaho dayon.

03.07.2019, 20: 30
Namatikdan namon ang mga sayup nga may kalabotan sa mga bot sa Telegram. Nahibal-an nga nakalimot sila sa pagrehistro sa eksternal nga adres sa usa ka magtiayon nga acl (proxy server), nga gitul-id dayon.

Habr postmortem report: nahulog kini sa usa ka mantalaan

kaplag

  • Ang mga ekipo, nga kaniadto nagsabwag og mga pagduhaduha mahitungod sa pagkaangay niini, napakyas. Adunay mga plano nga wagtangon kini gikan sa trabaho, tungod kay kini nakabalda sa pag-uswag sa network ug adunay mga problema sa pagpahiangay, apan sa samang higayon nagpahigayon kini usa ka kritikal nga function, mao nga ang bisan unsang kapuli sa teknikal lisud nga wala’y pagsamok sa mga serbisyo. Karon maka-move on ka na.
  • Ang isyu sa DNS mahimong malikayan pinaagi sa pagpaduol kanila sa bag-ong backbone network sa gawas sa NAT network ug aduna pa'y bug-os nga koneksyon sa gray nga network nga walay paghubad (nga mao ang plano sa wala pa ang insidente).
  • Dili ka kinahanglan nga mogamit sa mga ngalan sa domain kung mag-assemble sa mga cluster sa RDBMS, tungod kay ang kasayon ​​​​sa transparent nga pagbag-o sa IP address dili labi nga kinahanglanon, tungod kay ang ingon nga mga manipulasyon nanginahanglan gihapon nga tukuron ang cluster. Kini nga desisyon gidikta sa mga hinungdan sa kasaysayan ug, una sa tanan, sa pagkaklaro sa mga endpoint pinaagi sa ngalan sa RDBMS configurations. Sa kinatibuk-an, usa ka klasiko nga lit-ag.
  • Sa prinsipyo, ang mga ehersisyo nga ikatandi sa "sovereignization sa Runet" gipahigayon; adunay usa ka butang nga hunahunaon mahitungod sa pagpalig-on sa mga kapabilidad sa autonomous survival.

Source: www.habr.com

Idugang sa usa ka comment