Habr postmortem ferslach: it foel op in krante

It ein fan 'e earste en begjin fan' e twadde moanne fan 'e simmer 2019 die bliken lestich te wêzen en waard markearre troch ferskate grutte dalingen yn wrâldwide IT-tsjinsten. Under de opmerklike: twa serieuze ynsidinten yn 'e CloudFlare-ynfrastruktuer (de earste - mei kromme hannen en negligent hâlding foar BGP fan' e kant fan guon ISP's út 'e FS; de twadde - mei in krom ynset fan CF sels, dy't elkenien beynfloede dy't CF brûkte , en dit binne in protte opmerklike tsjinsten) en ynstabile wurking fan 'e Facebook CDN-ynfrastruktuer (beynfloede alle FB-produkten, ynklusyf Instagram en WhatsApp). Wy moasten ek yn 'e distribúsje fongen wurde, hoewol't ús ûnderbrekking folle minder opfallend wie tsjin 'e wrâldwide eftergrûn. Immen is al begon swarte helikopters en "sûvereine" konspiraasjes yn te slepen, sadat wy in iepenbiere post mortem fan ús ynsidint frijlitte.

Habr postmortem ferslach: it foel op in krante

03.07.2019, 16: 05
Problemen mei boarnen begûn te wurde opnomd, fergelykber mei in ferdieling yn ynterne netwurk ferbining. Nei't se net alles folslein kontroleare, begûnen se de prestaasjes fan it eksterne kanaal nei DataLine te fjochtsjen, om't it dúdlik waard dat it probleem wie mei de tagong fan it ynterne netwurk ta it ynternet (NAT), oant it punt om de BGP-sesje nei DataLine te setten.

03.07.2019, 16: 35
It waard dúdlik dat de apparatuer dy't netwurkadres oersetting en tagong levere fan it lokale netwurk fan 'e side nei it ynternet (NAT) mislearre. Pogingen om de apparatuer te herstarten hawwe net liede ta neat, it sykjen nei alternative opsjes foar it organisearjen fan ferbining begûn foardat it ûntfangen fan in antwurd fan technyske stipe, sûnt ûnderfining, dit soe nei alle gedachten net hawwe holpen.

It probleem waard wat fergriemd troch it feit dat dizze apparatuer ek ynkommende ferbiningen fan kliïnt VPN-meiwurkers beëinige, en wurk op ôfstân waard dreger om út te fieren.

03.07.2019, 16: 40
Wy hawwe besocht om in earder besteande reservekopy NAT-skema te herleven dat earder goed wurke hie. Mar it waard dúdlik dat in oantal netwurk opknapbeurten makke dit skema hast hielendal ynoperative, sûnt syn restauraasje koe, op syn bêste, net wurkje, of, op syn minst, brekke wat al wurke.

Wy begûnen te wurkjen oan in pear ideeën om ferkear oer te bringen nei in set fan nije routers dy't de rêchbonke tsjinje, mar se liken net te wurkjen fanwegen de eigenaardichheden fan 'e ferdieling fan rûtes yn it kearnnetwurk.

03.07.2019, 17: 05
Tagelyk waard in probleem identifisearre yn it nammeresolúsjemeganisme op nammeservers, wat late ta flaters by it oplossen fan einpunten yn applikaasjes, en se begûnen hostbestannen fluch te foljen mei records fan krityske tsjinsten.

03.07.2019, 17: 27
De beheinde funksjonaliteit fan Habr is restaurearre.

03.07.2019, 17: 43
Mar úteinlik waard in relatyf feilige oplossing fûn foar it organisearjen fan ferkear fia ien fan 'e grinsrouters, dy't gau ynstalleare waard. Ynternetferbining is wersteld.

Yn 'e kommende pear minuten kamen in protte notifikaasjes fan' e monitoaringssystemen oer de restauraasje fan 'e funksjonaliteit fan' e monitoaringaginten, mar guon fan 'e tsjinsten die bliken net te wurkjen, om't it nammeresolúsjemeganisme op' e nammeservers (dns) brutsen wie.

Habr postmortem ferslach: it foel op in krante

03.07.2019, 17: 52
NS waard opnij opstart en de cache waard wiske. Oplossing is hersteld.

03.07.2019, 17: 55
Alle tsjinsten begûn te wurkjen útsein MK, Freelansim en Toaster.

03.07.2019, 18: 02
MK en Freelansim begûnen te wurkjen.

03.07.2019, 18: 07
Bring in ûnskuldige BGP-sesje werom mei DataLine.

03.07.2019, 18: 25
Se begûnen problemen mei middels op te nimmen, dy't troch in feroaring yn it eksterne adres fan 'e NAT-pool en syn ûntbrekken yn' e acl fan in oantal tsjinsten wie, dy't fuortendaliks korrizjearre waard. De Toaster begûn te wurkjen direkt.

03.07.2019, 20: 30
Wy hawwe flaters opmurken relatearre oan Telegram-bots. It die bliken dat se fergeat te registrearjen it eksterne adres yn in pear acl (proxy-tsjinners), dat waard prompt korrizjearre.

Habr postmortem ferslach: it foel op in krante

befinings

  • De apparatuer, dy't earder twifels hie oer de geskiktheid, mislearre. D'r wiene plannen om it út it wurk te eliminearjen, om't it ynterfere mei de ûntwikkeling fan it netwurk en komptabiliteitsproblemen hie, mar tagelyk hat it in krityske funksje útfierd, wêrtroch't elke ferfanging technysk lestich wie sûnder tsjinsten te ûnderbrekken. No kinne jo fierder.
  • De DNS-kwestje kin foarkommen wurde troch se tichter by it nije eftergrûnnetwurk bûten it NAT-netwurk te ferpleatsen en noch folsleine ferbining te hawwen mei it grize netwurk sûnder oersetting (dat wie it plan foar it ynsidint).
  • Jo moatte gjin domeinnammen brûke by it gearstallen fan RDBMS-klusters, om't it gemak fan it transparant wizigjen fan it IP-adres net bysûnder nedich is, om't sokke manipulaasjes noch it werbouwen fan it kluster nedich binne. Dit beslút waard diktearre troch histoaryske redenen en, yn it foarste plak, troch de fanselssprekkend fan einpunten by namme yn RDBMS-konfiguraasjes. Yn it algemien, in klassike trap.
  • Yn prinsipe, oefeningen te fergelykjen mei de "sovereignization fan Runet" binne útfierd; der is wat te tinken oer yn termen fan it fersterkjen fan de mooglikheden fan autonome oerlibjen.

Boarne: www.habr.com

Add a comment