Adroddiad post mortem Habr: disgynnodd ar bapur newydd

Trodd diwedd mis cyntaf a dechrau ail fis haf 2019 yn anodd a chafodd ei nodi gan sawl gostyngiad mawr mewn gwasanaethau TG byd-eang. Ymhlith y rhai nodedig: dau ddigwyddiad difrifol yn seilwaith CloudFlare (y cyntaf - gyda dwylo cam ac agwedd esgeulus tuag at BGP ar ran rhai ISPs o UDA; yr ail - gyda defnydd cam o CF eu hunain, a effeithiodd ar bawb sy'n defnyddio CF , ac mae'r rhain yn llawer o wasanaethau nodedig) a gweithrediad ansefydlog y seilwaith Facebook CDN (effeithiwyd ar bob cynnyrch FB, gan gynnwys Instagram a WhatsApp). Roedd yn rhaid i ni hefyd gael ein dal yn y dosbarthiad, er bod ein cyfnod segur yn llawer llai amlwg yn erbyn cefndir byd-eang. Mae rhywun eisoes wedi dechrau llusgo hofrenyddion du a chynllwynion “sofran” i mewn, felly rydym yn rhyddhau post mortem cyhoeddus o'n digwyddiad.

Adroddiad post mortem Habr: disgynnodd ar bapur newydd

03.07.2019, 16: 05
Dechreuwyd cofnodi problemau gydag adnoddau, yn debyg i fethiant mewn cysylltedd rhwydwaith mewnol. Ar ôl peidio â gwirio popeth yn llawn, dechreuon nhw fai perfformiad y sianel allanol tuag at DataLine, oherwydd daeth yn amlwg mai'r broblem oedd gyda mynediad y rhwydwaith mewnol i'r Rhyngrwyd (NAT), i'r pwynt o roi sesiwn BGP tuag at DataLine.

03.07.2019, 16: 35
Daeth yn amlwg bod yr offer sy’n darparu gwasanaeth cyfieithu cyfeiriad rhwydwaith a mynediad o rwydwaith lleol y safle i’r Rhyngrwyd (NAT) wedi methu. Ni arweiniodd ymdrechion i ailgychwyn yr offer at unrhyw beth, dechreuwyd chwilio am opsiynau amgen ar gyfer trefnu cysylltedd cyn derbyn ymateb gan gefnogaeth dechnegol, oherwydd o brofiad, ni fyddai hyn yn fwyaf tebygol o fod wedi helpu.

Gwaethygwyd y broblem rywfaint gan y ffaith bod yr offer hwn hefyd yn terfynu cysylltiadau sy'n dod i mewn o weithwyr cleient VPN, a daeth gwaith adfer o bell yn anoddach i'w wneud.

03.07.2019, 16: 40
Fe wnaethom geisio adfywio cynllun NAT wrth gefn a oedd yn bodoli eisoes ac a oedd wedi gweithio'n dda o'r blaen. Ond daeth yn amlwg bod nifer o waith adnewyddu rhwydwaith wedi gwneud y cynllun hwn bron yn gwbl anweithredol, gan y gallai ei adfer, ar y gorau, beidio â gweithio, neu, ar y gwaethaf, dorri'r hyn a oedd eisoes yn gweithio.

Dechreuon ni weithio ar rai syniadau i drosglwyddo traffig i set o lwybryddion newydd sy'n gwasanaethu asgwrn cefn, ond roedden nhw'n ymddangos yn anymarferol oherwydd hynodrwydd dosbarthiad llwybrau yn y rhwydwaith craidd.

03.07.2019, 17: 05
Ar yr un pryd, nodwyd problem yn y mecanwaith datrys enw ar weinyddion enw, a arweiniodd at wallau wrth ddatrys pwyntiau terfyn mewn cymwysiadau, a dechreuwyd llenwi ffeiliau gwesteiwr yn gyflym â chofnodion gwasanaethau hanfodol.

03.07.2019, 17: 27
Mae ymarferoldeb cyfyngedig Habr wedi'i adfer.

03.07.2019, 17: 43
Ond yn y diwedd, darganfuwyd ateb cymharol ddiogel ar gyfer trefnu traffig trwy un o'r llwybryddion ffin, a osodwyd yn gyflym. Mae cysylltedd rhyngrwyd wedi'i adfer.

Dros yr ychydig funudau nesaf, daeth llawer o hysbysiadau o'r systemau monitro ynghylch adfer ymarferoldeb yr asiantau monitro, ond daeth rhai o'r gwasanaethau i fod yn anweithredol oherwydd bod y mecanwaith datrys enwau ar y gweinyddwyr enw (dns) wedi'i dorri.

Adroddiad post mortem Habr: disgynnodd ar bapur newydd

03.07.2019, 17: 52
Ailgychwynnwyd NS a chliriwyd y storfa. Mae datrys wedi'i adfer.

03.07.2019, 17: 55
Dechreuodd pob gwasanaeth weithio ac eithrio MK, Freelansim a Toaster.

03.07.2019, 18: 02
Dechreuodd MK a Freelansim weithio.

03.07.2019, 18: 07
Dewch â sesiwn BGP diniwed yn ôl gyda DataLine.

03.07.2019, 18: 25
Dechreuon nhw gofnodi problemau gydag adnoddau, a oedd yn ganlyniad i newid yng nghyfeiriad allanol y gronfa NAT a'i absenoldeb yn acl nifer o wasanaethau, a gafodd ei gywiro'n brydlon. Dechreuodd y Tostiwr weithio ar unwaith.

03.07.2019, 20: 30
Gwelsom wallau yn ymwneud â botiau Telegram. Mae'n troi allan eu bod wedi anghofio i gofrestru'r cyfeiriad allanol mewn cwpl o acl (gweinyddion dirprwyol), a gafodd ei gywiro'n brydlon.

Adroddiad post mortem Habr: disgynnodd ar bapur newydd

Canfyddiadau

  • Methodd yr offer, a oedd wedi hau amheuon ynghylch ei addasrwydd yn flaenorol. Roedd cynlluniau i'w ddileu o'r gwaith, gan ei fod yn ymyrryd â datblygiad y rhwydwaith a bod ganddo broblemau cydnawsedd, ond ar yr un pryd roedd yn cyflawni swyddogaeth hanfodol, a dyna pam roedd unrhyw un yn ei le yn dechnegol anodd heb dorri ar draws gwasanaethau. Nawr gallwch chi symud ymlaen.
  • Gellir osgoi'r broblem DNS trwy eu symud yn nes at y rhwydwaith asgwrn cefn newydd y tu allan i'r rhwydwaith NAT a dal i fod â chysylltedd llawn â'r rhwydwaith llwyd heb ei gyfieithu (sef y cynllun cyn y digwyddiad).
  • Ni ddylech ddefnyddio enwau parth wrth gydosod clystyrau RDBMS, gan nad yw hwylustod newid y cyfeiriad IP yn dryloyw yn arbennig o angenrheidiol, gan fod angen ailadeiladu'r clwstwr o hyd ar gyfer triniaethau o'r fath. Rhesymau hanesyddol oedd yn pennu'r penderfyniad hwn ac, yn gyntaf oll, amlygrwydd y pwyntiau terfyn yn ôl enw mewn ffurfweddau RDBMS. Yn gyffredinol, trap clasurol.
  • Mewn egwyddor, mae ymarferion tebyg i “sofraniaeth y Runet” wedi'u cynnal; mae rhywbeth i feddwl amdano o ran cryfhau galluoedd goroesi ymreolaethol.

Ffynhonnell: hab.com

Ychwanegu sylw