Хабр посмртен извештај: падна на весник

Крајот на првиот и почетокот на вториот месец од летото 2019 година се покажа како тежок и беше обележан со неколку големи падови на глобалните ИТ услуги. Меѓу позначајните: два сериозни инциденти во инфраструктурата CloudFlare (првиот - со криви раце и несовесен однос кон BGP од страна на некои интернет провајдери од САД; вториот - со криво распоредување на самите CF, што ги погоди сите што користат CF , а тоа се многу значајни услуги) и нестабилна работа на инфраструктурата на Facebook CDN (погодени се сите FB производи, вклучително и Instagram и WhatsApp). Исто така, моравме да бидеме фатени во дистрибуцијата, иако нашиот прекин беше многу помалку забележлив на глобалната позадина. Некој веќе почна да влече црни хеликоптери и „суверени“ заговори, па затоа објавуваме јавна пост-mortem за нашиот инцидент.

Хабр посмртен извештај: падна на весник

03.07.2019, 16: 05
Почнаа да се евидентираат проблеми со ресурсите, слично на дефект во внатрешната мрежна конекција. Откако не проверуваа целосно сè, тие почнаа да ги нарушуваат перформансите на надворешниот канал кон DataLine, бидејќи стана јасно дека проблемот е со пристапот на внатрешната мрежа до Интернет (NAT), до точка на ставање на BGP сесијата кон DataLine.

03.07.2019, 16: 35
Стана очигледно дека опремата што обезбедува превод на мрежна адреса и пристап од локалната мрежа на страницата до Интернет (NAT) не успеа. Обидите за рестартирање на опремата не доведоа до ништо, потрагата по алтернативни опции за организирање поврзување започна пред да добие одговор од техничката поддршка, бидејќи од искуство, ова најверојатно немаше да помогне.

Проблемот беше донекаде отежнат со фактот што оваа опрема, исто така, ги прекина дојдовните врски на вработените во VPN на клиентите, а работата за далечинско обновување стана потешка за извршување.

03.07.2019, 16: 40
Се обидовме да ја оживееме претходно постоечката резервна NAT шема која работеше добро претходно. Но, стана јасно дека голем број обновувања на мрежата ја направија оваа шема речиси целосно нефункционална, бидејќи нејзиното обновување, во најдобар случај, може да не работи, или, во најлош случај, да го скрши она што веќе функционира.

Почнавме да работиме на неколку идеи за пренос на сообраќајот на збир на нови рутери кои служат на 'рбетот, но тие изгледаа неостварливи поради особеностите на распределбата на маршрутите во основната мрежа.

03.07.2019, 17: 05
Во исто време, беше идентификуван проблем во механизмот за решавање на имињата на серверите за имиња, што доведе до грешки во решавањето на крајните точки во апликациите и тие почнаа брзо да ги пополнуваат датотеките на домаќините со записи за критични услуги.

03.07.2019, 17: 27
Ограничената функционалност на Хабр е вратена.

03.07.2019, 17: 43
Но, на крајот се најде релативно безбедно решение за организирање на сообраќајот преку еден од граничните рутери, кој брзо беше инсталиран. Интернет-врската е обновена.

Во текот на следните неколку минути, пристигнаа многу известувања од системите за следење за обновување на функционалноста на агентите за следење, но некои од услугите се покажаа нефункционални бидејќи механизмот за решавање на имињата на серверите за имиња (dns) беше скршен.

Хабр посмртен извештај: падна на весник

03.07.2019, 17: 52
NS беше рестартиран и кешот беше исчистен. Решавањето е вратено.

03.07.2019, 17: 55
Сите сервиси почнаа да работат освен МК, Фрилансим и Тостер.

03.07.2019, 18: 02
МК и Фрилансим почнаа со работа.

03.07.2019, 18: 07
Вратете ја невината BGP сесија со DataLine.

03.07.2019, 18: 25
Почнаа да забележуваат проблеми со ресурсите, што се должи на промената на надворешната адреса на базенот NAT и неговото отсуство во acl на голем број услуги, што беше навремено коригирано. Тостерот почна да работи веднаш.

03.07.2019, 20: 30
Забележавме грешки поврзани со ботови на Telegram. Се испостави дека заборавиле да ја регистрираат надворешната адреса во неколку acl (прокси сервери), што беше навремено поправено.

Хабр посмртен извештај: падна на весник

Наоди

  • Опремата, која претходно посеа сомнежи за нејзината соодветност, не успеа. Имаше планови да се елиминира од работа, бидејќи го попречуваше развојот на мрежата и имаше проблеми со компатибилноста, но во исто време извршуваше критична функција, поради што секоја замена беше технички тешка без прекин на услугите. Сега можете да продолжите понатаму.
  • Проблемот со DNS може да се избегне со нивно преместување поблиску до новата 'рбетна мрежа надвор од NAT мрежата и сè уште имаат целосна поврзаност со сивата мрежа без превод (што беше планот пред инцидентот).
  • Не треба да користите имиња на домени кога склопувате кластери RDBMS, бидејќи практичноста за транспарентно менување на IP адресата не е особено потребна, бидејќи таквите манипулации сè уште бараат обнова на кластерот. Оваа одлука беше диктирана од историски причини и, пред сè, од очигледноста на крајните точки по име во конфигурациите на RDBMS. Во принцип, класична стапица.
  • Во принцип, спроведени се вежби споредливи со „суверенизацијата на Рунет“, има нешто да се размислува во смисла на зајакнување на способностите за автономно преживување.

Извор: www.habr.com

Додадете коментар