Хабр обдукциони извештај: пао је на новине

Крај првог и почетак другог месеца лета 2019. године испао је тежак и обележен је неколико великих падова глобалних ИТ услуга. Међу значајнијима: два озбиљна инцидента у ЦлоудФларе инфраструктури (први - са кривим рукама и немарним односом према БГП-у од стране неких ИСП-а из САД; други - са погрешним постављањем самих ЦФ-а, што је погодило све који користе ЦФ , а то су многе запажене услуге) и нестабилан рад Фацебоок ЦДН инфраструктуре (утицао на све ФБ производе, укључујући Инстаграм и ВхатсАпп). И ми смо морали да потпаднемо под дистрибуцију, иако је наш испад био много мање приметан на глобалној позадини. Неко је већ почео да увлачи црне хеликоптере и „суверене“ завере, па објављујемо јавну обдукцију нашег инцидента.

Хабр обдукциони извештај: пао је на новине

КСНУМКС, КСНУМКС: КСНУМКС
Почели су да се бележе проблеми са ресурсима, слично квару интерне мрежне везе. Пошто нису све у потпуности проверили, почели су да праве грешке у перформансама екстерног канала према ДатаЛине-у, пошто је постало јасно да је проблем у приступу интерне мреже Интернету (НАТ), до те мере да се БГП сесија доведе до ДатаЛине.

КСНУМКС, КСНУМКС: КСНУМКС
Постало је очигледно да је опрема која омогућава превођење мрежних адреса и приступ са локалне мреже сајта на Интернет (НАТ) отказала. Покушаји поновног покретања опреме нису довели до ничега, потрага за алтернативним опцијама за организовање повезивања почела је пре него што је добила одговор од техничке подршке, јер из искуства то највероватније не би помогло.

Проблем је донекле погоршала чињеница да је ова опрема такође прекинула долазне везе клијената ВПН запослених, а даљински опоравак је постао тежи за извођење.

КСНУМКС, КСНУМКС: КСНУМКС
Покушали смо да оживимо претходно постојећу резервну НАТ шему која је раније добро функционисала. Али постало је јасно да су бројна реновирања мреже учинила ову шему готово потпуно нефункционалном, јер би њена рестаурација могла, у најбољем случају, не радити, или, у најгорем, покварити оно што је већ функционисало.

Почели смо да радимо на неколико идеја за пребацивање саобраћаја на сет нових рутера који служе кичми, али су се чиниле неизводљивим због посебности дистрибуције рута у језгро мреже.

КСНУМКС, КСНУМКС: КСНУМКС
Истовремено, идентификован је проблем у механизму за решавање имена на серверима имена, што је довело до грешака у решавању крајњих тачака у апликацијама, а они су почели да брзо пуне хост фајлове записима критичних сервиса.

КСНУМКС, КСНУМКС: КСНУМКС
Ограничена функционалност Хабра је враћена.

КСНУМКС, КСНУМКС: КСНУМКС
Али на крају је пронађено релативно безбедно решење за организовање саобраћаја преко једног од граничних рутера, који је брзо постављен. Интернет веза је обновљена.

У наредних неколико минута стигло је много обавештења од система за праћење о обнављању функционалности агената за праћење, али се показало да су неке услуге нефункционалне јер је механизам за решавање имена на серверима имена (днс) покварен.

Хабр обдукциони извештај: пао је на новине

КСНУМКС, КСНУМКС: КСНУМКС
НС је поново покренут и кеш је обрисан. Решавање је враћено.

КСНУМКС, КСНУМКС: КСНУМКС
Сви сервиси су почели да раде осим МК-а, Фреелансима и Тостера.

КСНУМКС, КСНУМКС: КСНУМКС
МК и Фреелансим су почели да раде.

КСНУМКС, КСНУМКС: КСНУМКС
Вратио невину БГП сесију са ДатаЛине-ом.

КСНУМКС, КСНУМКС: КСНУМКС
Почели су да бележе проблеме са ресурсима, што је настало због промене екстерне адресе НАТ пула и његовог одсуства у ацл-у низа услуга, што је промптно исправљено. Тостер је одмах почео да ради.

КСНУМКС, КСНУМКС: КСНУМКС
Приметили смо грешке везане за Телеграм ботове. Испоставило се да су заборавили да региструју екстерну адресу у пар ацл (прокси сервера), што је одмах исправљено.

Хабр обдукциони извештај: пао је на новине

Налази

  • Опрема, која је раније сејала сумње у њену подобност, отказала је. Било је планова да се елиминише из рада, јер је ометао развој мреже и имао проблема са компатибилношћу, али је истовремено обављао критичну функцију, због чега је свака замена била технички тешка без прекида услуга. Сада можете да идете даље.
  • Проблем са ДНС-ом се може избећи тако што ћете их преместити ближе новој окосној мрежи ван НАТ мреже и даље уз пуну повезаност са сивом мрежом без превода (што је био план пре инцидента).
  • Не би требало да користите имена домена приликом састављања РДБМС кластера, јер погодност транспарентне промене ИП адресе није посебно потребна, јер такве манипулације и даље захтевају поновну изградњу кластера. Овакву одлуку диктирали су историјски разлози и, пре свега, очигледност имена крајњих тачака у РДБМС конфигурацијама. Генерално, класична замка.
  • У принципу, спроведене су вежбе које се могу поредити са „суверенизацијом Рунета“ у смислу јачања способности аутономног опстанка.

Извор: ввв.хабр.цом

Додај коментар