Хабр үхлийн дараах тайлан: энэ нь сонин дээр унав

2019 оны зуны эхний сарын сүүл ба хоёр дахь сарын эхэн үе хүнд хэцүү болж, дэлхийн мэдээллийн технологийн үйлчилгээ хэд хэдэн томоохон уналтаар тэмдэглэгдсэн. CloudFlare-ийн дэд бүтцэд гарсан хоёр ноцтой осол (эхнийх нь АНУ-ын зарим ISP-ийн BGP-д хайхрамжгүй хандсан, муруй гар, хоёр дахь нь CF-ийг буруу байрлуулсан нь CF ашигладаг бүх хүмүүст нөлөөлсөн) юм. , эдгээр нь олон алдартай үйлчилгээ юм) болон Facebook-ийн CDN дэд бүтцийн тогтворгүй ажиллагаа (Instagram болон WhatsApp зэрэг FB-ийн бүх бүтээгдэхүүнд нөлөөлсөн). Хэдийгээр дэлхийн хэмжээнд бидний тасалдал мэдэгдэхүйц бага байсан ч бид түгээлтийн ажилд орох хэрэгтэй болсон. Хэн нэгэн хар нисдэг тэрэг, "тус эрхт" хуйвалдааныг аль хэдийн чирж эхэлсэн тул бид үйл явдлынхаа үхлийн хуудсыг олон нийтэд дэлгэж байна.

Хабр үхлийн дараах тайлан: энэ нь сонин дээр унав

03.07.2019, 16: 05
Дотоод сүлжээний холболтын эвдрэлтэй адил нөөцтэй холбоотой асуудлууд бүртгэгдэж эхлэв. Бүх зүйлийг бүрэн шалгаагүй тул тэд DataLine руу чиглэсэн гадаад сувгийн гүйцэтгэлд алдаа гаргаж эхлэв, учир нь асуудал нь дотоод сүлжээний Интернэт (NAT) хандалтаас болж, BGP сессийг DataLine руу шилжүүлэх хүртэл байгаа нь тодорхой болсон.

03.07.2019, 16: 35
Сүлжээний хаягийн орчуулга, сайтын дотоод сүлжээнээс Интернет (NAT) руу нэвтрэх төхөөрөмж бүтэлгүйтсэн нь тодорхой болов. Тоног төхөөрөмжийг дахин ачаалах оролдлого нь ямар ч үр дүнд хүргэсэнгүй, холболтыг зохион байгуулах өөр хувилбаруудыг хайж олох нь техникийн дэмжлэгээс хариу авахаас өмнө эхэлсэн, учир нь туршлагаас харахад энэ нь тус болохгүй байх байсан.

Энэхүү төхөөрөмж нь үйлчлүүлэгчийн VPN-ийн ажилтнуудын ирж буй холболтыг зогсоож, алсаас сэргээх ажлыг гүйцэтгэхэд илүү хэцүү болсон тул асуудлыг улам хүндрүүлсэн.

03.07.2019, 16: 40
Бид өмнө нь сайн ажиллаж байсан нөөц NAT схемийг сэргээхийг оролдсон. Гэхдээ хэд хэдэн сүлжээний засварын ажил нь энэ схемийг бараг бүрэн ажиллагаагүй болгосон нь тодорхой болсон, учир нь түүнийг сэргээн засварлах нь хамгийн сайндаа ажиллахгүй, эсвэл хамгийн муу нь аль хэдийн ажиллаж байсан зүйлийг эвдэж болзошгүй юм.

Бид траффикийг үндсэн сүлжээнд үйлчилдэг шинэ чиглүүлэгчид шилжүүлэх хэд хэдэн санаан дээр ажиллаж эхэлсэн боловч үндсэн сүлжээн дэх маршрутын хуваарилалтын онцлогоос шалтгаалан тэдгээр нь хэрэгжих боломжгүй мэт санагдсан.

03.07.2019, 17: 05
Үүний зэрэгцээ нэрийн серверүүд дээрх нэр шийдвэрлэх механизмд асуудал илэрсэн бөгөөд энэ нь програмуудын төгсгөлийн цэгүүдийг шийдвэрлэхэд алдаа гарсан бөгөөд тэд чухал үйлчилгээний бүртгэлээр хост файлуудыг хурдан дүүргэж эхлэв.

03.07.2019, 17: 27
Хабрын хязгаарлагдмал ажиллагаа сэргээгдсэн.

03.07.2019, 17: 43
Гэвч эцэст нь хилийн чиглүүлэгчдийн аль нэгээр дамжуулан хөдөлгөөнийг зохион байгуулах харьцангуй аюулгүй шийдлийг олж, хурдан суулгасан. Интернет холболт сэргээгдсэн.

Дараагийн хэдэн минутын турш хяналтын системээс хяналтын агентуудын ажиллагааг сэргээх тухай олон мэдэгдэл ирсэн боловч нэрийн сервер (dns) дээрх нэрийг шийдвэрлэх механизм эвдэрсэн тул зарим үйлчилгээ ажиллахгүй болсон.

Хабр үхлийн дараах тайлан: энэ нь сонин дээр унав

03.07.2019, 17: 52
NS-г дахин эхлүүлж, кэшийг цэвэрлэв. Шийдвэрлэлт сэргээгдсэн.

03.07.2019, 17: 55
MK, Freelansim, Toaster-аас бусад бүх үйлчилгээ ажиллаж эхэлсэн.

03.07.2019, 18: 02
MK болон Freelansim нар ажиллаж эхэлсэн.

03.07.2019, 18: 07
DataLine ашиглан гэмгүй BGP сессийг эргүүлэн авчир.

03.07.2019, 18: 25
Тэд нөөцтэй холбоотой асуудлуудыг бүртгэж эхэлсэн бөгөөд энэ нь NAT сангийн гадаад хаяг өөрчлөгдсөнтэй холбоотой бөгөөд олон тооны үйлчилгээний acl-д байхгүй байсантай холбоотой бөгөөд үүнийг цаг алдалгүй зассан. Шарсан талх тэр даруй ажиллаж эхлэв.

03.07.2019, 20: 30
Бид Telegram роботтой холбоотой алдаануудыг анзаарсан. Тэд гадаад хаягийг хэд хэдэн acl (прокси сервер) -д бүртгүүлэхээ мартсан байсан бөгөөд үүнийг даруй зассан байна.

Хабр үхлийн дараах тайлан: энэ нь сонин дээр унав

үр дүн нь

  • Тохиромжтой эсэхэд нь эргэлзэж байсан тоног төхөөрөмж бүтэлгүйтсэн. Сүлжээний хөгжилд саад учруулж, нийцтэй байдлын асуудалтай байсан тул үүнийг ажлаас нь хасах төлөвлөгөөтэй байсан боловч үүнтэй зэрэгцэн чухал үүрэг гүйцэтгэдэг байсан тул үйлчилгээгээ тасалдуулахгүйгээр аливаа орлуулалт нь техникийн хувьд хэцүү байсан. Одоо та цаашаа явж болно.
  • Тэдгээрийг NAT сүлжээнээс гадуурх шинэ үндсэн сүлжээнд ойртуулах замаар DNS-ийн асуудлаас зайлсхийх боломжтой бөгөөд орчуулгагүйгээр саарал сүлжээнд бүрэн холбогдох боломжтой хэвээр байна (энэ нь хэрэг гарахаас өмнө төлөвлөж байсан).
  • RDBMS кластеруудыг угсрахдаа домэйн нэрийг ашиглах ёсгүй, учир нь IP хаягийг ил тод өөрчлөх нь тийм ч чухал биш, учир нь ийм заль мэх нь кластерыг дахин бүтээх шаардлагатай хэвээр байна. Энэхүү шийдвэрийг түүхэн шалтгаанаар, юуны түрүүнд RDBMS-ийн тохиргоонд эцсийн цэгүүдийн нэрээр тодорхой зааж өгсөн. Ерөнхийдөө сонгодог урхи.
  • Зарчмын хувьд "Рунетийн бүрэн эрхт байдал" -тай харьцуулах дасгалууд хийгдсэн бөгөөд бие даасан оршин тогтнох чадварыг бэхжүүлэх талаар бодох зүйл бий.

Эх сурвалж: www.habr.com

сэтгэгдэл нэмэх