Банк яагаад AIOps болон шүхэр хяналт хэрэгтэй вэ, эсвэл харилцагчийн харилцаа юунд тулгуурладаг вэ?

Хабре дээрх нийтлэлүүд дээр би багтайгаа түншлэлийн харилцаа тогтоох туршлагаа аль хэдийн бичсэн байсан (энд Бизнесийг задрахгүйн тулд шинэ бизнес эхлүүлэхдээ түншлэлийн гэрээг хэрхэн яаж байгуулах талаар ярьдаг). Одоо би үйлчлүүлэгчидтэй хэрхэн түншлэлийн харилцаа тогтоох талаар ярихыг хүсч байна, учир нь тэдэнгүйгээр нурах зүйл байхгүй. Энэ нийтлэл нь томоохон бизнесүүдэд бүтээгдэхүүнээ борлуулж эхэлж буй гарааны бизнес эрхлэгчдэд хэрэг болно гэж найдаж байна.

Би одоогоор MONQ Digital lab нэртэй стартапыг удирдаж байгаа бөгөөд манай баг хамт олон корпорацийн мэдээллийн технологид дэмжлэг үзүүлэх, ажиллуулах үйл явцыг автоматжуулах бүтээгдэхүүн боловсруулж байна. Зах зээлд нэвтрэх нь тийм ч амар ажил биш бөгөөд бид бага зэрэг гэрийн даалгавар хийж, зах зээлийн мэргэжилтнүүд, түншүүдтэйгээ танилцаж, зах зээлийн сегментчилэл хийсэн. Гол асуулт нь "Бид хэний өвдөлтийг хамгийн сайн эдгээж чадах вэ?" гэдгийг ойлгох явдал байв.

Банкууд ТОП 3 сегментэд багтсан. Мэдээжийн хэрэг, жагсаалтын эхнийх нь Tinkoff болон Sberbank байв. Банкны зах зээлийн мэргэжилтнүүдийг очиход тэнд бүтээгдэхүүнээ танилцуул, тэгвэл банкны зах зээлд гарах зам нээлттэй болно гэсэн. Бид тэнд ч, тэнд ч орох гэж оролдсон боловч Сбербанк дээр бүтэлгүйтэл биднийг хүлээж байсан бөгөөд Тинкоффын залуус Оросын стартапуудтай үр бүтээлтэй харилцахад илүү нээлттэй болсон (магадгүй тэр үед Сбер байсантай холбоотой байж магадгүй юм). худалдаж авсан манай барууны өрсөлдөгчдийн бараг тэрбум). Сарын дотор бид туршилтын төслийг эхлүүлсэн. Энэ нь яаж болсныг уншина уу.

Бид олон жилийн турш үйл ажиллагаа, хяналтын асуудалтай тулгарсан, одоо бид бүтээгдэхүүнээ төрийн салбарт, даатгалд, банкуудад, харилцаа холбооны компаниудад нэвтрүүлж байна, нэг хэрэгжилт нь агаарын тээврийн компанитай (төсөл хэрэгжихээс өмнө бид бүр байгаагүй. Нисэх нь мэдээллийн технологиос хамааралтай салбар байсан гэж бодож байгаа бөгөөд одоо бид COVID-ийг үл харгалзан компани гарч ирж, хөөрнө гэж найдаж байна).

Бидний үйлдвэрлэсэн бүтээгдэхүүн нь байгууллагын программ хангамж, AIOps (IT Operations-д зориулсан хиймэл оюун ухаан, эсвэл ITOps) сегментэд хамаарна. Компанийн үйл явцын төлөвшлийн түвшин нэмэгдэх зэрэг системийг хэрэгжүүлэх гол зорилго нь:

  1. Галыг унтраах: бүтэлгүйтлийг тодорхойлох, дохиоллын урсгалыг хог хаягдлаас цэвэрлэх, хариуцлагатай хүмүүст үүрэг даалгавар өгөх;
  2. Мэдээллийн технологийн үйлчилгээний үр ашгийг нэмэгдүүлэх: ослыг шийдвэрлэх хугацааг багасгах, бүтэлгүйтлийн шалтгааныг зааж өгөх, мэдээллийн технологийн статусын ил тод байдлыг нэмэгдүүлэх;
  3. Бизнесийн үр ашгийг нэмэгдүүлэх: гар хөдөлмөрийн хэмжээг бууруулж, эрсдлийг бууруулж, үйлчлүүлэгчдийн үнэнч байдлыг нэмэгдүүлнэ.

Бидний туршлагаас харахад банкууд мэдээллийн технологийн бүхий л томоохон дэд бүтэцтэй адил хяналт тавихад дараах “зовлонтой” байдаг.

  • "хэн юу мэдэх вэ": олон техникийн хэлтэс байдаг, бараг бүх хүн дор хаяж нэг хяналтын системтэй, ихэнх нь нэгээс олон байдаг;
  • "Шумуулын сүрэг" сэрэмжлүүлэг: систем бүр хэдэн зууг үүсгэж, тэдгээртэй холбоотой бүх хариуцлагатай хүмүүсийг (заримдаа хэлтэс хооронд) бөмбөгддөг. Мэдэгдэл бүрт хяналт тавих нь хэцүү байдаг, олон тооны тул тэдний яаралтай байдал, ач холбогдол нь жигд байдаг;
  • Томоохон банкууд - салбарын тэргүүлэгчид өөрсдийн системээ тасралтгүй хянаж, хаана доголдол байгааг мэдэхийг хүсдэг төдийгүй хиймэл оюун ухааны жинхэнэ ид шид - системийг өөрөө хянаж, өөрийгөө урьдчилан таамаглаж, өөрийгөө засч залруулахыг хүсдэг.

Биднийг Тинкофф дахь анхны уулзалтад ирэхэд тэдэнд хяналт тавихад ямар ч асуудал байхгүй, тэдэнд юу ч нөлөөлөөгүй гэж тэр даруй хэлсэн бөгөөд гол асуулт нь "Аль хэдийнэ сайн байгаа хүмүүст юу санал болгож чадах вэ?"

Ярилцлага удаан үргэлжилсэн бөгөөд бид тэдний бичил үйлчилгээ хэрхэн бүтээгдсэн, хэлтэсүүд хэрхэн ажилладаг, ямар дэд бүтцийн асуудал илүү мэдрэмтгий, аль нь хэрэглэгчдэд бага мэдрэмтгий байдаг, "хар толбо" хаана байдаг, тэдний зорилго, SLA-ууд юу болох талаар ярилцав.

Дашрамд хэлэхэд, банкны SLA-ууд үнэхээр гайхалтай юм. Жишээлбэл, нэн тэргүүнд тавигдах XNUMX сүлжээний боломжит тохиолдлыг шийдвэрлэхэд хэдхэн минут зарцуулагдана. Энд алдаа, сул зогсолтын өртөг нь мэдээжийн хэрэг гайхалтай юм.

Үүний үр дүнд бид хамтын ажиллагааны хэд хэдэн чиглэлийг тодорхойлсон.

  1. Эхний шат бол ослыг шийдвэрлэх хурдыг нэмэгдүүлэхийн тулд шүхэр хяналт юм
  2. Хоёрдахь шат бол эрсдэлийг бууруулах, мэдээллийн технологийн хэлтсийн өргөтгөлийн зардлыг бууруулах процессын автоматжуулалт юм.

Хэд хэдэн хяналтын системүүдийн мэдээллийг боловсруулах замаар хэд хэдэн "цагаан толбо"-ыг тод өнгөөр ​​будаж болно, учир нь хэмжигдэхүүнийг шууд авах боломжгүй байсан бөгөөд өөр өөр хяналтын системүүдийн өгөгдлийг "нэг дэлгэц" дээр төвлөрүүлэх шаардлагатай байв. юу болж байгааг ерөнхийд нь ойлгохын тулд. "Шүхэр" нь энэ ажилд тохиромжтой бөгөөд бид эдгээр шаардлагыг хангасан.

Бидний бодлоор үйлчлүүлэгчидтэй харилцах маш чухал зүйл бол үнэнч шударга байх явдал юм. Анхны яриа хэлэлцээ хийж, лицензийн үнийг тооцоолсны дараа зардал нь маш бага байгаа тул шууд лиценз худалдаж авах нь зүйтэй болов уу гэж хэлсэн (Динатрас Ключ-Астром дээрх ногоон банкны тухай нийтлэлээс манай лицензийн үнэ тэрбумын гуравны нэг биш, харин 12 гигабайтын хувьд сард 1 мянган рубль байдаг, Сберийн хувьд энэ нь хэд дахин хямд байх болно). Гэхдээ бид тэдэнд юу байгаа, юу байхгүй гэж тэр даруй хэлсэн. Магадгүй томоохон интеграторын худалдааны төлөөлөгч "Тийм ээ, бид бүгдийг хийж чадна, мэдээж лицензээ худалдаж аваарай" гэж хэлж болох ч бид бүх картаа ширээн дээр тавихаар шийдсэн. Эхлэх үед манай хайрцаг Prometheus-тай интеграцчлаагүй байсан бөгөөд автоматжуулалтын дэд систем бүхий шинэ хувилбар гарах гэж байсан ч бид үүнийг хараахан хэрэглэгчдэд хүргээгүй байна.

Туршилтын ажил эхэлж, хил хязгаарыг нь тогтоож, бидэнд 2 сарын хугацаа өгсөн. Гол ажлууд нь:

  • платформын шинэ хувилбарыг бэлтгэж, банкны дэд бүтцэд байршуулна
  • 2 хяналтын системийг холбох (Заббикс ба Прометей);
  • Slack болон SMS-ээр хариуцлагатай хүмүүст мэдэгдэл илгээх;
  • autohealing скриптүүдийг ажиллуулах.

Туршилтын төслийн эхний сарыг туршилтын төслийн хэрэгцээнд зориулан платформын шинэ хувилбарыг супер хурдан горимд бэлтгэхэд зарцуулсан. Шинэ хувилбар нь нэн даруй Prometheus-тай нэгтгэх, автоматаар эдгээх үйлчилгээтэй. Манай хөгжүүлэлтийн багийн ачаар тэд хэд хэдэн шөнө унтаагүй ч амласан зүйлээ өмнө нь амласан бусад амлалтыг алдалгүй гаргасан.

Туршилтыг эхлүүлэх явцад бид төслийг хугацаанаас нь өмнө хаах шинэ асуудалтай тулгарсан: шуурхай мессенжер болон SMS-ээр сэрэмжлүүлэг илгээхийн тулд бидэнд Microsoft Azure серверүүд рүү орж ирж буй болон гарах холболт шаардлагатай байсан (тэр үед бид энэ платформыг ашиглаж байсан) Slack руу сэрэмжлүүлэг илгээх) болон гадаад мессеж илгээх үйлчилгээ. Гэхдээ энэ төсөлд аюулгүй байдалд онцгой анхаарал хандуулсан. Банкны бодлогын дагуу ямар ч тохиолдолд ийм “нүх” нээх боломжгүй байсан. Бүх зүйл хаалттай гогцооноос ажиллах ёстой байв. Бидэнд Slack болон SMS-ээр сэрэмжлүүлэг илгээдэг өөрийн дотоод үйлчилгээний API-г ашиглахыг санал болгосон боловч бидэнд ийм үйлчилгээг хайрцагнаас нь холбох боломж байгаагүй.

Хөгжлийн багтай хийсэн нэгэн орой мэтгэлцээн шийдлийг амжилттай хайснаар өндөрлөв. Хоцрогдсон ажлуудыг судалж үзээд бид хэзээ ч хангалттай цаг хугацаа, тэргүүлэх ач холбогдол өгдөггүй нэг ажлыг олсон - хэрэгжүүлэх багууд эсвэл үйлчлүүлэгч өөрөө нэмэлт програм бичиж, платформын чадавхийг өргөжүүлэхийн тулд залгах системийг бий болгох.

Гэхдээ бидэнд яг нэг сарын хугацаа үлдсэн бөгөөд энэ хугацаанд бид бүх зүйлийг суулгаж, автоматжуулалтыг тохируулж, байрлуулах шаардлагатай болсон.

Манай ерөнхий архитектор Сергейгийн хэлснээр залгах системийг хэрэгжүүлэхэд дор хаяж нэг сар шаардлагатай.

Бидэнд цаг байсангүй ...

Зөвхөн нэг шийдэл байсан - үйлчлүүлэгч дээр очиж, бүх зүйлийг байгаагаар нь хэлээрэй. Хугацаа шилжүүлэх талаар хамтдаа ярилц. Тэгээд ч ажилласан. Бидэнд нэмэлт 2 долоо хоног өгсөн. Тэд мөн үр дүнг харуулах өөрийн гэсэн хугацаа, дотоод үүрэг хариуцлагатай байсан ч 2 долоо хоногийн нөөцтэй байсан. Эцэст нь бид бүх зүйлийг шугаманд тавьдаг. Энэ нь замбараагүй байх боломжгүй байсан. Шударга байдал, түншлэлийн хандлага дахин үр дүнгээ өгсөн.

Туршилтын үр дүнд хэд хэдэн чухал техникийн үр дүн, дүгнэлт гарсан.

Бид сэрэмжлүүлэг боловсруулах шинэ функцийг туршиж үзсэн

Оруулсан систем нь Прометейгээс сэрэмжлүүлэг хүлээн авч, тэдгээрийг бүлэглэж эхлэв. Prometheus үйлчлүүлэгчийн асуудлын талаархи дохиолол 30 секунд тутамд нисч байсан (цаг хугацаагаар бүлэглэхийг идэвхжүүлээгүй) бөгөөд бид тэдгээрийг "шүхэр" дотор бүлэглэх боломжтой юу гэж бодож байсан. Энэ нь боломжтой болох нь тогтоогдсон - платформ дахь дохиоллын боловсруулалтыг скриптээр гүйцэтгэдэг. Энэ нь тэдгээрийг боловсруулах бараг бүх логикийг хэрэгжүүлэх боломжийг олгодог. Бид платформ дээр стандарт логикийг загвар хэлбэрээр аль хэдийн хэрэгжүүлсэн - хэрэв та өөрийн гэсэн зүйлийг гаргахыг хүсэхгүй байгаа бол бэлэн логикийг ашиглаж болно.

Банк яагаад AIOps болон шүхэр хяналт хэрэгтэй вэ, эсвэл харилцагчийн харилцаа юунд тулгуурладаг вэ?

"Синтетик гох" интерфейс. Холбогдсон хяналтын системүүдийн дохиоллын боловсруулалтыг тохируулах

Системийн "эрүүл мэндийн" төлөв байдлыг бий болгосон

Сэрэмжлүүлэгт үндэслэн тохиргооны нэгжийн (CUs) эрүүл мэндэд нөлөөлсөн хяналтын үйл явдлуудыг үүсгэсэн. Бид дотоод CMDB-г ашиглах эсвэл гаднахыг холбох боломжтой нөөц үйлчилгээний загварыг (RSM) хэрэгжүүлж байна - туршилтын төслийн явцад үйлчлүүлэгч өөрийн CMDB-г холбосонгүй.

Банк яагаад AIOps болон шүхэр хяналт хэрэгтэй вэ, эсвэл харилцагчийн харилцаа юунд тулгуурладаг вэ?

Нөөцийн үйлчилгээний загвартай ажиллах интерфейс. Нисгэгч RSM.

Үнэн хэрэгтээ үйлчлүүлэгч эцэст нь өөр өөр системүүдийн үйл явдлууд харагдахуйц нэг хяналтын дэлгэцтэй болсон. Одоогийн байдлаар "шүхэр" -д хоёр систем холбогдсон байна - Zabbix болон Prometheus, мөн платформын дотоод хяналтын систем.

Банк яагаад AIOps болон шүхэр хяналт хэрэгтэй вэ, эсвэл харилцагчийн харилцаа юунд тулгуурладаг вэ?

Аналитик интерфейс. Нэг хяналтын дэлгэц.

Процессын автоматжуулалтыг эхлүүлсэн

Үйл явдлыг хянах нь сэрэмжлүүлэг илгээх, скрипт ажиллуулах, тохиолдлуудыг бүртгэх/баяжуулах зэрэг урьдчилан тохируулсан үйлдлүүдийг эхлүүлэхэд хүргэсэн. туршилтын төсөлд үйлчилгээний газартай нэгдээгүй.

Банк яагаад AIOps болон шүхэр хяналт хэрэгтэй вэ, эсвэл харилцагчийн харилцаа юунд тулгуурладаг вэ?

Үйлдлийн тохиргооны интерфейс. Slack руу анхааруулга илгээж, серверийг дахин ачаална уу.

Өргөтгөсөн бүтээгдэхүүний үйл ажиллагаа

Автоматжуулалтын скриптүүдийн талаар ярилцах үед үйлчлүүлэгч bash дэмжлэг болон эдгээр скриптүүдийг хялбархан тохируулах боломжтой интерфейсийг хүссэн. Шинэ хувилбар нь арай илүү зүйлийг хийсэн (cURL, SSH, SNMP-ийн дэмжлэгтэйгээр Луа хэл дээр бүрэн логик бүтцийг бичих чадвар) болон скриптийн амьдралын мөчлөгийг удирдах боломжийг олгодог функцийг хэрэгжүүлсэн (үүсгэх, засварлах, хувилбарыг хянах). , устгах, архивлах).

Банк яагаад AIOps болон шүхэр хяналт хэрэгтэй вэ, эсвэл харилцагчийн харилцаа юунд тулгуурладаг вэ?

Autohealing скриптүүдтэй ажиллах интерфейс. SSH-ээр дамжуулан серверийг дахин ачаалах скрипт.

Гол олдворууд

Туршилтын үеэр одоогийн үйл ажиллагааг сайжруулж, үйлчлүүлэгчийн үнэ цэнийг нэмэгдүүлэх хэрэглэгчийн түүхийг бий болгосон бөгөөд тэдгээрийн заримыг энд дурдав.

  • хувьсагчдыг дохионоос шууд автоматаар сэргээх скрипт рүү дамжуулах чадварыг хэрэгжүүлэх;
  • Active Directory-ээр дамжуулан платформд зөвшөөрөл нэмнэ үү.

Мөн бид илүү олон дэлхийн сорилтуудыг хүлээж авсан - бүтээгдэхүүнээ бусад чадавхиар "бүтээх".

  • дүрэм, агентууд гэхээсээ илүү ML дээр суурилсан нөөц-үйлчилгээний загварыг автоматаар байгуулах (одоогийн гол сорилт байж магадгүй);
  • нэмэлт скрипт болон логик хэлний дэмжлэг (мөн энэ нь JavaScript байх болно).

Миний бодлоор, хамгийн чухал зүйлЭнэ нисгэгч нь хоёр зүйлийг харуулж байна:

  1. Үр дүнтэй харилцаа холбоо нь үнэнч шударга, нээлттэй байх үндсэн дээр бий болж, үйлчлүүлэгч богино хугацаанд мэдэгдэхүйц үр дүнд хүрэх багийн нэг хэсэг болох үед үйлчлүүлэгчтэй түншлэх нь үр дүнтэй байх түлхүүр юм.
  2. Ямар ч тохиолдолд "захиалах", "суга таяг" барих шаардлагагүй - зөвхөн системийн шийдлүүд. Бага зэрэг илүү цаг зарцуулах нь дээр, гэхдээ бусад үйлчлүүлэгчид ашиглах системийн шийдлийг хий. Дашрамд хэлэхэд, ийм зүйл болсон, залгаасуудын систем болон Azure-ийн хамаарлыг арилгах нь бусад үйлчлүүлэгчдэд нэмэлт үнэ цэнийг өгсөн (сайн байна уу, Холбооны хууль 152).

Эх сурвалж: www.habr.com

сэтгэгдэл нэмэх