Эмне үчүн банкка AIOps жана кол чатырдын мониторинги керек, же кардарлардын мамилелери эмнеге негизделген?

Habréдеги басылмаларда мен өзүмдүн командам менен өнөктөштүк мамилелерди түзүү тажрыйбам жөнүндө жазганмын (бул жерде бизнес ыдырап кетпеши үчүн жаңы бизнести баштоодо өнөктөштүк келишимин кантип түзүү керектиги жөнүндө сөз кылат). Эми мен кардарлар менен өнөктөштүк мамилелерди кантип куруу керектиги жөнүндө айткым келет, анткени аларсыз ыдырай турган эч нерсе болбойт. Бул макала өз продукциясын ири бизнеске сата баштаган стартаптар үчүн пайдалуу болот деп ишенем.

Учурда мен MONQ Digital лабораториясы деп аталган стартапты жетектеп жатам, анда менин командам менен мен корпоративдик ITти колдоо жана иштетүү процесстерин автоматташтыруу үчүн продуктуну иштеп жатабыз. Рынокко чыгуу оңой иш эмес жана биз бир аз үй тапшырмасы менен баштадык, рыноктун эксперттерин, өнөктөштөрүбүздү карап чыктык жана рынокту сегментациялоону жүргүздүк. Негизги суроо "кимдин дартын мыкты айыктыра алабыз?"

Банктар ТОП 3 сегментке кирди. Анан, албетте, тизмеде биринчи Tinkoff жана Сбербанк болду. Банк рыногунун адистерине барганыбызда, алар: ошол жакка товарыңды киргиз, банк рыногуна жол ачылат дешти. Биз ал жакка да, ал жакка да кирүүгө аракет кылдык, бирок Сбербанкта бизди ийгиликсиздик күтүп турду, ал эми Tinkoff жигиттери орус стартаптары менен жемиштүү баарлашууга бир топ ачык болуп чыгышты (балким ошол кезде Сбер болгонуна байланыштуу болушу мүмкүн). сатып алды Батыштагы атаандаштарыбыздын дээрлик бир миллиарды). Бир айдын ичинде пилоттук долбоорду баштадык. Бул кантип болду, окуңуз.

Биз көп жылдардан бери эксплуатациялоо жана мониторинг жүргүзүү маселелери менен алектенип келе жатабыз, азыр биз өз продукциябызды мамлекеттик сектордо, камсыздандырууда, банктарда, телекоммуникациялык компанияларда ишке ашырып жатабыз, бир ишке ашыруу авиакомпания менен болгон (долбоорго чейин, биз да жок болчубуз. авиация ушунчалык IT-көз каранды тармак болгон деп ойлойм, эми биз чындап эле COVIDге карабастан, компания пайда болуп, көтөрүлөт деп үмүттөнөбүз).

Биз чыгарган продукт ишкананын программалык камсыздоосуна, AIOps (IT операциялары үчүн жасалма интеллект же ITOps) сегментине таандык. Компанияда процесстин жетилгендик деңгээли сыяктуу системаларды ишке ашыруунун негизги максаттары:

  1. Өрттү өчүрүү: бузулууларды аныктоо, эскертүүлөрдүн агымын таштандылардан тазалоо, жооптууларга тапшырмаларды жана инциденттерди тапшыруу;
  2. IT сервисинин эффективдүүлүгүн жогорулатуу: инциденттерди чечүү үчүн убакытты кыскартуу, бузулуулардын себептерин көрсөтүү, IT статусунун ачыктыгын жогорулатуу;
  3. Бизнестин натыйжалуулугун жогорулатуу: кол эмгегинин көлөмүн азайтуу, тобокелдиктерди азайтуу, кардарлардын лоялдуулугун жогорулатуу.

Биздин тажрыйбабыз боюнча, банктар бардык ири IT инфраструктуралары менен бирдей мониторинг жүргүзүү менен төмөнкүдөй "ооруларга" ээ:

  • "ким билет": көптөгөн техникалык бөлүмдөр бар, дээрлик бардыгында жок дегенде бир мониторинг системасы бар, ал эми көпчүлүгү бирден көп;
  • "чиркейлердин үйүрү" эскертүүлөр: ар бир система жүздөгөндөрдү жаратат жана алар менен жооптуулардын баарын бомбалайт (кээде бөлүмдөрдүн ортосунда да). Ар бир билдирүүгө көзөмөлдүн багытын дайыма кармап туруу кыйынга турат, алардын актуалдуулугу жана маанилүүлүгү көп болгондуктан;
  • ири банктар - сектор лидерлери өз тутумдарын тынымсыз көзөмөлдөп, кайсы жерде мүчүлүштүктөр бар экенин билүүнү гана эмес, ошондой эле AIнын чыныгы сыйкырын - системаларды өзүн өзү көзөмөлдөп, өзүн-өзү алдын ала жана өзүн өзү оңдоп турууну каалашат.

Тинкоффдогу биринчи жолугушууга келгенде, бизге дароо эле алардын мониторингде эч кандай көйгөйлөрү жок экенин жана аларга эч нерсе зыян келтирбегенин айтышты жана негизги суроо: "Ансыз деле жакшы иштеп жаткандарга эмне сунуштай алабыз?"

Сүйлөшүү узакка созулду, биз алардын микросервистери кантип курулганын, бөлүмдөр кандай иштээрин, кайсы инфраструктуранын көйгөйлөрү сезгичтигин, колдонуучулар үчүн кайсынысын сезгичтигин, “сокур тактар” кайда жана алардын максаттары жана SLAлары кандай экенин талкууладык.

Айтмакчы, банктын SLAs чынында эле таасирдүү. Мисалы, артыкчылыктуу 1 тармактын жеткиликтүүлүгү инцидентти чечүү үчүн бир нече мүнөт гана талап кылынышы мүмкүн. Бул жерде ката жана токтоп калуу баасы, албетте, таасирдүү.

Жыйынтыгында биз кызматташуунун бир нече багыттарын аныктадык:

  1. биринчи этап - инциденттерди чечүү ылдамдыгын жогорулатуу үчүн чатырдын мониторинги
  2. экинчи этап - тобокелдиктерди азайтуу жана IT бөлүмүн масштабдоо үчүн чыгымдарды азайтуу үчүн процесстерди автоматташтыруу.

Бир нече “ак тактарды” эскертүүлөрдүн ачык түстөрүнө бир нече мониторинг тутумдарынын маалыматын иштетүү аркылуу боёсо болот, анткени метрикаларды түздөн-түз алуу мүмкүн эмес болчу, ошондой эле ар кандай мониторинг системаларынан маалыматтарды иреттүү түрдө “бир экранга” борборлоштуруу зарыл болгон; эмне болуп жатканын жалпы сүрөттү түшүнүү үчүн. Бул милдетти аткарууга “кол чатырлар” ылайыктуу жана биз анда бул талаптарды аткарганбыз.

Абдан маанилүү нерсе, биздин оюбузча, кардарлар менен болгон мамиледе чынчылдык болуп саналат. Биринчи сүйлөшүүдөн жана лицензиянын баасын эсептеп чыккандан кийин, баасы өтө төмөн болгондуктан, лицензияны дароо сатып алганга арзыйт (жашыл банк жөнүндө жогорудагы макаладагы Dynatrace Klyuch-Astrom менен салыштырганда, биздин лицензиянын баасы миллиарддын үчтөн бири эмес, айына 12 миң рубль, 1 гигабайт үчүн, Сбер үчүн бул бир нече эсе арзан болот). Бирок биз дароо эле бизде эмне бар, эмне жок экенин айттык. Балким, ири интегратордун сатуу өкүлү "ооба, биз бардыгын жасай алабыз, албетте лицензиябызды сатып алабыз" деп айтышы мүмкүн, бирок биз бардык карталарыбызды столдун үстүнө коюуну чечтик. Ишке чыгаруу учурунда биздин кутубузда Prometheus менен интеграция болгон эмес жана автоматташтыруу подсистемасы менен жаңы версиясы чыга турган болду, бирок биз аны кардарларга жөнөтө элекпиз.

Пилоттук долбоор башталып, анын чек аралары аныкталып, бизге 2 ай убакыт берилди. Негизги милдеттер:

  • платформанын жаңы версиясын даярдоо жана аны банктын инфраструктурасына жайылтуу
  • 2 мониторинг системасын туташтыруу (Zabbix жана Prometheus);
  • Slack жана SMS аркылуу жооптуу адамдарга билдирүү жөнөтүү;
  • autohealing скрипттерин иштетүү.

Пилоттук долбоордун биринчи айы пилоттук долбоордун муктаждыктары үчүн супер-тез режимде платформанын жаңы версиясын даярдоого жумшалды. Жаңы версия дароо Prometheus менен интеграцияны жана авто-айыктыруучуну камтыйт. Биздин иштеп чыгуу тобубузга рахмат, алар бир нече түн укташкан жок, бирок мурда кабыл алынган башка милдеттенмелердин мөөнөтүн өткөрүп жибербестен, убада кылгандарын чыгарышты.

Пилотту орнотуп жатканда, биз долбоорду мөөнөтүнөн мурда жаап салышы мүмкүн болгон жаңы көйгөйгө туш болдук: эскертүүлөрдү тез мессенджерлерге жана SMS аркылуу жөнөтүү үчүн, бизге Microsoft Azure серверлерине кирүүчү жана чыгуучу туташуулар керек болчу (ошол учурда биз бул платформаны колдонгонбуз. Slack) жана тышкы жөнөтүү кызматы SMS жөнөтүү үчүн. Бирок бул долбоордо коопсуздукка өзгөчө көңүл бурулган. Банктын саясатына ылайык, мындай “тешиктерди” эч кандай шартта ачуу мүмкүн эмес. Баары жабык циклден иштеши керек болчу. Бизге Slack жана SMS аркылуу эскертүүлөрдү жөнөтүүчү ички кызматтарыбыздын API'син колдонуу сунушталды, бирок бизде мындай кызматтарды кутудан тышкары туташтыруу мүмкүнчүлүгү болгон жок.

Иштеп чыгуучу топ менен болгон дискуссия кечинде чечимди ийгиликтүү издөө менен аяктады. Артта калган иштерди карап чыгып, бизде эч качан жетиштүү убакыт жана артыкчылык болбогон бир тапшырманы таптык - плагин системасын түзүү, ошону менен ишке ашыруу топтору же кардар платформанын мүмкүнчүлүктөрүн кеңейтип, кошумчаларды өздөрү жаза алышат.

Бирок бизде туура бир ай калды, анын ичинде баарын орнотуп, конфигурациялап, автоматташтырууга туура келди.

Биздин башкы архитектор Сергейдин айтымында, плагин системасын ишке киргизүү үчүн кеминде бир ай керек.

Бизде убакыт жок болчу...

Бир гана чечим бар болчу - кардарга барып, баарын кандай болсо, ошондой айтып бер. Белгиленген мөөнөттү чогуу талкуулагыла. Жана ал иштеген. Бизге кошумча 2 жума убакыт берилди. Алардын да өз мөөнөттөрү жана натыйжаларды көрсөтүү үчүн ички милдеттенмелери бар болчу, бирок аларда 2 резервдик жума бар болчу. Акыр-аягы, биз бардыгын катарга койдук. Баш аламандык кылуу мүмкүн эмес болчу. Чынчылдык жана өнөктөштүк мамиле кайрадан өз натыйжасын берди.

Пилоттук жүргүзүүнүн натыйжасында бир нече маанилүү техникалык натыйжалар жана корутундулар алынды:

Биз эскертүүлөрдү иштетүү үчүн жаңы функцияны сынап көрдүк

Жайгаштырылган система Прометейден эскертүүлөрдү туура кабыл алып, аларды топтой баштады. Prometheus кардарынан көйгөй боюнча эскертүүлөр ар бир 30 секунд сайын учуп турду (убакыт боюнча топтоо иштетилген эмес) жана биз аларды "кол чатырдын" өзүндө топтоого болобу деп ойлонуп жаттык. Бул мүмкүн экени белгилүү болду - платформада эскертүүлөрдү иштетүү скрипт аркылуу ишке ашырылат. Бул аларды иштетүү үчүн дээрлик бардык логиканы ишке ашырууга мүмкүндүк берет. Биз платформада стандарттык логиканы калыптар түрүндө ишке ашырганбыз - эгер сиз өзүңүздүн бир нерсеңизди ойлоп тапкыңыз келбесе, даярды колдонсоңуз болот.

Эмне үчүн банкка AIOps жана кол чатырдын мониторинги керек, же кардарлардын мамилелери эмнеге негизделген?

"Синтетикалык триггер" интерфейси. Туташкан мониторинг системаларынан эскертүүлөрдү иштетүүнү орнотуу

системасынын "саламаттык" абалы курулган

Эскертүүлөрдүн негизинде конфигурация бөлүмдөрүнүн (БС) ден соолугуна таасирин тийгизген мониторинг окуялары түзүлдү. Биз ресурстук-сервис моделин (RSM) ишке ашырып жатабыз, ал ички CMDBди колдоно алат же сырткысын туташтыра алат - пилоттук долбоордун жүрүшүндө кардар өзүнүн CMDBди туташтырган эмес.

Эмне үчүн банкка AIOps жана кол чатырдын мониторинги керек, же кардарлардын мамилелери эмнеге негизделген?

Ресурстук-сервис модели менен иштөө үчүн интерфейс. Пилот RSM.

Ооба, чындыгында, кардар акыры бир мониторинг экраны бар, анда ар кандай системалардагы окуялар көрүнүп турат. Учурда "кол чатырга" эки система туташтырылган - Zabbix жана Prometheus жана платформанын ички мониторинг системасы.

Эмне үчүн банкка AIOps жана кол чатырдын мониторинги керек, же кардарлардын мамилелери эмнеге негизделген?

Аналитика интерфейси. Бирдиктүү мониторинг экраны.

Процесстерди автоматташтыруу ишке киргизилди

Окуяларды көзөмөлдөө алдын ала конфигурацияланган аракеттерди ишке киргизүүгө түрткү берди - эскертүүлөрдү жөнөтүү, скрипттерди иштетүү, инциденттерди каттоо/байытуу - акыркысы бул конкреттүү кардар менен аракет кылынган эмес, анткени пилоттук долбоордо тейлөө кызматы менен интеграция болгон эмес.

Эмне үчүн банкка AIOps жана кол чатырдын мониторинги керек, же кардарлардын мамилелери эмнеге негизделген?

Аракет орнотуулары интерфейси. Slack'ке эскертүүлөрдү жөнөтүңүз жана серверди өчүрүп күйгүзүңүз.

Кеңейтилген продукт функциялары

Автоматташтыруу скрипттерин талкуулоодо кардар bash колдоосун жана бул скрипттерди ыңгайлуу конфигурациялоого мүмкүн болгон интерфейсти сурады. Жаңы версия бир аз көбүрөөк иш жасады (cURL, SSH жана SNMP колдоосу менен Луада толук кандуу логикалык конструкцияларды жазуу мүмкүнчүлүгү) жана скрипттин жашоо циклин башкарууга мүмкүндүк берген функцияны ишке ашырды (түзүү, түзөтүү, версияны башкаруу , жок кылуу жана архивдөө).

Эмне үчүн банкка AIOps жана кол чатырдын мониторинги керек, же кардарлардын мамилелери эмнеге негизделген?

Autohealing скрипттери менен иштөө үчүн интерфейс. SSH аркылуу серверди кайра жүктөө скрипти.

негизги

Пилоттук мезгилде колдонуучу окуялары да түзүлгөн, алар учурдагы функцияларды жакшыртат жана кардар үчүн баалуулуктарды жогорулатат, бул жерде алардын айрымдары:

  • өзгөрмөлөрдү эскертүүдөн түздөн-түз авто айыктыруу скриптине жөнөтүү мүмкүнчүлүгүн ишке ашыруу;
  • Active Directory аркылуу платформага авторизацияны кошуңуз.

Жана биз дагы глобалдык кыйынчылыктарды алдык - продуктуну башка мүмкүнчүлүктөр менен "куруу":

  • эрежелерге жана агенттерге эмес, MLге негизделген ресурстук-кызмат моделин автоматтык түрдө куруу (азыр негизги маселе болсо керек);
  • кошумча скрипт жана логикалык тилдерди колдоо (жана бул JavaScript болот).

Менин көз карашымда, эң башкысыБул пилоттук эки нерсени көрсөтүп турат:

  1. Кардар менен өнөктөштүк эффективдүүлүктүн ачкычы болуп саналат, анда эффективдүү баарлашуу чынчылдыктын жана ачыктыктын негизинде курулуп, кардар кыска убакыттын ичинде олуттуу натыйжаларга жетишкен команданын бир бөлүгү болуп калат.
  2. Эч кандай шартта "ыңгайлаштыруу" жана "балдактарды" куруу зарыл эмес - бир гана системалык чечимдер. Бир аз көбүрөөк убакыт коротконуңуз жакшы, бирок башка кардарлар колдоно турган системалык чечимди жасаңыз. Айтмакчы, бул эмне болду, плагин системасы жана Azureден көз карандылыкты жоюу башка кардарларга кошумча маани берди (салам, Федералдык Мыйзам 152).

Source: www.habr.com

Комментарий кошуу