Me yasa banki ke buƙatar AIOps da saka idanu na laima, ko menene alaƙar abokin ciniki?

A cikin wallafe-wallafen kan Habré, na riga na rubuta game da ƙwarewar gina haɗin gwiwa tare da ƙungiyara (a nan yayi magana game da yadda ake kulla yarjejeniyar haɗin gwiwa lokacin fara sabon kasuwanci don kada kasuwancin ya wargaje). Kuma yanzu ina so in yi magana game da yadda za a gina haɗin gwiwa tare da abokan ciniki, tun da ba tare da su ba babu wani abin da zai rushe. Ina fatan wannan labarin zai kasance da amfani ga masu farawa waɗanda suka fara sayar da samfuran su ga manyan kamfanoni.

A halin yanzu ina kan jagorar farawa mai suna MONQ Digital lab, inda ni da ƙungiyara muke haɓaka samfuri don sarrafa sarrafa hanyoyin tallafawa da sarrafa IT na kamfani. Shiga kasuwa ba abu ne mai sauƙi ba kuma mun fara da ɗan aikin gida, mun bi ta masana kasuwa, abokan hulɗarmu kuma mun gudanar da rarraba kasuwa. Babban tambaya ita ce fahimtar "cututtukan wa za mu iya warkewa mafi kyau?"

Bankunan sun sanya shi cikin sassan TOP 3. Kuma ba shakka, na farko a cikin jerin sune Tinkoff da Sberbank. A lokacin da muka ziyarci kwararru a kasuwar banki, sai suka ce: ku gabatar da kayan ku a can, kuma hanyar kasuwar banki za ta bude. Mun yi ƙoƙari mu shiga duka a can da can, amma rashin nasara yana jiran mu a Sberbank, kuma mutanen Tinkoff sun zama mafi buɗewa ga sadarwa mai mahimmanci tare da farawar Rasha (wataƙila saboda Sber a wancan lokacin. saya kusan biliyan biliyan na masu fafatawa na yammacin Turai). A cikin wata daya muka fara aikin gwaji. Yadda abin ya faru, karanta a gaba.

Mun shafe shekaru da yawa muna fama da al'amurran da suka shafi aiki da sa ido, yanzu muna aiwatar da samfuranmu a cikin ma'aikatun gwamnati, a cikin inshora, a banki, a cikin kamfanonin sadarwa, aiwatarwa ɗaya yana tare da jirgin sama (kafin aikin ma ba mu yi ba. tunanin cewa jirgin sama ya kasance irin wannan masana'antar da ke dogaro da IT, kuma Yanzu muna fata da gaske, duk da COVID, kamfanin zai fito ya tashi).

Samfurin da muke yi ya kasance na software na kamfani, AIOps (Intelligence Artificial for IT Operations, ko ITOps). Babban burin aiwatar da irin waɗannan tsarin kamar matakin balaga tsari a cikin kamfani yana ƙaruwa:

  1. Kashe gobara: gano gazawar, share rafi na faɗakarwa daga tarkace, sanya ayyuka da abubuwan da suka faru ga waɗanda ke da alhakin;
  2. Haɓaka ingantaccen sabis na IT: rage lokaci don warware abubuwan da suka faru, nuna abubuwan da ke haifar da gazawa, ƙara bayyana gaskiyar matsayin IT;
  3. Haɓaka ingantaccen kasuwanci: rage yawan aikin hannu, rage haɗari, haɓaka amincin abokin ciniki.

A cikin kwarewarmu, bankuna suna da "zafi" masu zuwa tare da saka idanu tare da duk manyan kayan aikin IT:

  • "wanda ya san menene": akwai sassan fasaha da yawa, kusan kowa yana da akalla tsarin kulawa ɗaya, kuma mafi yawan suna da fiye da ɗaya;
  • "Swarm sauro" na faɗakarwa: kowane tsarin yana haifar da ɗaruruwa kuma yana lalata duk waɗanda ke da alhakin su (wani lokaci kuma tsakanin sassan). Yana da wuya a ci gaba da kula da mayar da hankali kan kowane sanarwa; gaggawa da mahimmancin su suna daidaitawa saboda adadi mai yawa;
  • manyan bankunan - shugabannin sassan suna so ba kawai don ci gaba da saka idanu akan tsarin su ba, don sanin inda akwai kasawa, amma har ma da ainihin sihiri na AI - don yin tsarin kulawa da kai, tsinkaya da kuma daidaitawa.

Lokacin da muka zo taron farko a Tinkoff, nan da nan aka gaya mana cewa ba su da matsala game da saka idanu kuma babu abin da ya cutar da su, kuma babbar tambaya ita ce: "Me za mu iya bayarwa ga waɗanda suka riga sun yi kyau?"

Tattaunawar ta yi tsayi, mun tattauna yadda ake gina ƙananan ayyukan su, yadda sassan ke aiki, waɗanne matsalolin ababen more rayuwa ne suka fi dacewa, waɗanda ba su da mahimmanci ga masu amfani, inda ake "mafi makafi", kuma menene burinsu da SLAs.

Af, SLAs na banki suna da ban sha'awa sosai. Misali, fifiko XNUMX aukuwar kasancewar cibiyar sadarwa na iya ɗaukar ƴan mintuna kaɗan kawai don warwarewa. Kudin kuskure da raguwa a nan, ba shakka, yana da ban sha'awa.

Sakamakon haka, mun gano fannonin haɗin gwiwa da dama:

  1. mataki na farko shine saka idanu na laima don ƙara saurin warware matsalar
  2. mataki na biyu shine sarrafa kansa don rage haɗari da rage farashi don ƙaddamar da sashen IT.

Ana iya fentin “fararen tabo” da yawa a cikin launuka masu haske na faɗakarwa kawai ta hanyar sarrafa bayanai daga tsarin sa ido da yawa, tunda ba zai yiwu a ɗauki awo kai tsaye ba; Hakanan ya zama dole a daidaita bayanai daga tsarin sa ido daban-daban akan “allon daya” domin don fahimtar cikakken hoton abin da ke faruwa. "Umbrellas" sun dace da wannan aikin kuma mun cika waɗannan buƙatun sannan.

Abu mai mahimmanci, a ra'ayinmu, a cikin dangantaka da abokan ciniki shine gaskiya. Bayan tattaunawa ta farko da lissafin farashin lasisi, an ce tun da farashin yana da ƙasa sosai, yana iya zama darajar siyan lasisi nan da nan (idan aka kwatanta da Dynatrace Klyuch-Astrom daga labarin da ke sama game da bankin kore, mu Kudin lasisi ba kashi uku na biliyan ba, amma 12 dubu rubles kowace wata don 1 gigabyte, don Sber zai biya sau da yawa mai rahusa). Amma nan da nan muka gaya musu abin da muke da shi da abin da ba mu da shi. Wataƙila wakilin tallace-tallace daga babban mai haɗawa zai iya cewa "eh, za mu iya yin komai, ba shakka saya lasisinmu," amma mun yanke shawarar sanya duk katunan mu a kan tebur. A lokacin ƙaddamarwa, akwatin mu ba shi da haɗin kai tare da Prometheus, kuma ana gab da fitar da sabon sigar tare da tsarin sarrafa kansa, amma har yanzu ba mu tura shi ga abokan ciniki ba.

An fara aikin matukin jirgi, an kayyade iyakokinsa kuma an ba mu watanni 2. Manyan ayyuka sune:

  • shirya sabon tsarin dandamali kuma sanya shi a cikin abubuwan more rayuwa na banki
  • haɗa 2 tsarin kulawa (Zabbix da Prometheus);
  • aika sanarwa ga waɗanda ke da alhakin Slack kuma ta SMS;
  • gudu autohealing rubutun.

Watan farko na aikin matukin jirgi an kashe shi yana shirya sabon salo na dandamali a cikin yanayin saurin sauri don bukatun aikin matukin. Sabuwar sigar nan da nan ta haɗa da haɗin kai tare da Prometheus da warkarwa ta atomatik. Godiya ga ƙungiyar ci gaban mu, ba su yi barci na dare da yawa ba, amma sun fitar da abin da suka yi alkawari ba tare da rasa lokacin ƙarshe na sauran alkawuran da aka yi a baya ba.

Yayin da muke kafa matukin jirgin, mun ci karo da wata sabuwar matsala da za ta iya rufe aikin kafin lokacin da aka tsara: don aika da faɗakarwa zuwa ga saƙon nan take kuma ta hanyar SMS, muna buƙatar haɗi mai shigowa da mai fita zuwa sabar Microsoft Azure (a lokacin muna amfani da wannan dandamali. don aika faɗakarwa zuwa Slack) da sabis na aika SMS na waje. Amma a cikin wannan aikin, aminci ya kasance na musamman. Dangane da manufar bankin, ba za a iya buɗe irin waɗannan “ramuka” a kowane yanayi ba. Komai ya yi aiki daga rufaffiyar madauki. An ba mu damar yin amfani da API na ayyukanmu na ciki waɗanda ke aika faɗakarwa zuwa Slack da ta SMS, amma ba mu sami damar haɗa irin waɗannan ayyukan a cikin akwatin ba.

Maraice na muhawara tare da ƙungiyar ci gaba ya ƙare tare da nasarar neman mafita. Bayan yin jita-jita ta hanyar bayanan baya, mun sami ɗawainiya ɗaya wanda ba mu taɓa samun isasshen lokaci da fifiko ba - don ƙirƙirar tsarin toshewa ta yadda ƙungiyoyin aiwatarwa ko abokin ciniki su iya rubuta add-ons da kansu, faɗaɗa damar dandamali.

Amma muna da daidai wata guda ya rage, lokacin da dole ne mu shigar da komai, daidaitawa da tura kayan aiki na atomatik.

A cewar Sergei, babban manajan gine-ginen, yana ɗaukar akalla wata guda don aiwatar da tsarin toshewa.

Ba mu da lokaci...

Akwai mafita guda ɗaya kawai - je zuwa abokin ciniki kuma ku faɗi komai yadda yake. Tattauna canjin ranar ƙarshe tare. Kuma ya yi aiki. An ba mu karin makonni 2. Hakanan suna da nasu lokacin ƙarshe da wajibcin ciki don nuna sakamako, amma suna da makonni 2 ajiya. A ƙarshe, mun sanya komai a kan layi. Ba shi yiwuwa a yi rikici. Gaskiya da tsarin haɗin gwiwa sun sake biya.

Sakamakon matukin jirgin, an sami sakamako da sakamako masu mahimmanci na fasaha da yawa:

Mun gwada sabon aikin don sarrafa faɗakarwa

Tsarin da aka tura ya fara karɓar faɗakarwa daidai daga Prometheus kuma ya haɗa su. Fadakarwa game da matsalar daga abokin ciniki na Prometheus yana tashi kowane sakan 30 (ba a kunna ƙungiyoyi ta lokaci ba), kuma muna mamakin ko zai yiwu a haɗa su a cikin "laima" kanta. Ya juya cewa yana yiwuwa - kafa aikin sarrafa faɗakarwa a cikin dandamali ana aiwatar da shi ta hanyar rubutun. Wannan yana ba da damar aiwatar da kusan kowace dabara don sarrafa su. Mun riga mun aiwatar da daidaitattun dabaru a cikin dandamali a cikin nau'i na samfuri - idan ba ku so ku fito da wani abu na kanku, zaku iya amfani da wanda aka shirya.

Me yasa banki ke buƙatar AIOps da saka idanu na laima, ko menene alaƙar abokin ciniki?

"Synthetic trigger" dubawa. Saita sarrafa faɗakarwa daga tsarin sa ido da aka haɗa

Gina yanayin "lafiya" na tsarin

Dangane da faɗakarwa, an ƙirƙiri abubuwan sa ido waɗanda suka shafi lafiyar sassan daidaitawa (CUs). Muna aiwatar da samfurin sabis na albarkatu (RSM), wanda zai iya amfani da ko dai CMDB na ciki ko haɗa na waje - yayin aikin matukin jirgi abokin ciniki bai haɗa nasa CMDB ba.

Me yasa banki ke buƙatar AIOps da saka idanu na laima, ko menene alaƙar abokin ciniki?

Interface don aiki tare da samfurin-sabis na albarkatu. Pilot RSM.

Da kyau, a gaskiya ma, abokin ciniki a ƙarshe yana da allon kulawa guda ɗaya, inda abubuwan da suka faru daga tsarin daban-daban suke bayyane. A halin yanzu, an haɗa tsarin guda biyu zuwa "laima" - Zabbix da Prometheus, da tsarin kulawa na ciki na dandalin kanta.

Me yasa banki ke buƙatar AIOps da saka idanu na laima, ko menene alaƙar abokin ciniki?

Binciken bincike. Allon saka idanu guda ɗaya.

An ƙaddamar da aikin sarrafa kansa

Kulawa da abubuwan da suka faru sun haifar da ƙaddamar da ayyukan da aka riga aka tsara - aikawa da faɗakarwa, rubutun aiki, yin rajista / haɓaka abubuwan da suka faru - ba a gwada na ƙarshe tare da wannan abokin ciniki na musamman ba, saboda a cikin aikin matukin jirgi babu haɗin kai tare da teburin sabis.

Me yasa banki ke buƙatar AIOps da saka idanu na laima, ko menene alaƙar abokin ciniki?

Action saituna dubawa. Aika faɗakarwa zuwa Slack kuma sake kunna sabar.

Fadada aikin samfur

Lokacin da ake magana akan rubutun atomatik, abokin ciniki ya nemi goyon bayan bash da abin dubawa wanda za'a iya daidaita waɗannan rubutun cikin dacewa. Sabuwar sigar ta yi ɗan ƙara kaɗan (ikon rubuta cikakkun abubuwan ginannun ma'ana a cikin Lua tare da goyan bayan cURL, SSH da SNMP) da aiwatar da ayyukan da ke ba ku damar sarrafa tsarin rayuwar rubutun (ƙirƙira, gyara, sarrafa sigar). , gogewa da adanawa).

Me yasa banki ke buƙatar AIOps da saka idanu na laima, ko menene alaƙar abokin ciniki?

Interface don aiki tare da rubutun warkarwa ta atomatik. Sake yin rubutun uwar garke ta hanyar SSH.

Nemo Mabuɗi

A lokacin matukin jirgin, an kuma ƙirƙiri labarun masu amfani waɗanda ke inganta ayyukan yanzu da haɓaka ƙimar abokin ciniki, ga wasu daga cikinsu:

  • aiwatar da ikon tura masu canji kai tsaye daga faɗakarwa zuwa rubutun autohealing;
  • ƙara izini zuwa dandamali ta hanyar Active Directory.

Kuma mun sami ƙarin ƙalubale na duniya - don "gina" samfurin tare da sauran iyawa:

  • gina ta atomatik na samfurin sabis na albarkatu bisa ML, maimakon dokoki da wakilai (wataƙila babban ƙalubale a yanzu);
  • tallafi don ƙarin rubutun rubutu da yarukan dabaru (kuma wannan zai zama JavaScript).

A ganina, mafi mahimmanciAbin da wannan matukin jirgin ya nuna abubuwa biyu ne:

  1. Haɗin kai tare da abokin ciniki shine mabuɗin tasiri, lokacin da aka gina ingantaccen sadarwa bisa ga gaskiya da buɗe ido, kuma abokin ciniki ya zama ɓangare na ƙungiyar da ke samun sakamako mai mahimmanci a cikin ɗan gajeren lokaci.
  2. Babu wani yanayi da ya wajaba don "daidaita" da gina "crutches" - kawai mafita na tsarin. Zai fi kyau a ciyar da ɗan lokaci kaɗan, amma yin tsarin tsarin da sauran abokan ciniki za su yi amfani da su. Af, wannan shine abin da ya faru, tsarin plugin da kuma kawar da dogara ga Azure ya ba da ƙarin darajar ga sauran abokan ciniki (sannu, Dokar Tarayya 152).

source: www.habr.com

Add a comment