Firwat brauch eng Bank AIOps a Regenschirm Iwwerwaachung, oder op wat baséieren d'Clientrelatiounen?

A Publikatiounen iwwer Habré hunn ech schonn iwwer meng Erfahrung geschriwwen fir Partnerschafte mat mengem Team ze bauen (hei schwätzt iwwer wéi een e Partnerschaftsofkommes opstellt wann een en neit Geschäft start, fir datt d'Geschäft net auserneen fällt). An elo wéilt ech iwwer schwätzen wéi Partnerschafte mat Clienten ze bauen, well ouni hinnen gëtt et näischt auserneen ze falen. Ech hoffen dësen Artikel wäert nëtzlech sinn fir Startups déi ufänken hir Produkt u grouss Geschäfter ze verkafen.

Ech sinn de Moment un engem Startup mam Numm MONQ Digital Labo, wou mäi Team an ech e Produkt entwéckelen fir d'Prozesser fir d'Ënnerstëtzung an d'Operatioun vun Corporate IT ze automatiséieren. De Maart anzegoen ass keng einfach Aufgab a mir hunn mat e bësse Hausaufgaben ugefaang, duerch Maartexperten, eis Partner gaang a Maartsegmentéierung duerchgefouert. D'Haaptfro war ze verstoen "Wien seng Péng kënne mir am Beschten heelen?"

Banken hunn et an den TOP 3 Segmenter gemaach. An natierlech, déi éischt op der Lëscht waren Tinkoff an Sberbank. Wéi mir Bankenmaartexperten besicht hunn, hu se gesot: Gitt Äert Produkt do vir, an de Wee op de Bankemaart wäert op sinn. Mir hu probéiert souwuel do an do anzeginn, mee Echec op Sberbank gewaart, an d'Tinkoff Kärelen sech vill méi oppe fir produktiv Kommunikatioun mat russesch Startups (vläicht wéinst der Tatsaach, datt Sber zu där Zäit) kaaft bal eng Milliard vun eise westleche Konkurrenten). Bannent engem Mount hu mir e Pilotprojet ugefaangen. Wéi et geschitt ass, liest weider.

Mir beschäftegen eis zënter Joren mat Fonctionnements- an Iwwerwaachungsfroen, elo implementéiere mir eise Produkt am ëffentleche Secteur, an der Assurance, an de Banken, an den Telekomfirmen, eng Ëmsetzung war mat enger Fluchgesellschaft (virun dem Projet hu mer net mol denken datt d'Aviatioun sou eng IT-ofhängeg Industrie war, an elo hoffen mir wierklech, trotz COVID, datt d'Firma entstinn an ofstëmmt).

D'Produkt dat mir maachen gehéiert zu der Enterprise Software, dem AIOps (Artificial Intelligence for IT Operations, oder ITOps) Segment. D'Haaptziler vun der Ëmsetzung vun esou Systemer wéi den Niveau vun der Prozess Reife an der Firma erhéicht:

  1. Feier auszeschléissen: Feeler z'identifizéieren, de Stroum vun Alarmer aus Schutt läschen, Aufgaben an Tëschefäll un déi Verantwortlech zouginn;
  2. Erhéije d'Effizienz vum IT-Service: reduzéieren d'Zäit fir Tëschefäll ze léisen, d'Ursaache vu Feeler uginn, d'Transparenz vum IT-Status erhéijen;
  3. Erhéije d'Geschäftseffizienz: reduzéieren d'Quantitéit vun der manueller Aarbecht, reduzéieren Risiken, erhéijen d'Clientloyalitéit.

An eiser Erfahrung, Banken hunn déi folgend "Péng" mat Iwwerwachung gemeinsam mat all groussen IT Infrastrukturen:

  • "Wie weess wat": et gi vill technesch Departementer, bal jiddereen huet op d'mannst een Iwwerwachung System, an déi meescht hu méi wéi een;
  • "Moustique Schwarm" vun Alarmer: all System generéiert Honnerte a bombardéiert all déi Verantwortlech mat hinnen (heiansdo och tëscht Departementer). Et ass schwéier konstant de Fokus vun der Kontroll op all Notifikatioun z'erhalen; hir Dringendes a Wichtegkeet ass ausgeglach wéinst der grousser Zuel;
  • grouss Banken - Secteur Cheffen wëllen net nëmmen hir Systemer kontinuéierlech ze iwwerwaachen, wëssen, wou et Feeler, mä och déi richteg Magie vun AI - d'Systemer Self-Iwwerwaachung maachen, Self-viraussoen an Self-korrekt.

Wéi mir op d'éischt Versammlung zu Tinkoff koumen, krute mir direkt gesot datt si keng Probleemer mat der Iwwerwaachung haten an näischt huet hinnen verletzt, an d'Haaptfro war: "Wat kënne mir fir déi bidden, déi et scho gutt maachen?"

D'Gespréich war laang, mir hunn diskutéiert wéi hir Mikroservicer gebaut ginn, wéi Departementer funktionnéieren, wéi eng Infrastrukturproblemer méi sensibel sinn, déi manner sensibel fir Benotzer sinn, wou sinn déi "blannen Flecken", a wat sinn hir Ziler an SLAs.

Iwwregens, d'SLAs vun der Bank si wierklech beandrockend. Zum Beispill kann e Prioritéit XNUMX Netzverfügbarkeet Tëschefall nëmmen e puer Minutten daueren fir ze léisen. D'Käschte fir Feeler an Ausdauer hei, natierlech, sinn beandrockend.

Als Resultat hu mir verschidde Beräicher vun der Kooperatioun identifizéiert:

  1. Déi éischt Stuf ass Regenschirm Iwwerwaachung fir d'Geschwindegkeet vun der Tëschefallresolutioun ze erhéijen
  2. Déi zweet Stuf ass d'Prozessautomatiséierung fir Risiken ze reduzéieren an d'Käschte fir d'Skaléierung vum IT Departement ze reduzéieren.

Verschidde "wäiss Flecken" konnten an de helle Faarwen vun Alarmer nëmmen duerch d'Veraarbechtung vun Informatioun vu verschiddene Iwwerwaachungssystemer gemoolt ginn, well et onméiglech war direkt Metriken ze huelen; et war och noutwendeg Daten aus verschiddene Iwwerwaachungssystemer op "een Écran" an Uerdnung ze zentraliséieren d'Gesamtbild vun deem wat geschitt ass ze verstoen. "Schirmen" si fir dës Aufgab gëeegent a mir hunn dës Ufuerderungen dann erfëllt.

Eng ganz wichteg Saach, eiser Meenung no, a Relatioune mat Clienten ass Éierlechkeet. Nom éischten Gespréich an der Berechnung vun de Käschte vun der Lizenz gouf gesot datt well d'Käschte sou niddereg sinn, et wier et lount sech direkt eng Lizenz ze kafen (am Verglach mam Dynatrace Klyuch-Astrom aus dem Artikel uewen iwwer déi gréng Bank, eis Lizenz kascht net en Drëttel vun enger Milliard, awer 12 Tausend Rubel pro Mount fir 1 Gigabyte, fir Sber géif et e puer Mol méi bëlleg kaschten). Mä mir hunn hinnen direkt gesot wat mir hunn a wat mir net. Vläicht kéint e Verkeefer Vertrieder vun engem groussen Integrator soen "Jo, mir kënnen alles maachen, natierlech kafen eis Lizenz," mä mir hunn decidéiert all eis Kaarten op den Dësch ze leeën. Zu der Zäit vum Start huet eis Këscht keng Integratioun mam Prometheus, an eng nei Versioun mat engem Automatisatiounssubsystem war amgaang ze verëffentlecht ginn, awer mir hunn et nach net un d'Clienten geschéckt.

De Pilotprojet huet ugefaang, seng Grenze goufen festgeluecht a mir kruten 2 Méint. D'Haaptaufgaben waren:

  • eng nei Versioun vun der Plattform virbereeden an se an der Bankinfrastruktur ofsetzen
  • verbannen 2 Iwwerwaachungssystemer (Zabbix a Prometheus);
  • schéckt Notifikatiounen un déi Verantwortlech am Slack an iwwer SMS;
  • lafen autohealing Scripten.

Den éischte Mount vum Pilotprojet gouf verbruecht fir eng nei Versioun vun der Plattform am superschnelle Modus ze preparéieren fir d'Bedierfnesser vum Pilotprojet. Déi nei Versioun enthält direkt Integratioun mat Prometheus an Auto-Heelung. Dank eisem Entwécklungsteam hu si e puer Nuechte net geschlof, awer verëffentlecht wat se versprach hunn ouni d'Deadline fir aner virdru gemaach Engagementer ze verpassen.

Wärend mir de Pilot opgeriicht hunn, hu mir en neie Problem begéint, deen de Projet virum Zäitplang zoumaache konnt: fir Alarmer un Instant Messenger a per SMS ze schécken, brauche mir Entréeën an erausgaang Verbindunge mat Microsoft Azure Server (zu där Zäit hu mir dës Plattform benotzt fir Alarmer op Slack ze schécken) an en externen Sendeservice SMS. Awer an dësem Projet war Sécherheet e besonnesche Fokus. Sou "Lächer" dierften ënner kengen Ëmstänn, laut der Bankpolitik, opgemaach ginn. Alles huet misse vun enger zougemaacher Schleif schaffen. Mir goufen ugebueden d'API vun eisen eegene internen Servicer ze benotzen, déi Alarmer op Slack a per SMS schécken, awer mir haten net d'Méiglechkeet fir sou Servicer aus der Këscht ze verbannen.

En Owend vun Debatt mam Entwécklungsteam ass mat enger erfollegräicher Sich no enger Léisung ofgeschloss. Nodeems mir de Réckstand gerappt hunn, hu mir eng Aufgab fonnt, fir déi mir ni genuch Zäit a Prioritéit haten - e Plug-in System ze kreéieren, sou datt d'Implementatiounsteams oder de Client selwer Add-ons schreiwen kënnen, d'Fäegkeeten vun der Plattform ausbauen.

Mee mir hate genee e Mount iwwreg, während deem mir alles mussen installéieren, konfiguréieren an d'Automatisatioun ofsetzen.

Laut dem Sergei, eisem Chefarchitekt, brauch et op d'mannst ee Mount fir de Plug-in System ëmzesetzen.

Mir haten keng Zäit ...

Et war nëmmen eng Léisung - gitt op de Client a sot alles wéi et ass. Diskutéiert d'Deadline Verréckelung zesummen. An et huet geschafft. Mir kruten 2 extra Wochen. Si haten och hir eege Frist an intern Obligatiounen Resultater ze weisen, mä si haten 2 Reserve Wochen. Um Enn setzen mir alles op d'Linn. Et war onméiglech ze messen. Éierlechkeet an eng Partnerschaft Approche huet sech erëm bezuelt.

Als Resultat vum Pilot goufen e puer wichteg technesch Resultater a Conclusiounen kritt:

Mir hunn déi nei Funktionalitéit fir d'Veraarbechtung vun Alarmer getest

Den ofgebaute System huet ugefaang richteg Alarmer vum Prometheus ze kréien an se ze gruppéieren. Alarmer iwwer de Problem vum Prometheus Client fléien all 30 Sekonnen (Gruppéiere vun Zäit ass net aktivéiert), a mir hu gefrot ob et méiglech wier se an de "Diram" selwer ze gruppéieren. Et huet sech erausgestallt datt et méiglech ass - d'Opstelle vun der Veraarbechtung vun Alarmer an der Plattform gëtt duerch e Skript ëmgesat. Dëst mécht et méiglech bal all Logik fir d'Veraarbechtung ëmzesetzen. Mir hu scho Standardlogik an der Plattform a Form vu Schabloune implementéiert - wann Dir net mat eppes vun Ärem eegene wëllt kommen, kënnt Dir e fäerdege benotzen.

Firwat brauch eng Bank AIOps a Regenschirm Iwwerwaachung, oder op wat baséieren d'Clientrelatiounen?

"Synthetesch Ausléiser" Interface. Ariichten Veraarbechtung vun Alarmer aus verbonne Iwwerwachung Systemer

Konstruéiert den Zoustand vun der "Gesondheet" vum System

Baséierend op Alarmer goufen Iwwerwaachungsevenementer erstallt, déi d'Gesondheet vun de Konfiguratiounsunitéiten (CUs) beaflosst. Mir implementéieren e Ressource-Service Modell (RSM), deen entweder eng intern CMDB benotze kann oder en externen verbannen kann - während dem Pilotprojet huet de Client seng eege CMDB net verbonnen.

Firwat brauch eng Bank AIOps a Regenschirm Iwwerwaachung, oder op wat baséieren d'Clientrelatiounen?

Interface fir mat dem Ressource-Service Modell ze schaffen. Pilot RSM.

Gutt, tatsächlech huet de Client endlech en eenzegen Iwwerwaachungsbildschierm, wou Eventer vu verschiddene Systemer sichtbar sinn. Am Moment sinn zwee Systemer mat dem "Schirm" verbonnen - Zabbix a Prometheus, an en internen Iwwerwaachungssystem vun der Plattform selwer.

Firwat brauch eng Bank AIOps a Regenschirm Iwwerwaachung, oder op wat baséieren d'Clientrelatiounen?

Analytics Interface. Eenzel Iwwerwachung Écran.

Lancéiert Prozess Automatisatioun

D'Iwwerwaachungsevenementer hunn de Start vu virkonfiguréierten Aktiounen ausgeléist - Alarm schécken, Scripte lafen, Tëschefäll registréieren / beräicheren - déi lescht gouf net mat dësem bestëmmte Client probéiert, well am Pilotprojet gouf et keng Integratioun mam Service Desk.

Firwat brauch eng Bank AIOps a Regenschirm Iwwerwaachung, oder op wat baséieren d'Clientrelatiounen?

Aktioun Astellungen Interface. Schéckt Alarmer op Slack a restart de Server.

Erweidert Produktfunktionalitéit

Wann Dir iwwer Automatisatiounsskripter diskutéiert, huet de Client no Bash Support an eng Interface gefrot, an där dës Skripte bequem konfiguréiert kënne ginn. Déi nei Versioun huet e bësse méi gemaach (d'Fäegkeet fir vollwäerteg logesch Konstruktiounen am Lua mat Ënnerstëtzung fir cURL, SSH an SNMP ze schreiwen) an ëmgesat Funktionalitéit déi Iech erlaabt de Liewenszyklus vun engem Skript ze managen (erstellen, änneren, Versiounskontrolle) , läschen an archivéieren).

Firwat brauch eng Bank AIOps a Regenschirm Iwwerwaachung, oder op wat baséieren d'Clientrelatiounen?

Interface fir mat Autohealing Scripten ze schaffen. Server Restart Skript iwwer SSH.

Haaptfonnt

Wärend dem Pilot goufen och Benotzergeschichten erstallt déi déi aktuell Funktionalitéit verbesseren an de Wäert fir de Client erhéijen, hei sinn e puer vun hinnen:

  • Ëmsetzen d'Fäegkeet fir Variabelen direkt vun der Alarm op d'Autohealing Skript weiderzebréngen;
  • Füügt Autorisatioun op d'Plattform iwwer Active Directory.

A mir krute méi global Erausfuerderunge - fir de Produkt mat anere Fäegkeeten "opzebauen":

  • automatesch Konstruktioun vun engem Ressource-Service Modell baséiert op ML, anstatt Regelen an Agenten (wahrscheinlech d'Haaptfuerderung elo);
  • Ënnerstëtzung fir zousätzlech Skript- a Logiksproochen (an dëst wäert JavaScript sinn).

A menger Meenung no déi wichtegstWat dëse Pilot weist ass zwou Saachen:

  1. Partnerschafte mam Client sinn de Schlëssel fir Effizienz, wann efficace Kommunikatioun op Basis vun Éierlechkeet an Oppenheet gebaut gëtt, an de Client en Deel vun engem Team gëtt dat bedeitend Resultater a kuerzer Zäit erreecht.
  2. Ënner kengen Ëmstänn ass et néideg "Customize" ze bauen an "Kräizen" ze bauen - nëmme Systemléisungen. Et ass besser e bësse méi Zäit ze verbréngen, awer maacht eng Systemléisung déi vun anere Cliente benotzt gëtt. Iwwregens, dat ass wat geschitt ass, de Plugin System an d'Eliminatioun vun Ofhängegkeet op Azure gëtt zousätzlech Wäert fir aner Clienten (Moien, Bundesgesetz 152).

Source: will.com

Setzt e Commentaire