Aħna nissorveljaw lil Sportmaster - kif u b'liema

Ħsibna biex noħolqu sistema ta 'monitoraġġ fl-istadju tal-formazzjoni ta' timijiet tal-prodotti. Deher ċar li n-negozju tagħna – l-isfruttament – ​​ma jaqax f’dawn it-timijiet. Għalfejn?

Il-fatt hu li t-timijiet kollha tagħna huma mibnija madwar sistemi ta’ informazzjoni individwali, mikroservizzi u fronti, għalhekk it-timijiet ma jarawx is-saħħa ġenerali tas-sistema kollha kemm hi. Pereżempju, jistgħu ma jafux kif xi parti żgħira fil-backend fil-fond taffettwa l-parti ta 'quddiem. L-ambitu ta' interess tagħhom huwa limitat għas-sistemi li s-sistema tagħhom hija integrata magħhom. Jekk tim u s-servizz A tiegħu kważi m'għandhom l-ebda konnessjoni mas-servizz B, allura servizz bħal dan huwa kważi inviżibbli għat-tim.

Aħna nissorveljaw lil Sportmaster - kif u b'liema

It-tim tagħna, min-naħa tiegħu, jaħdem ma 'sistemi li huma integrati b'mod qawwi ħafna ma' xulxin: hemm ħafna konnessjonijiet bejniethom, din hija infrastruttura kbira ħafna. U l-operat tal-ħanut online jiddependi fuq dawn is-sistemi kollha (li minnhom għandna, bil-mod, numru kbir).

Għalhekk jirriżulta li d-dipartiment tagħna ma jappartjeni għall-ebda tim, iżda jinsab ftit fil-ġenb. F'din l-istorja kollha, il-kompitu tagħna huwa li nifhmu b'mod komprensiv kif jaħdmu s-sistemi ta 'informazzjoni, il-funzjonalità tagħhom, l-integrazzjonijiet, is-softwer, in-netwerk, il-ħardwer, u kif dan kollu huwa konness ma' xulxin.

Il-pjattaforma li fuqha joperaw il-ħwienet online tagħna tidher bħal din:

  • quddiem
  • middle office
  • back-office

Irrispettivament minn kemm nixtiequ, ma jiġrix li s-sistemi kollha jaħdmu bla xkiel u bla difetti. Il-punt, għal darb'oħra, huwa n-numru ta 'sistemi u integrazzjonijiet - b'xi ħaġa bħal tagħna, xi inċidenti huma inevitabbli, minkejja l-kwalità tal-ittestjar. Barra minn hekk, kemm f'sistema separata kif ukoll f'termini tal-integrazzjoni tagħhom. U għandek bżonn tissorvelja l-istat tal-pjattaforma kollha b'mod komprensiv, u mhux kull parti individwali minnha.

Idealment, il-monitoraġġ tas-saħħa mal-pjattaforma kollha għandu jkun awtomatizzat. U wasalna għall-monitoraġġ bħala parti inevitabbli minn dan il-proċess. Inizjalment, inbniet biss għall-parti ta 'quddiem, filwaqt li speċjalisti tan-netwerk, amministraturi ta' softwer u ħardwer kellhom u għad għandhom is-sistemi ta 'monitoraġġ saff b'saff tagħhom stess. Dawn in-nies kollha segwew il-monitoraġġ fil-livell tagħhom biss; ħadd ma kellu fehim komprensiv lanqas.

Pereżempju, jekk magna virtwali tiġġarraf, fil-biċċa l-kbira tal-każijiet biss l-amministratur responsabbli għall-hardware u l-magna virtwali jafu biha. F'każijiet bħal dawn, it-tim ta 'quddiem ra l-fatt stess tal-ħabta tal-applikazzjoni, iżda ma kellux dejta dwar il-ħabta tal-magna virtwali. U l-amministratur jista 'jkun jaf min hu l-klijent u jkollu idea approssimattiva ta' dak li qed jaħdem bħalissa fuq din il-magna virtwali, sakemm ikun xi tip ta 'proġett kbir. X'aktarx ma jafx dwar iż-żgħar. Fi kwalunkwe każ, l-amministratur jeħtieġ li jmur għand is-sid u jistaqsi x'kien fuq din il-magna, x'hemm bżonn li jiġi rrestawrat u x'għandu jinbidel. U jekk xi ħaġa tassew serja tkisser, bdew jiġru madwar id-dawra – għax ħadd ma ra s-sistema kollha kemm hi.

Fl-aħħar mill-aħħar, stejjer differenti bħal dawn jaffettwaw il-frontend kollu, l-utenti u l-funzjoni ewlenija tan-negozju tagħna - il-bejgħ onlajn. Peress li aħna m'aħniex parti minn tim, iżda aħna impenjati fl-operat tal-applikazzjonijiet kollha tal-kummerċ elettroniku bħala parti minn ħanut online, ħadna l-kompitu li noħolqu sistema ta 'monitoraġġ komprensiva għall-pjattaforma tal-kummerċ elettroniku.

Struttura tas-sistema u munzell

Bdejna billi identifikajna diversi saffi ta' monitoraġġ għas-sistemi tagħna, li fihom ikollna bżonn niġbru metriċi. U dan kollu kellu bżonn jingħaqad, li huwa dak li għamilna fl-ewwel stadju. Issa f'dan l-istadju qed nifinalizzaw il-ġbir ta 'metriċi ta' l-ogħla kwalità fis-saffi kollha tagħna sabiex nibnu korrelazzjoni u nifhmu kif is-sistemi jinfluwenzaw lil xulxin.

In-nuqqas ta’ monitoraġġ komprensiv fl-istadji inizjali tat-tnedija tal-applikazzjoni (billi bdejna nibnuha meta l-biċċa l-kbira tas-sistemi kienu fil-produzzjoni) wassal għall-fatt li kellna dejn tekniku sinifikanti biex inwaqqfu monitoraġġ tal-pjattaforma kollha. Ma stajniex naffordjaw li niffukaw fuq it-twaqqif ta' monitoraġġ għal IS wieħed u li naħdmu monitoraġġ għalih fid-dettall, peress li l-bqija tas-sistemi jibqgħu mingħajr monitoraġġ għal xi żmien. Biex issolvi din il-problema, identifikajna lista tal-metriċi l-aktar meħtieġa għall-valutazzjoni tal-istat tas-sistema ta 'informazzjoni b'saff u bdejna nimplimentawha.

Għalhekk, iddeċidew li jieklu l-iljunfant f'partijiet.

Is-sistema tagħna tikkonsisti minn:

  • ħardwer;
  • sistema operattiva;
  • Softwer;
  • Partijiet UI fl-applikazzjoni ta 'monitoraġġ;
  • metriċi tan-negozju;
  • applikazzjonijiet ta' integrazzjoni;
  • sigurtà ta' l-informazzjoni;
  • netwerks;
  • bilanċjatur tat-traffiku.

Aħna nissorveljaw lil Sportmaster - kif u b'liema

Fiċ-ċentru ta 'din is-sistema hija l-monitoraġġ innifsu. Biex tifhem b'mod ġenerali l-istat tas-sistema kollha, trid tkun taf x'qed jiġri bl-applikazzjonijiet fuq dawn is-saffi kollha u s-sett kollu ta 'applikazzjonijiet.

Allura, dwar il-munzell.

Aħna nissorveljaw lil Sportmaster - kif u b'liema

Aħna nużaw softwer open source. Fiċ-ċentru għandna Zabbix, li nużaw primarjament bħala sistema ta’ twissija. Kulħadd jaf li huwa ideali għall-monitoraġġ tal-infrastruttura. Xi jfisser dan? Eżattament dawk il-metriċi ta 'livell baxx li kull kumpanija li żżomm iċ-ċentru tad-dejta tagħha stess għandha (u Sportmaster għandha ċ-ċentri tad-dejta tagħha stess) - temperatura tas-server, status tal-memorja, raid, metriċi tal-apparat tan-netwerk.

Integrajna Zabbix mat-Telegram messenger u Microsoft Teams, li jintużaw b'mod attiv fit-timijiet. Zabbix ikopri s-saff tan-netwerk attwali, ħardwer u xi softwer, iżda mhuwiex rimedju. Aħna jarrikkixxu din id-dejta minn xi servizzi oħra. Pereżempju, fil-livell tal-hardware, aħna nikkonnettjaw direttament permezz tal-API mas-sistema ta 'virtwalizzazzjoni tagħna u niġbru d-dejta.

X'iktar. Minbarra Zabbix, nużaw Prometheus, li jippermettilna nissorveljaw il-metriċi f'applikazzjoni ta 'ambjent dinamiku. Jiġifieri, nistgħu nirċievu metriċi tal-applikazzjoni permezz ta 'endpoint HTTP u ma ninkwetawx dwar liema metriċi tagħbija fiha u liema le. Ibbażat fuq din id-dejta, jistgħu jiġu żviluppati mistoqsijiet analitiċi.

Sorsi tad-dejta għal saffi oħra, pereżempju, metriċi tan-negozju, huma maqsuma fi tliet komponenti.

L-ewwelnett, dawn huma sistemi ta 'negozju esterni, Google Analytics, aħna niġbru metriċi minn zkuk. Minnhom inġibu data dwar utenti attivi, konverżjonijiet u kull ħaġa oħra relatata man-negozju. It-tieni nett, din hija sistema ta 'monitoraġġ tal-UI. Għandu jiġi deskritt f'aktar dettall.

Darba bdejna bl-ittestjar manwali u kiber f’testijiet awtomatiċi ta’ funzjonalità u integrazzjonijiet. Minn dan għamilna monitoraġġ, ħallew biss il-funzjonalità ewlenija, u bbażajna ruħna fuq markaturi li huma stabbli kemm jista 'jkun u ma jinbidlux spiss maż-żmien.

L-istruttura l-ġdida tat-tim tfisser li l-attivitajiet kollha tal-applikazzjoni huma limitati għal timijiet tal-prodotti, għalhekk waqfu nagħmlu ttestjar pur. Minflok, għamilna monitoraġġ tal-UI mit-testijiet, miktuba f'Java, Selenium u Jenkins (użati bħala sistema għat-tnedija u l-ġenerazzjoni ta 'rapporti).

Kellna ħafna testijiet, iżda fl-aħħar iddeċidejna li mmorru fit-triq prinċipali, il-metrika tal-ogħla livell. U jekk ikollna ħafna testijiet speċifiċi, ikun diffiċli li nżommu d-dejta aġġornata. Kull rilaxx sussegwenti se jkisser b'mod sinifikanti s-sistema kollha, u kull ma nagħmlu huwa li nirranġawha. Għalhekk, iffukajna fuq affarijiet fundamentali ħafna li rari jinbidlu, u nissorveljawhom biss.

Fl-aħħar nett, it-tielet, is-sors tad-dejta huwa sistema ċentralizzata tal-illoggjar. Aħna nużaw Elastic Stack għal zkuk, u mbagħad nistgħu niġbdu din id-dejta fis-sistema ta 'monitoraġġ tagħna għall-metriċi tan-negozju. Minbarra dan kollu, għandna s-servizz tagħna ta' Monitoraġġ API, miktub f'Python, li jistaqsi kwalunkwe servizz permezz tal-API u jiġbor data minnhom f'Zabbix.

Attribut ieħor indispensabbli tal-monitoraġġ huwa l-viżwalizzazzjoni. Tagħna hija bbażata fuq Grafana. Jispikka fost sistemi ta 'viżwalizzazzjoni oħra peress li jippermettilek li tara metriċi minn sorsi ta' dejta differenti fuq id-dashboard. Nistgħu niġbru metriċi tal-ogħla livell għal ħanut online, pereżempju, in-numru ta' ordnijiet li saru fl-aħħar siegħa mid-DBMS, metriċi tal-prestazzjoni għall-OS li fuqu qed jaħdem dan il-ħanut online minn Zabbix, u metriċi għal każijiet ta' din l-applikazzjoni minn Prometheus. U dan kollu se jkun fuq dashboard wieħed. Ċar u aċċessibbli.

Ħalli ninnota dwar is-sigurtà - bħalissa qed nifinalizzaw is-sistema, li aktar tard se nintegraw mas-sistema ta' monitoraġġ globali. Fl-opinjoni tiegħi, il-problemi ewlenin li jiffaċċja l-kummerċ elettroniku fil-qasam tas-sigurtà tal-informazzjoni huma relatati ma 'bots, parsers u forza bruta. Irridu nżommu għajnejk fuq dan, għaliex dan kollu jista 'jaffettwa b'mod kritiku kemm l-operat tal-applikazzjonijiet tagħna kif ukoll ir-reputazzjoni tagħna mill-aspett tan-negozju. U bil-munzell magħżul aħna nkopru b'suċċess dawn il-kompiti.

Punt importanti ieħor huwa li s-saff tal-applikazzjoni jiġi mmuntat minn Prometheus. Hu stess hu wkoll integrat ma’ Zabbix. U għandna wkoll sitespeed, servizz li jippermettilna naraw parametri bħall-veloċità tat-tagħbija tal-paġna tagħna, konġestjonijiet, rendering tal-paġna, skripts tat-tagħbija, eċċ., Huwa wkoll API integrat. Allura l-metriċi tagħna huma miġbura f'Zabbix, u għalhekk, aħna wkoll twissi minn hemm. It-twissijiet kollha huma bħalissa mibgħuta lill-metodi ewlenin ta 'bgħit (għal issa huwa email u telegramma, MS Teams reċentement ġie konness ukoll). Hemm pjanijiet biex jaġġornaw it-twissija għal stat bħal dan li l-bots intelliġenti jaħdmu bħala servizz u jipprovdu informazzjoni ta 'monitoraġġ lit-timijiet kollha tal-prodotti interessati.

Għalina, metriċi huma importanti mhux biss għal sistemi ta 'informazzjoni individwali, iżda wkoll metriċi ġenerali għall-infrastruttura kollha li jużaw l-applikazzjonijiet: clusters ta' servers fiżiċi li fuqhom jaħdmu magni virtwali, bilanċjanti tat-traffiku, Netwerk Load Balancers, in-netwerk innifsu, l-użu ta 'kanali ta' komunikazzjoni . Plus metriċi għaċ-ċentri tad-dejta tagħna stess (għandna bosta minnhom u l-infrastruttura hija pjuttost kbira).

Aħna nissorveljaw lil Sportmaster - kif u b'liema

Il-vantaġġi tas-sistema ta’ monitoraġġ tagħna huma li bl-għajnuna tagħha naraw l-istat tas-saħħa tas-sistemi kollha u nistgħu nevalwaw l-impatt tagħhom fuq xulxin u fuq ir-riżorsi kondiviżi. U fl-aħħar mill-aħħar, jippermettilna nidħlu fl-ippjanar tar-riżorsi, li hija wkoll ir-responsabbiltà tagħna. Aħna namministraw ir-riżorsi tas-server - ġabra fi ħdan il-kummerċ elettroniku, kummissjonar u dekummissjonar tagħmir ġdid, nixtri tagħmir ġdid addizzjonali, twettaq verifika tal-użu tar-riżorsi, eċċ. Kull sena, timijiet jippjanaw proġetti ġodda, jiżviluppaw is-sistemi tagħhom, u huwa importanti għalina li nipprovdulhom riżorsi.

U bl-għajnuna tal-metriċi, naraw it-tendenza fil-konsum tar-riżorsi mis-sistemi tal-informazzjoni tagħna. U bbażati fuqhom nistgħu nippjanaw xi ħaġa. Fil-livell tal-virtwalizzazzjoni, aħna niġbru dejta u naraw informazzjoni dwar l-ammont disponibbli ta 'riżorsi minn ċentru tad-dejta. U diġà ġewwa ċ-ċentru tad-dejta tista 'tara r-riċiklaġġ, id-distribuzzjoni attwali, u l-konsum tar-riżorsi. Barra minn hekk, kemm b'servers waħedhom kif ukoll magni virtwali u gruppi ta 'servers fiżiċi li fuqhom dawn il-magni virtwali kollha qed iduru b'mod vigoruż.

Prospetti

Issa għandna l-qalba tas-sistema kollha kemm hi lesta, iżda għad hemm ħafna affarijiet li għad iridu jinħadmu. Bħala minimu, dan huwa saff ta 'sigurtà tal-informazzjoni, iżda huwa wkoll importanti li tilħaq in-netwerk, tiżviluppa twissija u tissolva l-kwistjoni ta' korrelazzjoni. Għandna ħafna saffi u sistemi, u fuq kull saff hemm ħafna aktar metriċi. Jirriżulta li huwa matryoshka sal-grad ta 'matryoshka.

Il-kompitu tagħna huwa li fl-aħħar mill-aħħar nagħmlu t-twissijiet it-tajba. Pereżempju, jekk kien hemm problema bil-ħardwer, għal darb'oħra, b'magna virtwali, u kien hemm applikazzjoni importanti, u s-servizz ma kienx appoġġjat bl-ebda mod. Insiru nafu li l-magna virtwali mietet. Imbagħad il-metriċi tan-negozju se javżawk: l-utenti sparixxew x'imkien, m'hemm l-ebda konverżjoni, l-UI fl-interface mhix disponibbli, is-softwer u s-servizzi mietu wkoll.

F'din is-sitwazzjoni, se nirċievu spam minn twissijiet, u dan ma jibqax jidħol fil-format ta 'sistema ta' monitoraġġ xierqa. Tqum il-kwistjoni tal-korrelazzjoni. Għalhekk, idealment, is-sistema ta 'monitoraġġ tagħna għandha tgħid: "Guys, il-magna fiżika tiegħek mietet, u flimkien magħha din l-applikazzjoni u dawn il-metriċi," bl-għajnuna ta' twissija waħda, minflok bbumbardjana b'mod furious b'mitt allert. Għandu jirrapporta l-ħaġa prinċipali - il-kawża, li tgħin biex telimina malajr il-problema minħabba l-lokalizzazzjoni tagħha.

Is-sistema ta’ notifika u l-ipproċessar ta’ twissija tagħna hija mibnija madwar servizz ta’ hotline ta’ 24 siegħa. It-twissijiet kollha li huma meqjusa bħala indispensabbli u li huma inklużi fil-lista ta' kontroll jintbagħtu hemmhekk. Kull allert irid ikollu deskrizzjoni: x'ġara, xi tfisser fil-fatt, x'jaffettwa. U wkoll link għad-dashboard u struzzjonijiet dwar x'għandek tagħmel f'dan il-każ.

Dan huwa kollu dwar ir-rekwiżiti għall-bini ta 'twissija. Imbagħad is-sitwazzjoni tista 'tiżviluppa f'żewġ direzzjonijiet - jew hemm problema u jeħtieġ li tiġi solvuta, jew kien hemm falliment fis-sistema ta' monitoraġġ. Imma fi kwalunkwe każ, għandek bżonn tmur u tiddeskrivi.

Bħala medja, issa nirċievu madwar mitt twissija kuljum, b'kont meħud tal-fatt li l-korrelazzjoni tat-twissijiet għadha ma ġietx ikkonfigurata sew. U jekk ikollna bżonn inwettqu xogħol tekniku, u nisfurzaw itfi xi ħaġa, in-numru tagħhom jiżdied b'mod sinifikanti.

Minbarra l-monitoraġġ tas-sistemi li noperaw u l-ġbir ta 'metriċi li huma kkunsidrati importanti min-naħa tagħna, is-sistema ta' monitoraġġ tippermettilna niġbru data għat-timijiet tal-prodotti. Jistgħu jinfluwenzaw il-kompożizzjoni tal-metriċi fi ħdan is-sistemi tal-informazzjoni li nissorveljaw.

Il-kollega tagħna jista’ jiġi u jitlob biex iżid xi metrika li tkun utli kemm għalina kif ukoll għat-tim. Jew, pereżempju, it-tim jista 'ma jkollux biżżejjed mill-metriċi bażiċi li għandna; jeħtieġ li jsegwu xi wħud speċifiċi. Fi Grafana, noħolqu spazju għal kull tim u nagħtu drittijiet ta’ amministrazzjoni. Ukoll, jekk tim jeħtieġ dashboards, iżda huma stess ma jistgħux/ma jafux kif jagħmlu dan, aħna ngħinuhom.

Peress li ninsabu barra mill-fluss tal-ħolqien tal-valur tat-tim, ir-rilaxxi u l-ippjanar tagħhom, gradwalment qed naslu għall-konklużjoni li r-rilaxxi tas-sistemi kollha huma bla xkiel u jistgħu jiġu rolled kuljum mingħajr koordinazzjoni magħna. U huwa importanti għalina li nissorveljaw dawn ir-rilaxxi, għax jistgħu potenzjalment jaffettwaw l-operat tal-applikazzjoni u jiksru xi ħaġa, u dan huwa kritiku. Biex niġġestixxu r-rilaxxi, nużaw il-Bambu, minn fejn nirċievu dejta permezz tal-API u nistgħu naraw liema rilaxxi ġew rilaxxati f'liema sistemi ta 'informazzjoni u l-istatus tagħhom. U l-iktar ħaġa importanti hija f'liema ħin. Aħna nissuperponu markaturi ta 'rilaxx fuq il-metriċi kritiċi ewlenin, li huwa viżwalment indikattiv ħafna f'każ ta' problemi.

Dan il-mod nistgħu naraw il-korrelazzjoni bejn ħarġiet ġodda u problemi emerġenti. L-idea ewlenija hija li tifhem kif taħdem is-sistema fis-saffi kollha, illokalizza malajr il-problema u rranġaha daqstant malajr. Wara kollox, ħafna drabi jiġri li dak li jieħu l-aktar ħin mhux issolvi l-problema, iżda t-tfittxija għall-kawża.

U f'dan il-qasam fil-futur irridu niffukaw fuq il-proattività. Idealment, nixtieq inkun naf dwar problema li toqrob minn qabel, u mhux wara l-fatt, sabiex inkun nista' nipprevjeniha aktar milli nsolviha. Xi drabi jseħħu allarmi foloz tas-sistema ta 'monitoraġġ, kemm minħabba żball uman kif ukoll minħabba bidliet fl-applikazzjoni.U naħdmu fuq dan, niddebuggjawha, u nippruvaw inwissu lill-utenti li jużawha magħna dwar dan qabel kwalunkwe manipulazzjoni tas-sistema ta' monitoraġġ. , jew twettaq dawn l-attivitajiet fit-tieqa teknika.

Għalhekk, is-sistema ġiet imnedija u ilha taħdem b'suċċess mill-bidu tar-rebbiegħa... u qed turi profitti reali ħafna. Naturalment, din mhix il-verżjoni finali tagħha; se nkunu qed nintroduċu ħafna aktar karatteristiċi utli. Iżda bħalissa, b'tant integrazzjoni u applikazzjonijiet, l-awtomazzjoni tal-monitoraġġ hija verament inevitabbli.

Jekk tissorvelja wkoll proġetti kbar b'numru sinifikanti ta 'integrazzjonijiet, ikteb fil-kummenti liema bullet tal-fidda sibt għal dan.

Sors: www.habr.com

Żid kumment