Among gimonitor ang Sportmaster - giunsa ug unsa

Naghunahuna kami bahin sa paghimo og usa ka sistema sa pag-monitor sa yugto sa pagporma sa mga team sa produkto. Nahimong tin-aw nga ang among negosyo - pagpahimulos - dili mahulog sa kini nga mga koponan. Ngano man?

Ang kamatuoran mao nga ang tanan sa among mga team gitukod sa palibot sa indibidwal nga mga sistema sa impormasyon, microservices ug mga atubangan, mao nga ang mga team dili makakita sa kinatibuk-ang panglawas sa tibuok nga sistema sa kinatibuk-an. Pananglitan, dili nila mahibal-an kung giunsa ang gamay nga bahin sa lawom nga backend makaapekto sa atubangan nga tumoy. Ang ilang kasangkaran sa interes limitado sa mga sistema diin ang ilang sistema gisagol. Kung ang usa ka team ug ang serbisyo niini A halos walay koneksyon sa serbisyo B, nan ang ingon nga serbisyo halos dili makita sa team.

Among gimonitor ang Sportmaster - giunsa ug unsa

Ang among team, sa baylo, nagtrabaho sa mga sistema nga kusog kaayo nga gihiusa sa usag usa: adunay daghang mga koneksyon tali kanila, kini usa ka dako kaayo nga imprastraktura. Ug ang operasyon sa online nga tindahan nagdepende sa tanan niini nga mga sistema (nga kita adunay, sa tinuud, usa ka dako nga gidaghanon).

Mao nga ang among departamento dili sakop sa bisan unsang team, apan nahimutang gamay sa kilid. Niining tibuuk nga istorya, ang among tahas mao ang komprehensibo nga pagsabut kung giunsa ang mga sistema sa impormasyon nga nagtrabaho, ang ilang pagpaandar, panagsama, software, network, hardware, ug kung giunsa kini tanan konektado sa usag usa.

Ang plataporma diin naglihok ang among mga online nga tindahan ingon niini:

  • atubangan
  • tunga nga opisina
  • balik sa opisina

Bisan unsa pa ang among gusto, dili mahitabo nga ang tanan nga mga sistema molihok nga hapsay ug wala’y sayup. Ang punto, pag-usab, mao ang gidaghanon sa mga sistema ug mga panagsama - sa usa ka butang nga sama sa atoa, ang pipila ka mga insidente dili malikayan, bisan pa sa kalidad sa pagsulay. Dugang pa, sa sulod sa usa ka bulag nga sistema ug sa mga termino sa ilang panagsama. Ug kinahanglan nimo nga bantayan ang kahimtang sa tibuuk nga plataporma nga komprehensibo, ug dili ang bisan unsang indibidwal nga bahin niini.

Sa tinuud, ang pag-monitor sa kahimsog sa tibuuk nga plataporma kinahanglan nga awtomatiko. Ug nahimo namon ang pag-monitor ingon usa ka dili malikayan nga bahin sa kini nga proseso. Sa sinugdan, kini gitukod lamang para sa front-line nga bahin, samtang ang mga network specialist, software ug hardware administrators aduna ug aduna pa'y kaugalingong layer-by-layer monitoring system. Kining tanan nga mga tawo misunod sa pagmonitor lamang sa ilang kaugalingon nga lebel; walay usa nga adunay usa ka komprehensibo nga pagsabut.

Pananglitan, kung ang usa ka virtual nga makina nahagsa, sa kadaghanan nga mga kaso ang tagdumala lamang nga responsable sa hardware ug ang virtual nga makina ang nahibal-an bahin niini. Sa ingon nga mga kaso, nakita sa frontline team ang kamatuoran sa pag-crash sa aplikasyon, apan wala kini datos bahin sa pagkahagsa sa virtual machine. Ug mahibal-an sa tagdumala kung kinsa ang kostumer ug adunay usa ka dili maayo nga ideya kung unsa ang karon nga nagdagan sa kini nga virtual nga makina, kung kini usa ka klase nga dako nga proyekto. Lagmit wala siya mahibalo bahin sa mga gagmay. Sa bisan unsang kaso, ang tagdumala kinahanglan nga moadto sa tag-iya ug mangutana kung unsa ang naa sa kini nga makina, kung unsa ang kinahanglan ibalik ug kung unsa ang kinahanglan nga usbon. Ug kung adunay usa ka butang nga seryoso nga naguba, nagsugod sila sa pagdagan-dagan - tungod kay wala’y usa nga nakakita sa sistema sa kinatibuk-an.

Sa katapusan, ang ingon nga magkalainlain nga mga istorya makaapekto sa tibuuk nga frontend, mga tiggamit ug among panguna nga gimbuhaton sa negosyo - online nga pagpamaligya. Tungod kay dili kami bahin sa usa ka team, apan nakigbahin sa operasyon sa tanan nga mga aplikasyon sa ecommerce ingon bahin sa usa ka online nga tindahan, among gikuha ang tahas sa paghimo usa ka komprehensibo nga sistema sa pag-monitor alang sa platform sa ecommerce.

Sistema sa istruktura ug stack

Nagsugod kami pinaagi sa pag-ila sa daghang mga layer sa pag-monitor alang sa among mga sistema, diin kinahanglan namon nga mangolekta mga sukatan. Ug kining tanan kinahanglan nga mahiusa, nga mao ang among gibuhat sa una nga yugto. Karon sa kini nga yugto among gitapos ang labing taas nga kalidad nga koleksyon sa mga sukatan sa tanan namon nga mga layer aron makahimo usa ka correlation ug masabtan kung giunsa ang mga sistema nag-impluwensya sa usag usa.

Ang kakulang sa komprehensibo nga pag-monitor sa mga inisyal nga yugto sa paglansad sa aplikasyon (sukad nagsugod kami sa pagtukod niini sa dihang ang kadaghanan sa mga sistema anaa sa produksiyon) misangpot sa kamatuoran nga kami adunay mahinungdanong teknikal nga utang sa pag-set up sa pagmonitor sa tibuok plataporma. Dili kami makahimo sa pag-focus sa pag-set up sa pag-monitor alang sa usa ka IS ug pagtrabaho sa pag-monitor niini sa detalye, tungod kay ang uban nga mga sistema ibilin nga wala’y pag-monitor sa pipila ka panahon. Aron masulbad kini nga problema, nahibal-an namon ang usa ka lista sa labing kinahanglan nga mga sukatan alang sa pagtimbang-timbang sa kahimtang sa sistema sa kasayuran pinaagi sa layer ug nagsugod sa pagpatuman niini.

Busa, nakahukom sila nga kan-on ang elepante sa mga bahin.

Ang among sistema naglangkob sa:

  • hardware;
  • operating nga sistema;
  • software;
  • Mga bahin sa UI sa aplikasyon sa pag-monitor;
  • sukdanan sa negosyo;
  • mga aplikasyon sa panagsama;
  • seguridad sa impormasyon;
  • mga network;
  • tigbalanse sa trapiko.

Among gimonitor ang Sportmaster - giunsa ug unsa

Sa sentro niini nga sistema mao ang pagmonitor sa kaugalingon. Aron masabtan sa kadaghanan ang kahimtang sa tibuok sistema, kinahanglan nimong masayran kung unsa ang nahitabo sa mga aplikasyon sa tanan niini nga mga lut-od ug sa tibuok nga hugpong sa mga aplikasyon.

Busa, mahitungod sa stack.

Among gimonitor ang Sportmaster - giunsa ug unsa

Gigamit namo ang open source software. Sa sentro kami adunay Zabbix, nga among gigamit sa panguna ingon usa ka sistema sa pag-alerto. Nahibal-an sa tanan nga kini maayo alang sa pag-monitor sa imprastraktura. Unsay buot ipasabot niini? Eksakto sa mga ubos nga lebel nga mga sukatan nga ang matag kompanya nga nagmintinar sa kaugalingon nga data center adunay (ug ang Sportmaster adunay kaugalingon nga mga sentro sa datos) - temperatura sa server, kahimtang sa memorya, pag-atake, mga sukatan sa aparato sa network.

Gisagol namo ang Zabbix sa Telegram messenger ug Microsoft Teams, nga aktibong gigamit sa mga team. Ang Zabbix naglangkob sa layer sa aktwal nga network, hardware ug pipila ka software, apan kini dili usa ka panacea. Gipauswag namo kini nga datos gikan sa ubang mga serbisyo. Pananglitan, sa lebel sa hardware, direkta kaming nagkonektar pinaagi sa API sa among virtualization system ug nagkolekta og datos.

Unsa pa. Dugang sa Zabbix, gigamit namon ang Prometheus, nga nagtugot kanamo sa pag-monitor sa mga sukatan sa usa ka dinamikong aplikasyon sa palibot. Sa ato pa, makadawat kami mga sukatan sa aplikasyon pinaagi sa usa ka endpoint sa HTTP ug dili mabalaka kung unsang mga sukatan ang i-load niini ug kung unsa ang dili. Pinasukad sa kini nga datos, mahimo’g mapalambo ang analitikal nga mga pangutana.

Ang mga tinubdan sa datos alang sa ubang mga lut-od, pananglitan, mga sukdanan sa negosyo, gibahin sa tulo ka mga sangkap.

Una, kini ang mga eksternal nga sistema sa negosyo, Google Analytics, nagkolekta kami mga sukatan gikan sa mga troso. Gikan kanila nakakuha kami mga datos sa mga aktibo nga tiggamit, mga pagkakabig ug tanan nga may kalabutan sa negosyo. Ikaduha, kini usa ka sistema sa pag-monitor sa UI. Kini kinahanglan nga gihulagway sa mas detalyado.

Kaniadto nagsugod kami sa manual nga pagsulay ug kini mitubo ngadto sa awtomatik nga mga pagsulay sa pagpaandar ug mga panagsama. Gikan niini naghimo kami og pagmonitor, gibilin lamang ang nag-unang gamit, ug nagsalig sa mga marker nga lig-on kutob sa mahimo ug dili kanunay mag-usab sa paglabay sa panahon.

Ang bag-ong istruktura sa team nagpasabut nga ang tanan nga mga kalihokan sa aplikasyon limitado sa mga team sa produkto, mao nga mihunong kami sa paghimo og puro nga pagsulay. Hinuon, gihimo namo ang pag-monitor sa UI gikan sa mga pagsulay, nga gisulat sa Java, Selenium ug Jenkins (gigamit isip sistema sa paglansad ug pagmugna og mga taho).

Daghan kami nga mga pagsulay, apan sa katapusan nakahukom kami nga moadto sa main road, ang top-level metric. Ug kung kita adunay daghang mga piho nga pagsulay, lisud nga ipadayon ang mga datos hangtod karon. Ang matag sunod nga pagpagawas makaguba sa tibuuk nga sistema, ug ang tanan namong buhaton mao ang ayohon kini. Busa, nag-focus kami sa sukaranan kaayo nga mga butang nga panagsa ra magbag-o, ug gibantayan ra namon kini.

Sa katapusan, ikatulo, ang tinubdan sa datos usa ka sentralisadong sistema sa pag-log. Gigamit namo ang Elastic Stack para sa mga troso, ug mahimo namong makuha kini nga datos ngadto sa among monitoring system para sa mga sukdanan sa negosyo. Dugang pa niining tanan, aduna kitay kaugalingong serbisyo sa Monitoring API, nga gisulat sa Python, nga nagpangutana sa bisan unsang mga serbisyo pinaagi sa API ug nagkolekta sa datos gikan kanila ngadto sa Zabbix.

Ang laing kinahanglanon nga kinaiya sa pagmonitor mao ang visualization. Ang among gibase sa Grafana. Labaw kini taliwala sa ubang mga sistema sa visualization tungod kay gitugotan ka nga mahanduraw ang mga sukatan gikan sa lainlaing mga gigikanan sa datos sa dashboard. Makakolekta kami og top-level metrics para sa online store, pananglitan, ang gidaghanon sa mga order nga gibutang sa katapusang oras gikan sa DBMS, performance metrics para sa OS diin kini nga online store nagdagan gikan sa Zabbix, ug metrics para sa mga higayon niini nga aplikasyon. gikan sa Prometheus. Ug kining tanan anaa sa usa ka dashboard. Klaro ug accessible.

Tugoti ako nga timan-an ang bahin sa seguridad - karon among gitapos ang sistema, nga sa ulahi among i-integrate sa global monitoring system. Sa akong opinyon, ang mga nag-unang problema nga giatubang sa e-commerce sa natad sa kasiguruhan sa kasayuran adunay kalabotan sa mga bot, parser ug brute force. Kinahanglan natong bantayan kini, tungod kay kining tanan mahimong kritikal nga makaapekto sa operasyon sa atong mga aplikasyon ug sa atong reputasyon gikan sa panglantaw sa negosyo. Ug sa pinili nga stack malampuson natong gitabonan kini nga mga buluhaton.

Ang laing importante nga punto mao nga ang layer sa aplikasyon gitigum ni Prometheus. Siya mismo gihiusa usab sa Zabbix. Ug kami usab adunay sitespeed, usa ka serbisyo nga nagtugot kanamo sa pagtan-aw sa mga parameter sama sa katulin sa pagkarga sa among panid, mga bottleneck, pag-render sa panid, pag-load sa mga script, ug uban pa, gisagol usab kini sa API. Mao nga ang among mga sukatan nakolekta sa Zabbix, ug sumala niana, kami usab alerto gikan didto. Ang tanan nga mga alerto sa pagkakaron gipadala sa mga nag-unang pamaagi sa pagpadala (kay karon kini email ug telegrama, ang MS Teams bag-o lang usab nga konektado). Adunay mga plano nga i-upgrade ang pag-alerto sa ingon nga kahimtang nga ang mga smart bots nagtrabaho isip usa ka serbisyo ug naghatag kasayuran sa pag-monitor sa tanan nga mga interesado nga grupo sa produkto.

Alang kanamo, ang mga sukatan hinungdanon dili lamang alang sa mga indibidwal nga sistema sa impormasyon, apan usab mga kinatibuk-ang sukatan alang sa tibuuk nga imprastraktura nga gigamit sa mga aplikasyon: mga pungpong sa mga pisikal nga server diin ang mga virtual machine nagdagan, mga balanse sa trapiko, Mga Balanse sa Pag-load sa Network, ang network mismo, paggamit sa mga agianan sa komunikasyon . Dugang nga mga sukatan alang sa among kaugalingon nga mga sentro sa datos (kami adunay daghan niini ug ang imprastraktura dako kaayo).

Among gimonitor ang Sportmaster - giunsa ug unsa

Ang mga bentaha sa among sistema sa pagmonitor mao nga sa tabang niini makita namon ang kahimtang sa kahimsog sa tanan nga mga sistema ug masusi ang epekto niini sa usag usa ug sa gipaambit nga mga kapanguhaan. Ug sa katapusan, kini nagtugot kanato sa pag-apil sa resource planning, nga mao usab ang atong responsibilidad. Nagdumala kami sa mga kapanguhaan sa server - usa ka pool sulod sa e-commerce, komisyon ug pag-decommission sa mga bag-ong kagamitan, pagpalit ug dugang nga bag-ong kagamitan, pagpahigayon usa ka pag-audit sa paggamit sa kapanguhaan, ug uban pa. Kada tuig, ang mga team nagplano og bag-ong mga proyekto, nagpalambo sa ilang mga sistema, ug importante alang kanato ang paghatag kanila og mga kapanguhaan.

Ug sa tabang sa mga sukatan, nakita namon ang uso sa pagkonsumo sa kapanguhaan sa among mga sistema sa kasayuran. Ug base kanila mahimo kita magplano og usa ka butang. Sa lebel sa virtualization, gikolekta namon ang datos ug nakita ang kasayuran sa magamit nga kantidad sa mga kapanguhaan sa data center. Ug naa sa sulod sa data center makita nimo ang pag-recycle, ang aktuwal nga pag-apod-apod, ug pagkonsumo sa mga kahinguhaan. Dugang pa, pareho nga adunay mga standalone server ug virtual machine ug mga pungpong sa pisikal nga mga server diin kining tanan nga mga virtual machine kusog nga nagtuyok.

Mga panghitabo

Karon kami adunay kinauyokan sa sistema sa kinatibuk-an nga andam, apan adunay daghan pa nga mga butang nga kinahanglan pa nga buhaton. Sa labing gamay, kini usa ka layer sa seguridad sa kasayuran, apan hinungdanon usab nga maabot ang network, mapalambo ang pag-alerto ug masulbad ang isyu sa correlation. Kami adunay daghang mga layer ug mga sistema, ug sa matag layer adunay daghan pa nga mga sukatan. Kini nahimo nga usa ka matryoshka sa lebel sa usa ka matryoshka.

Ang among tahas mao ang paghimo sa husto nga mga alerto sa katapusan. Pananglitan, kung adunay problema sa hardware, pag-usab, sa usa ka virtual nga makina, ug adunay usa ka hinungdanon nga aplikasyon, ug ang serbisyo wala gisuportahan sa bisan unsang paagi. Nahibal-an namon nga ang virtual nga makina namatay. Dayon ang mga sukatan sa negosyo magpaalerto kanimo: ang mga tiggamit nawala sa usa ka dapit, walay pagkakabig, ang UI sa interface dili magamit, ang software ug mga serbisyo namatay usab.

Niini nga sitwasyon, makadawat kami og spam gikan sa mga alerto, ug kini dili na mohaum sa format sa usa ka tukma nga sistema sa pagmonitor. Ang pangutana sa correlation mitungha. Busa, labing maayo, ang atong sistema sa pag-monitor kinahanglan nga moingon: "Mga lalaki, ang imong pisikal nga makina namatay, ug uban niini kini nga aplikasyon ug kini nga mga sukatan," uban sa tabang sa usa ka alerto, imbes nga mapintas nga bombahan kami sa usa ka gatos nga mga alerto. Kini kinahanglan nga ireport ang nag-unang butang - ang hinungdan, nga makatabang sa madali nga pagwagtang sa problema tungod sa localization niini.

Ang among sistema sa pagpahibalo ug pagproseso sa alerto gihimo sa palibot sa usa ka XNUMX-oras nga serbisyo sa hotline. Ang tanan nga mga alerto nga giisip nga kinahanglan nga adunay ug gilakip sa checklist gipadala didto. Ang matag alerto kinahanglan adunay usa ka paghulagway: kung unsa ang nahitabo, kung unsa ang gipasabut niini, kung unsa ang epekto niini. Ug usab usa ka link sa dashboard ug mga panudlo kung unsa ang buhaton sa kini nga kaso.

Kining tanan mahitungod sa mga kinahanglanon alang sa pagtukod og alerto. Dayon ang sitwasyon mahimong molambo sa duha ka direksyon - adunay problema ug kinahanglan nga sulbaron, o adunay kapakyasan sa monitoring system. Apan sa bisan unsa nga kaso, kinahanglan ka nga moadto ug mahibal-an kini.

Sa kasagaran, nakadawat kami karon mga usa ka gatos nga mga alerto matag adlaw, nga gikonsiderar ang kamatuoran nga ang correlation sa mga alerto wala pa ma-configure sa husto. Ug kung kinahanglan namon nga himuon ang teknikal nga trabaho, ug pugson namon nga gipalong ang usa ka butang, ang ilang gidaghanon nagdugang nga kamahinungdanon.

Dugang sa pagmonitor sa mga sistema nga among gipadagan ug pagkolekta sa mga sukatan nga giisip nga importante sa among kiliran, ang sistema sa pag-monitor nagtugot kanamo sa pagkolekta sa datos alang sa mga team sa produkto. Mahimo nilang maimpluwensyahan ang komposisyon sa mga sukatan sa sulod sa mga sistema sa impormasyon nga among gibantayan.

Mahimong moabut ang among kauban ug mohangyo nga idugang ang pila ka sukatan nga magamit alang kanamo ug sa team. O, pananglitan, ang team mahimo’g wala’y igo nga sukaranan nga mga sukatan nga naa kanato; kinahanglan nila nga sundan ang pipila nga mga piho. Sa Grafana, naghimo kami usa ka wanang alang sa matag team ug gihatagan ang mga katungod sa admin. Usab, kung ang usa ka team nanginahanglan mga dashboard, apan sila mismo dili / wala mahibal-an kung giunsa kini buhaton, tabangan namon sila.

Tungod kay naa kami sa gawas sa dagan sa paghimo sa kantidad sa team, ang ilang mga pagpagawas ug pagplano, anam-anam kami nga nakahinapos nga ang mga pagpagawas sa tanan nga mga sistema wala’y kapuslanan ug mahimong ilunsad adlaw-adlaw nga wala’y koordinasyon uban kanamo. Ug hinungdanon alang kanamo nga bantayan kini nga mga pagpagawas, tungod kay mahimo’g makaapekto kini sa operasyon sa aplikasyon ug makaguba sa usa ka butang, ug kini hinungdanon. Aron madumala ang mga pagpagawas, among gigamit ang Bamboo, diin kami makadawat og data pinaagi sa API ug makita kung unsang mga pagpagawas ang gipagawas diin ang mga sistema sa impormasyon ug ang ilang kahimtang. Ug ang labing hinungdanon nga butang mao kung unsang orasa. Gibutang namon ang mga marker sa pagpagawas sa panguna nga mga kritikal nga sukatan, nga makita kaayo kung adunay mga problema.

Niining paagiha makita nato ang kalambigitan tali sa mga bag-ong pagpagawas ug mga mitumaw nga problema. Ang panguna nga ideya mao ang pagsabut kung giunsa ang sistema molihok sa tanan nga mga lut-od, dali nga i-localize ang problema ug ayohon kini dayon. Human sa tanan, kini kasagaran mahitabo nga ang labing nagkinahanglan sa panahon dili pagsulbad sa problema, apan pagpangita sa hinungdan.

Ug sa kini nga lugar sa umaabot gusto namon nga mag-focus sa proactivity. Sa tinuud, gusto nakong mahibal-an daan ang bahin sa usa ka nagsingabot nga problema, ug dili pagkahuman sa kamatuoran, aron mapugngan nako kini kaysa masulbad kini. Usahay mahitabo ang sayup nga mga alarma sa sistema sa pagmonitor, tungod sa sayup sa tawo ug tungod sa mga pagbag-o sa aplikasyon. Ug gitrabaho namon kini, gi-debug kini, ug gisulayan nga pasidan-an ang mga tiggamit nga naggamit niini uban kanamo bahin niini sa wala pa ang bisan unsang pagmaniobra sa sistema sa pag-monitor , o buhata kini nga mga kalihokan sa teknikal nga bintana.

Busa, ang sistema gilunsad ug malampuson nga nagtrabaho sukad sa sinugdanan sa tingpamulak ... ug nagpakita sa tinuod nga kita. Siyempre, dili kini ang katapusan nga bersyon niini; ipaila namo ang daghang mas mapuslanon nga mga bahin. Apan sa pagkakaron, sa kadaghan sa mga integrasyon ug aplikasyon, ang pag-monitor sa automation dili gyud malikayan.

Kung nagmonitor ka usab sa dagkong mga proyekto nga adunay daghang gidaghanon sa mga panagsama, isulat sa mga komento kung unsang pilak nga bala ang imong nakit-an alang niini.

Source: www.habr.com

Idugang sa usa ka comment