Ħames problemi fil-proċessi tal-operat u l-appoġġ tas-sistemi tal-IT Highload

Hello, Habr! Ilni nappoġġja s-sistemi tal-IT Highload għal għaxar snin. Mhux se nikteb f'dan l-artikolu dwar il-problemi tat-twaqqif ta 'nginx biex jaħdem fil-modalità 1000+ RPS jew affarijiet tekniċi oħra. Se naqsam l-osservazzjonijiet tiegħi dwar il-problemi fil-proċessi li jinqalgħu fl-appoġġ u l-operat ta 'sistemi bħal dawn.

Monitoraġġ

L-appoġġ tekniku ma jistennax sakemm tasal talba bil-kontenut "X'Għaliex... is-sit mhux qed jaħdem mill-ġdid?" Fi żmien minuta wara li s-sit jiġġarraf, l-appoġġ għandu diġà jara l-problema u jibda jsolviha. Iżda s-sit huwa l-ponta tal-iceberg. Id-disponibbiltà tagħha hija waħda mill-ewwel li tiġi mmonitorjata.

X'għandek tagħmel bis-sitwazzjoni meta l-oġġetti li jifdal ta 'ħanut online ma jaslux aktar mis-sistema ERP? Jew is-sistema CRM li tikkalkula l-iskontijiet għall-klijenti waqfet tirrispondi? Is-sit jidher li qed jaħdem. Zabbix kundizzjonali jirċievi l-200 risposta tiegħu. Il-bidla tad-dmir ma rċeviet l-ebda notifika mill-monitoraġġ u kuntenti qed tara l-ewwel episodju tal-istaġun il-ġdid ta 'Game of Thrones.

Il-monitoraġġ ħafna drabi huwa limitat biss għall-kejl tal-istat tal-memorja, RAM u t-tagħbija tal-proċessur tas-server. Iżda għan-negozju huwa ħafna aktar importanti li tinkiseb id-disponibbiltà tal-prodott fuq il-websajt. Il-falliment kondizzjonali ta 'magna virtwali waħda fil-cluster se jwassal għall-fatt li t-traffiku jieqaf lejha u t-tagħbija fuq servers oħra tiżdied. Il-kumpanija mhux se titlef il-flus.

Għalhekk, minbarra l-monitoraġġ tal-parametri tekniċi tas-sistemi operattivi fuq is-servers, għandek bżonn tikkonfigura l-metriċi tan-negozju. Metriċi li jaffettwaw direttament il-flus. Diversi interazzjonijiet ma 'sistemi esterni (CRM, ERP u oħrajn). In-numru ta 'ordnijiet għal ċertu perjodu ta' żmien. Awtorizzazzjonijiet tal-klijenti b'suċċess jew mingħajr suċċess u metriċi oħra.

Interazzjoni ma' sistemi esterni

Kwalunkwe websajt jew applikazzjoni mobbli b'fatturat annwali ta 'aktar minn biljun rublu jinteraġixxi ma' sistemi esterni. Tibda mis-CRM u ERP imsemmija hawn fuq u tispiċċa bit-trasferiment tad-dejta tal-bejgħ għal sistema esterna tal-Big Data għall-analiżi tax-xiri u l-offerta lill-klijent prodott li żgur se jixtri (fil-fatt, mhux). Kull sistema bħal din għandha l-appoġġ tagħha. U ħafna drabi l-komunikazzjoni ma 'dawn is-sistemi tikkawża uġigħ. Speċjalment meta l-problema hija globali u għandek bżonn tanalizzaha f'sistemi differenti.

Xi sistemi jipprovdu numru tat-telefon jew telegramma għall-amministraturi tagħhom. X'imkien għandek bżonn tikteb ittri lill-maniġers jew tmur għall-bug trackers ta 'dawn is-sistemi esterni. Anke fil-kuntest ta' kumpanija waħda kbira, sistemi differenti ħafna drabi joperaw f'sistemi ta' kontabilità ta' applikazzjoni differenti. Kultant isir impossibbli li ssegwi l-istatus ta' applikazzjoni. Tirċievi talba f'Jira kondizzjonali waħda. Imbagħad fil-kumment ta’ din l-ewwel Jira tpoġġi link għall-kwistjoni f’Jira oħra. Fit-tieni Jira fl-applikazzjoni, xi ħadd diġà qed jikteb kumment li għandek bżonn iċempel lill-admin kondizzjonali Andrey biex issolvi l-kwistjoni. U hekk.

L-aħjar soluzzjoni għal din il-problema tkun li jinħoloq spazju wieħed għall-komunikazzjoni, pereżempju f'Slack. Tistieden lill-parteċipanti kollha fil-proċess ta 'tħaddim ta' sistemi esterni biex jingħaqdu. U wkoll tracker wieħed sabiex ma jiġux duplikati l-applikazzjonijiet. L-applikazzjonijiet għandhom jiġu ssorveljati f'post wieħed, minn notifiki ta 'monitoraġġ sal-output ta' soluzzjonijiet ta 'bugs fil-futur. Tgħid li dan mhuwiex realistiku u storikament ġara li naħdmu f'tracker wieħed, u jaħdmu f'ieħor. Dehru sistemi differenti, kellhom it-timijiet awtonomi tagħhom stess tal-IT. Naqbel, u għalhekk il-problema trid tissolva minn fuq fil-livell tas-CIO jew tas-sid tal-prodott.

Kull sistema li jinteraġixxi magħha għandha tipprovdi appoġġ bħala servizz bi SLA ċar biex issolvi kwistjonijiet bi prijorità. U mhux meta l-admin kundizzjonali Andrey ikollu minuta għalik.

Bottleneck Man

Kulħadd fuq proġett (jew prodott) għandu persuna li tmur għall-vaganza tagħha tikkawża konvulżjonijiet fost is-superjuri tagħhom? Dan jista 'jkun inġinier devops, analista jew żviluppatur. Wara kollox, inġinier devops biss jaf liema servers għandhom liema kontenituri installati, kif reboot il-kontenitur f'każ ta 'problema, u b'mod ġenerali, kwalunkwe problema kumplessa ma tistax tiġi solvuta mingħajru. L-analista huwa l-uniku wieħed li jaf kif jaħdem il-mekkaniżmu kumpless tiegħek. Liema flussi tad-data jmorru fejn. Taħt liema parametri ta’ talbiet għal liema servizzi, liema se nirċievu tweġibiet.
Min se jifhem malajr għaliex hemm żbalji fil-zkuk u fil-pront jiffissa bug kritiku fil-prodott? Naturalment l-istess żviluppatur. Hemm oħrajn, iżda għal xi raġuni biss jifhem kif jaħdmu l-moduli differenti tas-sistema.

L-għerq ta 'din il-problema huwa n-nuqqas ta' dokumentazzjoni. Wara kollox, jekk is-servizzi kollha tas-sistema tiegħek kienu deskritti, allura jkun possibbli li tittratta l-problema mingħajr analista. Jekk devops ħadu ftit jiem barra mill-iskeda impenjattiva tiegħu u ddeskrivew is-servers, is-servizzi u l-istruzzjonijiet kollha biex isolvu problemi tipiċi, allura l-problema fin-nuqqas tiegħu tista 'tiġi solvuta mingħajru. M'għandekx bżonn tispiċċa malajr il-birra tiegħek fuq il-bajja waqt li tkun fuq vaganza u tfittex wi-fi biex issolvi l-problema.

Kompetenza u responsabbiltà tal-persunal ta' appoġġ

Fuq proġetti kbar, il-kumpaniji ma skimp fuq is-salarji tal-iżviluppaturi. Qed ifittxu medji jew anzjani għaljin minn proġetti simili. Bl-appoġġ is-sitwazzjoni hija ftit differenti. Huma qed jippruvaw inaqqsu dawn l-ispejjeż b'kull mod possibbli. Kumpaniji jimpjegaw ħaddiema Enikey tal-bieraħ irħas u bil-kuraġġ jidħlu fil-battalja. Din l-istrateġija hija possibbli jekk qed nitkellmu dwar websajt tal-karta tan-negozju ta 'impjant f'Zelenograd.

Jekk qed nitkellmu dwar ħanut online kbir, allura kull siegħa ta 'waqfien tiswa aktar mis-salarju ta' kull xahar ta 'amministratur ta' Enikey. Ejja nieħdu 1 biljun rublu ta 'fatturat annwali bħala punt tat-tluq. Dan huwa l-fatturat minimu ta 'kull ħanut online mill-klassifikazzjoni TOP 100 għall-2018. Aqsam dan l-ammont bin-numru ta 'sigħat fis-sena u tikseb aktar minn 100 rublu ta' telf nett. U jekk ma tgħoddx is-sigħat tal-lejl, tista 'tirduppja l-ammont mingħajr periklu.

Imma l-flus mhumiex il-ħaġa prinċipali, hux? (le, ovvjament il-ħaġa prinċipali) Hemm ukoll telf ta 'reputazzjoni. Il-waqgħa ta’ ħanut onlajn magħruf jista’ jikkawża kemm mewġa ta’ reviżjonijiet fuq netwerks soċjali kif ukoll pubblikazzjonijiet fil-midja tematika. U l-konversazzjonijiet ta 'ħbieb fil-kċina fl-istil ta' "Ma tixtri xejn hemmhekk, il-websajt tagħhom hija dejjem imnaqqsa" ma jistgħux jitkejlu xejn.

Issa għar-responsabbiltà. Fil-prattika tiegħi, kien hemm każ meta l-amministratur tax-xogħol ma weġibx fil-ħin għal notifika mis-sistema ta 'monitoraġġ dwar in-nuqqas ta' disponibbiltà tas-sit. F'sajf pjaċevoli il-Ġimgħa filgħaxija, il-websajt ta 'ħanut onlajn magħruf f'Moska kienet tinsab bil-kwiet. Is-Sibt filgħodu, il-maniġer tal-prodott ta 'dan is-sit ma fehemx għaliex is-sit ma fetaħx, u kien hemm silenzju fl-appoġġ u ċ-chats ta' notifika urġenti f'Slack. Żball bħal dan swielna somma ta’ sitt ċifri, u dan l-uffiċjal tad-dmir xogħlu.

Ir-responsabbiltà hija ħila diffiċli biex tiżviluppa. Jew persuna għandha jew le. Għalhekk, waqt l-intervisti, nipprova nidentifika l-preżenza tagħha b’diversi mistoqsijiet li indirettament juru jekk persuna hijiex imdorrija tieħu r-responsabbiltà. Jekk persuna twieġeb li għażlet università għax hekk qalu l-ġenituri jew tibdel ix-xogħol għax martu qalet li ma jaqlax biżżejjed, allura aħjar ma tinvolvix ruħha ma’ nies bħal dawn.

Interazzjoni mat-tim tal-iżvilupp

Meta l-utenti jiltaqgħu ma 'problemi sempliċi ma' prodott waqt it-tħaddim, l-appoġġ issolvihom waħedhom. Jipprova jirriproduċi l-problema, janalizza z-zkuk, eċċ. Imma x'għandek tagħmel meta jidher bug fil-prodott? F'dan il-każ, l-appoġġ jassenja l-kompitu lill-iżviluppaturi u dan huwa fejn jibda l-gost.

L-iżviluppaturi huma kontinwament mgħobbija żżejjed. Qed joħolqu karatteristiċi ġodda. L-iffissar ta 'bugs mal-bejgħ mhuwiex l-aktar attività interessanti. Qed joqorbu l-iskadenzi biex jitlesta l-isprint li jmiss. U mbagħad jiġu nies spjaċevoli mill-appoġġ u jgħidu: "Ħaqlaq kollox immedjatament, għandna problemi." Il-prijorità ta' kompiti bħal dawn hija minima. Speċjalment meta l-problema mhix l-aktar kritika u l-funzjonalità ewlenija tas-sit taħdem, u meta l-maniġer tar-rilaxx ma jmurx b'għajnejn minfuħa u jikteb: "Żid b'mod urġenti dan il-kompitu mar-rilaxx jew hotfix li jmiss."

Kwistjonijiet bi prijorità normali jew baxxa huma mċaqalqa minn rilaxx għal rilaxx. Għall-mistoqsija "Meta se jitlesta l-kompitu?" int ser tirċievi tweġibiet fl-istil ta’: “Jiddispjaċina, hemm ħafna kompiti bħalissa, staqsi lill-mexxejja tat-tim tiegħek jew lill-maniġer tar-rilaxx.”

Il-problemi tal-produttività jieħdu prijorità ogħla milli joħolqu karatteristiċi ġodda. Reviżjonijiet ħżiena mhux se jdumu li ġejjin jekk l-utenti kontinwament ifixklu fuq bugs. Reputazzjoni bil-ħsara hija diffiċli biex tirrestawraha.

Kwistjonijiet ta 'interazzjoni bejn l-iżvilupp u l-appoġġ huma solvuti minn DevOps. Din l-abbrevjazzjoni spiss tintuża fil-forma ta 'persuna speċifika li tgħin fil-ħolqien ta' ambjenti ta 'test għall-iżvilupp, tibni pipelines CICD u malajr iġġib kodiċi ttestjat fil-produzzjoni. DevOps huwa approċċ għall-iżvilupp tas-softwer meta l-parteċipanti kollha fil-proċess jinteraġixxu mill-qrib ma 'xulxin u jgħinu biex jinħolqu u jaġġornaw malajr il-prodotti u s-servizzi tas-softwer. Jiġifieri analisti, żviluppaturi, testers u appoġġ.

F'dan l-approċċ, l-appoġġ u l-iżvilupp mhumiex dipartimenti differenti bl-għanijiet u l-għanijiet tagħhom stess. L-iżvilupp huwa involut fl-operat u viċi versa. Il-frażi famuża ta 'timijiet distribwiti: "Il-problema mhix fuq in-naħa tiegħi" m'għadhiex tidher fiċ-chats daqshekk spiss, u l-utenti finali jsiru ftit aktar kuntenti.

Sors: www.habr.com

Żid kumment