Lima ka mga problema sa mga proseso sa operasyon ug suporta sa Highload IT system

Hello, Habr! Gisuportahan nako ang Highload IT system sulod sa napulo ka tuig. Dili ako mosulat niini nga artikulo mahitungod sa mga problema sa pag-set up sa nginx aron magtrabaho sa 1000+ RPS mode o uban pang teknikal nga mga butang. Akong ipaambit ang akong mga obserbasyon bahin sa mga problema sa mga proseso nga motumaw sa pagsuporta ug operasyon sa maong mga sistema.

Pagbantay

Ang teknikal nga suporta wala maghulat hangtud nga moabut ang usa ka hangyo nga adunay sulud nga "Unsa Ngano ... ang site dili na molihok?" Sulod sa usa ka minuto pagkahuman nahagsa ang site, kinahanglan nga makita na sa suporta ang problema ug magsugod sa pagsulbad niini. Apan ang site mao ang tumoy sa iceberg. Ang pagkaanaa niini usa sa mga una nga gibantayan.

Unsa ang buhaton sa sitwasyon kung ang nahabilin nga mga butang sa usa ka online store wala na moabut gikan sa sistema sa ERP? O ang sistema sa CRM nga nagkalkula sa mga diskwento alang sa mga kliyente mihunong sa pagtubag? Ang site daw nagtrabaho. Ang kondisyon nga Zabbix nakadawat sa 200 nga tubag niini. Ang pagbalhin sa katungdanan wala makadawat bisan unsang mga pahibalo gikan sa pag-monitor ug malipayon nga nagtan-aw sa una nga yugto sa bag-ong panahon sa Game of Thrones.

Ang pag-monitor kasagaran limitado sa pagsukod lamang sa kahimtang sa memorya, RAM ug server processor load. Apan alang sa negosyo mas hinungdanon nga makuha ang pagkaanaa sa produkto sa website. Ang kondisyon nga kapakyasan sa usa ka virtual machine sa cluster mosangpot sa kamatuoran nga ang trapiko mohunong sa pag-adto niini ug ang load sa ubang mga server modaghan. Ang kompanya dili mawad-an sa salapi.

Busa, dugang sa pag-monitor sa teknikal nga mga parameter sa mga operating system sa mga server, kinahanglan nimo nga i-configure ang mga sukatan sa negosyo. Mga sukatan nga direktang makaapekto sa salapi. Nagkalainlain nga mga interaksyon sa mga eksternal nga sistema (CRM, ERP ug uban pa). Ang gidaghanon sa mga order alang sa usa ka piho nga yugto sa panahon. Malampuson o dili malampuson nga mga pagtugot sa kliyente ug uban pang mga sukatan.

Interaksyon sa mga eksternal nga sistema

Ang bisan unsang website o mobile application nga adunay tinuig nga turnover nga labaw sa usa ka bilyon nga rubles nakig-uban sa mga eksternal nga sistema. Sugod gikan sa gihisgutan sa ibabaw nga CRM ug ERP ug natapos sa pagbalhin sa mga datos sa pagbaligya ngadto sa usa ka eksternal nga sistema sa Big Data alang sa pag-analisar sa mga gipamalit ug pagtanyag sa kliyente og usa ka produkto nga siguradong iyang paliton (sa pagkatinuod, dili). Ang matag ingon nga sistema adunay kaugalingon nga suporta. Ug kasagaran ang komunikasyon sa kini nga mga sistema hinungdan sa kasakit. Ilabi na kung ang problema kay global ug kinahanglan nimo nga analisahon kini sa lainlaing mga sistema.

Ang ubang mga sistema naghatag ug numero sa telepono o telegrama alang sa ilang mga tigdumala. Sa usa ka dapit kinahanglan nimo nga magsulat og mga sulat ngadto sa mga manedyer o moadto sa mga bug tracker niining mga eksternal nga sistema. Bisan sa sulod sa konteksto sa usa ka dako nga kompanya, ang lainlaing mga sistema kanunay nga naglihok sa lainlaing mga sistema sa accounting sa aplikasyon. Usahay imposible nga masubay ang kahimtang sa usa ka aplikasyon. Nakadawat ka usa ka hangyo sa usa ka kondisyon nga Jira. Unya sa comment niining unang Jira nagbutang ka ug link sa isyu sa laing Jira. Sa ikaduha nga Jira sa aplikasyon, adunay nagsulat og komento nga kinahanglan nimo nga tawagan ang conditional admin nga si Andrey aron masulbad ang isyu. Ug sa ingon.

Ang labing kaayo nga solusyon sa kini nga problema mao ang paghimo usa ka wanang alang sa komunikasyon, pananglitan sa Slack. Pagdapit sa tanang partisipante sa proseso sa pag-operate sa mga eksternal nga sistema sa pag-apil. Ug usa usab ka tracker aron dili madoble ang mga aplikasyon. Ang mga aplikasyon kinahanglan nga masubay sa usa ka lugar, gikan sa pag-monitor sa mga pahibalo hangtod sa output sa mga solusyon sa bug sa umaabot. Moingon ka nga kini dili realistiko ug kini nahitabo sa kasaysayan nga nagtrabaho kami sa usa ka tracker, ug nagtrabaho sila sa lain. Nagkalainlain nga mga sistema ang nagpakita, sila adunay kaugalingon nga awtonomiya nga mga koponan sa IT. Miuyon ko, ug busa ang problema kinahanglang sulbaron gikan sa itaas sa lebel sa CIO o tag-iya sa produkto.

Ang matag sistema nga imong nakig-uban kinahanglan maghatag suporta ingon usa ka serbisyo nga adunay klaro nga SLA aron masulbad ang mga isyu pinaagi sa prayoridad. Ug dili kung ang conditional admin nga si Andrey adunay usa ka minuto alang kanimo.

Tawo nga Bottleneck

Ang matag usa ba sa usa ka proyekto (o produkto) adunay usa ka tawo kansang pagbakasyon hinungdan sa mga kombulsyon sa ilang mga labaw? Kini mahimo nga usa ka devops engineer, analista o developer. Pagkahuman, usa ra ka inhenyero sa devops ang nahibal-an kung unsang mga server ang adunay kung unsang mga sulud ang na-install, kung giunsa ang pag-reboot sa sulud kung adunay problema, ug sa kinatibuk-an, ang bisan unsang komplikado nga problema dili masulbad kung wala siya. Ang analista mao ra ang nahibal-an kung giunsa ang imong komplikado nga mekanismo molihok. Hain nga mga stream sa datos moadto kung asa. Ubos sa unsa nga mga parameter sa mga hangyo kung unsang mga serbisyo, hain ang makadawat mga tubag.
Kinsa ang dali nga makasabut ngano nga adunay mga sayup sa mga troso ug dali nga ayuhon ang usa ka kritikal nga bug sa produkto? Siyempre parehas nga developer. Adunay uban, apan sa pipila ka mga rason lamang siya nakasabut sa unsa nga paagi sa lain-laing mga modules sa sistema sa pagtrabaho.

Ang gamut niini nga problema mao ang kakulang sa dokumentasyon. Pagkahuman, kung ang tanan nga mga serbisyo sa imong sistema gihulagway, nan posible nga atubangon ang problema nga wala’y usa ka analista. Kung ang devops mikuha ug pipila ka adlaw gikan sa iyang busy nga eskedyul ug gihulagway ang tanan nga mga server, mga serbisyo ug mga panudlo alang sa pagsulbad sa kasagaran nga mga problema, nan ang problema sa iyang pagkawala mahimong masulbad nga wala siya. Dili nimo kinahanglan nga dali nga mahuman ang imong beer sa baybayon samtang nagbakasyon ug mangita og wi-fi aron masulbad ang problema.

Kompetensya ug responsibilidad sa mga kawani sa suporta

Sa mga dagkong proyekto, ang mga kompanya wala mag-usik sa sweldo sa developer. Nangita sila og mga mahal nga middle o senior gikan sa susama nga mga proyekto. Uban sa suporta ang sitwasyon medyo lahi. Gipaningkamutan nila nga makunhuran kini nga mga gasto sa tanan nga posible nga paagi. Ang mga kompanya nagsuhol sa dili mahal nga mga trabahante sa Enikey kagahapon ug maisugon nga nakiggubat. Posible kini nga estratehiya kung naghisgot kami bahin sa usa ka website sa business card sa usa ka tanum sa Zelenograd.

Kung naghisgot kami bahin sa usa ka dako nga online store, nan ang matag oras sa downtime nagkantidad labaw pa sa binulan nga suweldo sa usa ka tagdumala sa Enikey. Atong kuhaon ang 1 bilyon nga rubles sa tinuig nga turnover isip usa ka punto sa pagsugod. Kini ang minimum nga turnover sa bisan unsang online store gikan sa rating TOP 100 para sa 2018. Bahina kini nga kantidad sa gidaghanon sa mga oras matag tuig ug makakuha labaw pa sa 100 nga mga rubles nga net nga pagkawala. Ug kung dili nimo maihap ang mga oras sa kagabhion, mahimo nimo nga luwas nga doblehon ang kantidad.

Apan ang kuwarta dili ang panguna nga butang, dili ba? (dili, siyempre ang nag-unang butang) Adunay usab mga pagkawala sa reputasyon. Ang pagkahulog sa usa ka inila nga online store mahimong hinungdan sa usa ka balud sa mga pagsusi sa mga social network ug mga publikasyon sa thematic media. Ug ang mga panag-istoryahanay sa mga higala sa kusina sa estilo sa "Ayaw pagpalit bisan unsa didto, ang ilang website kanunay nga wala" dili masukod sa tanan.

Karon sa responsibilidad. Sa akong praktis, adunay usa ka kaso kung ang tagdumala sa katungdanan wala motubag sa oras sa usa ka pahibalo gikan sa sistema sa pag-monitor bahin sa dili magamit sa site. Sa usa ka maanindot nga ting-init sa Biyernes sa gabii, ang website sa usa ka iladong online nga tindahan sa Moscow hilom nga naghigda. Kaniadtong Sabado sa buntag, ang tagdumala sa produkto sa kini nga site wala makasabut ngano nga ang site wala magbukas, ug adunay kahilom sa suporta ug dinalian nga mga chat sa pagpahibalo sa Slack. Ang ingon nga sayup nagkantidad kanamo og unom ka numero nga kantidad, ug kini nga opisyal sa katungdanan sa iyang trabaho.

Ang responsibilidad usa ka lisud nga kahanas nga pauswagon. Ang usa ka tawo aduna niini o wala. Busa, sa panahon sa mga interbyu, gisulayan nako nga mailhan ang presensya niini sa lainlaing mga pangutana nga dili direkta nga nagpakita kung ang usa ka tawo naanad sa pagkuha sa responsibilidad. Kung ang usa ka tawo motubag nga gipili niya ang usa ka unibersidad tungod kay giingon sa iyang mga ginikanan o nagbag-o sa trabaho tungod kay giingon sa iyang asawa nga dili igo ang iyang kita, nan mas maayo nga dili na makig-uban sa ingon nga mga tawo.

Interaksyon sa development team

Kung ang mga tiggamit makasugat og yano nga mga problema sa usa ka produkto sa panahon sa operasyon, ang suporta nagsulbad niini sa ilang kaugalingon. Naningkamot sa pagkopya sa problema, pag-analisar sa mga troso, ug uban pa. Apan unsa ang buhaton kung adunay usa ka bug nga makita sa produkto? Sa kini nga kaso, ang suporta naghatag sa buluhaton sa mga nag-develop ug dinhi nagsugod ang kalingawan.

Ang mga developers kanunay nga overloaded. Naghimo sila og bag-ong mga bahin. Ang pag-ayo sa mga bug sa pagbaligya dili ang labing makapaikag nga kalihokan. Ang mga deadline nagkaduol na aron makompleto ang sunod nga sprint. Ug unya ang dili maayo nga mga tawo gikan sa suporta moabut ug moingon: "Unta dayon ang tanan, kami adunay mga problema." Ang prayoridad sa maong mga buluhaton gamay ra. Ilabi na kung ang problema dili ang labing kritikal ug ang panguna nga pag-andar sa site nagtrabaho, ug kung ang tigdumala sa pagpagawas wala magdagan nga adunay mga mata nga naglutaw ug nagsulat: "Dali nga idugang kini nga buluhaton sa sunod nga pagpagawas o hotfix."

Ang mga isyu nga adunay normal o ubos nga prayoridad gibalhin gikan sa pagpagawas ngadto sa pagpagawas. Sa pangutana nga "Kanus-a mahuman ang buluhaton?" makadawat ka og mga tubag sa estilo sa: "Pasayloa, adunay daghang mga buluhaton karon, pangutan-a ang imong mga nanguna sa team o manager sa pagpagawas."

Ang mga problema sa pagka-produktibo nagkinahanglan og mas taas nga prayoridad kay sa paghimo og mga bag-ong feature. Ang dili maayo nga mga pagsusi dili magdugay kung ang mga tiggamit kanunay nga mapandol sa mga bug. Lisod ibalik ang nadaot nga reputasyon.

Ang mga isyu sa interaksyon tali sa kalamboan ug suporta gisulbad sa DevOps. Kini nga abbreviation sagad gigamit sa porma sa usa ka piho nga tawo nga makatabang sa paghimo sa pagsulay nga mga palibot alang sa pag-uswag, nagtukod sa mga pipeline sa CICD ug dali nga nagdala sa nasulayan nga code sa produksiyon. Ang DevOps usa ka pamaagi sa pagpalambo sa software kung ang tanan nga mga partisipante sa proseso suod nga makig-uban sa usag usa ug makatabang sa dali nga paghimo ug pag-update sa mga produkto ug serbisyo sa software. Ang akong gipasabut mga analista, developer, tester ug suporta.

Niini nga pamaagi, ang suporta ug kalamboan dili lain-laing mga departamento nga adunay kaugalingong mga tumong ug tumong. Ang pag-uswag nalangkit sa operasyon ug vice versa. Ang bantog nga hugpong sa mga gipang-apod-apod nga mga koponan: "Ang problema wala sa akong kiliran" dili na makita kanunay sa mga chat, ug ang mga tiggamit sa katapusan nahimong labi ka malipayon.

Source: www.habr.com

Idugang sa usa ka comment