Lima masalah dina prosés operasi sarta rojongan sistem Highload IT

Halo, Habr! Kuring parantos ngadukung sistem IT Highload salami sapuluh taun. Kuring moal nyerat dina tulisan ieu ngeunaan masalah nyetél nginx pikeun damel dina modeu 1000+ RPS atanapi hal téknis anu sanés. Kuring baris babagi observasi kuring ngeunaan masalah dina prosés anu timbul dina rojongan tur operasi sistem misalna.

Ngawaskeun

Pangrojong téknis henteu ngantosan dugi pamundut sumping kalayan eusi "Naon Naha ... situsna henteu tiasa dianggo deui?" Dina hiji menit saatos situs nabrak, dukungan kedah parantos ningali masalah sareng ngawitan ngabéréskeunana. Tapi situs éta mangrupikeun puncak gunung es. Kasadiaanna mangrupikeun salah sahiji anu pangheulana diawaskeun.

Naon anu kudu dilakukeun ku kaayaan nalika sésa-sésa barang toko online henteu sumping deui tina sistem ERP? Atawa boga sistem CRM nu Etang diskon pikeun klien dieureunkeun ngarespon? Situs sigana tiasa dianggo. Zabbix kondisional narima 200 respon na. Pergeseran tugas henteu nampi béwara ti pangawas sareng bagja ningali épisode mimiti usum anyar Game of Thrones.

Pangimeutan sering dugi ka ukur ukur kaayaan mémori, RAM sareng beban prosesor server. Tapi pikeun bisnis langkung penting pikeun kéngingkeun kasadiaan produk dina halaman wéb. Kagagalan kondisional hiji mesin virtual dina kluster bakal ngakibatkeun kanyataan yén lalulintas bakal eureun indit ka dinya jeung beban dina server séjén bakal nambahan. Pausahaan moal leungit duit.

Ku alatan éta, salian ngawaskeun parameter téknis sistem operasi dina server, anjeun kedah ngonpigurasikeun métrik bisnis. Métrik anu langsung mangaruhan artos. Rupa-rupa interaksi sareng sistem éksternal (CRM, ERP sareng anu sanésna). Jumlah pesenan pikeun kurun waktu nu tangtu. Otorisasi klien anu suksés atanapi henteu suksés sareng métrik anu sanés.

Interaksi jeung sistem éksternal

Sakur situs wéb atanapi aplikasi sélulér kalayan omzet taunan langkung ti samilyar rubles berinteraksi sareng sistem éksternal. Dimimitian tina CRM sareng ERP anu disebatkeun di luhur sareng ditungtungan ku mindahkeun data penjualan ka sistem Data Big éksternal pikeun nganalisa pameseran sareng nawiskeun klien produk anu anjeunna pasti bakal mésér (saleresna henteu). Unggal sistem sapertos gaduh dukungan sorangan. Sareng sering komunikasi sareng sistem ieu nyababkeun nyeri. Utamana nalika masalahna global sareng anjeun kedah nganalisis dina sistem anu béda.

Sababaraha sistem nyayogikeun nomer telepon atanapi telegram pikeun pangurusna. Dimana waé anjeun kedah nyerat surat ka manajer atanapi angkat ka pelacak bug tina sistem éksternal ieu. Malah dina konteks hiji pausahaan badag, sistem béda mindeng beroperasi dina sistem akuntansi aplikasi béda. Kadang-kadang janten teu mungkin pikeun ngalacak status hiji aplikasi. Anjeun nampi pamundut dina hiji Jira kondisional. Teras dina koméntar Jira munggaran ieu anjeun nempatkeun tautan kana masalah éta dina Jira anu sanés. Dina Jira kadua dina aplikasi, batur geus nulis komentar éta Anjeun kudu nelepon admin kondisional Andrey pikeun ngabéréskeun masalah. Jeung saterusna.

Solusi anu pangsaéna pikeun masalah ieu nyaéta nyiptakeun rohangan tunggal pikeun komunikasi, contona dina Slack. Ngondang sadaya pamilon dina prosés operasi sistem éksternal pikeun gabung. Sareng ogé tracker tunggal supados henteu nyalin aplikasi. Aplikasi kedah dilacak dina hiji tempat, ti ngawaskeun bewara dugi ka kaluaran solusi bug di hareup. Anjeun bakal nyebutkeun yén ieu téh unrealistic sarta eta geus sajarahna kajadian nu urang dianggo dina hiji tracker, sarta aranjeunna dianggo dina sejen. Sistem anu béda muncul, aranjeunna ngagaduhan tim IT otonom sorangan. Kuring satuju, sarta ku kituna masalahna kudu direngsekeun ti luhur di tingkat CIO atawa boga produk.

Unggal sistem anu anjeun interaksi kedah nyayogikeun dukungan salaku layanan kalayan SLA anu jelas pikeun ngabéréskeun masalah ku prioritas. Sareng henteu nalika admin kondisional Andrey gaduh menit pikeun anjeun.

Lalaki Bottleneck

Naha sadayana dina proyék (atanapi produk) ngagaduhan jalma anu nuju liburan nyababkeun konvulsi diantara atasanna? Ieu tiasa janten insinyur devops, analis atanapi pamekar. Barina ogé, ukur insinyur devops anu terang mana server anu dipasang wadahna, kumaha reboot wadahna upami aya masalah, sareng sacara umum, masalah anu kompleks henteu tiasa direngsekeun tanpa anjeunna. Analis mangrupikeun hiji-hijina anu terang kumaha mékanisme kompléks anjeun jalan. Aliran data mana anu mana. Dina naon parameter requests ka jasa mana, nu mana urang bakal nampa réspon.
Saha anu bakal gancang ngartos naha aya kasalahan dina log sareng gancang ngalereskeun bug kritis dina produk? Tangtu pamekar sarua. Aya batur, tapi pikeun sababaraha alesan ngan anjeunna ngartos kumaha modul béda tina sistem jalan.

Akar masalah ieu kurangna dokuméntasi. Barina ogé, upami sadayana jasa sistem anjeun dijelaskeun, maka éta tiasa waé pikeun ngatasi masalah tanpa analis. Upami devops nyandak sababaraha dinten kaluar tina jadwal anu sibuk sareng ngajelaskeun sadaya server, jasa sareng petunjuk pikeun ngarengsekeun masalah anu biasa, maka masalah henteuna tiasa direngsekeun tanpa anjeunna. Anjeun teu kedah gancang ngabéréskeun bir anjeun di pantai nalika liburan sareng milarian wi-fi pikeun ngabéréskeun masalah.

Kompeténsi jeung tanggung jawab staf rojongan

Dina proyék-proyék ageung, perusahaan henteu ngirangan gaji pamekar. Aranjeunna néangan middles mahal atawa manula ti proyék sarupa. Kalayan dukungan kaayaan rada béda. Aranjeunna nyobian ngirangan biaya ieu dina sagala cara anu mungkin. Pausahaan nyewa pagawe Enikey kamari murah tur wani indit ka perang. Strategi ieu mungkin lamun urang ngobrol ngeunaan ramatloka kartu bisnis tutuwuhan di Zelenograd.

Upami urang nyarioskeun toko online anu ageung, maka unggal jam downtime langkung seueur tibatan gaji bulanan administrator Enikey. Hayu urang nyandak 1 milyar rubles tina omzet taunan salaku titik awal. Ieu mangrupikeun omzet minimum tina toko online tina rating TOP 100 pikeun 2018. Bagikeun jumlah ieu ku jumlah jam per taun sarta meunang leuwih ti 100 rubles karugian net. Sareng upami anjeun henteu ngitung jam wengi, anjeun tiasa aman ganda jumlahna.

Tapi duit sanes hal utama, bener? (henteu, tangtu hal utama) Aya ogé karugian reputasi. Turunna toko online anu terkenal tiasa nyababkeun gelombang ulasan dina jaringan sosial sareng publikasi dina média tematik. Jeung paguneman babaturan di dapur dina gaya "Ulah meuli nanaon aya, ramatloka maranéhanana salawasna handap" teu bisa diukur pisan.

Ayeuna tanggung jawab. Dina prakna kuring, aya hiji pasualan nalika administrator on tugas teu ngabales dina waktu ka bewara ti sistem monitoring ngeunaan unavailability loka. Dina usum panas anu pikaresepeun Jumaah sonten, halaman wéb toko online anu terkenal di Moskow iklas sepi. Saptu isuk, manajer produk situs ieu henteu ngartos naha situs éta henteu dibuka, sareng aya tiiseun dina dukungan sareng obrolan béwara anu penting dina Slack. Kasalahan sapertos kitu ngarugikeun urang jumlah genep angka, sareng perwira tugas ieu padamelan na.

Tanggung jawab mangrupikeun kaahlian anu sesah pikeun ngembangkeun. Boh jalma boga atawa henteu. Ku alatan éta, nalika ngawawancara, kuring nyobian pikeun ngaidentipikasi ayana na ku rupa-rupa patarosan anu sacara henteu langsung nunjukkeun naha hiji jalma biasa nyandak tanggung jawab. Lamun hiji jalma ngajawab yén manéhna milih universitas sabab ceuk kolotna atawa ngaganti pakasaban sabab pamajikanana ngomong yén manéhna teu earned cukup, mangka leuwih hade teu aub jeung jalma saperti.

Interaksi jeung tim ngembangkeun

Nalika pangguna mendakan masalah saderhana sareng produk salami operasi, dukungan ngabéréskeunana nyalira. Nyoba pikeun ngahasilkeun deui masalah, nganalisa log, sareng sajabana. Tapi naon anu kudu dilakukeun nalika bug muncul dina produk? Dina hal ieu, rojongan napelkeun tugas ka pamekar jeung ieu tempat fun dimimitian.

Pamekar anu terus overloaded. Aranjeunna nyiptakeun fitur anyar. Ngalereskeun bug sareng penjualan sanés kagiatan anu paling pikaresepeun. Deadline pikeun ngalengkepan sprint salajengna geus ngadeukeutan. Teras jalma-jalma anu teu pikaresepeun ti dukungan sumping sareng nyarios: "Geura kaluar sadayana, urang gaduh masalah." Prioritas tugas sapertos kitu minimal. Utamana nalika masalahna sanés anu paling kritis sareng pungsionalitas utama situs éta jalan, sareng nalika manajer sékrési henteu jalan-jalan sareng panon bonjolan sareng nyerat: "Urgently tambahkeun tugas ieu kana sékrési atanapi hotfix salajengna."

Masalah sareng prioritas normal atanapi rendah dipindahkeun tina sékrési ka sékrési. Pikeun patarosan "Iraha tugasna bakal réngsé?" Anjeun bakal nampi jawaban dina gaya: "Hampura, aya seueur tugas ayeuna, tanyakeun ka pimpinan tim anjeun atanapi manajer sékrési."

Masalah produktivitas nyokot prioritas leuwih luhur ti nyieun fitur anyar. ulasan goréng moal lila datang lamun pamaké terus titajong kana bug. Reputasi anu ruksak hese dibalikeun deui.

Masalah interaksi antara pamekaran sareng dukungan direngsekeun ku DevOps. Singketan ieu sering dianggo dina bentuk jalma khusus anu ngabantosan nyiptakeun lingkungan tés pikeun pangwangunan, ngawangun jalur pipa CICD sareng gancang nyangking kode anu diuji kana produksi. DevOps mangrupikeun pendekatan kana pamekaran parangkat lunak nalika sadaya pamilon dina prosésna saling berinteraksi sareng ngabantosan gancang nyiptakeun sareng ngapdet produk sareng jasa parangkat lunak. Maksudna analis, pamekar, panguji sareng dukungan.

Dina pendekatan ieu, pangrojong sareng pamekaran sanés departemén anu béda-béda kalayan tujuan sareng tujuan sorangan. Pangwangunan aub dina operasi sarta sabalikna. Frase anu kasohor tina tim anu disebarkeun: "Masalahna henteu aya di sisi kuring" henteu sering muncul dina obrolan, sareng pangguna akhir janten langkung bahagia.

sumber: www.habr.com

Tambahkeun komentar