Mga Tumong sa Antas sa Serbisyo - Kasinatian sa Google (paghubad sa kapitulo sa libro sa Google SRE)

Mga Tumong sa Antas sa Serbisyo - Kasinatian sa Google (paghubad sa kapitulo sa libro sa Google SRE)

Ang SRE (Site Reliability Engineering) usa ka pamaagi aron masiguro ang pagkaanaa sa mga proyekto sa web. Giisip kini nga balangkas alang sa DevOps ug naghisgot kung giunsa pagkab-ot ang kalampusan sa pagpadapat sa mga gawi sa DevOps. Paghubad niini nga artikulo Kapitulo 4 Mga Tumong sa Level sa Serbisyo mga libro Site Reliability Engineering gikan sa Google. Ako mismo ang nag-andam niini nga hubad ug nagsalig sa akong kaugalingong kasinatian sa pagsabot sa mga proseso sa pagmonitor. Sa channel sa telegrama monitorim_it и katapusang post sa Habré Gipatik usab nako ang usa ka hubad sa Kapitulo 6 sa parehas nga libro bahin sa mga katuyoan sa lebel sa serbisyo.

Paghubad pinaagi sa iring. Malingaw sa pagbasa!

Imposible nga madumala ang usa ka serbisyo kung wala’y pagsabut kung unsa nga mga timailhan ang hinungdanon ug kung giunsa kini pagsukod ug pagtimbangtimbang. Niini nga katuyoan, among gipasabut ug gihatagan ang usa ka piho nga lebel sa serbisyo sa among mga tiggamit, bisan pa kung gigamit nila ang usa sa among mga internal nga API o usa ka publiko nga produkto.

Gigamit namo ang among intuition, kasinatian, ug pagsabot sa tinguha sa mga tiggamit nga masabtan ang Service Level Indicators (SLIs), Service Level Objectives (SLOs), ug Service Level Agreements (SLAs). Kini nga mga dimensyon naghulagway sa mga nag-unang sukatan nga gusto namon nga bantayan ug kung diin kami motubag kung dili kami makahatag sa gipaabut nga kalidad sa serbisyo. Sa katapusan, ang pagpili sa husto nga mga sukatan makatabang sa paggiya sa husto nga mga aksyon kung adunay mahitabo nga sayup, ug naghatag usab sa pagsalig sa SRE team sa kahimsog sa serbisyo.

Kini nga kapitulo naghulagway sa pamaagi nga atong gigamit sa pagbatok sa mga problema sa metric modeling, metric selection, ug metric analysis. Kadaghanan sa katin-awan walay mga pananglitan, mao nga atong gamiton ang serbisyo ni Shakespeare nga gihulagway sa panig-ingnan sa pagpatuman niini (pangitaa ang mga buhat ni Shakespeare) aron ihulagway ang mga nag-unang punto.

Terminolohiya sa lebel sa serbisyo

Daghang mga magbabasa ang lagmit pamilyar sa konsepto sa SLA, apan ang mga termino nga SLI ug SLO angay nga mabinantayon nga kahulugan tungod kay sa kinatibuk-an ang termino nga SLA sobra ang gibug-aton ug adunay daghang mga kahulugan depende sa konteksto. Alang sa katin-awan, gusto namong ibulag kini nga mga kantidad.

Indicators

Ang SLI kay usa ka service level indicator—usa ka mainampingon nga gihubit nga quantitative measure sa usa ka aspeto sa lebel sa serbisyo nga gihatag.

Alang sa kadaghanan sa mga serbisyo, ang yawe nga SLI giisip nga latency sa paghangyo - kung unsa kadugay ang kinahanglan aron mabalik ang tubag sa usa ka hangyo. Ang ubang mga komon nga SLI naglakip sa error rate, kasagaran gipahayag isip usa ka tipik sa tanang mga hangyo nga nadawat, ug system throughput, kasagaran gisukod sa mga hangyo kada segundo. Ang mga pagsukod kasagarang giipon: ang hilaw nga datos una nga gikolekta ug dayon gi-convert ngadto sa usa ka rate sa kausaban, mean, o percentile.

Sa tinuud, ang SLI direkta nga nagsukod sa lebel sa interes sa serbisyo, apan usahay usa lamang ka may kalabutan nga sukatan ang magamit alang sa pagsukod tungod kay ang orihinal lisud makuha o mahubad. Pananglitan, ang latency sa kilid sa kliyente kasagaran usa ka mas tukma nga sukatan, apan adunay mga panahon nga ang latency masukod lamang sa server.

Ang laing matang sa SLI nga importante sa mga SRE mao ang pagkaanaa, o ang bahin sa panahon diin ang usa ka serbisyo mahimong magamit. Kasagaran gihubit ingon nga rate sa malampuson nga mga hangyo, usahay gitawag nga abot. (Ang tibuok kinabuhi—ang kalagmitan nga ang data mahuptan sulod sa taas nga yugto sa panahon—mahinungdanon usab alang sa mga sistema sa pagtipig sa datos.) Bisan tuod ang 100% nga pagkaanaa dili mahimo, ang pagkaanaa duol sa 100% kasagarang makab-ot; ang mga bili sa pagkaanaa gipahayag ingong ang gidaghanon sa "siyam" » porsyento sa pagkaanaa. Pananglitan, ang 99% ug 99,999% nga anaa mahimong markahan nga "2 nines" ug "5 nines". Ang kasamtangang gipahayag nga tumong sa pagkaanaa sa Google Compute Engine mao ang "tulo ug tunga nga nines" o 99,95%.

Mga tumong

Ang SLO usa ka katuyoan sa lebel sa serbisyo: usa ka target nga kantidad o sakup sa mga kantidad alang sa lebel sa serbisyo nga gisukod sa SLI. Ang normal nga kantidad sa SLO mao ang "SLI ≤ Target" o "Ubos nga Limitasyon ≤ SLI ≤ Upper Limit". Pananglitan, mahimo kaming magdesisyon nga among ibalik ang mga resulta sa pagpangita sa Shakespeare nga "paspas" pinaagi sa pagtakda sa SLO sa usa ka average nga latency sa pangutana sa pagpangita nga wala’y 100 milliseconds.

Ang pagpili sa husto nga SLO usa ka komplikado nga proseso. Una, dili ka kanunay makapili ug piho nga kantidad. Para sa gawas nga umaabot nga HTTP nga mga hangyo sa imong serbisyo, ang Query Per Second (QPS) metric una nga gitino sa tinguha sa imong mga tiggamit sa pagbisita sa imong serbisyo, ug dili ka makabutang ug SLO para niana.

Sa laing bahin, mahimo nimong isulti nga gusto nimo ang kasagaran nga latency sa matag hangyo nga dili moubos sa 100 milliseconds. Ang paghimo sa ingon nga katuyoan mahimong mapugos kanimo sa pagsulat sa imong frontend nga adunay gamay nga latency o pagpalit ug kagamitan nga naghatag sa ingon nga latency. (Ang 100 milliseconds klaro nga usa ka arbitraryong numero, apan mas maayo nga adunay mas ubos nga latency nga mga numero. Adunay ebidensya nga nagsugyot nga ang paspas nga mga tulin mas maayo kay sa hinay nga mga tulin, ug nga ang latency sa pagproseso sa mga hangyo sa user labaw sa piho nga mga bili sa aktuwal nga nagpugos sa mga tawo sa pagpalayo. gikan sa imong serbisyo.)

Pag-usab, kini labi ka dili klaro kaysa sa una nga pagtan-aw: dili nimo kinahanglan nga hingpit nga ibulag ang QPS gikan sa pagkalkula. Ang tinuod mao nga ang QPS ug latency kusganong may kalabutan sa usag usa: ang mas taas nga QPS kasagaran mosangpot ngadto sa mas taas nga mga latency, ug ang mga serbisyo kasagaran makasinati og usa ka mahait nga pagkunhod sa performance kon sila makaabot sa usa ka piho nga load threshold.

Ang pagpili ug pagmantala sa usa ka SLO nagtakda sa mga gilauman sa mga tiggamit kung giunsa ang serbisyo molihok. Kini nga estratehiya makapakunhod sa walay basehanan nga mga reklamo batok sa tag-iya sa serbisyo, sama sa hinay nga performance. Kung wala’y klaro nga SLO, ang mga tiggamit kanunay nga naghimo sa ilang kaugalingon nga mga gilauman bahin sa gitinguha nga pasundayag, nga mahimo’g wala’y kalabotan sa mga opinyon sa mga tawo nga nagdesinyo ug nagdumala sa serbisyo. Kini nga sitwasyon mahimong mosangpot sa gipalapad nga mga gilauman gikan sa serbisyo, kung ang mga tiggamit nasayop nga nagtuo nga ang serbisyo mahimong mas sayon ​​​​kay sa tinuod, ug hinungdan sa kawalay pagsalig sa dihang ang mga tiggamit nagtuo nga ang sistema dili kaayo kasaligan kay sa tinuod.

Mga Kasabutan

Ang usa ka kasabotan sa lebel sa serbisyo usa ka tin-aw o dili klaro nga kontrata sa imong mga tiggamit nga naglakip sa mga sangputanan sa pagtagbo (o dili pagtagbo) sa mga SLO nga naa niini. Ang mga sangputanan labing dali nga mailhan kung kini pinansyal—usa ka diskwento o multa—apan mahimo kini nga lainlain nga mga porma. Usa ka dali nga paagi sa paghisgot bahin sa kalainan tali sa mga SLO ug mga SLA mao ang pagpangutana "unsa ang mahitabo kung ang mga SLO dili matuman?" Kung walay klaro nga mga sangputanan, hapit ka sigurado nga nagtan-aw sa usa ka SLO.

Ang SRE kasagarang dili apil sa paghimo ug mga SLA tungod kay ang mga SLA suod nga nalambigit sa mga desisyon sa negosyo ug produkto. Ang SRE, bisan pa, nalambigit sa pagtabang sa pagpagaan sa mga sangputanan sa napakyas nga mga SLO. Makatabang usab sila sa pagtino sa SLI: Klaro, kinahanglan adunay usa ka tumong nga paagi sa pagsukod sa SLO sa kasabutan o adunay dili pagsinabtanay.

Ang Pagpangita sa Google usa ka pananglitan sa usa ka hinungdanon nga serbisyo nga wala’y publiko nga SLA: gusto namon nga magamit sa tanan ang Pagpangita ingon ka episyente kutob sa mahimo, apan wala kami nakapirma og kontrata sa kalibutan. Bisan pa, adunay mga sangputanan kung ang pagpangita dili magamit - ang dili magamit moresulta sa pagkunhod sa among reputasyon ingon usab pagkunhod sa kita sa advertising. Daghang ubang mga serbisyo sa Google, sama sa Google for Work, adunay klaro nga mga kasabutan sa lebel sa serbisyo sa mga tiggamit. Dili igsapayan kung ang usa ka partikular nga serbisyo adunay SLA, hinungdanon nga ipasabut ang SLI ug SLO ug gamiton kini sa pagdumala sa serbisyo.

Daghan kaayo nga teorya - karon aron masinati.

Mga timailhan sa praktis

Tungod kay nakahinapos na kami nga importante ang pagpili sa angay nga mga sukatan aron masukod ang lebel sa serbisyo, giunsa nimo pagkahibalo karon kung unsang mga sukatan ang hinungdanon alang sa usa ka serbisyo o sistema?

Unsa ang imong gikabalak-an ug ang imong mga tiggamit?

Dili nimo kinahanglan nga gamiton ang matag metric isip SLI nga imong masubay sa usa ka monitoring system; Ang pagsabut kung unsa ang gusto sa mga tiggamit gikan sa usa ka sistema makatabang kanimo sa pagpili sa daghang mga sukatan. Ang pagpili sa daghan kaayo nga mga indicators makapalisud sa pag-focus sa importante nga mga indicators, samtang ang pagpili sa usa ka gamay nga numero mahimong magbilin sa dagkong mga tipik sa imong sistema nga walay pagtagad. Kasagaran namong gigamit ang daghang hinungdanon nga mga timailhan aron masusi ug masabtan ang kahimsog sa usa ka sistema.

Ang mga serbisyo sa kasagaran mabungkag ngadto sa daghang mga bahin sa termino sa SLI nga may kalabutan kanila:

  • Mga custom nga front-end nga sistema, sama sa mga interface sa pagpangita alang sa serbisyo ni Shakespeare gikan sa among panig-ingnan. Kinahanglang anaa sila, walay mga paglangan ug adunay igong bandwidth. Subay niini, mahimong mapangutana ang mga pangutana: matubag ba namo ang hangyo? Unsa ka dugay ang pagtubag sa hangyo? Pila ka hangyo ang maproseso?
  • Mga sistema sa pagtipig. Gipabilhan nila ang ubos nga latency sa pagtubag, pagkaanaa, ug kalig-on. May kalabotan nga mga pangutana: Unsa ka dugay ang pagbasa o pagsulat sa datos? Mahimo ba naton ma-access ang datos kung gihangyo? Magamit ba ang datos kung kinahanglan naton kini? Tan-awa ang Kapitulo 26 Data Integrity: Ang Imong Gibasa Mao ang Imong Gisulat alang sa usa ka detalyado nga paghisgot niini nga mga isyu.
  • Ang dagkong mga sistema sa datos sama sa mga pipeline sa pagproseso sa datos nagsalig sa throughput ug latency sa pagproseso sa pangutana. May kalabotan nga mga pangutana: Pila ka datos ang giproseso? Unsa kadugay ang pagbiyahe sa datos gikan sa pagdawat sa usa ka hangyo hangtod sa paghatag usa ka tubag? (Ang ubang mga bahin sa sistema mahimo usab nga adunay mga paglangan sa pipila nga mga yugto.)

Koleksyon sa mga timailhan

Daghang mga indikasyon sa lebel sa serbisyo ang labing natural nga nakolekta sa bahin sa server, gamit ang usa ka sistema sa pag-monitor sama sa Borgmon (tan-awa sa ubos). Kapitulo 10 Mga Alerto sa Pagpraktis Base sa Data sa Serye sa Oras) o Prometheus, o kanunay nga pag-analisar sa mga log, pag-ila sa mga tubag sa HTTP nga adunay status 500. Bisan pa, ang pipila nga mga sistema kinahanglan nga adunay sulud nga koleksyon sa mga sukatan sa kliyente, tungod kay ang kakulang sa pag-monitor sa kilid sa kliyente mahimong hinungdan sa pagkawala sa daghang mga problema nga makaapekto tiggamit, apan dili makaapekto sa server-side metrics. Pananglitan, ang pag-focus sa backend response latency sa among Shakespeare search test application mahimong moresulta sa latency sa user side tungod sa mga isyu sa JavaScript: niining kasoha, ang pagsukod kung unsa kadugay ang browser sa pagproseso sa panid mas maayong metric.

Paghugpong

Alang sa kayano ug kasayon ​​sa paggamit, kanunay namong gihugpong ang hilaw nga mga sukod. Kinahanglang buhaton kini pag-ayo.

Ang ubang mga sukatan morag yano, sama sa mga hangyo matag segundo, apan bisan kini nga dayag nga prangka nga pagsukod implicit nga nag-ipon sa datos sa paglabay sa panahon. Nadawat ba ang pagsukod kausa matag segundo o ang pagsukod ba nag-average sa gidaghanon sa mga hangyo matag minuto? Ang ulahi nga kapilian makatago sa usa ka labi ka taas nga dinalian nga gidaghanon sa mga hangyo nga molungtad lamang sa pipila ka segundo. Hunahunaa ang usa ka sistema nga nagsilbi sa 200 nga mga hangyo matag segundo nga adunay parehas nga mga numero ug 0 sa nahabilin nga oras. Ang usa ka makanunayon sa porma sa usa ka average nga kantidad sa 100 nga mga hangyo matag segundo ug doble ang dali nga pagkarga dili parehas nga butang. Sa susama, ang pag-aberids sa mga latency sa pangutana daw madanihon, apan kini nagtago sa usa ka importante nga detalye: posible nga kadaghanan sa mga pangutana mahimong paspas, apan adunay daghang mga pangutana nga hinay.

Kadaghanan sa mga indikasyon mas maayo nga gihunahuna nga mga pag-apod-apod kaysa mga average. Pananglitan, alang sa SLI latency, ang pipila ka mga hangyo maproseso dayon, samtang ang uban kanunay nga magdugay, usahay mas dugay. Ang usa ka yano nga kasagaran makatago niining taas nga mga paglangan. Ang numero nagpakita sa usa ka pananglitan: bisan tuod ang usa ka tipikal nga hangyo nagkinahanglan og gibana-bana nga 50 ms sa pagserbisyo, 5% sa mga hangyo mao ang 20 ka beses nga mas hinay! Ang pag-monitor ug pag-alerto nga gibase lamang sa kasagaran nga latency wala magpakita sa mga pagbag-o sa kinaiya sa tibuok adlaw, kung sa pagkatinuod adunay mamatikdan nga mga pagbag-o sa oras sa pagproseso sa pipila nga mga hangyo (labing taas nga linya).

Mga Tumong sa Antas sa Serbisyo - Kasinatian sa Google (paghubad sa kapitulo sa libro sa Google SRE)
50, 85, 95, ug 99 percentile system latency. Ang Y axis naa sa logarithmic nga pormat.

Ang paggamit sa mga porsyento alang sa mga timailhan nagtugot kanimo nga makita ang porma sa pag-apod-apod ug ang mga kinaiya niini: ang taas nga lebel sa porsyento, sama sa 99 o 99,9, nagpakita sa labing grabe nga kantidad, samtang ang 50 porsyento (nailhan usab nga median) nagpakita sa labing kanunay nga kahimtang sa ang metric. Ang mas dako nga pagsabwag sa oras sa pagtubag, ang mas dugay nga mga hangyo makaapekto sa kasinatian sa tiggamit. Ang epekto gipalambo ubos sa taas nga load ug sa presensya sa mga pila. Gipakita sa panukiduki sa kasinatian sa gumagamit nga kasagaran gusto sa mga tawo ang usa ka hinay nga sistema nga adunay taas nga kalainan sa oras sa pagtubag, mao nga ang pipila nga mga koponan sa SRE nagpunting lamang sa taas nga mga marka sa porsyento, sa basehan nga kung ang pamatasan sa usa ka sukatan sa 99,9 porsyento maayo, kadaghanan sa mga tiggamit dili makasinati mga problema .

Pahinumdom sa statistical errors

Sa kasagaran mas gusto namo ang pagtrabaho gamit ang mga percentile kay sa kasagaran (aritmetika mean) sa usa ka set sa mga value. Kini nagtugot kanato sa pagkonsiderar sa mas nagkatibulaag nga mga bili, nga sa kasagaran adunay mahinungdanong kalainan (ug mas makapaikag) nga mga kinaiya kay sa kasagaran. Tungod sa artipisyal nga kinaiya sa mga sistema sa pag-compute, ang mga metriko nga mga kantidad kanunay nga gibag-o, sa ingon nga wala’y hangyo nga makadawat usa ka tubag nga wala’y 0 ms, ug ang usa ka timeout nga 1000 ms nagpasabut nga wala’y malampuson nga mga tubag nga adunay mga kantidad nga labaw pa sa ang timeout. Ingon nga resulta, dili nato madawat nga ang mean ug median mahimong pareho o duol sa usag usa!

Kung wala’y nauna nga pagsulay, ug gawas kung adunay pipila nga sukaranan nga mga pangagpas ug mga gibanabana, mabinantayon kami nga dili maghinapos nga ang among datos kasagarang giapod-apod. Kung ang pag-apod-apod dili sama sa gipaabut, ang proseso sa pag-automate nga nag-ayo sa problema (pananglitan, kung makita ang mga outlier, gi-restart niini ang server nga adunay taas nga mga latency sa pagproseso sa hangyo) mahimo nga kanunay o dili kanunay igo (ang duha dili. maayo kaayo).

I-standardize ang mga indicators

Among girekomendar ang pag-standardize sa kinatibuk-ang mga kinaiya alang sa SLI aron dili ka na kinahanglan nga mangagpas sa matag higayon. Ang bisan unsang bahin nga makatagbaw sa sumbanan nga mga sumbanan mahimong dili iapil sa espesipikasyon sa usa ka indibidwal nga SLI, pananglitan:

  • Aggregation interval: "gi-average sa 1 ka minuto"
  • Mga lugar sa panagsama: "Tanan nga buluhaton sa cluster"
  • Unsa ka sagad gihimo ang mga pagsukod: "Kada 10 segundos"
  • Unsa nga mga hangyo ang gilakip: "HTTP GET gikan sa black box monitoring jobs"
  • Giunsa makuha ang datos: "Salamat sa among pag-monitor nga gisukod sa server"
  • Latency sa pag-access sa datos: "Panahon sa katapusan nga byte"

Aron makadaginot og paningkamot, paghimo og set sa magamit pag-usab nga SLI templates alang sa matag komon nga metric; gipasayon ​​usab nila nga masabtan sa tanan kung unsa ang gipasabot sa usa ka SLI.

Mga tumong sa praktis

Pagsugod pinaagi sa paghunahuna bahin sa (o pagpangita!) kung unsa ang giatiman sa imong mga tiggamit, dili kung unsa ang imong masukod. Kasagaran kung unsa ang giatiman sa imong mga tiggamit lisud o imposible nga sukdon, mao nga maduol ka sa ilang mga panginahanglan. Bisan pa, kung magsugod ka lang sa kung unsa ang dali sukdon, maabut nimo ang dili kaayo mapuslanon nga mga SLO. Ingon usa ka sangputanan, usahay nakit-an namon nga ang una nga pag-ila sa gitinguha nga mga katuyoan ug dayon ang pagtrabaho sa piho nga mga timailhan mas maayo kaysa pagpili sa mga timailhan ug dayon pagkab-ot sa mga katuyoan.

Tinoa ang imong mga tumong

Alang sa labing katin-aw, kinahanglan nga ipasabut kung giunsa pagsukod ang mga SLO ug ang mga kondisyon diin kini balido. Pananglitan, mahimo natong isulti ang mosunod (ang ikaduha nga linya parehas sa una, apan naggamit sa mga default sa SLI):

  • Ang 99% (average nga labaw sa 1 minuto) sa Pagkuha sa mga tawag sa RPC makompleto sa wala’y 100ms (gisukod sa tanan nga mga backend server).
  • 99% sa Pagkuha sa mga tawag sa RPC makompleto sa ubos sa 100ms.

Kung ang porma sa mga kurba sa pasundayag hinungdanon, mahimo nimong ipiho ang daghang mga SLO:

  • 90% sa Pagkuha sa mga tawag sa RPC nga nahuman sa wala’y 1 ms.
  • 99% sa Pagkuha sa mga tawag sa RPC nga nahuman sa wala’y 10 ms.
  • 99.9% sa Pagkuha sa mga tawag sa RPC nga nahuman sa wala’y 100 ms.

Kung ang imong mga tiggamit makamugna og lain-laing mga workloads: daghan nga pagproseso (nga ang throughput importante) ug interactive nga pagproseso (diin ang latency importante), mahimong mapuslanon ang pagpasabot sa lain-laing mga tumong alang sa matag load class:

  • Ang 95% sa mga hangyo sa kostumer nanginahanglan throughput. Itakda ang ihap sa mga tawag sa RPC nga gipatuman <1 s.
  • 99% sa mga kliyente ang nagpakabana bahin sa latency. Itakda ang ihap sa mga tawag sa RPC nga adunay trapiko <1 KB ug pagdagan <10 ms.

Dili realistiko ug dili gusto ang pag-insistir nga ang mga SLO matagbo sa 100% sa panahon: kini makapakunhod sa dagan sa pagpaila sa bag-ong kagamitan ug pag-deploy, ug magkinahanglan ug mahal nga mga solusyon. Hinuon, mas maayo nga tugotan ang usa ka sayup nga badyet - ang porsyento sa gitugot nga oras sa paghunong sa sistema - ug bantayan kini nga kantidad matag adlaw o matag semana. Mahimong gusto sa senior nga pagdumala ang binulan o quarterly nga mga ebalwasyon. (Ang badyet sa sayup usa lamang ka SLO alang sa pagtandi sa laing SLO.)

Ang porsyento sa mga paglapas sa SLO mahimong itandi sa sayop nga badyet (tan-awa ang Kapitulo 3 ug seksyon "Pagdasig alang sa Error Budget"), nga adunay kalainan nga kantidad nga gigamit ingon input sa proseso nga magdesisyon kung kanus-a i-deploy ang mga bag-ong pagpagawas.

Pagpili sa target nga mga kantidad

Ang pagpili sa mga kantidad sa pagplano (SLOs) dili usa ka puro teknikal nga kalihokan tungod sa mga produkto ug interes sa negosyo nga kinahanglan makita sa mga pinili nga SLI, SLO (ug posible nga mga SLA). Ingon usab, kinahanglan nga ibaylo ang kasayuran bahin sa mga isyu nga may kalabotan sa kawani, oras sa merkado, pagkaanaa sa kagamitan, ug pagpondo. Ang SRE kinahanglan nga bahin sa kini nga panag-istoryahanay ug makatabang nga masabtan ang mga risgo ug kaarang sa lainlaing mga kapilian. Naghimo kami og pipila ka mga pangutana nga makatabang sa pagsiguro sa usa ka mas produktibo nga diskusyon:

Ayaw pagpili og tumong base sa kasamtangan nga performance.
Samtang ang pagsabut sa mga kalig-on ug mga limitasyon sa usa ka sistema importante, ang pagpahiangay sa mga sukatan nga walay pangatarungan makapugong kanimo sa pagmentinar sa sistema: kini magkinahanglan og bayanihong mga paningkamot aron makab-ot ang mga tumong nga dili makab-ot nga walay mahinungdanon nga pagdesinyo pag-usab.

Himoa kini nga yano
Ang mga komplikadong kalkulasyon sa SLI makatago sa mga kausaban sa performance sa sistema ug makapalisod sa pagpangita sa hinungdan sa problema.

Likayi ang mga hingpit
Bisan kung makatintal nga adunay usa ka sistema nga makadumala sa usa ka wala’y katapusan nga pagtaas sa karga nga wala’y pagtaas sa latency, kini nga kinahanglanon dili realistiko. Ang usa ka sistema nga moduol sa ingon nga mga mithi lagmit nanginahanglan daghang oras sa pagdesinyo ug pagtukod, mahimong mahal sa pag-operate, ug mahimong maayo kaayo alang sa mga gilauman sa mga tiggamit nga mobuhat sa bisan unsa nga gamay.

Gamita ang pipila ka mga SLO kutob sa mahimo
Pagpili og igong gidaghanon sa mga SLO aron masiguro ang maayong pagkasakop sa mga hiyas sa sistema. Panalipdi ang mga SLO nga imong gipili: Kung dili ka makadaog sa argumento bahin sa mga prayoridad pinaagi sa pagpiho sa usa ka piho nga SLO, lagmit dili kini angay nga ikonsiderar kana nga SLO. Bisan pa, dili tanan nga mga hiyas sa sistema mauyonan sa mga SLO: lisud ang pagkalkulo sa lebel sa kalipay sa tiggamit gamit ang mga SLO.

Ayaw pangitaa ang kahingpitan
Mahimo nimo kanunay nga dalisay ang mga kahulugan ug mga katuyoan sa mga SLO sa paglabay sa panahon samtang nagkat-on ka og dugang bahin sa pamatasan sa sistema ubos sa pagkarga. Mas maayo nga magsugod sa usa ka naglutaw nga tumong nga imong dalisayon ​​sa paglabay sa panahon kaysa sa pagpili sa usa ka sobra ka estrikto nga tumong nga kinahanglan nga relaks kung imong makita nga kini dili makab-ot.

Ang mga SLO mahimo ug kinahanglan nga usa ka hinungdan nga drayber sa pag-una sa trabaho alang sa mga SRE ug mga developer sa produkto tungod kay kini nagpakita sa usa ka kabalaka alang sa mga tiggamit. Ang usa ka maayo nga SLO usa ka mapuslanon nga himan sa pagpatuman alang sa usa ka grupo sa pagpauswag. Apan ang usa ka dili maayo nga pagkadisenyo nga SLO mahimong mosangput sa us aka trabaho kung ang grupo naghimo sa mga bayani nga paningkamot aron makab-ot ang usa ka sobra ka agresibo nga SLO, o usa ka dili maayo nga produkto kung ang SLO gamay ra kaayo. Ang SLO usa ka kusgan nga lever, gamita kini nga maalamon.

Kontrolaha ang imong mga sukod

Ang SLI ug SLO mga yawe nga elemento nga gigamit sa pagdumala sa mga sistema:

  • Pag-monitor ug pagsukod sa mga sistema sa SLI.
  • Itandi ang SLI sa SLO ug pagdesisyon kung gikinahanglan ang aksyon.
  • Kung gikinahanglan ang aksyon, hunahunaa kung unsa ang kinahanglan nga mahitabo aron makab-ot ang katuyoan.
  • Kompletoha kini nga aksyon.

Pananglitan, kung ang lakang 2 nagpakita nga ang hangyo nag-time out ug maguba ang SLO sa pipila ka oras kung wala’y nahimo, ang lakang 3 mahimong maglakip sa pagsulay sa hypothesis nga ang mga server gigapos sa CPU ug pagdugang daghang mga server ang mag-apod-apod sa load. Kung wala ang SLO, dili nimo mahibal-an kung (o kanus-a) molihok.

Itakda ang SLO - unya ang mga gipaabut sa tiggamit itakda
Ang pagpatik sa usa ka SLO nagtakda sa mga gilauman sa tiggamit alang sa pamatasan sa sistema. Ang mga tiggamit (ug mga potensyal nga tiggamit) kanunay gusto nga mahibal-an kung unsa ang mapaabut gikan sa usa ka serbisyo aron masabtan kung kini angay ba gamiton. Pananglitan, ang mga tawo nga gusto nga mogamit sa usa ka website sa pagpaambit sa litrato mahimong gusto nga likayan ang paggamit sa usa ka serbisyo nga nagsaad sa taas nga kinabuhi ug mubu nga gasto baylo sa gamay nga magamit, bisan kung ang parehas nga serbisyo mahimo’g maayo alang sa usa ka sistema sa pagdumala sa mga rekord sa archive.

Aron magtakda ug realistiko nga mga pagdahom alang sa imong mga tiggamit, gamita ang usa o duha sa mosunod nga mga taktika:

  • Hupti ang margin sa kaluwasan. Paggamit og mas estrikto nga internal nga SLO kay sa gi-advertise sa mga tiggamit. Maghatag kini kanimo ug higayon nga makatubag sa mga problema sa dili pa kini makita sa gawas. Gitugotan ka usab sa SLO buffer nga adunay margin sa kaluwasan kung mag-install sa mga pagpagawas nga makaapekto sa performance sa sistema ug pagsiguro nga ang sistema dali nga mapadayon nga dili kinahanglan nga mapakyas ang mga tiggamit sa downtime.
  • Ayaw sobra sa gipaabut sa tiggamit. Ang mga tiggamit gibase sa imong gitanyag, dili sa imong gisulti. Kung ang aktuwal nga pasundayag sa imong serbisyo labi ka maayo kaysa sa giingon nga SLO, ang mga tiggamit magsalig sa karon nga pasundayag. Mahimo nimong malikayan ang sobrang pagsalig pinaagi sa tinuyo nga pagpalong sa sistema o paglimite sa pasundayag ubos sa gaan nga mga karga.

Ang pagsabut kung unsa ka maayo ang usa ka sistema nga nakab-ot ang mga gilauman makatabang sa pagdesisyon kung mamuhunan ba sa pagpadali sa sistema ug himuon kini nga labi ka dali ug mabag-o. Sa laing paagi, kung ang usa ka serbisyo maayo kaayo ang pasundayag, ang pipila ka oras sa kawani kinahanglan nga igugol sa ubang mga prayoridad, sama sa pagbayad sa teknikal nga utang, pagdugang bag-ong mga bahin, o pagpaila sa mga bag-ong produkto.

Mga kasabutan sa praktis

Ang paghimo sa usa ka SLA nanginahanglan mga negosyo ug ligal nga mga grupo aron mahibal-an ang mga sangputanan ug mga silot sa paglapas niini. Ang tahas sa SRE mao ang pagtabang kanila nga masabtan ang posibleng mga hagit sa pagtagbo sa mga SLO nga anaa sa SLA. Kadaghanan sa mga rekomendasyon sa paghimo og mga SLO magamit usab sa mga SLA. Maalamon nga mahimong konserbatibo sa imong gisaad sa mga tiggamit tungod kay kung daghan ka, labi ka lisud ang pagbag-o o pagtangtang sa mga SLA nga ingon dili makatarunganon o lisud nga masugatan.

Salamat sa pagbasa sa hubad hangtod sa katapusan. Mag-subscribe sa akong telegram channel bahin sa pagmonitor monitorim_it и blog sa Medium.

Source: www.habr.com

Idugang sa usa ka comment