Servitium Metas Level - Google Usus (de Google SRE libri capite)

Servitium Metas Level - Google Usus (de Google SRE libri capite)

SRE (Site Reliability Engineering) aditus est ad praestationem interretialium inceptis praestandi. Consideratum est compage DevOps et loquitur quomodo successum obtineat in exercitiis DevOps applicandis. Translatio in hoc articulo Caput IV Service Level Objectives librorum Site Reliability Engineering ex Google. Hanc translationem ipse paravi et propria experientia in processibus vigilantiae cognoscendis confisus sum. In channel telegraphum monitorim_it ΠΈ Postrema in HabrΓ© Proposita etiam edidi translationem Capituli VI eiusdem libri de ministerio gradu.

Translation by cat. Fruere legendo!

Impossibile est ministerium administrare si nulla sit cognitio eorum quae indices in actu materiae habent et quomodo mensurare et aestimare possint. Ad hunc finem definimus et praebemus certum gradum servitutis usoribus nostris, sive utantur aliquo APIs interno sive publico instrumento.

Utimur nostra intuitione, experientia et intellectu utentium desiderio cognoscendi Service Indicatores (SLIs), Service Level Objectiva (SLOs), et Conventiones Service gradu (SLAs). Hae dimensiones praecipuas metricas describunt, quas monitori velimus et ad quas agemus, si exspectationem servitii qualitatem praebere non possumus. Ultimo metri ius eligens adiuvat ut actiones rectas si quid erratum sit, et etiam fiduciam dat in SRE quadrigis salutis ministerii.

In hoc capite describit accessus ad problemata metrica exemplaria, delectu metrica et analysi metrica utimur. Pleraque explicatio sine exemplis erit, ut Shakespeare utemur opera quae in eius exsecutione exemplo (exquisitionis operum Shakespeare) illustranda praecipua sunt.

Servitium gradu terminology

Multi lectores notionem SLA notiorem verisimile sunt, sed verba SLI et SLO accuratam definitionem merentur quia generaliter vocabulum SLA cumulatur et plures significationes secundum contextum habet. Ad evidentiam horum bonorum volumus separare.

Indicatores

SLI signum servitii est β€” mensura quantitatis diligenter definita unius aspectus gradus servitii proviso.

Pro pluribus officiis, clavis SLI latency postulare censetur - quam diu responsum poscit reddere. Aliae communes SLIs errorem rate includunt, saepe expressum ut fractionem omnium petitionum receptarum, et systema throughput, in petitionibus secundis plerumque metiri solet. Mensurae saepe aggregatae sunt: ​​notitia rudis primum colligitur et deinde in ratem mutationis, medii vel centri, convertitur.

Specimen, SLI directo gradui usuris servitium mensurat, sed interdum tantum metrica cognata mensurae praesto est quia originale difficile est adipisci vel interpretari. Exempli causa, latency clientis saepe magis proprie metrica est, sed tempus est cum latency modo mensurari in calculonis potest.

Alterum genus SLI quod ad SREs refert promptitudo est, vel pars temporis quo usus servitus est. Saepe definitur ratam petitiones prosperarum, interdum cede dicta. (Vita-probabilitas quae notitia per longius tempus retinebitur β€” etiam magni momenti est pro notitiis systematis repositionis.) Etsi C% facultas fieri non potest, promptitudo prope ad 100% saepe obtinetur, valores disponibilitates exprimuntur ut numerus "novem" recipis promptitudinis. Pro exemplo, 100% et 99% disponibilitate posset intitulatum "99,999 novem" et "2 novem". Google Computus Engine currentis propositum disponibilitate affirmatum est "tres novem et dimidium" vel 5%.

proposita

SLO munus obiectivum est: scopum valorem vel extensionem valorum pro gradu servitii quod SLI mensuratur. Valor normali pro SLO est "SLI ≀ Target" vel "Limis ≀ SLI ≀ Low superior". Exempli gratia, statuere possumus Shakespeare quaesiti eventus "celeriter" nos reddemus ponendo SLO ad interrogationem mediocris quaesitionis latentis minus quam centum millium secundorum.

Sumo ius SLO processus complexus est. Primum, non semper certum valorem eligere. Externae instantiae HTTP petitiones ad ministerium tuum, Quaestio Per Second (QPS) metrica imprimis determinatur ab usoribus tuis ad tuum servitium visitandi desiderium, et ad illud SLO apponere non potes.

Ex altera parte, dicere potes te velle mediocris latency pro singulis petitionibus minus quam 100 milliseconds esse. Talis finis constituendi potest cogat te ad frontendum tuum scribere humili latency vel instrumento emere qui talem latentiam praebet. (100 milliseconds numerus arbitrarius manifesto est, sed melius est numeros etiam inferiores habere. Argumentum est ut suadeant velocitates velocitates esse meliores quam tarde velocitates, et latentiam in expediendis usoris petitionibus supra certas valores re vera homines cogat abesse. de servitio tuo).

Item hoc est magis ambiguum quam videri primo intuitu: non debes omnino excludere QPS a calculi. Ita res est, QPS et latentia inter se valde cognata sunt: ​​superiores QPS saepe ad superiores latentes perducit, et officia acre decrementum in perficiendi cum quodam onere limen attingunt solere experiuntur.

Eligendo et divulgando SLO exspectationes user ponit quomodo religio laborabit. Hoc consilium fictum querelas contra servitutem possessoris reducere potest, ut tardus effectus. Sine explicita SLO, utentes saepe suam spem faciunt de optatis effectibus, quae nihil possunt facere cum opinionibus populi operandi et administrandi. Haec condicio inflatam exspectationem ex ministerio ducere potest, cum utentes falso credunt ministerium magis promptum futurum esse quam actu est, et diffidentiam faciunt cum utentes credunt systema minus certa esse quam ipsa est.

Pacta

Conventio muneris campestris est contractus explicitus vel implicitus cum usoribus tuis, qui includit consequentias conventus (vel non occurrens) SLOs continentes. Consecutiones facillime agnoscuntur, cum pecuniaria sunt - discount vel minutum -, sed alias formas capere possunt. Facilis modus loquendi de discrimine inter SLOs et SLAs quaerendum est "quid accidit si SLOs non convenerunt?" Si nullae consequentiae perspicuae sunt, fere certe SLO spectas.

SRE typice in creatione SLAs non implicantur, quia SLAs arcte ligatae sunt negotiis et iudiciis productivis. SRE autem involvit adiuvando ad minuendos consecutiones defecerunt SLOs. Possunt etiam auxilium determinare SLI: Patet, oportet esse obiectivam modum SLO in conventione metiri vel dissensio erit.

Google Investigatio exemplum est magni momenti servitii quod SLA publicum non habet: omnes investigationes uti quam efficacissime volumus, sed pactum cum mundo non signavimus. Tamen adhuc sunt consecutiones si investigatio perpendat - unavailability consequitur guttam famae nostrae necnon reditus vendendi imminutos. Multa alia Google officia, ut Google pro Labore, pacta cum usoribus expressa habent. Quantumvis num aliquod servitium habeat SLA, interest definire SLI et SLO eosque uti ad ministerium administrandum.

Hactenus theoria β€” nunc ad experientiam.

Indicatores in usu

Dato quod conclusimus interest metri opportunitates eligere ut ministerium graduum metiaris, quomodo nunc scis quaenam metrica materia sit pro servitio vel systemate?

Quid vos et vestri users curo?

Non opus est omni metrico ut SLI utere quod in magna ratione indagare potes; Intelligentes quid utentes velint ex systemate plura metrica decerpere iuvabit. Eligendo nimium multos indices difficilem in magnis indicibus versari facit, dum eligens parvum numerum magnum chunks systematis tui incomitatum relinquere potest. Typice pluribus indicibus clavis utimur ad valetudinem systematis perpendendam et intelligendam.

Officia plerumque frangi possunt in partes plures secundum SLI quae ad eas pertinent;

  • Consuetudo systemata ante-finem, ut inquisitiones interfaces pro Shakespeare ab exemplo nostro. Praesto esse debent, nullas moras habent, sed satis laxius habent. Ideo quaestiones quaeri possunt: ​​an petitioni respondemus? Quousque non accipere roganti respondere? Quot petitiones processionaliter possunt?
  • Tabulae repono. Responsionem humilem putant latentiam, promptitudinem, ac vetustatem. Quaestiones cognatae: Quousque data est legere aut scribere? Data postulantibus accedere possumus? Estne notitia available quando opus est? Vide Caput XXVI Data Integritas: Quod legisti est quod scribis pro accurata harum rerum discussione.
  • Magnae notitiae systemata talia ut fistularum notitiarum processus perputium et interrogationem late innitantur. Related questions: quantum data est processionaliter? Quamdiu accipit pro notitia ad iter ab accipienda petitione ferendi responsionem? (Quaedam partes systematis etiam in quibusdam gradibus moras habere possunt).

Collectio indicibus

Multae servitutis gradus indices maxime naturaliter colliguntur in calculonis servi, utentes vigilantia ratione ut Borgmon (vide infra). Caput 10 Practice Alerts Based on Time Series Data) vel Prometheus, vel simpliciter ligna periodice dividens, responsa HTTP cum status 500 distinguens. Sed nonnullae systemata metri clientelae collectione instructi debent, cum defectus ex parte clientis vigilantia ducere possit ad nonnullas difficultates quae afficiunt. utentes, sed servo metri lateri non afficiunt. Exempli gratia, responsionis latency posita backend nostri Shakespeare inquisitionis test applicationis latency in utentis parte provenit ex JavaScript quaestiones: in hoc casu, mensuræ quam diu navigatrum capit ad processum paginae melioris metricae.

aggregatio

Pro simplicitate et facilitate usus, mensuras rudis saepe aggregat. Hoc diligenter faciendum est.

Quaedam metrica videntur simplicia, sicut petitiones secundae, sed etiam haec mensuratio recta apparenter implicite data tempore aggregata. Estne mensura specie semel per secundam recepta vel mensurata per minutum numerum petitionum? Haec optio multo altiorem instantaneum numerum petitionum occultare potest quae brevi tempore durant. Considera systema quae 200 petitionibus secundarum paribus numeris et 0 reliquo tempore inservit. Constans in forma mediocris valoris 100 petitionum secundarum et bis onus momentaneum idem non sunt. Similiter latenciae plerumque query pulchra videri possunt, sed res magni momenti occultat: fieri potest ut pleraque quaeruntur celeria erunt, sed multae interrogationes tarde erunt.

Plurimi indices magis videntur distributiones quam averages. Exempli gratia, pro latentia SLI, quaedam petitiones cito procedentur, quaedam vero semper diutius, interdum multo longiores erunt. Simplex mediocris has longas celare moras potest. Figura exemplum ostendit: quamvis postulatio typica circiter 50 ms ministrare possit, 5% petitionum 20 tempora tardius! Vigilantia et erectio tantum in mediocris latency fundata mutationes morum per diem non ostendit, cum tamen in processu temporis quarundam petitionum mutationes notabiles sunt (linea summa).

Servitium Metas Level - Google Usus (de Google SRE libri capite)
50, 85, 95, et 99 ratio centilis latency. Y axis est in forma logarithmica.

Utens centenis pro indicibus permittit videre figuram distributionis et eius notarum: gradu cento magno, ut 99 vel 99,9, valorem pessimum ostendit, dum 50 cento (etiam mediana) frequentissimum statum ostendit. metricae. Quo maior responsio temporis dissipatio est, eo magis diuturnae petitiones experientiae usoris collidunt. Effectus consectetur sub alto onere et coram queues. Usoris experientiae investigationis ostendit homines plerumque tardiorem rationem cum magno responsionis tempore dissidentes plerumque praeferre, ideo aliquae SRE iunctiones tantum in altum ustulo cento tendunt, ex eo quod, si modus metricus in 99,9 centus bonus est, plerique utentes difficultates non experientur. .

Nota in actuariorum erroribus

Plerumque malimus centonibus laborare quam medium (medium arithmeticum) copiarum valorum. Hoc nobis concedit ut bona dispersa consideremus, quae saepe significanter diversas (et magis iucundas) notas quam mediocris habent. Ob artificialem rationem systematis computandi, valores metrici saepe declives sunt, exempli gratia, nulla petitio responsionem recipere potest in minori quam 0 ms, et tempus 1000 ms significat quod non possunt bene respondere cum valoribus maioribus. quam timeout. Quam ob rem, medium ac medianum idem vel prope inter se esse non possumus!

Sine praevia probatione, et nisi quaedam principia et approximationes normae teneant, cavemus ne notitias nostras ordinarie distribuantur. Si distributio non est sicut expectata, processus automationis qui problema praefigitur (exempli gratia, cum manentes videt, ministratorem altae petitionis latencies processus reprimit) potest facere illud nimium saepe vel non satis saepe (utrumque non est ipsum bonum).

Indicatores Standardize

Commendamus notas generales pro SLI ut non omni tempore speculari debeas. Quaelibet pluma, quae normae satisfacit exemplaribus, a specificatione individui SLI excludi potest, exempli gratia:

  • Aggregatio intervalla "averaged in I momento"
  • Aggregatio areas "Omnia opera in botro"
  • Quoties mensurae sunt, "Omnis X seconds"
  • Quae petitiones continentur: "HTTP ex nigra capsula jobs vigilantia posside"
  • Notitia quomodo obtinetur: "Gratias nostrae vigilantiae metiri in calculonis".
  • Data latency accessum: "Tempus ad extremum byte"

Ut conatum servet, effice formulam rei reusable SLI templates pro singulis communibus metricis; quo facilius quisque intellegat quid SLI significet.

Proposita in usu

Primum cogitando (vel excogitando) quid utentes curant, non quid metiri possis. Saepe quod utentes vestri curant metiri difficile aut impossibile, propius accedens ad necessitates finias. Sed si quid metiri facile incipias, minus utile SLOs finies. Quam ob rem interdum deprehendimus initio propositas optabiles identificare ac deinde cum certis indicibus operari melius quam indicibus eligendo ac deinde metas assequendas.

Definias tua metas

Ad maximam evidentiam, definiri debet quomodo SLOs mensurantur et condiciones sub quibus validae sunt. Exempli gratia dicere possumus sequentia (linea secunda idem est quod prima, sed defectus SLI utitur);

  • 99% (averaged over 1 minute) of Get RPC calls will complete in less than 100ms (metied across all backend servers).
  • XCIX% Get RPC vocat perficiet in minus quam 99ms.

Si figura curvarum perficiendi magni momenti est, plures SLOs exprimere potes;

  • XC% Get RPC vocat perficitur in minus quam I ms.
  • XC% Get RPC vocat perficitur in minus quam I ms.
  • XC% Get RPC vocat perficitur in minus quam I ms.

Si usorum tuorum incommoda heterogenea generant: processus mole (pro quo perput est maximus) et processus interactive (pro quo latens interest), operae pretium erit singulas metas pro singulis oneris classibus definire;

  • XCV% of mos petitiones throughput require. R. P. comitem vocatum constitue executus < 95 s.
  • 99% clientium de latency curant. Pone comitem RPC vocat cum negotiationis <1 KB et currit <10 ms.

Unrealistica et inconveniens est affirmare SLOs occurrendum esse C% temporis: hoc passum reducere potest novas functiones et instruere et pretiosas solutiones requirere. Sed melius est ut errorem budget - recipis rationem temporis concessae - et monitor huius valoris cotidie vel septimanalis. Senior procuratio menstrui vel quarterii aestimationes desiderare potest. (Error budget est simpliciter SLO ad comparationem cum alio SLO.)

Recipis violationes SLO cum errori praevisionis comparari potest (cf. cap. 3, et sectionem "Motivation for Error Budgets") , cum differentia pretii uti initus ad processum qui decernit cum novas solutiones explicandas.

Discriptis scopum values

Discriptis valoribus ordinandis (SLOs) actio mere technica non est propter utilitates productas et negotiationes quae in SLIs, SLOs (et fortasse SLAs) reflecti debent. Item, informationes mutari possunt circa quaestiones ad staffing, tempus ad mercatum, apparatum disponibilitatem, ac imperdiet mutari. SRE pars huius colloquii debet esse et auxilium cognoscere pericula ac viability optionum diversorum. Advenimus cum paucis quaestionibus quae adiuvent ut uberiorem disputationem adiuvet;

Noli eligere propositum current effectus.
Dum vires et limites systematis comprehendere magni momenti est, metrica sine ratione accommodans te obstruere potest quominus systematis tueatur: heroica nisus requiret ad fines assequendos, qui sine notabili redesigno effici non possunt.

It
Complexa SLI calculi mutationes in systemate perficiendi ratione occultare possunt et causam difficultatis difficiliorem reddere possunt.

Vitare absolutas
Dum tentat habere systema quod indefinite augescens onus sine incremento latency tractare possit, haec postulatio unrealistica est. Ratio, quae ad huiusmodi specimina accedit, multum temporis ad excogitandum et aedificandum requiret, carus erit ad operandum, et nimis utile erit exspectationi utentium qui quid minus facturi sunt.

Paucis utere quam maxime SLOs
Sufficit numerus SLOs eligere ut bona coverage ratio attributa curet. Protege SLOs quod vis: Si argumentum de potioribus obtinere numquam potes specificando specificando SLO, verisimile non est dignum considerare quod SLO. Nihilominus non omnia attributa systematis SLOs sna sunt: ​​difficile est usoris delectationem utendi SLOs computare.

Noli sequi perfectum
Semper definitiones et proposita SLOs expolire potes ut plus discas de moribus systematis sub onere. Praestat ut fluitantem metam incipias quam per tempus expolies quam eligere propositum nimis strictum, quod emissum esse cum invenire non potest.

SLOs potest et debet esse clavem agitator in operibus SREs et productum tincidunt prioritizing quia cogitant sollicitudinem pro usoribus. Bonum SLO utile est instrumentum cogendi ad equos evolutionis. Sed male designatus SLO ad laborem prodigum ducere potest, si manipulus heroicum nisum facit ut nimis infestum SLO perficiat, vel productum pauperem si SLO nimis est humilis. SLO vecte potens, sapienter utere.

Compesce mensuras

SLI et SLO elementa praecipua systemata administrandi adhibita sunt:

  • Monitor et mensura systemata SLI.
  • Confer SLI ad SLO et decerne si opus est.
  • Si opus est, instare quid futurum sit ad finem consequendum.
  • Hoc opus perficere.

Exempli gratia, si gradus 2 ostendat petitionem timidam esse et SLO in paucis horis frangere, si nihil factum est, gradus 3 fortasse hypothesin involvere tentat, quod servientes CPU ligati sunt et additi plures servientes onus distribuent. Sine SLO, nescires si (vel quando) agere debeas.

Set SLO - tunc user exspectatio ponetur
Proponendi SLO spem user pro agendi ratione ponit. Utentes (et usores potentiales) saepe scire volunt quid exspectet ex ministerio cognoscendi num usui sit conveniens. Exempli gratia, homines paginae photographicae communicantes uti volentes vitare volentes opera quae promittit longitudinis et minoris sumptus in commutatione paulo minus promptitudinis, quamvis idem servitium esset specimen pro tabulario instrumenti administrationis.

Ut exspectationes reales pro usoribus tuis ponas, una alterave ex sequentibus artibus utere:

  • Tutela margine tuta. Strictius interna SLO utere quam ea quae usoribus proscripta sunt. Hoc tibi dabit facultatem ad problemata agendi antequam extrinsecus visibiles fiant. SLO quiddam etiam permittit tibi marginem tutiorem habere, cum installing emissiones quae systema perficiendi afficiunt et ut ratio facile conservare possit quin usores in downtime frustrarentur.
  • User spes non excedunt. Users innituntur quid offeras, non quod dicis. Si actus actualis servitutis tuae multo melior est quam dictus SLO, utentes utentes nituntur in actione praesenti. Superpendentiam vitare potes per intentionem claudendi rationem vel limitandi effectus sub oneribus levibus.

Intellectus quomodo bene ratio exspectationum occurrat, adiuvat ut statuat utrum disponat in accelerando systema ac faciliorem reddentem et consi- liorem. Vel, si servitium nimis proficit, tempus aliquod baculi in aliis potioribus impendi debet, ut debitum technicum solvens, novas notas addens vel novos fructus introducens.

Pacta in usu

Creando SLA negotia et iunctiones legales requirit ut consectaria et poenae violandae definiantur. Munus SRE est adiuva illas ut intelligant provocationes verisimiles in occurrentibus SLOs, quae in SLA continentur. Plurimae commendationes pro SLOs creandi etiam ad SLAs applicant. Sapiens est conservativum in illis quae promittunt utentes, quia quo plus habes, eo gravius ​​est SLAs mutare vel removere, quae irrationabilia vel difficilia videntur.

Gratias tibi ago pro lectione translationis ad finem. Subscribe ut meo telegraphum canalem de vigilantia monitorim_it ΠΈ blog on Medium.

Source: www.habr.com