Transcription webinar "SRE - hype or the future?"

Webinar a gen yon pòv odyo, kidonk nou te fè yon transkripsyon.

Non mwen se Medvedev Eduard. Jodi a mwen pral pale sou kisa SRE ye, ki jan SRE parèt, ki kritè travay pou enjenyè SRE, yon ti kras sou kritè fyab, yon ti kras sou siveyans li yo. Nou pral ale sou tèt la, paske ou pa ka di anpil nan yon èdtan, men mwen pral ba ou materyèl pou plis revizyon, epi nou tout ap tann ou nan Slurme SRE. nan Moskou nan fen janvye.

Premyèman, ann pale sou sa SRE - Site Reliability Engineering - ye. Ak ki jan li te parèt kòm yon pozisyon separe, kòm yon direksyon separe. Tout bagay te kòmanse ak lefèt ke nan ti sèk devlopman tradisyonèl yo, Dev ak Ops yo se de ekip konplètman diferan, anjeneral ak de objektif konplètman diferan. Objektif ekip devlopman an se woule nouvo karakteristik pou satisfè bezwen biznis yo. Objektif ekip Ops la se asire w ke tout bagay mache epi pa gen anyen kraze. Li evidan, objektif sa yo dirèkteman kontredi youn ak lòt: pou ke tout bagay mache epi pa gen anyen kraze, li se pi bon woule soti nouvo karakteristik pi piti ke posib. Poutèt sa, anpil konfli entèn leve, ke metodoloji a kounye a yo rele DevOps ap eseye rezoud.

Pwoblèm lan se ke nou pa gen yon definisyon klè nan DevOps ak yon aplikasyon klè nan DevOps. Mwen te pale nan yon konferans nan Yekaterinburg 2 zan de sa, e jiska prezan seksyon DevOps la te kòmanse ak rapò "Ki sa ki DevOps." Nan 2017, devops gen prèske 10 ane fin vye granmoun, men nou toujou ap diskite sou sa li ye. Epi sa a se yon sitiyasyon trè etranj ke Google te eseye rezoud kèk ane de sa.

Nan 2016, Google te pibliye yon liv ki rele "Site Reliability Engineering." E an reyalite, se ak liv sa a ke mouvman SRE te kòmanse. SRE se yon opsyon espesifik pou aplike paradigm DevOps nan yon konpayi espesifik. Enjenyè SRE yo te fikse objektif pou asire operasyon serye nan sistèm yo. Yo sitou pran nan men devlopè, pafwa nan men administratè ki gen yon background devlopman fò. Apre sa, yo fè sa administratè sistèm yo te konn fè, men yon gwo jan nou koumanse nan devlopman ak konesans nan sistèm nan yon pwen de vi kòd mennen nan lefèt ke moun sa yo pa enkline nan travay administratif woutin, men yo enkline nan automatisation.

Li sanble ke paradigm nan DevOps nan ekip SRE aplike pa lefèt ke gen enjenyè SRE ki rezoud pwoblèm estriktirèl. Men li ye, menm koneksyon ant Dev ak Ops ke moun ap pale de sa depi 8 ane. Wòl yon SRE sanble ak sa yon achitèk paske inisyasyon yo pa vin SRE. Moun ki nan kòmansman karyè yo poko gen okenn eksperyans epi yo pa gen konesans ki nesesè yo. Paske SRE mande pou yon konesans trè sofistike nan egzakteman ki sa ak ki lè egzakteman ka ale mal. Se poutèt sa, gen kèk kalite eksperyans bezwen isit la, kòm yon règ, tou de andedan konpayi an ak deyò.

Yo mande si diferans ki genyen ant SRE ak devops yo pral dekri. Li te jis te dekri. Nou ka pale sou plas SRE nan òganizasyon an. Kontrèman ak apwòch DevOps klasik la, kote Ops se toujou yon depatman separe, SRE fè pati ekip devlopman an. Yo patisipe nan devlopman pwodwi. Genyen menm yon apwòch kote SRE se yon wòl ki pase soti nan yon pwomotè a yon lòt. Yo patisipe nan revizyon kòd menm jan ak, pou egzanp, konsèpteur UX, devlopè tèt yo, epi pafwa manadjè pwodwi yo. SRE yo opere nan menm nivo sa a. Nou bezwen apwobasyon yo, nou bezwen revizyon yo, se konsa ke pou chak deplwaman SRE a di: "Oke, deplwaman sa a, pwodui sa a pa pral afekte fyab negatif. Men, si li fè sa, li pral nan kèk limit akseptab." Nou pral pale sou sa tou.

An konsekans, SRE a gen yon veto sou chanjman kòd. E an jeneral, sa a tou mennen nan kèk ti konfli si SRE aplike mal. Nan liv sa a sou Jeni Fyab Sit, anpil pati, menm plis pase youn, di ki jan pou fè pou evite konfli sa yo.

Moun mande ki jan SRE gen rapò ak sekirite enfòmasyon. SRE pa patisipe dirèkteman nan sekirite enfòmasyon. Sitou nan gwo konpayi yo, sa fèt pa moun endividyèl, tèsteur, ak analis. Men, SRE tou kominike avèk yo nan sans ke kèk operasyon, kèk komèt, kèk deplwaman ki afekte sekirite kapab tou afekte disponiblite a nan pwodwi a. Se poutèt sa, SRE an jeneral gen entèraksyon ak nenpòt ekip, ki gen ladan ekip sekirite, ki gen ladan analis yo. Se poutèt sa, SRE yo sitou nesesè lè w ap eseye aplike DevOps, men chay la sou devlopè yo vin twò gwo. Sa vle di, ekip devlopman tèt li pa ka fè fas ak lefèt ke kounye a yo menm tou yo bezwen responsab pou Ops. Ak yon wòl separe parèt. Wòl sa a te planifye nan bidjè a. Pafwa se wòl sa a bati nan gwosè a nan ekip la, yon moun separe parèt, pafwa youn nan devlopè yo vin li. Men ki jan premye SRE a parèt nan ekip la.

Konpleksite sistèm ki afekte pa SRE, konpleksite ki afekte fyab operasyonèl, ka nesesè oswa aksidan. Konpleksite nesesè se lè konpleksite pwodwi a ogmante nan limit ke karakteristik nouvo pwodwi yo mande. Konpleksite o aza se lè konpleksite nan sistèm nan ogmante, men karakteristik nan pwodwi ak kondisyon biznis pa dirèkteman afekte sa a. Li sanble ke swa pwomotè a te fè yon erè yon kote, oswa algorithm la pa pi bon, oswa kèk enterè adisyonèl yo prezante ki ogmante konpleksite nan pwodwi a san nesesite. Yon bon SRE ta dwe toujou evite sitiyasyon sa a. Sa vle di, nenpòt komèt, nenpòt deplwaman, nenpòt demann rale ki ogmante konpleksite akòz adisyon o aza yo ta dwe bloke.

Kesyon an se poukisa pa jis anboche yon enjenyè, yon administratè sistèm ki gen anpil konesans, pou rantre nan ekip la. Yon pwomotè nan wòl yon enjenyè, yo di nou, se pa solisyon an pèsonèl ki pi optimal. Yon pwomotè nan wòl yon enjenyè se pa toujou solisyon an pèsonèl pi bon, men pwen an isit la se ke yon pwomotè ki angaje nan Ops gen yon ti kras plis dezi pou automatisation, gen yon ti kras plis konesans ak konpetans seri yo nan lòd yo aplike sa a. automatisation. Ak kòmsadwa, nou redwi pa sèlman tan an pou kèk operasyon espesifik, pa sèlman woutin nan, men tou, tankou paramèt biznis enpòtan tankou MTTR (Mean Time To Recovery, tan rekiperasyon). Kidonk, epi nou pral tou pale sou sa a yon ti kras pita, nou ekonomize lajan pou òganizasyon an.

Koulye a, ann pale sou kritè yo pou travay SRE. Ak premye nan tout sou fyab. Nan ti konpayi yo ak demaraj, li souvan rive ke moun asime ke si sèvis la ekri byen, si pwodwi a ekri byen ak kòrèkteman, li pral travay, li pa pral kraze. Sa a, nou ekri bon kòd, kidonk pa gen anyen yo kraze. Kòd la trè senp, pa gen anyen pou kraze. Sa yo se sou menm moun ki di ke nou pa bezwen tès, paske, gade, sa yo se twa metòd VPI, poukisa deranje?

Sa a se tout sa ki mal, nan kou. Ak moun sa yo trè souvan jwenn blese pa sa a kalite kòd nan pratik, paske bagay sa yo kraze. Bagay yo pafwa kraze nan fason ki pi enprevizib. Pafwa moun di non, sa pap janm rive. Epi li toujou rive. Rive byen souvan. Epi se poutèt sa pèsonn pa janm fè efò pou disponiblite 100%, paske disponiblite 100% pa janm rive. Sa a se nòmal la. Se poutèt sa nou toujou pale de nèf lè nou pale de disponiblite sèvis. 2 nèf, 3 nèf, 4 nèf, 5 nèf. Si nou tradui sa a nan tan D ', lè sa a, pou egzanp, 5 nèf se yon ti kras plis pase 5 minit nan D 'pa ane, 2 nèf se 3,5 jou nan D '.

Men, li evidan ke nan kèk pwen gen yon diminisyon nan POI ak retounen sou envestisman. Ale nan de nèf a twa nèf vle di diminye tan an pa plis pase 3 jou. Ale soti nan kat nèf a senk diminye tan an pa 47 minit chak ane. Epi li sanble ke sa a pa ka kritik pou biznis. Ak an jeneral, fyab ki nesesè a se pa yon pwoblèm teknik, premye a tout bagay, li se yon pwoblèm biznis, li se yon pwoblèm pwodwi. Ki nivo D 'akseptab pou itilizatè yo nan pwodwi a, ki sa yo espere, konbyen lajan yo peye, pou egzanp, konbyen lajan yo pèdi, konbyen lajan sistèm nan pèdi.

Yon kesyon enpòtan se sa ki fyab nan eleman ki rete yo. Paske diferans ki genyen ant 4 ak 5 nèf pa pral vizib sou yon smartphone ki gen 2 nèf fyab. Apeprè pale, si yon bagay kraze sou yon smartphone nan sèvis ou a 10 fwa nan yon ane, gen plis chans 8 fwa pann nan te fèt sou bò OS la. Se itilizatè a itilize sa a, epi li pa pral peye atansyon sou li yon fwa siplemantè nan yon ane. Li nesesè yo konpare pri a nan ogmante fyab ak ogmante pwofi yo.
Jis nan liv la sou SRE gen yon bon egzanp pou ogmante a 4 nèf soti nan 3 nèf. Li sanble ke ogmantasyon nan disponiblite se yon ti kras mwens pase 0,1%. Men, si revni sèvis la se $1 milyon dola pa ane, Lè sa a, ogmantasyon revni a se $900. Si ogmante disponiblite pa nèf koute nou mwens pase $900 pa ane, ogmantasyon an gen sans finansye. Si li koute plis pase $900 yon ane, li pa fè sans ankò, paske ogmantasyon nan revni tou senpleman pa konpanse pou depans travay ak depans resous yo. Ak 3 nèf pral ase pou nou.

Sa a se nan kou yon egzanp senplifye kote tout demann yo egal. Ak soti nan 3 nèf a 4 nèf li se byen fasil ale, men an menm tan, pou egzanp, ale soti nan 2 nèf a 3 se deja yon ekonomi 9 mil dola, li ka fè sans finansye. Natirèlman, an reyalite, yon echèk nan anrejistre yon demann se pi mal pase yon echèk yo montre yon paj; demann yo gen pwa diferan. Yo ka gen kritè konplètman diferan nan yon pwen de vi biznis, men yo toujou, kòm yon règ, si nou pa ap pale de nenpòt sèvis espesifik, sa a se yon apwoksimasyon jistis serye.
Nou te resevwa yon kesyon si SRE a se youn nan koòdonatè yo lè w ap chwazi yon solisyon achitekti pou sèvis la. Sa i akseptab an term entegrasyon dan lenfrastriktir ki egziste pour ki napa okenn pert dan son stabilite. Wi, SRE yo enfliyanse demann rale, komèt, lage nan menm fason an; yo enfliyanse achitekti a, aplikasyon an nan nouvo sèvis, mikwosèvis, ak aplikasyon an nan nouvo solisyon. Poukisa mwen te di anvan ke ou bezwen eksperyans, ou bezwen kalifikasyon. An reyalite, SRE se youn nan vwa bloke nan nenpòt solisyon achitekti ak lojisyèl. An konsekans, yon SRE kòm yon enjenyè dwe, anvan tout bagay, pa sèlman konprann, men tou, konprann ki jan kèk desizyon espesifik pral afekte fyab, estabilite, ak konprann ki jan sa a gen rapò ak bezwen biznis, ak nan ki pwen de vi sa a ka akseptab, epi ak ki li pa.

Se poutèt sa, kounye a se tan an pale sou kritè fyab, ki nan SRE yo tradisyonèlman defini kòm SLA (Sèvis Level Agreement). Gen plis chans yon tèm abitye. SLI (Endikatè Nivo Sèvis). SLO (Objektif Nivo Sèvis). Akò Sèvis Nivo se petèt yon tèm enpòtan, espesyalman si ou te travay ak rezo, founisè, ak hosting. Sa a se yon akò jeneral ki dekri pèfòmans tout sèvis ou a, penalite, kèk penalite pou erè, mezi, kritè. Ak SLI se metrik aksè nan tèt li. Sa vle di, ki sa SLI ka: tan repons nan sèvis la, kantite erè kòm yon pousantaj. Sa a ta ka Pleasant si nou ap pale sou kèk kalite hosting dosye. Si nou ap pale de algorithm rekonesans, endikatè a ka menm, pou egzanp, kòrèk repons lan. SLO (Objektif Nivo Sèvis) se, respektivman, yon konbinezon de endikatè SLI a, valè li yo ak peryòd.

Ann di SLA a ta ka konsa. Sèvis la disponib 99,95% nan tan pandan tout ane a. Oswa 99 tikè sipò teknik kritik yo pral fèmen nan 3 èdtan pou chak trimès. Oswa 85% nan demann yo pral reponn nan 1,5 segonn chak mwa. Sa vle di, nou piti piti vin konprann ke erè ak echèk yo byen nòmal. Sa a se yon sitiyasyon akseptab, nou ap planifye pou li, nou menm ap konte sou li nan yon sèten mezi. Sa vle di, SRE bati sistèm ki ka fè erè, ki dwe reponn nòmalman nan erè, epi ki dwe pran yo an kont. Men, si sa posib, yo ta dwe okipe erè nan yon fason ke itilizatè a swa pa remake yo, oswa remake yo, men gen kèk kalite solisyon pou tout bagay pa tonbe apa nèt.

Pou egzanp, si ou telechaje yon videyo sou YouTube, epi YouTube pa ka konvèti li touswit, si videyo a twò gwo, si fòma a pa pi bon, Lè sa a, demann lan natirèlman pa pral echwe ak yon delè, YouTube pa pral montre yon 502. erè, YouTube ap di: "Nou te kreye tout bagay, videyo ou a ap trete. Li pral pare nan apeprè 10 minit." Sa a se prensip la nan degradasyon grasyeuz, ki se abitye, pou egzanp, nan devlopman front-end si ou te janm fè sa.

Pwochen tèm ke nou pral pale sou yo, ki trè enpòtan pou travay ak fyab, ak erè, ak atant, se MTBF ak MTTR. MTBF se tan an mwayèn ant echèk. MTTR Mean Time To Recovery, tan mwayèn pou rekiperasyon. Sa vle di, konbyen tan ki te pase depi lè yo te detekte erè a, depi lè erè a te parèt jiska moman sa a te retabli sèvis la nan operasyon konplètman nòmal. MTBF sitou korije pa travay sou bon jan kalite kòd. Sa vle di, lefèt ke SRE yo ka di "non". Epi tout ekip la dwe konprann ke lè SRE a di "non," li di li pa paske li danjere, pa paske li move, men paske sinon tout moun ap soufri.

Ankò, gen anpil atik, anpil metòd, anpil fason, menm nan liv sa a ke mwen souvan refere a, ki jan yo asire w ke lòt devlopè pa kòmanse rayi SRE. MTTR, nan lòt men an, se sou travay sou SLO ou (Objektif Nivo Sèvis). Ak sa a se sitou automatisation. Paske, pa egzanp, SLO nou an se yon uptime de 4 nèf pou chak trimès. Sa vle di ke nan 3 mwa nou ka pèmèt 13 minit nan D '. Epi li sanble ke MTTR nou an pa kapab pètèt plis pase 13 minit. Si nou pran 13 minit pou reyaji pou omwen 1 D', sa vle di ke nou deja fin itilize tout bidjè a pou sezon an. Nou ap vyole SLO. 13 minit pou reyaji ak korije yon echèk se anpil pou yon machin, men trè piti pou yon moun. Paske lè yon moun resevwa yon alèt, lè li reyaji, lè li kalkile erè a, li deja kèk minit. Jiskaske yon moun konprann ki jan yo ranje li, ki sa egzakteman yo ranje, ki sa yo dwe fè, li pral pran kèk minit plis. Ak an reyalite, menm si ou jis bezwen rdemare sèvè a, kòm li vire soti, oswa ogmante yon nouvo ne, Lè sa a, MTTR manyèlman pran apeprè 7-8 minit. Lè otomatik yon pwosesis, MTTR trè souvan rive nan yon dezyèm fwa, pafwa milisgond. Google anjeneral pale sou milisgond, men an reyalite, nan kou, bagay yo pa tèlman bon.

Idealman, yon SRE ta dwe prèske konplètman otomatize travay li, paske sa a dirèkteman afekte MTTR, mezi li yo, SLO nan tout sèvis la, epi, kòmsadwa, pwofi biznis yo. Si tan an depase, yo mande nou si SRE a se blame. Erezman, fòt la pa mete sou pèsonn. Ak sa a se yon kilti separe, ki rele balmeless postmortem, ki nou pa pral pale sou jodi a, men nou pral analize nan Slurm. Sa a se yon sijè trè enteresan ki ka pale sou anpil. Apwoksimativman pale, si yo depase tan yo bay pou chak trimès, Lè sa a, tout moun se blame yon ti kras, ki vle di ke blame tout moun se pa pwodiktif, se pou pito, petèt, pa blame pèsonn, men korije sitiyasyon an ak travay ak sa nou genyen. Nan eksperyans mwen, apwòch sa a se yon ti kras etranje nan pifò ekip, espesyalman nan Larisi, men li fè sans ak travay trè byen. Se poutèt sa, nan fen a mwen pral rekòmande atik ak literati ke ou ka li sou sijè sa a. Oswa vini nan Slurm SRE.

Kite m eksplike. Si tan SLO pou trimès la depase, si tan an pa t '13 minit, men 15, ki moun ki ka blame pou sa a? Natirèlman, SRE a gendwa nan fòt paske li klèman te fè kèk move komèt oswa deplwaman. Administratè sant done a ka blame pou sa a, paske li ka fè kèk antretyen ki pa pwograme. Si se administratè sant done a ki blame pou sa, lè sa a moun ki soti nan Ops se tou blame pou li pa kalkile antretyen lè yo dakò sou SLO la. Sa a se fòt manadjè a, direktè teknik, oswa yon moun ki te siyen kontra a sant done epi li pa t 'peye atansyon sou lefèt ke SLA nan sant done pa fèt pou D 'nan obligatwa. An konsekans, tout moun se yon ti kras blame pou sitiyasyon sa a. Epi sa vle di pa gen okenn pwen nan mete blame sou nenpòt moun an patikilye pou sitiyasyon sa a. Men, nan kou li bezwen yo dwe korije. Se poutèt sa postmortems egziste. Men, si ou li, pou egzanp, GitHub postmortems, epi sa a se toujou yon istwa trè enteresan, ti ak inatandi nan chak ka espesifik, ou ka ranplase ke pèsonn pa janm di ke moun sa a an patikilye te blame. Blame toujou mete sou pwosesis espesifik ensufizant.

Ann ale nan pwochen kesyon an. Otomatik. Mwen anjeneral, lè mwen pale sou automatisation nan lòt kontèks, trè souvan al gade nan yon tablo ki pale sou konbyen tan ou ka travay sou automatisation yon travay pou yo pa pran plis tan otomatize li pase ou jeneralman sove. Gen yon trape. Trape an se ke lè SRE yo otomatize yon travay, yo non sèlman ekonomize tan, yo ekonomize lajan paske automatisation dirèkteman enpak MTTR. Yo sove, se konsa pale, moral anplwaye yo ak devlopè, ki se tou yon resous épuisable. Yo diminye woutin. Ak tout bagay sa a gen yon efè pozitif sou travay ak, kòm yon rezilta, sou biznis, menm si li sanble ke automatisation pa fè sans an tèm de depans tan.

An reyalite, li prèske toujou fè sa, e gen anpil ka kote li pa vo otomatize yon bagay nan wòl SRE. Apre sa nou pral pale sou sa yo rele bidjè erè, bidjè pou erè. An reyalite, li sanble ke si w ap fè siyifikativman pi bon pase SLO a ou mete pou tèt ou, sa a se tou pa trè bon. Sa a se pito move, paske SLO travay non sèlman kòm yon limit pi ba, men tou kòm yon limit apwoksimatif anwo. Lè ou fikse tèt ou yon SLO nan 99% disponiblite, epi an reyalite ou gen 99,99%, li sanble ke ou gen kèk espas pou eksperimantasyon, ki pa pral mal biznis la ditou, paske ou menm ou te detèmine sa a tout ansanm, epi ou gen espas sa a pa sèvi ak li. Ou gen yon bidjè pou erè, ki nan ka w la pa depanse.

Kisa nap fè ak li? Nou itilize li pou literalman tout bagay. Pou tès nan kondisyon pwodiksyon, pou woule soti nouvo karakteristik ki ka afekte pèfòmans, pou degaje, pou antretyen, pou tan yo te planifye. Règ opoze a aplike tou: si bidjè a fin itilize, nou pa ka pibliye anyen nouvo, paske sinon nou pral depase SLO la. Bidjè a te deja fin itilize, nou te lage yon bagay, si li afekte pèfòmans negatif, sa vle di, si se pa yon kalite ranje ki nan tèt li dirèkteman ogmante SLO a, Lè sa a, nou pral depase bidjè, e sa a se yon move sitiyasyon. , li mande analiz , postmortem, epi pètèt kèk koreksyon pwosesis.

Sa vle di, li sanble ke si sèvis nan tèt li pa travay byen, epi SLO a depanse ak bidjè a depanse pa sou eksperyans, pa sou nenpòt ki degaje, men sou pwòp li yo, Lè sa a, olye pou yo kèk fikse enteresan, olye pou yo enteresan. karakteristik, olye pou yo degaje enteresan. Olye pou w fè nenpòt ki travay kreyatif, w ap oblije fè reparasyon enbesil pou jwenn bidjè a tounen nan lòd, oswa modifye SLO a, epi sa a se tou yon pwosesis ki pa ta dwe rive twò souvan.

Se poutèt sa, li sanble ke nan yon sitiyasyon kote nou gen plis bidjè pou erè, tout moun enterese: tou de SRE ak devlopè. Pou devlopè yo, yon gwo bidjè pou erè vle di ke yo ka fè fas ak degaje, tès, ak eksperyans. Pou SRE yo, yon bidjè pou erè ak antre nan bidjè sa a vle di ke yo aktyèlman ap fè yon bon travay. Lè sa a afekte motivasyon an nan kèk kalite travay ansanm. Si w koute SRE ou yo kòm devlopè, w ap gen plis plas pou fè bon travay ak anpil mwens travay.

Li sanble ke eksperyans nan pwodiksyon yo se yon pati jistis enpòtan ak prèske entegral nan SRE nan ekip gwo. Epi li anjeneral ale nan non jeni dezòd la, ki soti nan ekip la nan Netflix ki lage yon sèvis piblik ki rele Chaos Monkey.
Chaos Monkey konekte ak tiyo CI/CD epi fè aksidan sèvè a owaza nan pwodiksyon an. Ankò, nan estrikti SRE a nou di ke yon sèvè fè aksidan se pa move nan tèt li, li espere. Men, si li enkli nan bidjè a, li akseptab epi li pa mal biznis la. Natirèlman, Netflix gen ase serveurs redondants, ase replikasyon, ke tout bagay sa a ka fiks san itilizatè a kòm yon antye menm remake, e sètènman pa gen moun ki kite yon sèvè pou nenpòt ki bidjè.

Netflix nan yon sèl fwa te gen yon seri antye nan sèvis piblik sa yo, youn nan yo, Chaos Gorilla, konplètman enfim youn nan zòn disponiblite yo nan Amazon. Ak bagay sa yo ede byen idantifye, premyèman, depandans kache, lè li pa totalman klè ki sa ki enfliyanse sa, ki sa ki depann de sa. Ak sa a, si w ap travay ak yon mikwosèvis ak dokiman an pa totalman pafè, sa a ka abitye pou ou. Epi ankò, sa a ede trape erè nan kòd la ke ou pa ka trape pandan staging, paske nenpòt etap se pa yon simulation egzat, akòz lefèt ke echèl la chaj diferan, modèl la chaj se diferan, ekipman an se tou, pi fò. gen anpil chans, lòt. Pik chaj yo kapab tou inatandi ak enprevizib. Ak tès sa yo, ki ankò pa ale pi lwen pase bidjè a, trè byen ede trape erè nan enfrastrikti a ke staging, autotests, ak CI/CD pipelines p'ap janm trape. Ak osi lontan ke sa a se tout enkli nan bidjè ou, li pa enpòtan ke sèvis ou a te tonbe la, byenke li ta sanble trè pè, sèvè a te fè aksidan, sa ki yon kochma. Non, sa nòmal, sa bon, li ede trape erè. Si ou gen yon bidjè, ou ka depanse li.

Kesyon: ki literati mwen ka rekòmande? Lis la se nan fen an. Gen anpil literati, mwen ta rekòmande plizyè rapò. Ki jan li fonksyone epi si SRE ap travay nan konpayi san yo pa pwodwi lojisyèl pwòp yo oswa ak devlopman minim. Pou egzanp, nan yon antrepriz, kote aktivite prensipal la se pa lojisyèl. Nan yon antrepriz, kote aktivite prensipal la se pa lojisyèl, SRE travay egzakteman menm jan ak nenpòt lòt kote, paske nan yon antrepriz ou bezwen tou itilize, menm si ou pa devlope, pwodwi lojisyèl, ou bezwen woule mizajou, ou bezwen chanje enfrastrikti a, ou bezwen grandi, ou bezwen echèl. Epi SRE yo ede idantifye ak predi pwoblèm posib nan pwosesis sa yo epi kontwole yo apre kèk kwasans kòmanse ak bezwen biznis yo chanje. Paske li se absoliman pa nesesè angaje yo nan devlopman lojisyèl yo nan lòd yo gen SRE, si ou gen omwen plizyè serveurs epi ou espere omwen kèk kwasans.

Menm bagay la tou pou ti pwojè, ti òganizasyon, paske gwo konpayi yo gen bidjè a ak espas pou eksperimantasyon. Men, an menm tan an, tout fwi eksperyans sa yo ka itilize nenpòt kote, se sa ki, SRE, nan kou, parèt nan Google, Netflix, ak Dropbox. Men, an menm tan an, ti konpayi yo ak demaraj ka deja li materyèl kondanse, li liv, epi gade rapò. Yo kòmanse tande pale de sa a pi souvan, gade nan egzanp espesifik, mwen panse, oke, sa a ka vrèman itil, nou bezwen sa a tou, fre.

Sa vle di, tout travay prensipal yo sou estandadize pwosesis sa yo te deja fè pou ou. Tout sa ou dwe fè se defini wòl SRE espesyalman nan konpayi ou epi kòmanse aplike aktyèlman tout pratik sa yo, ki, ankò, yo te deja dekri. Sa vle di, soti nan prensip itil pou ti konpayi yo, sa a se toujou definisyon SLA, SLI, SLO. Si ou pa patisipe nan lojisyèl, Lè sa a, sa yo pral SLA entèn ak SLO entèn, bidjè entèn pou erè. Sa a prèske toujou mennen nan kèk diskisyon enteresan nan ekip la ak nan biznis la, paske li ka vire soti ke ou ap depanse pi plis pase sa nesesè sou enfrastrikti, sou kèk kalite òganizasyon nan pwosesis ideyal, yon tiyo ideyal. Ak sa yo 4 nèf ke ou genyen nan depatman IT, ou pa reyèlman bezwen yo kounye a. Men, an menm tan an, li te posib yo pase tan, depanse bidjè a pou erè sou yon lòt bagay.

An konsekans, siveyans ak òganizasyon nan siveyans itil pou yon konpayi nenpòt ki gwosè. Ak an jeneral, fason sa a nan panse, kote erè yo se yon bagay akseptab, kote gen yon bidjè, kote Objektif egziste, se ankò itil pou yon konpayi nenpòt ki gwosè, kòmanse nan yon demaraj 3 moun.

Dènye nan nuans teknik ke nou ka pale sou se siveyans. Paske si nou pale de SLA, SLI, SLO, nou pa ka konprann san nou pa kontwole si nou anfòm nan bidjè a, si nou respekte Objektif nou yo, ak ki jan nou enfliyanse SLA final la. Mwen te obsève anpil fwa ke siveyans rive nan fason sa a: gen kèk valè, pou egzanp, tan an nan yon demann nan sèvè a, tan an mwayèn oswa kantite demann nan baz done a. Li gen yon estanda ki detèmine pa enjenyè a. Si metrik la devye ak nòmal la, yo voye yon imèl. Sa a se tout absoliman initil, kòm yon règ, paske li mennen nan tankou yon oversaturation nan alèt, yon oversaturation nan mesaj siveyans, lè yon moun, premyèman, dwe entèprete yo chak fwa, se sa ki, detèmine si valè metrik la vle di bezwen an pou kèk kalite aksyon. Ak dezyèmman, li tou senpleman sispann remake tout alèt sa yo, lè fondamantalman pa gen okenn aksyon ki nesesè nan men li. Sa vle di, yon règ siveyans bon ak règ la trè premye lè w ap aplike SRE se ke yon notifikasyon ta dwe vini sèlman lè yon aksyon nesesè.

Nan ka estanda a gen 3 nivo evènman yo. Gen alèt, gen tikè, gen mòso bwa. Alèt yo se nenpòt bagay ki mande aksyon imedya nan men ou. Sa vle di, tout bagay kase, li bezwen yo dwe fiks kounye a. Tikè yo se yon bagay ki mande aksyon annatant. Wi, ou bezwen fè yon bagay, ou bezwen fè yon bagay manyèlman, automatisation te echwe, men ou pa oblije fè li nan kèk minit kap vini yo. Jounal yo se tout bagay ki pa mande pou aksyon, epi an jeneral, si bagay yo ale byen, pèsonn p'ap janm li yo. Li pral nesesè yo li mòso bwa yo sèlman lè, nan retrospective, li sanble ke yon bagay te kase pou kèk tan, nou pa t 'konnen sou li. Oswa kèk kalite envestigasyon bezwen fèt. Men, an jeneral, tout bagay ki pa mande pou okenn aksyon ale nan mòso bwa yo.

Kòm yon efè segondè nan tout bagay sa yo, si nou te idantifye ki evènman ki mande aksyon epi yo te byen dekri ki aksyon sa yo ta dwe, sa vle di ke aksyon an ka otomatize. Sa vle di, sa k ap pase. Nou soti nan yon alèt. Ann ale nan aksyon. Ann ale nan deskripsyon aksyon sa a. Apre sa, nou avanse nan direksyon pou automatisation. Sa vle di, nenpòt automatisation kòmanse ak yon reyaksyon a yon evènman.

Soti nan siveyans nou ale nan yon tèm ki rele Observability. Te gen tou yon ti kras nan battage alantou mo sa a pou kèk ane ki sot pase yo. Ak kèk moun konprann sa sa vle di soti nan kontèks. Men, pwen prensipal la se ke Obsèvabilite se yon metrik nan transparans sistèm. Si yon bagay ale mal, konbyen rapid ou ka detèmine kisa egzakteman ale mal ak ki eta sistèm lan te nan moman sa a. Soti nan yon pwen de vi kòd: ki fonksyon echwe, ki sèvis echwe. Ki sa ki te eta a nan, pou egzanp, varyab entèn, konfigirasyon. Soti nan yon pwen de vi enfrastrikti, sa a se nan ki zòn disponiblite echèk la te fèt, epi si ou gen kèk kalite Kubernetes, Lè sa a, nan ki gous echèk la te fèt, ki sa ki te eta a nan gous la. Epi kòmsadwa, Observability gen yon relasyon dirèk ak MTTR. Plis Obsèvabilite sèvis la pi wo, se pi fasil pou idantifye erè a, se pi fasil pou ranje erè a, se pi fasil pou otomatize erè a, pi ba MTTR la.

Si nou deplase sou ti konpayi yo ankò, yo trè souvan mande, menm kounye a, ki sa yo dwe fè ak gwosè a nan ekip la, epi si li nesesè anboche yon SRE separe nan yon ti ekip. Mwen te deja pale sou sa yon ti kras pi bonè. Nan premye etap yo nan devlopman nan yon demaraj oswa, pou egzanp, yon ekip, sa a se pa ditou nesesè, paske SRE ka fè yon wòl tranzisyon. Lè sa a pral anime ekip la yon ti kras, paske gen omwen kèk divèsite. Ak plis li pral prepare moun pou lefèt ke kòm yo grandi, an jeneral, responsablite yo nan SRE pral chanje anpil anpil. Si ou anplwaye yon moun, lè sa a, men wi, li gen kèk attentes. Ak atant sa yo pa pral chanje sou tan, men kondisyon yo pral chanje anpil. Se poutèt sa, anboche yon SRE se byen difisil nan premye etap yo. Li pi fasil pou ogmante pwòp tèt ou. Men, li vo reflechi sou.

Sèl eksepsyon, pwobableman, se lè gen kondisyon wotè trè strik ak byen defini. Sa vle di, nan ka yon demaraj, sa a ta ka kèk kalite presyon nan men envestisè yo, kèk kalite previzyon pou kwasans plizyè fwa nan yon fwa. Lè sa a, anbochaj yon SRE jeneralman jistifye paske li ka jistifye. Nou gen kondisyon kwasans, nou bezwen yon moun ki pral responsab pou asire ke anyen pa kase ak kwasans sa yo.

Yon lòt kesyon. Kisa pou fè lè plizyè fwa devlopè koupe yon karakteristik ki pase tès yo, men kraze pwodwi a, chaje baz done a, kraze lòt karakteristik, ki pwosesis pou aplike. An konsekans, nan ka sa a, yo prezante yon bidjè pou erè. Ak kèk sèvis, kèk karakteristik yo teste imedyatman nan pwodiksyon an. Sa a kapab yon Canary, lè sèlman yon ti kantite itilizatè, men ki deja nan pwodiksyon, ap deplwaye yon karakteristik, men ak atann ke si yon bagay kraze, pou egzanp, pou mwatye yon pousan nan tout itilizatè, li ap toujou anfòm nan la. bidjè pou erè. An konsekans, wi, pral gen yon erè, pou kèk itilizatè tout bagay pral kraze, men nou te deja di ke sa a se nòmal.

Te gen yon kesyon sou zouti SRE. Sa vle di, èske gen yon bagay espesifik ke SRE yo ta itilize ke tout lòt moun pa ta? An reyalite, gen kèk sèvis piblik trè espesyalize, gen kèk lojisyèl ki, pou egzanp, simulation chaj oswa fè tès Canary A / B. Men, fondamantalman, zouti SRE se sa devlopè ou yo deja itilize. Paske SRE a reyaji dirèkteman ak ekip devlopman an. Men, si ou gen zouti diferan, li sanble ke li pran tan senkronize. Espesyalman si SRE yo ap travay nan gwo ekip, nan gwo konpayi kote ka genyen plizyè ekip, normalisation nan tout konpayi an pral trè itil isit la, paske si 50 ekip itilize 50 sèvis piblik diferan, sa vle di ke SRE a dwe konnen yo tout. Ak nan kou sa a pa janm pral rive. Ak bon jan kalite a nan travay, bon jan kalite a nan kontwòl nan omwen kèk nan ekip yo ap diminye anpil.

Webinar nou an ap fini piti piti. Mwen te rive di w kèk bagay debaz. Natirèlman, pa gen anyen sou SRE ka di ak konprann nan yon èdtan. Men, mwen espere ke mwen jere transmèt fason sa a nan panse, pwen prensipal yo kle. Lè sa a, si ou enterese, ou ka fouye pi fon nan sijè a, etidye poukont ou, epi gade nan ki jan li se aplike pa lòt moun, nan lòt konpayi. Epi kòmsadwa, nan kòmansman mwa fevriye, vin jwenn nou nan Slurm SRE.

Slurm SRE se yon kou entansif twa jou ki pral kouvri apeprè sa m ap pale kounye a, men ak plis pwofondè, ak ka reyèl, ak pratik, tout entansif la vize a travay pratik. Moun yo pral divize an ekip. Ou tout pral travay sou ka reyèl. An konsekans, nou gen enstriktè nan Booking.com Ivan Kruglov ak Ben Tyler. Nou gen yon bèl bagay Evgeniy Varabbas soti nan Google, ki soti nan San Francisco. E mwen pral di w yon bagay tou. Se konsa, asire w ke ou vin vizite nou.
Se konsa, yon lis referans. Gen lyen sou SRE. Premye a sou menm liv sa a, oswa pito sou 2 liv sou SRE, Google ekri. Yon lòt ankò ti atik sou SLA, SLI, SLO, kote kondisyon yo ak aplikasyon yo eksplike nan yon ti kras plis detay. 3 pwochen yo se rapò sou SRE nan diferan konpayi yo. Premye - Kle pou SRE, sa a se yon diskou soti nan Ben Trainer soti nan Google. Dezyèm - SRE sou Dropbox. Twazyèm lan se ankò sou SRE sou Google. Katriyèm rapò soti nan SRE sou Netflix, ki gen sèlman 5 anplwaye kle SRE nan 190 peyi. Li trè enteresan pou nou gade tout bagay sa yo, paske menm jan DevOps vle di bagay trè diferan pou diferan konpayi e menm ekip diferan, SRE gen responsablite trè diferan, menm nan konpayi ki gen menm gwosè.

2 plis lyen sou prensip jeni dezòd: (1), (2). Ak nan fen a gen 3 lis ki soti nan seri Awesome Lists sou jeni dezòd, sou SRE ak sou Kit zouti SRE. Lis la sou SRE se ekstrèmman gwo, ou pa bezwen ale nan tout li, gen apeprè 200 atik. Mwen trè rekòmande atik yo sou planifikasyon kapasite ak postmortem san repwòch.

Atik enteresan: SRE kòm yon chwa lavi

Mèsi paske w koute m pandan tout tan sa a. Mwen espere ou te aprann yon bagay. Mwen espere ou gen ase materyèl pou aprann plis toujou. Epi na wè pita. Nou swete nan mwa fevriye.
Eduard Medvedev te òganize vebinèr la.

PS: pou moun ki renmen li, Eduard bay yon lis referans. Moun ki pito konprann li nan pratik yo akeyi nan Slurme SRE.

Sous: www.habr.com

Add nouvo kòmantè