Transkripsyon sa webinar nga "SRE - hype o sa umaabot?"

Ang webinar adunay dili maayo nga audio, mao nga naghimo kami usa ka transcript.

Ang akong ngalan mao si Medvedev Eduard. Karon akong hisgutan kung unsa ang SRE, kung giunsa ang pagpakita sa SRE, unsa ang mga pamatasan sa pagtrabaho alang sa mga inhenyero sa SRE, gamay bahin sa pamatasan nga kasaligan, gamay bahin sa pag-monitor niini. Moadto kami sa ibabaw, tungod kay dili ka makasulti og daghan sa usa ka oras, apan hatagan ko ikaw og mga materyales alang sa dugang nga pagrepaso, ug kaming tanan naghulat kanimo sa Slurme SRE. sa Moscow sa katapusan sa Enero.

Una, atong hisgutan kung unsa ang SRE - Site Reliability Engineering -. Ug kung giunsa kini nagpakita ingon usa ka lahi nga posisyon, ingon usa ka lahi nga direksyon. Nagsugod ang tanan sa kamatuoran nga sa tradisyonal nga mga lingin sa pag-uswag, ang Dev ug Ops duha nga magkalainlain nga mga koponan, kasagaran adunay duha nga lahi nga katuyoan. Ang tumong sa development team mao ang paglansad sa mga bag-ong feature aron matubag ang mga panginahanglanon sa negosyo. Ang tumong sa Ops team mao ang pagsiguro nga ang tanan molihok ug walay maguba. Dayag nga kini nga mga katuyoan direkta nga nagkasumpaki sa usag usa: aron ang tanan molihok ug wala’y maguba, mas maayo nga i-roll out ang mga bag-ong bahin sa gamay nga mahimo. Tungod niini, daghang mga internal nga panagbangi ang mitungha, nga ang pamaagi nga gitawag karon nga DevOps naningkamot nga masulbad.

Ang problema mao nga wala kami klaro nga kahulugan sa DevOps ug klaro nga pagpatuman sa DevOps. Namulong ko sa usa ka komperensya sa Yekaterinburg 2 ka tuig na ang milabay, ug hangtod karon ang seksyon sa DevOps nagsugod sa taho nga "Unsa ang DevOps." Sa 2017, ang devops hapit na 10 ka tuig ang edad, apan naglalis gihapon kami kung unsa kini. Ug kini usa ka talagsaon nga sitwasyon nga gisulayan sa Google nga sulbaron pipila ka tuig na ang milabay.

Sa 2016, gipagawas sa Google ang usa ka libro nga gitawag nga "Site Reliability Engineering." Ug sa tinuud, kini nga libro nagsugod ang kalihokan sa SRE. Ang SRE usa ka piho nga kapilian alang sa pagpatuman sa paradigm sa DevOps sa usa ka piho nga kompanya. Ang mga inhenyero sa SRE nagtakda sa ilang kaugalingon nga katuyoan sa pagsiguro sa kasaligan nga operasyon sa mga sistema. Kasagaran kini gikuha gikan sa mga developer, usahay gikan sa mga administrador nga adunay lig-on nga background sa pag-uswag. Ug gibuhat nila kung unsa ang gibuhat sa mga administrador sa sistema, apan ang usa ka lig-on nga background sa pag-uswag ug kahibalo sa sistema gikan sa usa ka punto sa kodigo nagdala sa kamatuoran nga kini nga mga tawo dili hilig sa naandan nga buluhaton sa administratibo, apan hilig sa automation.

Kini nahimo nga ang paradigm sa DevOps sa mga koponan sa SRE gipatuman sa kamatuoran nga adunay mga inhenyero sa SRE nga nagsulbad sa mga problema sa istruktura. Ania kini, ang parehas nga koneksyon tali sa Dev ug Ops nga gihisgutan sa mga tawo sa 8 ka tuig. Ang papel sa usa ka SRE susama sa usa ka arkitekto nga ang mga bag-ohan dili mahimong SRE. Ang mga tawo sa sinugdanan sa ilang mga karera wala pa'y kasinatian ug wala'y gikinahanglan nga gilapdon sa kahibalo. Tungod kay ang SRE nanginahanglan usa ka labi ka sopistikado nga kahibalo sa eksakto kung unsa ug kanus-a gyud mahimong sayup. Busa, gikinahanglan ang usa ka matang sa kasinatian dinhi, isip usa ka lagda, sa sulod sa kompaniya ug sa gawas.

Nangutana sila kung ang kalainan tali sa SRE ug devops ihulagway. Bag-o lang siya gihulagway. Mahimo natong hisgutan ang dapit sa SRE sa organisasyon. Dili sama sa klasiko nga pamaagi sa DevOps, diin ang Ops usa gihapon ka bulag nga departamento, ang SRE kabahin sa development team. Apil sila sa pagpalambo sa produkto. Adunay bisan usa ka pamaagi diin ang SRE usa ka tahas nga gipasa gikan sa usa ka developer ngadto sa lain. Nag-apil sila sa mga pagsusi sa code sa parehas nga paagi sama sa, pananglitan, mga tigdesinyo sa UX, mga developer mismo, ug usahay mga managers sa produkto. Ang mga SRE naglihok sa parehas nga lebel. Kinahanglan namon ang ilang pagtugot, kinahanglan namon ang ilang pagrepaso, aron sa matag pag-deploy ang SRE nag-ingon: "Okay, kini nga pag-deploy, kini nga produkto dili negatibo nga makaapekto sa kasaligan. Ug kung mahitabo kini, kini naa sa pipila nga madawat nga mga limitasyon. ” Atong hisgotan usab kini.

Tungod niini, ang SRE adunay veto sa mga pagbag-o sa code. Ug sa kinatibuk-an, mosangput usab kini sa gamay nga panagbangi kung ang SRE dili husto nga gipatuman. Sa mismong libro bahin sa Site Reliability Engineering, daghang mga bahin, labi pa sa usa, nagsulti kung giunsa paglikay kini nga mga panagbangi.

Nangutana ang mga tawo kung unsa ang kalabotan sa SRE sa seguridad sa impormasyon. Ang SRE dili direktang nalangkit sa seguridad sa impormasyon. Kasagaran sa mga dagkong kompanya, gihimo kini sa indibidwal nga mga tawo, mga tester, ug mga analista. Apan ang SRE nakig-uban usab kanila sa diwa nga ang pipila nga mga operasyon, ang uban nga nahimo, ang pipila nga mga pag-deploy nga makaapekto sa seguridad mahimo usab nga makaapekto sa pagkaanaa sa produkto. Busa, ang SRE sa kinatibuk-an adunay interaksyon sa bisan unsang mga team, lakip ang mga security team, lakip ang mga analista. Busa, ang mga SRE nag-una nga gikinahanglan sa pagsulay sa pagpatuman sa DevOps, apan ang palas-anon sa mga developers nahimong dako kaayo. Sa ato pa, ang development team mismo dili na makaagwanta sa kamatuoran nga kinahanglan na usab nila nga manubag sa Ops. Ug usa ka lahi nga papel ang makita. Kini nga tahas giplano sa badyet. Usahay kini nga tahas gitukod sa gidak-on sa team, usa ka bulag nga tawo ang makita, usahay usa sa mga developer ang nahimo niini. Ingon niini ang pagpakita sa unang SRE sa team.

Ang pagkakomplikado sa sistema nga naapektuhan sa SRE, ang pagkakomplikado nga nakaapekto sa kasaligan sa operasyon, mahimong kinahanglanon o aksidente. Ang gikinahanglan nga pagkakomplikado mao ang kung ang pagkakomplikado sa produkto nagdugang sa gidak-on nga gikinahanglan sa bag-ong mga bahin sa produkto. Ang random nga pagkakomplikado mao kung ang pagkakomplikado sa sistema nagdugang, apan ang bahin sa produkto ug mga kinahanglanon sa negosyo dili direktang makaapekto niini. Kini nahimo nga bisan ang developer nakahimo usa ka sayup sa usa ka lugar, o ang algorithm dili kamalaumon, o ang pipila nga dugang nga mga interes gipaila nga nagdugang sa pagkakomplikado sa produkto nga wala kinahanglana. Ang maayo nga SRE kinahanglan kanunay nga maglikay niini nga sitwasyon. Kana mao, ang bisan unsang pasalig, bisan unsang pag-deploy, bisan unsang hangyo sa pagbitad nga nagdugang pagkakomplikado tungod sa mga random nga pagdugang kinahanglan nga babagan.

Ang pangutana nganong dili na lang mo-hire og engineer, usa ka system administrator nga adunay daghang kahibalo, aron moapil sa team. Ang usa ka developer sa papel sa usa ka enhinyero, kami gisultihan, dili ang labing kamalaumon nga solusyon sa mga kawani. Ang usa ka developer sa papel sa usa ka inhenyero dili kanunay ang kamalaumon nga solusyon sa mga kawani, apan ang punto dinhi mao nga ang usa ka developer nga nakigbahin sa Ops adunay gamay nga dugang nga tinguha alang sa automation, adunay gamay nga dugang nga kahibalo ug kahanas aron mapatuman kini. automation. Ug sumala niana, gikunhoran namo dili lamang ang panahon alang sa pipila ka espesipikong mga operasyon, dili lamang ang naandan, kondili ang importante usab nga mga parameter sa negosyo sama sa MTTR (Mean Time To Recovery, recovery time). Sa ingon, ug hisgutan usab namon kini sa ulahi, nagtipig kami salapi alang sa organisasyon.

Karon hisgotan nato ang mga sukdanan sa trabaho sa SRE. Ug una sa tanan mahitungod sa kasaligan. Sa gagmay nga mga kompanya ug mga startup, kasagaran mahitabo nga ang mga tawo maghunahuna nga kung ang serbisyo gisulat nga maayo, kung ang produkto gisulat nga maayo ug husto, kini molihok, dili kini mabuak. Mao na, nagsulat mi og maayo nga code, mao nga walay mabungkag. Ang code yano ra kaayo, wala’y mabuak. Mahitungod kini sa parehas nga mga tawo nga nag-ingon nga wala kami magkinahanglan mga pagsulay, tungod kay, tan-awa, kini ang tulo nga mga pamaagi sa VPI, ngano nga magsamok?

Kini tanan sayop, siyempre. Ug kini nga mga tawo kanunay nga nasakitan sa kini nga klase sa code sa praktis, tungod kay ang mga butang naguba. Ang mga butang usahay mabungkag sa labing dili matag-an nga mga paagi. Usahay ang mga tawo moingon nga dili, kini dili mahitabo. Ug mahitabo gihapon. Kanunay mahitabo. Ug kana ang hinungdan ngano nga wala’y bisan kinsa nga naningkamot alang sa 100% nga pagkaanaa, tungod kay ang 100% nga pagkaanaa dili mahitabo. Kini ang naandan. Ug mao kana ang hinungdan nga kanunay kaming maghisgot bahin sa nines kung maghisgot kami bahin sa pagkaanaa sa serbisyo. 2 nines, 3 nines, 4 nines, 5 nines. Kung atong hubaron kini ngadto sa downtime nga panahon, nan, pananglitan, ang 5 nines mas gamay sa 5 minutos nga downtime kada tuig, ang 2 nines kay 3,5 ka adlaw nga downtime.

Apan klaro nga sa usa ka punto adunay pagkunhod sa POI ug pagbalik sa puhunan. Ang pag-adto gikan sa duha ka nuwebe ngadto sa tulo ka nuwebe nagpasabot sa pagkunhod sa downtime sa sobra sa 3 ka adlaw. Ang pag-adto gikan sa upat ka nuwebe ngadto sa lima makapakunhod sa downtime sa 47 minutos kada tuig. Ug kini nahimo nga dili kini kritikal alang sa negosyo. Ug sa kinatibuk-an, ang gikinahanglan nga kasaligan dili usa ka teknikal nga isyu, una sa tanan, kini usa ka isyu sa negosyo, kini usa ka isyu sa produkto. Unsa nga lebel sa downtime ang madawat alang sa mga tiggamit sa produkto, unsa ang ilang gipaabut, pila ang ilang gibayad, pananglitan, pila ang nawala nga salapi, pila ang nawala sa sistema.

Ang usa ka hinungdanon nga pangutana mao kung unsa ang kasaligan sa nahabilin nga mga sangkap. Tungod kay ang kalainan tali sa 4 ug 5 nines dili makita sa usa ka smartphone nga adunay 2 kasaligan nga siyam. Sa kasagaran nga pagsulti, kung adunay usa ka butang nga maguba sa usa ka smartphone sa imong serbisyo 10 ka beses sa usa ka tuig, lagmit 8 ka beses nga ang pagkaguba nahitabo sa OS nga bahin. Ang tiggamit naanad niini, ug dili magtagad niini usa ka dugang nga panahon sa usa ka tuig. Gikinahanglan nga itandi ang presyo sa pagdugang sa kasaligan ug pagdugang sa kita.
Diha ra sa libro sa SRE adunay maayong pananglitan sa pagsaka ngadto sa 4 nines gikan sa 3 nines. Kini nahimo nga ang pagtaas sa pagkaanaa gamay ra sa 0,1%. Ug kung ang kita sa serbisyo $1 milyon matag tuig, nan ang pagtaas sa kita $900. Kung ang pagdugang sa pagkaanaa sa siyam nagkantidad kanamo nga wala’y $900 matag tuig, ang pagtaas adunay kahulugan sa pinansyal. Kung nagkantidad kini labaw sa $ 900 sa usa ka tuig, dili na kini makatarunganon, tungod kay ang pag-uswag sa kita wala’y bayad sa mga gasto sa pagtrabaho ug gasto sa kapanguhaan. Ug ang 3 ka siyam igo na alang kanamo.

Kini siyempre usa ka gipasimple nga pananglitan diin ang tanan nga mga hangyo managsama. Ug gikan sa 3 nines ngadto sa 4 nines sayon ​​​​ra ang pag-adto, apan sa samang higayon, pananglitan, ang pag-adto gikan sa 2 nines ngadto sa 3 usa na ka savings nga 9 ka libo ka dolyares, kini makahimo sa pinansyal nga pagbati. Natural, sa tinuud, ang usa ka kapakyasan sa pagrehistro sa usa ka hangyo mas grabe kaysa usa ka kapakyasan sa pagpakita sa usa ka panid; ang mga hangyo adunay lainlaing mga gibug-aton. Mahimo nga sila adunay hingpit nga lainlain nga pamatasan gikan sa usa ka punto sa negosyo, apan sa gihapon, ingon nga usa ka lagda, kung wala kami maghisgot bahin sa bisan unsang piho nga mga serbisyo, kini usa ka kasaligan nga gibanabana.
Nakadawat kami usa ka pangutana kung ang SRE usa sa mga coordinator kung nagpili usa ka solusyon sa arkitektura alang sa serbisyo. Madawat kini sa termino sa paghiusa sa kasamtangan nga imprastraktura aron walay pagkawala sa kalig-on niini. Oo, ang mga SRE nag-impluwensya sa mga hangyo sa pagbitad, nag-commit, nagpagawas sa parehas nga paagi; kini nag-impluwensya sa arkitektura, ang pagpatuman sa mga bag-ong serbisyo, microservice, ug ang pagpatuman sa mga bag-ong solusyon. Nganong nakaingon ko kaniadto nga kinahanglan nimo ang kasinatian, kinahanglan nimo ang mga kwalipikasyon. Sa tinuud, ang SRE usa sa mga nag-ali nga mga tingog sa bisan unsang solusyon sa arkitektura ug software. Tungod niini, ang usa ka SRE isip usa ka inhenyero kinahanglan, una sa tanan, dili lamang makasabut, apan usab makasabut kung giunsa ang pipila ka mga piho nga desisyon makaapekto sa pagkakasaligan, kalig-on, ug pagsabut kung giunsa kini nga may kalabutan sa mga panginahanglanon sa negosyo, ug gikan sa unsa nga punto sa pagtan-aw kini mahimong tugutan, ug diin kini dili.

Busa, karon na ang panahon sa paghisgot mahitungod sa kasaligang criteria, nga sa SRE tradisyonal nga gihubit ingong SLA (Service Level Agreement). Lagmit usa ka pamilyar nga termino. SLI (Service Level Indicator). SLO (Service Level Objective). Ang Service Level Agreement tingali usa ka hinungdanon nga termino, labi na kung nagtrabaho ka sa mga network, provider, ug host. Kini usa ka kinatibuk-ang kasabutan nga naghubit sa pagbuhat sa imong tibuok nga serbisyo, mga silot, pipila ka mga silot alang sa mga kasaypanan, metrics, criteria. Ug ang SLI mao ang sukatan sa pagka-access mismo. Kana mao, kung unsa ang mahimo sa SLI: oras sa pagtubag gikan sa serbisyo, gidaghanon sa mga sayup ingon usa ka porsyento. Mahimo kini nga bandwidth kung naghisgot kami bahin sa usa ka matang sa pag-host sa file. Kung naghisgot kami bahin sa mga algorithm sa pag-ila, ang timailhan mahimo’g, pananglitan, ang katukma sa tubag. Ang SLO (Service Level Objective) mao, sa tinuud, usa ka kombinasyon sa SLI indicator, ang bili niini ug ang panahon.

Ingnon ta nga ang SLA mahimong ingon niini. Ang serbisyo anaa sa 99,95% sa panahon sa tibuok tuig. O 99 ka kritikal nga teknikal nga suporta nga mga tiket ang sirado sulod sa 3 ka oras kada quarter. O 85% sa mga pangutana matubag sulod sa 1,5 segundos matag bulan. Sa ato pa, anam-anam na naton nga masabtan nga ang mga sayup ug kapakyasan normal ra. Kini usa ka madawat nga kahimtang, kami nagplano alang niini, bisan pa kami nagsalig niini sa usa ka sukod. Kana mao, ang SRE nagtukod og mga sistema nga makahimo og mga kasaypanan, nga kinahanglan nga normal nga motubag sa mga kasaypanan, ug kana kinahanglan nga tagdon kini. Ug kung mahimo, kinahanglan nilang dumalahon ang mga sayup sa paagi nga ang tiggamit dili makamatikod niini, o makamatikod kanila, apan adunay usa ka matang sa workaround aron ang tanan dili hingpit nga mabungkag.

Pananglitan, kung mag-upload ka og video sa YouTube, ug dili dayon kini ma-convert sa YouTube, kung dako kaayo ang video, kung dili maayo ang format, natural nga dili mapakyas ang hangyo sa usa ka timeout, dili magpakita ang YouTube og 502 sayop, ang YouTube moingon: "Gibuhat namo ang tanan, ang imong video giproseso. Maandam na kini sa mga 10 minuto. ” Kini ang prinsipyo sa madanihon nga pagkadaot, nga pamilyar, pananglitan, gikan sa pag-uswag sa unahan kung nahimo nimo kini.

Ang sunod nga mga termino nga atong hisgutan, nga hinungdanon kaayo alang sa pagtrabaho uban ang kasaligan, nga adunay mga sayup, nga adunay mga gilauman, mao ang MTBF ug MTTR. Ang MTBF mao ang mean time tali sa mga kapakyasan. MTTR Mean Time To Recovery, kasagaran nga oras sa pagkaayo. Kana mao, pila ka oras ang milabay gikan sa higayon nga ang sayup nakit-an, gikan sa higayon nga ang sayup nagpakita hangtod sa higayon nga ang serbisyo gipahiuli sa hingpit nga normal nga operasyon. Ang MTBF kasagaran gitul-id pinaagi sa pagtrabaho sa kalidad sa code. Sa ato pa, ang kamatuoran nga ang mga SRE makaingon nga "dili". Ug ang tibuok team kinahanglan nga makasabut nga sa diha nga ang SRE moingon "dili," siya moingon niini dili tungod kay siya makadaot, dili tungod kay siya daotan, apan tungod kay kon dili ang tanan mag-antos.

Sa makausa pa, adunay daghang mga artikulo, daghang mga pamaagi, daghang mga paagi, bisan sa mismong libro nga kanunay nakong gipunting, kung giunsa pagsiguro nga ang ubang mga developer dili magsugod sa pagdumot sa SRE. Ang MTTR, sa laing bahin, mahitungod sa pagtrabaho sa imong SLO (Service Level Objective). Ug kini kasagaran automation. Tungod kay, pananglitan, ang among SLO usa ka uptime nga 4 nines matag quarter. Kini nagpasabot nga sa 3 ka bulan mahimo natong tugotan ang 13 ka minuto nga downtime. Ug kini nahimo nga ang among MTTR dili mahimo nga molapas sa 13 ka minuto. Kung mogahin kita og 13 ka minuto sa pag-react sa labing menos 1 nga downtime, nagpasabot kini nga nahurot na nato ang tibuok budget para sa quarter. Gilapas namo ang SLO. Ang 13 ka minuto aron matubag ug matul-id ang usa ka kapakyasan usa ka daghan alang sa usa ka makina, apan gamay ra alang sa usa ka tawo. Tungod kay sa panahon nga ang usa ka tawo makadawat og alerto, sa panahon nga siya mo-react, sa panahon nga iyang mahibal-an ang sayup, kini pipila na ka minuto. Hangtud nga masabtan sa usa ka tawo kung giunsa kini pag-ayo, kung unsa gyud ang ayohon, kung unsa ang buhaton, molungtad pa kini og pipila ka minuto. Ug sa tinuud, bisan kung kinahanglan nimo nga i-reboot ang server, ingon nga kini nahimo, o pagpataas sa usa ka bag-ong node, unya ang MTTR mano-mano nga molungtad mga 7-8 minuto. Kung nag-automate sa usa ka proseso, ang MTTR kanunay nga moabot sa usa ka segundo, usahay millisecond. Ang Google kasagarang naghisgot bahin sa mga millisecond, apan sa pagkatinuod, siyempre, ang mga butang dili kaayo maayo.

Sa tinuud, ang usa ka SRE kinahanglan nga hapit hingpit nga mag-automate sa iyang trabaho, tungod kay kini direkta nga makaapekto sa MTTR, mga sukatan niini, ang SLO sa tibuuk nga serbisyo, ug, sumala niana, ang kita sa negosyo. Kung nalapas na ang oras, pangutan-on kami kung ang basulon naa sa SRE. Maayo na lang, ang pagbasol wala ibutang sa bisan kinsa. Ug kini usa ka lahi nga kultura, nga gitawag nga balmeless postmortem, nga dili naton hisgutan karon, apan atong analisahon sa Slurm. Kini usa ka makapaikag kaayo nga hilisgutan nga mahimong hisgutan sa daghan. Sa laktod nga pagkasulti, kung malapas ang gitakda nga oras sa matag quarter, nan ang tanan adunay gamay nga pagbasol, nga nagpasabut nga ang pagbasol sa tanan dili produktibo, imbis, dili naton basulon ang bisan kinsa, apan tul-iron ang kahimtang ug pagtrabaho kung unsa ang naa kanato. Sa akong kasinatian, kini nga pamaagi usa ka gamay nga langyaw sa kadaghanan sa mga koponan, labi na sa Russia, apan kini makatarunganon ug maayo kaayo. Busa, sa katapusan ako magrekomendar sa mga artikulo ug literatura nga imong mabasa bahin niini nga hilisgutan. O adto sa Slurm SRE.

Pasabta ko. Kung nalapas ang oras sa SLO sa quarter, kung ang downtime dili 13 minuto, apan 15, kinsa ang mabasol niini? Siyempre, ang SRE mahimong adunay sayop tungod kay kini klaro nga naghimo sa pipila ka dili maayo nga pasalig o pag-deploy. Ang tagdumala sa data center mahimo nga mabasol niini, tungod kay mahimo nga iyang gihimo ang pipila nga wala ma-iskedyul nga pagmentinar. Kung ang tagdumala sa data center ang mabasol niini, ang tawo nga gikan sa Ops mao usab ang mabasol sa wala pagkwenta sa pagpadayon kung nag-uyon sa SLO. Kini ang sayup sa manedyer, teknikal nga direktor, o usa nga mipirma sa kontrata sa data center ug wala magtagad sa kamatuoran nga ang data center SLA wala gidisenyo alang sa gikinahanglan nga downtime. Subay niini, ang tanan gamay ra nga mabasol sa kini nga kahimtang. Ug kana nagpasabut nga wala’y hinungdan sa pagbutang sa pagbasol sa bisan kinsa labi na alang sa kini nga kahimtang. Apan siyempre kini kinahanglan nga matul-id. Mao nga adunay mga postmortem. Ug kung imong basahon, pananglitan, ang mga postmortem sa GitHub, ug kini kanunay nga usa ka makapaikag, gamay ug wala damha nga istorya sa matag piho nga kaso, mahimo nimong ilisan nga wala’y bisan kinsa nga nag-ingon nga kini nga partikular nga tawo ang mabasol. Ang pagbasol kanunay gibutang sa piho nga mga proseso nga kulang.

Mopadayon ta sa sunod nga pangutana. Automation. Kasagaran, kung maghisgot ako bahin sa automation sa ubang mga konteksto, kanunay nga nagtumong sa usa ka lamesa nga naghisgut kung unsa ka dugay nga mahimo nimo nga magtrabaho sa pag-automate sa usa ka buluhaton aron dili magdugay sa pag-automate niini kaysa sa kasagaran nimo nga pagtipig. Adunay usa ka kuha. Ang catch mao nga kung ang SREs mag-automate sa usa ka buluhaton, dili lamang sila makadaginot sa oras, makadaginot sila og kwarta tungod kay ang automation direktang makaapekto sa MTTR. Gitipigan nila, ingnon ta, ang moral sa mga empleyado ug mga developer, nga usa usab ka mahurot nga kapanguhaan. Gipamenos nila ang rutina. Ug kining tanan adunay positibo nga epekto sa trabaho ug, ingon usa ka sangputanan, sa negosyo, bisan kung ingon og ang automation dili makatarunganon sa mga termino sa gasto sa oras.

Sa tinuud, hapit kini kanunay, ug adunay gamay ra nga mga kaso diin dili kini takus sa pag-automate sa usa ka butang sa papel sa SRE. Sunod atong hisgutan ang gitawag nga error budget, budget for errors. Sa tinuud, nahibal-an nga kung nakahimo ka labi ka labi ka maayo kaysa sa SLO nga imong gitakda alang sa imong kaugalingon, dili usab kini maayo. Kini labi ka daotan, tungod kay ang SLO nagtrabaho dili lamang ingon usa ka ubos nga utlanan, apan ingon usab usa ka gibanabana nga taas nga utlanan. Kung gibutang nimo ang imong kaugalingon nga usa ka SLO nga 99% nga magamit, ug sa tinuud adunay ka 99,99%, nahimo nga adunay ka gamay nga lugar alang sa pag-eksperimento, nga dili makadaot sa negosyo, tungod kay ikaw mismo ang nagtino niini nga tanan, ug ikaw adunay kini nga luna ayaw kini gamita. Adunay ka usa ka badyet alang sa mga sayup, nga sa imong kaso wala gigasto.

Unsa ang atong gibuhat niini? Gigamit namo kini sa literal nga tanan. Para sa pagsulay sa mga kondisyon sa produksiyon, para sa pagpalupad sa mga bag-ong feature nga mahimong makaapekto sa performance, para sa pagpagawas, para sa pagmentinar, para sa giplano nga mga downtime. Ang kaatbang nga lagda magamit usab: kung ang badyet nahurot, dili kami makapagawas bisan unsang bag-o, tungod kay kung dili, molapas kami sa SLO. Nahurot na ang badyet, nagpagawas kami usa ka butang, kung kini negatibo nga nakaapekto sa pasundayag, kana, kung dili kini usa ka matang sa pag-ayo nga sa kaugalingon direkta nga nagdugang sa SLO, nan naglapas kami sa badyet, ug kini usa ka dili maayo nga kahimtang. , nagkinahanglan kini og pagtuki, postmortem, ug posibleng pipila ka pagtul-id sa proseso.

Kana mao, kini nahimo nga kung ang serbisyo mismo dili molihok nga maayo, ug ang SLO gigasto ug ang badyet gigasto dili sa mga eksperimento, dili sa bisan unsang pagpagawas, apan sa iyang kaugalingon, unya imbis sa pipila nga makapaikag nga pag-ayo, imbis nga makapaikag. mga bahin, imbes nga makapaikag nga pagpagawas. Imbes nga magbuhat ug bisan unsang mamugnaong buhat, kinahanglan nimong buhaton ang mga amang nga pag-ayo aron mabalik ang badyet, o i-edit ang SLO, ug kini usa usab ka proseso nga dili kinahanglan nga mahitabo kanunay.

Busa, kini nahimo nga sa usa ka sitwasyon diin kita adunay dugang nga badyet alang sa mga kasaypanan, ang tanan interesado: ang SRE ug ang mga developers. Alang sa mga developer, ang usa ka dako nga badyet alang sa mga sayup nagpasabut nga mahimo nila nga atubangon ang mga pagpagawas, pagsulay, ug mga eksperimento. Alang sa mga SRE, ang usa ka badyet alang sa mga kasaypanan ug ang pagsulod niini nga badyet nagpasabut nga sila sa tinuud nagbuhat usa ka maayo nga trabaho. Ug kini makaapekto sa kadasig sa usa ka matang sa hiniusang trabaho. Kung maminaw ka sa imong mga SRE isip mga developer, mas dako ang imong mahimo sa pagbuhat og maayo ug mas gamay nga buluhaton.

Kini nahimo nga ang mga eksperimento sa produksiyon usa ka hinungdanon ug hapit hinungdanon nga bahin sa SRE sa dagkong mga koponan. Ug kini kasagaran nga gitawag nga chaos engineering, nga gikan sa team sa Netflix nga nagpagawas sa usa ka utility nga gitawag Chaos Monkey.
Ang Chaos Monkey nagkonektar sa CI/CD pipeline ug random nga nag-crash sa server sa produksiyon. Pag-usab, sa istruktura sa SRE giingon namon nga ang usa ka nahagsa nga server dili daotan sa iyang kaugalingon, gilauman. Ug kung maapil sa budget, madawat ug dili makadaot sa negosyo. Siyempre, ang Netflix adunay igo nga sobra nga mga server, igo nga pagkopya, nga kining tanan mahimong ayohon nga wala ang tiggamit sa kinatibuk-an bisan makamatikod, ug siguradong walay usa nga mobiya sa usa ka server alang sa bisan unsang badyet.

Ang Netflix sa usa ka higayon adunay usa ka bug-os nga hugpong sa ingon nga mga utilities, usa niini, ang Chaos Gorilla, hingpit nga nagpugong sa usa sa mga availability zone sa Amazon. Ug ang ingon nga mga butang makatabang pag-ayo sa pag-ila, una, ang mga tinago nga mga pagsalig, kung dili kini hingpit nga klaro kung unsa ang nag-impluwensya kung unsa, kung unsa ang nagdepende kung unsa. Ug kini, kung nagtrabaho ka sa usa ka microservice ug ang dokumentasyon dili hingpit nga perpekto, mahimo kini pamilyar kanimo. Ug usab, kini makatabang sa pagdakop sa mga kasaypanan sa code nga dili nimo madakpan sa panahon sa dula, tungod kay ang bisan unsa nga dula dili tukma nga simulation, tungod sa kamatuoran nga ang load scale lahi, ang load pattern lahi, ang mga ekipo usab, kadaghanan lagmit, uban pa. Ang peak load mahimo usab nga wala damha ug dili matag-an. Ug ang ingon nga pagsulay, nga dili usab molapas sa badyet, makatabang kaayo sa pagdakop sa mga sayup sa imprastraktura nga dili gyud madakpan sa staging, autotest, ug mga pipeline sa CI / CD. Ug basta kining tanan naapil sa imong badyet, dili igsapayan nga ang imong serbisyo nahulog didto, bisan kini daw makahahadlok kaayo, ang server nahagsa, unsa ang usa ka nightmare. Dili, normal kana, maayo kana, makatabang kini sa pagdakop sa mga sayup. Kung naa kay budget, pwede nimo kini gastohon.

Pangutana: unsa nga literatura ang akong irekomendar? Ang listahan anaa sa katapusan. Adunay daghang mga literatura, akong irekomendar ang daghang mga taho. Giunsa kini pagtrabaho ug kung ang SRE nagtrabaho sa mga kompanya nga wala’y kaugalingon nga produkto sa software o adunay gamay nga pag-uswag. Pananglitan, sa usa ka negosyo, diin ang panguna nga kalihokan dili software. Sa usa ka negosyo, diin ang panguna nga kalihokan dili software, ang SRE nagtrabaho nga parehas sa bisan diin, tungod kay sa usa ka negosyo kinahanglan nimo usab nga gamiton, bisan kung wala ka mag-develop, mga produkto sa software, kinahanglan nimo nga i-roll out ang mga update, kinahanglan nga usbon ang imprastraktura, kinahanglan nimo nga motubo, kinahanglan nimo nga sukdon. Ug ang mga SRE makatabang sa pag-ila ug pagtagna sa posibleng mga problema niini nga mga proseso ug pagkontrolar niini human magsugod ang pipila ka pagtubo ug mausab ang panginahanglan sa negosyo. Tungod kay dili gyud kinahanglan nga moapil sa pag-uswag sa software aron adunay SRE, kung adunay ka labing menos daghang mga server ug gipaabut nimo ang labing gamay nga pagtubo.

Ingon usab ang mga gagmay nga proyekto, gagmay nga mga organisasyon, tungod kay ang mga dagkong kompanya adunay badyet ug lugar alang sa pag-eksperimento. Apan sa samang higayon, kining tanan nga mga bunga sa mga eksperimento mahimong magamit bisan asa, nga mao, ang mga SRE, siyempre, nagpakita sa Google, Netflix, ug Dropbox. Apan sa samang higayon, ang gagmay nga mga kompanya ug mga startup makabasa na sa gipamub-an nga materyal, makabasa sa mga libro, ug makatan-aw sa mga taho. Nagsugod sila sa pagkadungog bahin niini nga mas kanunay, tan-awa ang mga piho nga mga pananglitan, sa akong hunahuna, okay, kini mahimo’g mapuslanon, kinahanglan usab naton kini, cool.

Kana mao, ang tanan nga nag-unang buluhaton sa pag-standardize niini nga mga proseso nahimo na alang kanimo. Ang kinahanglan nimong buhaton mao ang paghubit sa papel sa SRE nga espesipiko sa imong kompanya ug magsugod sa aktuwal nga pagpatuman sa tanan niini nga mga gawi, nga, usab, gihulagway na. Kana mao, gikan sa mapuslanon nga mga prinsipyo alang sa gagmay nga mga kompanya, kini kanunay ang kahulugan sa SLA, SLI, SLO. Kung wala ka nalambigit sa software, nan kini ang mga internal nga SLA ug internal nga mga SLO, internal nga badyet alang sa mga sayup. Kini hapit kanunay nga modala sa pipila nga makapaikag nga mga diskusyon sa sulod sa team ug sa sulod sa negosyo, tungod kay mahimo’g mogawas nga naggasto ka labi pa sa kinahanglan sa imprastraktura, sa usa ka matang sa organisasyon sa mga sulundon nga proseso, usa ka sulundon nga pipeline. Ug kining 4 nines nga naa nimo sa departamento sa IT, dili na nimo kinahanglan sila karon. Apan sa samang higayon, posible nga mogahin og panahon, mogasto sa badyet alang sa mga sayup sa laing butang.

Tungod niini, ang pagmonitor ug pag-organisa sa pagmonitor mapuslanon alang sa usa ka kompanya sa bisan unsang gidak-on. Ug sa kinatibuk-an, kini nga paagi sa paghunahuna, diin ang mga sayup usa ka butang nga madawat, diin adunay usa ka badyet, diin ang mga Tumong anaa, mapuslanon usab alang sa usa ka kompanya sa bisan unsang gidak-on, sugod sa usa ka 3-tawo nga pagsugod.

Ang katapusan sa mga teknikal nga nuances nga mahimo natong hisgutan mao ang pag-monitor. Tungod kay kung maghisgot kita bahin sa SLA, SLI, SLO, dili naton masabtan kung wala’y pagmonitor kung nahiangay ba kita sa badyet, kung gisunod ba naton ang atong mga Tumong, ug kung giunsa naton naimpluwensyahan ang katapusang SLA. Nakita nako sa daghang mga higayon nga ang pag-monitor mahitabo sama niini: adunay pipila nga kantidad, sama sa oras sa paghangyo sa server, kasagaran nga oras o gidaghanon sa mga hangyo sa database. Siya adunay usa ka sumbanan nga gitino sa engineer. Kung ang sukatan motipas gikan sa naandan, ipadala ang usa ka email. Kining tanan hingpit nga walay kapuslanan, ingon nga usa ka lagda, tungod kay kini modala ngadto sa ingon nga usa ka oversaturation sa mga alerto, usa ka oversaturation sa monitoring nga mga mensahe, sa diha nga ang usa ka tawo, una, kinahanglan nga maghubad kanila sa matag higayon, nga mao, sa pagtino kon ang metric nga bili nagpasabot sa panginahanglan alang sa. usa ka matang sa aksyon. Ug ikaduha, mohunong na lang siya sa pagmatikod niining tanan nga mga alerto, kung wala’y aksyon nga gikinahanglan gikan kaniya. Sa ato pa, usa ka maayo nga lagda sa pagmonitor ug ang labing una nga lagda kung ipatuman ang SRE mao nga ang usa ka pahibalo moabut lamang kung gikinahanglan ang aksyon.

Sa standard nga kaso adunay 3 nga lebel sa mga panghitabo. Adunay mga alerto, adunay mga tiket, adunay mga troso. Ang mga alert mao ang bisan unsang butang nga nanginahanglan ug hinanaling aksyon gikan kanimo. Sa ato pa, naguba na ang tanan, kinahanglang ayohon na dayon. Ang mga tiket usa ka butang nga nanginahanglan pending nga aksyon. Oo, kinahanglan nimong buhaton ang usa ka butang, kinahanglan nimo nga buhaton ang usa ka butang nga mano-mano, napakyas ang automation, apan dili nimo kinahanglan buhaton kini sa sunod nga mga minuto. Ang mga troso mao ang tanan nga wala magkinahanglan og aksyon, ug sa kinatibuk-an, kung maayo ang mga butang, wala’y bisan kinsa nga makabasa niini. Kinahanglan nga basahon lamang ang mga troso kung, sa paghinumdom, kini nahimo nga adunay usa ka butang nga nabuak sa dugay nga panahon, wala kami nahibal-an bahin niini. O usa ka matang sa imbestigasyon ang kinahanglan buhaton. Apan sa kinatibuk-an, ang tanan nga wala magkinahanglan bisan unsang aksyon moadto sa mga troso.

Isip usa ka side effect niining tanan, kung nahibal-an namon kung unsang mga panghitabo ang nanginahanglan mga aksyon ug maayo nga gihulagway kung unsa ang kinahanglan nga mga aksyon, kini nagpasabut nga ang aksyon mahimong awtomatiko. Sa ato pa, unsay mahitabo. Gikan kami sa usa ka alerto. Aksiyon na ta. Adto ta sa paghulagway niini nga aksyon. Ug dayon mibalhin kami padulong sa automation. Sa ato pa, ang bisan unsang automation nagsugod sa usa ka reaksyon sa usa ka panghitabo.

Gikan sa pagmonitor kita mopadayon sa usa ka termino nga gitawag Observability. Adunay usab gamay nga hype sa palibot niini nga pulong sa miaging pipila ka tuig. Ug pipila ka mga tawo ang nakasabut kung unsa ang gipasabut niini nga wala sa konteksto. Apan ang panguna nga punto mao nga ang Observability usa ka sukatan sa transparency sa sistema. Kung adunay nahitabo nga sayup, unsa kadali nimo mahibal-an kung unsa gyud ang sayup ug kung unsa ang kahimtang sa sistema nianang higayuna. Gikan sa punto sa panglantaw sa code: unsa nga function ang napakyas, unsang serbisyo ang napakyas. Unsa ang kahimtang sa, pananglitan, internal variables, configuration. Gikan sa panan-aw sa imprastraktura, kini mao ang kung diin ang availability zone nahitabo ang kapakyasan, ug kung ikaw adunay usa ka matang sa Kubernetes, unya diin pod nahitabo ang kapakyasan, unsa ang kahimtang sa pod. Ug sumala niana, ang Observability adunay direktang relasyon sa MTTR. Kung mas taas ang Observability sa serbisyo, mas sayon ​​​​ang pag-ila sa sayup, mas sayon ​​​​ang pag-ayo sa sayup, mas sayon ​​​​ang pag-automate sa sayup, mas ubos ang MTTR.

Kung magpadayon kita pag-usab sa gagmay nga mga kompanya, kanunay sila mangutana, bisan karon, kung unsa ang buhaton sa gidak-on sa team, ug kung kinahanglan ba nga mag-hire ug lahi nga SRE sa usa ka gamay nga team. Gihisgotan ko na kini sa sayo pa. Sa una nga mga yugto sa pag-uswag sa usa ka pagsugod o, pananglitan, usa ka team, dili kini kinahanglan, tungod kay ang SRE mahimo nga usa ka transisyonal nga papel. Ug kini makapabuhi sa team sa usa ka gamay, tungod kay adunay labing menos pipila ka diversity. Ug dugang pa nga kini mag-andam sa mga tawo alang sa kamatuoran nga samtang sila motubo, sa kinatibuk-an, ang mga responsibilidad sa SRE mausab kaayo. Kung nag-hire ka og usa ka tawo, nan, siyempre, siya adunay pipila ka mga gilauman. Ug kini nga mga gilauman dili mausab sa paglabay sa panahon, apan ang mga kinahanglanon mausab kaayo. Busa, ang pag-hire og SRE lisud kaayo sa unang mga hugna. Mas sayon ​​​​ang pagpadako sa imong kaugalingon. Apan kini angay nga hunahunaon.

Ang bugtong eksepsiyon, tingali, mao ang kung adunay estrikto kaayo ug maayo nga gipasabut nga mga kinahanglanon sa gitas-on. Kana mao, sa kaso sa usa ka pagsugod, kini mahimong usa ka matang sa presyur gikan sa mga tigpamuhunan, usa ka matang sa forecast alang sa pagtubo sa makadaghang higayon sa usa ka higayon. Unya ang pag-hire sa usa ka SRE sa kasagaran makatarunganon tungod kay kini mahimong makatarunganon. Kami adunay mga kinahanglanon sa pagtubo, kinahanglan namon ang usa ka tawo nga responsable sa pagsiguro nga wala’y makaguba sa ingon nga pagtubo.

Usa pa ka pangutana. Unsa ang buhaton kung daghang beses nga giputol sa mga developer ang usa ka bahin nga gipasa sa mga pagsulay, apan gibuak ang produkto, gikarga ang database, giguba ang ubang mga bahin, kung unsang proseso ang ipatuman. Tungod niini, sa kini nga kaso, usa ka badyet alang sa mga sayup ang gipaila. Ug ang pipila nga mga serbisyo, ang pipila nga mga bahin gisulayan dayon sa paghimo. Mahimo kini nga usa ka kanaryo, kung gamay ra nga gidaghanon sa mga tiggamit, apan anaa na sa produksiyon, ang nag-deploy sa usa ka bahin, apan uban ang pagdahum nga kung adunay usa ka butang nga maguba, pananglitan, sa tunga sa porsyento sa tanan nga mga tiggamit, kini mohaum gihapon sa sulod sa badyet alang sa mga sayop. Tungod niini, oo, adunay usa ka sayup, alang sa pipila nga mga tiggamit ang tanan maguba, apan giingon na namon nga kini normal.

Adunay pangutana bahin sa mga gamit sa SRE. Sa ato pa, aduna bay piho nga butang nga gamiton sa mga SRE nga dili mahimo sa uban? Sa tinuud, adunay pipila nga labi ka espesyal nga mga utilities, adunay pipila nga software nga, pananglitan, nag-simulate sa mga karga o nagsulay sa canary A/B. Apan sa panguna, ang tool sa SRE mao ang gigamit na sa imong mga developer. Tungod kay ang SRE direktang nakig-uban sa development team. Ug kung adunay ka lainlain nga mga himan, mogawas nga nagkinahanglag oras aron ma-synchronize. Ilabi na kung ang mga SRE nagtrabaho sa dagkong mga grupo, sa mga dagkong kompanya diin adunay daghang mga koponan, ang standardisasyon sa tibuuk nga kompanya makatabang kaayo dinhi, tungod kay kung ang 50 nga mga koponan mogamit sa 50 nga lainlaing mga gamit, kini nagpasabut nga ang SRE kinahanglan mahibal-an silang tanan. Ug siyempre dili kini mahitabo. Ug ang kalidad sa trabaho, ang kalidad sa pagkontrol sa labing menos pipila sa mga team mokunhod pag-ayo.

Ang among webinar anam-anam nga matapos. Nakasulti ko nimo sa pipila ka sukaranang mga butang. Siyempre, walay bisan unsa mahitungod sa SRE nga masulti ug masabtan sa usa ka oras. Apan nanghinaut ko nga nakab-ot nako kini nga paagi sa panghunahuna, ang panguna nga hinungdanon nga mga punto. Ug unya, kung interesado ka, mahimo nimong masusi ang hilisgutan, magtuon sa imong kaugalingon, ug tan-awa kung giunsa kini gipatuman sa ubang mga tawo, sa ubang mga kompanya. Ug sumala niana, sa sayong bahin sa Pebrero, adto kanamo sa Slurm SRE.

Ang Slurm SRE usa ka tulo ka adlaw nga intensive nga kurso nga maglangkob sa gibana-bana nga akong gihisgutan karon, apan sa labi ka labi ka lawom, sa tinuud nga mga kaso, nga adunay praktis, ang tibuuk nga intensive gitumong sa praktikal nga trabaho. Ang mga tawo bahinon sa mga grupo. Kamong tanan magtrabaho sa tinuod nga mga kaso. Tungod niini, aduna kami mga instruktor gikan sa Booking.com Ivan Kruglov ug Ben Tyler. Kami adunay usa ka talagsaon nga Evgeniy Varabbas gikan sa Google, gikan sa San Francisco. Ug may isulti usab ako kanimo. Busa siguroha ang pagbisita kanamo.
Busa, usa ka lista sa mga pakisayran. Adunay mga link sa SRE. Ang una sa mao ra nga libro, o sa 2 ka libro bahin sa SRE, nga gisulat sa Google. Usa pa gamay nga artikulo sa SLA, SLI, SLO, diin ang mga termino ug ang ilang aplikasyon gipatin-aw sa mas gamay nga detalye. Ang sunod nga 3 mao ang mga taho sa SRE sa lainlaing mga kompanya. Una- Mga yawe sa SRE, kini usa ka keynote gikan sa Ben Trainer gikan sa Google. Ikaduha - SRE sa Dropbox. Ang ikatulo mao na usab ang mahitungod sa SRE sa Google. Ikaupat nga taho gikan sa SRE sa Netflix, nga adunay 5 lang ka importanteng empleyado sa SRE sa 190 ka nasod. Makapainteres kaayo nga tan-awon kining tanan, tungod kay sama nga ang DevOps nagpasabut nga lahi kaayo nga mga butang sa lainlaing mga kompanya ug bisan sa lainlaing mga koponan, ang SRE adunay lainlaing mga responsibilidad, bisan sa mga kompanya nga parehas ang gidak-on.

2 pa nga mga link sa mga prinsipyo sa chaos engineering: (1), (2). Ug sa katapusan adunay 3 nga mga lista gikan sa serye sa Awesome Lists bahin sa chaos engineering, mahitungod sa KAWALA ug mahitungod sa SRE toolkit. Ang lista sa SRE hilabihan ka dako, dili nimo kinahanglan nga moagi sa tanan, adunay mga 200 ka artikulo. Girekomendar nako pag-ayo ang mga artikulo bahin sa pagplano sa kapasidad ug walay sala nga postmortem.

Makapaikag nga artikulo: SRE isip usa ka pagpili sa kinabuhi

Salamat sa pagpamati kanako niining panahona. Hinaot nga duna kay nakat-onan. Nanghinaut ko nga aduna ka'y ​​igong mga materyales aron makakat-on pa. Ug magkita ta unya. Sana sa February.
Ang webinar gi-host ni Eduard Medvedev.

PS: sa mga ganahan mubasa, nihatag ug list of references si Eduard. Kadtong gusto nga masabtan kini sa praktis giabiabi sa Slurme SRE.

Source: www.habr.com

Idugang sa usa ka comment