Slurm SRE. Ամբողջական փորձ Booking.com-ի և Google.com-ի փորձագետների հետ

Մեր թիմը սիրում է փորձեր: Յուրաքանչյուր Slurm-ը նախորդների ստատիկ կրկնությունը չէ, այլ փորձի արտացոլում և լավից դեպի լավը անցում: Բայց հետ Slurm SRE մենք որոշեցինք կիրառել բոլորովին նոր ձևաչափ՝ մասնակիցներին հնարավորինս մոտ պայմաններ տալ «պայքարելու»:

Եթե ​​հակիրճ ուրվագծենք, թե ինչ ենք արել ինտենսիվ դասընթացի ընթացքում.
մենք ուսումնասիրում ենք»։ SRE-ն ընդամենը տեսության մեջ քիչ արժեք ունի՝ միայն պրակտիկա, իրական լուծումներ, իրական խնդիրներ:

Մասնակիցները բաժանվեցին թիմերի, որպեսզի եռանդուն մրցակցային ոգին թույլ չտա որևէ մեկին քնել կամ «Angry Birds» գործարկել iPhone-ով, Դմիտրի Անատոլևիչի օրինակով:

Խնդիրները, անսարքությունները, սխալները և առաջադրանքները մասնակիցներին տրամադրվել են չորս մենթորների կողմից: Իվան Կրուգլով, Booking.com-ի գլխավոր ծրագրավորող (Նիդեռլանդներ): Բեն Թայլեր, Booking.com-ի գլխավոր ծրագրավորող (ԱՄՆ): Էդուարդ Մեդվեդև, «Tungsten Labs»-ի CTO (Գերմանիա): Եվգենի Վարավվա, Google-ի գլխավոր ծրագրավորող (Սան Ֆրանցիսկո):

Ընդ որում, մասնակիցները բաժանվում են թիմերի և մրցում միմյանց հետ։ Հետաքրքի՞ր է:

Slurm SRE. Ամբողջական փորձ Booking.com-ի և Google.com-ի փորձագետների հետ
Իվանը, Բենը, Էդուարդը և Եվգենին մրցույթի մեկնարկից առաջ նայում են խեղճ Slurm SRE մասնակիցներին բարի լենինյան աչքով:

Այսպիսով, առաջադրանքը.

Մենք մերն ենք, նոր աշխարհ ենք կառուցելու...

Կինոյի տոմսերի ագրեգատոր կայք կա։ Միջադեպերը հորինվում են մենթորների կողմից՝ նախապես մշակված սցենարով (չնայած ոչ ոք չի բացառում առանձնապես բարդ և նենգ իմպրովիզացիան), կայքի աշխատանքը նկարագրվում է տարբեր չափորոշիչներով։ Խնդիրները կարող են շատ տարբեր լինել. Moulin Rouge թատրոնի տոմսերը չեն բեռնվում տվյալների բազայում. Ֆիլմերի և ներկայացումների պաստառները բեռնվում են տվյալների բազայում ավելի քան 10 վայրկյանում. առանձին ֆիլմի նկարագրությունը սառչում է. Պատվերների 0,1%-ն արդեն վերապահված է; Ժամանակ առ ժամանակ վճարումների մշակման համակարգը խափանում է մեկ-երկու րոպեով: Եվ շատ, շատ, շատ տհաճ բաներ, որոնք կարող են պատահել Slurm SRE-ի մասնակցին իր իրական աշխատանքում:

Slurm SRE. Ամբողջական փորձ Booking.com-ի և Google.com-ի փորձագետների հետ
Մենք պատրաստ ենք կարգավորել ամեն ինչ... և բոլորին:

Մեր բազմաչարչար կայքը բաղկացած է մի քանի միկրոծառայություններից: Նրա խնդիրն է համախմբել բոլոր կինոթատրոնների շոուների, գների և մատչելի նստատեղերի մասին տվյալները, այն ցուցադրում է ֆիլմերի հայտարարությունները, թույլ է տալիս ընտրել կինոթատրոն, շոու, դահլիճ և վայր, ամրագրել և վճարել տոմսերի համար: Ընդհանրապես այն ամենը, ինչի մասին հեռուստադիտողը կարող է միայն երազել։ Բայց օգտատերը չի էլ կասկածում, թե ներսում ինչ տիտանական պայքար է ընթանում կայքի կայունության և հասանելիության համար։

Ինտենսիվ կայքի համար մենք ստեղծեցինք SLO, SLI, SLA ցուցիչներ, մշակեցինք ճարտարապետություն և ենթակառուցվածք, տեղակայեցինք կայքը, ստեղծեցինք մոնիտորինգ և ահազանգ: Եվ մենք հեռանում ենք:

SLO, SLI, SLA

SLI - ծառայության մակարդակի ցուցանիշներ: SLO-ները սպասարկման մակարդակի նպատակներ են: SLA - սպասարկման մակարդակի պայմանագրեր:

SLA-ը ITIL մեթոդաբանության տերմին է, որը նշանակում է ծառայության հաճախորդի և դրա մատակարարի միջև պաշտոնական համաձայնագիր, որը պարունակում է ծառայության նկարագրությունը, կողմերի իրավունքներն ու պարտականությունները և, ամենակարևորը, որակի համաձայնեցված մակարդակը այս ծառայության մատուցման համար: սպասարկում.

SLO-ն սպասարկման մակարդակի նպատակ է՝ թիրախային արժեք կամ արժեքների միջակայք ծառայության մակարդակի համար, որը չափվում է SLI-ով: SLO-ի նորմալ արժեքն է «SLI ≤ Target» կամ «Lower Limit ≤ SLI ≤ Upper Limit»:

SLI-ն ծառայությունների մակարդակի ցուցիչ է՝ մատուցվող ծառայությունների մակարդակի մեկ ասպեկտի մանրակրկիտ սահմանված քանակական չափում: Ծառայությունների մեծ մասի համար հիմնական SLI-ը համարվում է հարցումների հետաձգում. որքան ժամանակ է պահանջվում հարցումին պատասխանը վերադարձնելու համար: Այլ ընդհանուր SLI-ները ներառում են սխալի մակարդակը, որը հաճախ արտահայտվում է որպես ստացված բոլոր հարցումների մասնաբաժին, և համակարգի թողունակությունը, որը սովորաբար չափվում է հարցումներով մեկ վայրկյանում:

Առաջին հերթին ինքնաթիռները կջարդենք, հետո աղջիկներին, հետո աղջիկներին...

Ներքին և արտաքին գործոնները սկսեցին «փչացնել» SLO-ն առաջին իսկ րոպեներից։ Ամեն ինչ ընկավ ադմինիստրատորների գլխին՝ մշակողների սխալներ, ենթակառուցվածքի խափանումներ, այցելուների հոսք և DDoS հարձակումներ: Ամեն ինչ, ինչը վատացնում է SLO-ն:

Slurm SRE. Ամբողջական փորձ Booking.com-ի և Google.com-ի փորձագետների հետ
«- Հարգելի մասնակիցներ, ես շտապում եմ ձեզ հաճոյանալ, առաջին բանը, որ ձախողում եք, ամեն ինչն է»:

Ճանապարհին բանախոսները քննարկեցին կայունությունը, սխալների բյուջեն, թեստավորման պրակտիկան, ընդհատումների կառավարումը և գործառնական ծանրաբեռնվածությունը:

Մենք ոչ ատաղձագործ ենք, ոչ ատաղձագործ...

Այնուհետև մասնակիցները սկսեցին շտկել իրերը. գլխավորը հասկանալն է, թե ինչից պետք է առաջինը բռնել:

Slurm SRE. Ամբողջական փորձ Booking.com-ի և Google.com-ի փորձագետների հետ
«- Տեր, ես երբեք չեմ տեսել, որ այն կոտրվի այսպես, այս տեսքով և նման դիրքով»:

Այսպիսով, դժբախտ պատահար է տեղի ունեցել. Վճարումների մշակման ծառայությունն անջատված է: Ինչպե՞ս վարվել ֆունկցիոնալությունը հնարավորինս սեղմ ժամկետում վերականգնելու համար:

Slurm SRE. Ամբողջական փորձ Booking.com-ի և Google.com-ի փորձագետների հետ
Մասնագետները, սիրալիր նայելով մասնակիցներին, հերթական հնարք են պատրաստում.

Յուրաքանչյուր թիմ կազմակերպում է խմբի աշխատանքը վթարը վերացնելու համար. ներգրավում է գործընկերներին, տեղեկացնում շահագրգիռ կողմերին (շահագրգիռ կողմերին): Միաժամանակ սահմանվում են առաջնահերթություններ. Այս կերպ մասնակիցները մարզվել են չափազանց սահմանափակ ժամանակային պայմաններում ճնշման տակ աշխատելու համար:

Slurm SRE. Ամբողջական փորձ Booking.com-ի և Google.com-ի փորձագետների հետ
«Ի՞նչ սարսափ է դուրս եկել»:

Արտաշնչիր... և ավարտիր վարժությունը

Բանախոսների հետ միասին, յուրաքանչյուր խնդրի լուծումից և կայքը ժամանակավորապես կայունացնելուց հետո, թիմն ուսումնասիրեց միջադեպերը SRE-ի տեսանկյունից: Մենք մանրամասն վերլուծել ենք խնդիրները՝ առաջացման պատճառները, վերացման առաջընթացը։ Դրանից հետո, թե՛ թիմ առ թիմ, թե՛ հավաքականորեն, մենք որոշումներ կայացրինք հետագա կանխարգելման վերաբերյալ՝ ինչպես բարելավել մոնիտորինգը, ինչպես խելամտորեն փոխել ճարտարապետությունը, ինչպես հարմարեցնել մոտեցումը զարգացման և շահագործմանը, ինչպես շտկել կանոնակարգերը: Բանախոսները ցուցադրեցին դիահերձման պրակտիկան։

Slurm SRE. Ամբողջական փորձ Booking.com-ի և Google.com-ի փորձագետների հետ
«Ուրիշ ո՞վ է տանջանք ուզում։ - Ես!

Թիմերի հաջողությունները խստորեն և հստակ գրանցվեցին էլեկտրոնային ցուցատախտակի վրա։

Slurm SRE. Ամբողջական փորձ Booking.com-ի և Google.com-ի փորձագետների հետ

Առաջին տեղերի համար՝ բոնուս շահագրգիռ կողմերից:

Slurm SRE. Ամբողջական փորձ Booking.com-ի և Google.com-ի փորձագետների հետ

Source: www.habr.com

Добавить комментарий