Slurm SRE. ניסוי שלם עם מומחים מ-Booking.com ו-Google.com

הצוות שלנו אוהב ניסויים. כל Slurm הוא לא חזרה סטטית על הקודמים, אלא השתקפות על החוויה ומעבר מטוב לטוב יותר. אבל עם Slurm SRE החלטנו ליישם פורמט חדש לחלוטין - לתת למשתתפים תנאים קרובים ככל האפשר ל"קרב".

אם נתאר בקצרה מה עשינו במהלך הקורס האינטנסיבי: "אנחנו בונים, אנחנו שוברים, אנחנו מתקנים,
אנחנו לומדים." SRE שווה מעט בתיאוריה בלבד - רק תרגול, פתרונות אמיתיים, בעיות אמיתיות.

המשתתפים חולקו לקבוצות כדי להבטיח שרוח התחרות תשמור על כולם ערים או שלא ישחקו באנגרי בירדס. iPhone בעקבות הדוגמה של דמיטרי אנטוליביץ'.

בעיות, תקלות, באגים ומשימות סופקו למשתתפים על ידי ארבעה מנטורים. איבן קרוגלוב, מפתח ראשי ב-Booking.com (הולנד). בן טיילר, מפתח ראשי ב-Booking.com (ארה"ב). אדוארד מדבדב, CTO במעבדות טונגסטן (גרמניה). Evgeniy Varavva, מפתח כללי בגוגל (סן פרנסיסקו).

יתרה מכך, המשתתפים מחולקים לצוותים ומתחרים זה בזה. מעניין?

Slurm SRE. ניסוי שלם עם מומחים מ-Booking.com ו-Google.com
איבן, בן, אדוארד ויבגני מסתכלים על משתתפי Slurm SRE המסכנים בפזילה לניניסטית חביבה לפני תחילת התחרות.

אז המשימה:

אנחנו שלנו, נבנה עולם חדש...

יש אתר אגרגטור של כרטיסי קולנוע. תקריות מומצאות על ידי מנטורים בתרחיש שעובד מראש (למרות שאף אחד לא מוציא מכלל אימפרוביזציה מתוחכמת וערמומית במיוחד), ביצועי האתר מתוארים על ידי מדדים שונים. הבעיות יכולות להיות שונות מאוד: כרטיסים לתיאטרון מולן רוז' אינם נטענים במסד הנתונים; פוסטרים של סרטים והופעות נטענים למאגר תוך יותר מ-10 שניות; התיאור של סרט בודד קופא; 0,1% מההזמנות כבר שמורות; מדי פעם מערכת עיבוד התשלומים קורסת לדקה או שתיים. ועוד הרבה הרבה דברים לא נעימים שיכולים לקרות למשתתף Slurm SRE בעבודה האמיתית שלו.

Slurm SRE. ניסוי שלם עם מומחים מ-Booking.com ו-Google.com
אנחנו מוכנים לטפל בכל דבר...וכולם.

אתר הסבל שלנו מורכב ממספר שירותי מיקרו. המשימה שלו היא לצבור נתונים על מופעים, מחירים ומושבים זמינים מכל בתי הקולנוע; הוא מציג הודעות על סרטים, מאפשר לבחור קולנוע, מופע, אולם ומקום, להזמין ולשלם עבור כרטיסים. בכלל, כל מה שהצופה יכול רק לחלום עליו. אבל המשתמש אפילו לא חושד איזה מאבק טיטאני על היציבות והנגישות של האתר מתחולל בפנים.

עבור האתר האינטנסיבי הפקנו מדדי SLO, SLI, SLA, פיתחנו ארכיטקטורה ותשתיות, פרסנו את האתר, הגדרנו ניטור והתראה. ואנחנו הולכים.

SLO, SLI, SLA

SLI - מדדי רמת שירות. SLOs הם יעדי רמת השירות. SLA - הסכמי רמת שירות.

SLA הוא מונח מתודולוגי ITIL המציין הסכם פורמלי בין מזמין השירות לספק שלו, המכיל תיאור של השירות, הזכויות והחובות של הצדדים ובעיקר, רמת האיכות המוסכמת למתן זה. שֵׁרוּת.

SLO הוא יעד רמת שירות: ערך יעד או טווח ערכים עבור רמת שירות הנמדדת על ידי ה-SLI. ערך תקין עבור SLO הוא "SLI ≤ Target" או "Lower Limit ≤ SLI ≤ Upper Limit".

ה-SLI הוא אינדיקטור של רמת השירות - מדד כמותי מוגדר בקפידה של היבט אחד של רמת השירות הניתן. עבור רוב השירותים, SLI המפתח נחשב להשהיית בקשה - כמה זמן לוקח להחזיר תגובה לבקשה. SLIs נפוצים אחרים כוללים שיעור שגיאות, המתבטא לעתים קרובות כשבריר מכל הבקשות שהתקבלו, ותפוקת מערכת, הנמדדת בדרך כלל בבקשות לשנייה.

קודם כל נשבור את המטוסים, ואז את הבנות, ואז את הבנות...

גורמים פנימיים וחיצוניים החלו "לקלקל" את SLO כבר מהדקות הראשונות. הכל נפל על ראשי המנהלים - טעויות מפתחים, כשלים בתשתית, זרם מבקרים והתקפות DDoS. כל מה שמחמיר את SLO.

Slurm SRE. ניסוי שלם עם מומחים מ-Booking.com ו-Google.com
"- משתתפים יקרים, אני ממהר לרצות אתכם, הדבר הראשון שנכשלתם הוא... הכל!"

לאורך הדרך דנו הדוברים ביציבות, תקציב שגיאות, תרגול בדיקות, ניהול הפרעות ועומס תפעולי.

אנחנו לא סטוקרים, לא נגרים...

ואז המשתתפים התחילו לתקן דברים - העיקר להבין מה לחטוף קודם.

Slurm SRE. ניסוי שלם עם מומחים מ-Booking.com ו-Google.com
"- אדוני, מעולם לא ראיתי את זה נשבר כך, בצורה זו ובעמדה כזו!"

אז קרתה תאונה. שירות עיבוד התשלומים מושבת. כיצד לפעול כדי לשחזר את הפונקציונליות בזמן הקצר ביותר האפשרי?

Slurm SRE. ניסוי שלם עם מומחים מ-Booking.com ו-Google.com
המומחים, מביטים בחיבה במשתתפים, מכינים עוד טריק.

כל צוות מארגן את עבודת הקבוצה למיגור התאונה - מערב עמיתים, מודיע לבעלי עניין (בעלי עניין). במקביל נקבעים סדרי עדיפויות. בדרך זו, המשתתפים התאמנו לעבוד תחת לחץ בתנאי זמן מוגבלים ביותר.

Slurm SRE. ניסוי שלם עם מומחים מ-Booking.com ו-Google.com
"איזו מין זוועה יצאה?!"

לנשוף... ולסיים את התרגיל

יחד עם הדוברים, לאחר פתרון כל בעיה וייצוב האתר באופן זמני, למד הצוות את התקריות מנקודת מבט של SRE. ניתחנו את הבעיות בפירוט - הסיבות להתרחשות, התקדמות החיסול. לאחר מכן, הן בצוות והן ביחד, קיבלנו החלטות כיצד להמשיך למנוע אותן: כיצד לשפר את הניטור, כיצד לשנות בחוכמה את הארכיטקטורה, כיצד להתאים את הגישה לפיתוח ולתפעול, כיצד לתקן תקנות. הדוברים הדגימו את הפרקטיקה של ביצוע נתיחה שלאחר המוות.

Slurm SRE. ניסוי שלם עם מומחים מ-Booking.com ו-Google.com
"מי עוד רוצה ייסורים! - אני!"

ההצלחות של הקבוצות נרשמו בקפדנות וברורה על לוח התוצאות האלקטרוני.

Slurm SRE. ניסוי שלם עם מומחים מ-Booking.com ו-Google.com

למקומות הראשונים - בונוס מבעלי עניין.

Slurm SRE. ניסוי שלם עם מומחים מ-Booking.com ו-Google.com

מקור: www.habr.com

קנה אירוח אמין לאתרים עם הגנת DDoS, שרתי VPS VDS 🔥 קנה אחסון אתרים אמין עם הגנת DDoS, שרתי VPS VDS | ProHoster