הגורם העיקרי לתאונות במרכזי נתונים הוא האטם בין המחשב לכיסא

נושא התאונות הגדולות במרכזי נתונים מודרניים מעלה שאלות שלא קיבלו תשובות במאמר הראשון – החלטנו לפתח אותו.

הגורם העיקרי לתאונות במרכזי נתונים הוא האטם בין המחשב לכיסא

על פי נתונים סטטיסטיים של מכון Uptime, רוב התקריות במרכזי נתונים קשורות לתקלות במערכת אספקת החשמל - הן מהוות 39% מהאירועים. אחריהם מגיע הגורם האנושי, המהווה עוד 24% מהתאונות. הסיבה השלישית בחשיבותה (15%) הייתה כשל במערכת המיזוג, ובמקום הרביעי (12%) היו אסונות טבע. החלק הכולל של צרות אחרות הוא רק 10%. מבלי להטיל ספק בנתונים של ארגון מכובד, נדגיש משהו שכיח בתאונות שונות וננסה להבין האם ניתן היה להימנע מהם. ספוילר: זה אפשרי ברוב המקרים.

מדע הקשרים

במילים פשוטות, יש רק שתי בעיות עם אספקת החשמל: או שאין מגע איפה שהוא צריך להיות, או שיש מגע שבו לא צריך להיות מגע. אתה יכול לדבר זמן רב על האמינות של מערכות אל-פסק מודרניות, אבל הן לא תמיד חוסכות אותך. קחו את המקרה המתוקשר של מרכז הנתונים המשמש את British Airways, שנמצא בבעלות חברת האם International Airlines Group. ישנם שני נכסים כאלה הממוקמים ליד נמל התעופה הית'רו - Boadicea House ו-Comet House. בראשון שבהם, ב-27 במאי 2017, התרחשה הפסקת חשמל בשוגג, שהובילה לעומס יתר ולכשל במערכת UPS. כתוצאה מכך, חלק מציוד ה-IT ניזוק פיזית, והאסון האחרון נמשך שלושה ימים כדי לפתור.

חברת התעופה נאלצה לבטל או לשנות מועד של יותר מאלף טיסות, כ-75 אלף נוסעים לא הצליחו לטוס בזמן - 128 מיליון דולר הוצאו על תשלום פיצויים, לא סופרים את העלויות הנדרשות לשיקום הפונקציונליות של מרכזי הנתונים. ההיסטוריה של הסיבות להפסקה אינה ברורה. אם אתה מאמין לתוצאות החקירה הפנימית שעליה הכריז מנכ"ל קבוצת אינטרנשיונל איירליינס, ווילי וולש, היא נבעה מטעות של מהנדסים. עם זאת, מערכת אל-פסק נאלצה לעמוד בכיבוי כזה - זו הסיבה שהיא הותקנה. מרכז הנתונים נוהל על ידי מומחים מחברת מיקור החוץ CBRE Managed Services, כך ש-British Airways ניסתה לגבות את סכום הנזק באמצעות בית משפט בלונדון.

הגורם העיקרי לתאונות במרכזי נתונים הוא האטם בין המחשב לכיסא

הפסקות חשמל מתרחשות בתרחישים דומים: ראשית יש הפסקת חשמל בגלל אשמת ספק החשמל, לפעמים בגלל מזג אוויר גרוע או בעיות פנימיות (כולל טעויות אנוש), ולאחר מכן מערכת אל-פסק לא יכולה להתמודד עם עומס או קצר -הפרעה לטווח של גלי הסינוס גורמת לכשלים בשירותים רבים, מה שגורם לשחזור שלהם לוקח הרבה זמן וכסף. האם ניתן להימנע מתאונות כאלו? בְּלִי סָפֵק. אם מתכננים נכון את המערכת, אפילו היוצרים של מרכזי נתונים גדולים אינם חסינים מטעויות.

הגורם האנושי

כאשר הגורם המיידי לאירוע הוא פעולות לא נכונות של אנשי מרכז הנתונים, הבעיות לרוב (אך לא תמיד) משפיעות על חלק התוכנה של תשתית ה-IT. תאונות כאלה מתרחשות אפילו בתאגידים גדולים. בפברואר 2017, עקב חבר צוות שגויס באופן שגוי בקבוצת התפעול הטכני של אחד ממרכזי הנתונים, הושבת חלק משרתי Amazon Web Services. אירעה שגיאה בעת איתור באגים בתהליך החיוב עבור לקוחות אחסון ענן של Amazon Simple Storage Service (S3). עובד ניסה למחוק מספר שרתים וירטואליים המשמשים את מערכת החיוב, אך פגע באשכול גדול יותר.

הגורם העיקרי לתאונות במרכזי נתונים הוא האטם בין המחשב לכיסא

כתוצאה משגיאת מהנדס, נמחקו שרתים המריצים מודולי תוכנה חשובים לאחסון ענן של אמזון. הראשונה שהושפעה הייתה תת-מערכת האינדקס, המכילה מידע על המטא נתונים והמיקום של כל אובייקטי S3 באזור US-EAST-1 האמריקאי. התקרית השפיעה גם על תת-המערכת המשמשת לאירוח נתונים וניהול השטח הפנוי לאחסון. לאחר מחיקת המכונות הווירטואליות, שתי תתי המערכות הללו דרשו הפעלה מחדש מלאה, ואז צפויה למהנדסי אמזון הפתעה - במשך זמן רב, אחסון הענן הציבורי לא היה מסוגל לתת שירות לבקשות של לקוחות.

ההשפעה הייתה רחבה, שכן משאבים גדולים רבים משתמשים באמזון S3. ההפסקות השפיעו על Trello, Coursera, IFTTT ובאופן לא נעים ביותר, השירותים של שותפי אמזון הגדולים מרשימת S&P 500. הנזק במקרים כאלה קשה לחישוב, אבל הוא היה באזור של מאות מיליוני דולרים. כפי שאתה יכול לראות, מספיקה פקודה אחת שגויה כדי להשבית את השירות של פלטפורמת הענן הגדולה ביותר. זה לא מקרה בודד; ב-16 במאי 2019, במהלך עבודות תחזוקה, שירות Yandex.Cloud נמחק מכונות וירטואליות של משתמשים באזור ru-central1-c שהיו בסטטוס SUSPENDED לפחות פעם אחת. נתוני הלקוח כבר נפגעו כאן, שחלקם אבדו באופן בלתי הפיך. כמובן שאנשים אינם מושלמים, אבל מערכות אבטחת מידע מודרניות כבר מזמן מסוגלות לפקח על פעולותיהם של משתמשים בעלי זכויות יתר לפני ביצוע הפקודות שהזינו. אם פתרונות כאלה מיושמים ב-Yandex או באמזון, ניתן למנוע תקריות כאלה.

הגורם העיקרי לתאונות במרכזי נתונים הוא האטם בין המחשב לכיסא

קירור קפוא

בינואר 2017 אירעה תאונה גדולה במרכז הנתונים דמיטרוב של חברת מגפון. אז הטמפרטורה באזור מוסקבה ירדה ל-35 מעלות צלזיוס, מה שהוביל לכשל של מערכת הקירור של המתקן. שירות העיתונות של המפעיל לא דיבר במיוחד על הסיבות לאירוע - חברות רוסיות נרתעות מאוד מלדבר על תאונות במתקנים שבבעלותן; מבחינת פרסום, אנחנו מפגרים הרבה אחרי המערב. הייתה גרסה שהסתובבה ברשתות החברתיות על הקפאת נוזל קירור בצינורות שהונחו לאורך הרחוב ודליפה של אתילן גליקול. לדבריה, שירות התפעול לא הצליח להשיג במהירות 30 טון נוזל קירור עקב חופשות ארוכות ויצא באמצעים מאולתרים, תוך ארגון קירור חופשי מאולתר בניגוד לכללי הפעלת המערכת. קור עז החמיר את הבעיה - בינואר החורף פתאום הכה ברוסיה, למרות שאיש לא ציפה לו. כתוצאה מכך, הצוות נאלץ לכבות את החשמל לחלק מתלי השרת, וזו הסיבה שחלק משירותי המפעיל לא היו זמינים במשך יומיים.

הגורם העיקרי לתאונות במרכזי נתונים הוא האטם בין המחשב לכיסא

כנראה, אנחנו יכולים לדבר על חריגות מזג האוויר כאן, אבל כפור כזה הוא לא משהו יוצא דופן באזור הבירה. הטמפרטורות בחורף באזור מוסקבה יכולות לרדת לרמות נמוכות יותר, ולכן מרכזי נתונים נבנים עם ציפייה לפעולה יציבה ב-42 מעלות צלזיוס. לרוב, מערכות קירור נכשלות במזג אוויר קר עקב ריכוז לא גבוה מספיק של גליקולים ועודפי מים בתמיסת נוזל הקירור. ישנן גם בעיות בהתקנת צינורות או בחישוב שגוי בתכנון ובדיקת המערכת, הקשורות בעיקר לרצון לחסוך כסף. כתוצאה מכך, מתרחשת תאונה חמורה באוויר הפתוח, שניתן היה למנוע אותה.

אסונות טבע

לרוב, סופות רעמים ו/או סופות הוריקן משבשות את התשתית ההנדסית של מרכז נתונים, מה שמוביל להפרעות שירות ו/או נזק פיזי לציוד. תקריות הנגרמות על ידי מזג אוויר גרוע מתרחשות לעתים קרובות למדי. בשנת 2012, הוריקן סנדי שטף את החוף המערבי של ארצות הברית עם גשם כבד. ממוקם בבניין רב קומות במנהטן התחתונה, מרכז הנתונים Peer 1 אספקת חשמל חיצונית אבדה, לאחר שמי ים מלוחים הציפו את המרתפים. גנרטורי החירום של המתקן היו ממוקמים בקומה ה-18, ואספקת הדלק שלהם הייתה מוגבלת - כללים שהוכנסו בניו יורק לאחר פיגועי הטרור ב-9 בספטמבר אוסרים על אחסון כמויות גדולות של דלק בקומות העליונות.

גם משאבת הדלק כשלה, כך שהצוות בילה מספר ימים בהובלת סולר לגנראטורים ביד. גבורת הצוות הצילה את הדאטה סנטר מתאונה קשה, אבל האם זה באמת נחוץ? אנו חיים על כוכב עם אטמוספירה של חנקן-חמצן והרבה מים. סופות רעמים והוריקנים נפוצים כאן (במיוחד באזורי החוף). סביר להניח שהמעצבים יעשו טוב אם לשקול את הסיכונים הכרוכים בכך ולבנות מערכת אל-פסק מתאימה. או לפחות בחרו מיקום מתאים יותר למרכז הנתונים מאשר רבי קומות על אי.

כל דבר אחר

מכון Uptime מזהה מגוון אירועים בקטגוריה זו, שביניהם קשה לבחור אירוע טיפוסי. גניבת כבלי נחושת, מכוניות שמתנגשות במרכזי נתונים, תומכי קווי מתח ותחנות משנה, שריפות, מפעילי מחפרים שפוגעים באופטיקה, מכרסמים (חולדות, ארנבות ואפילו וומבטים שהם למעשה חיות כיס), כמו גם כאלה שאוהבים להתאמן בירי לעבר חוטים - התפריט נרחב. הפסקות חשמל יכולות אפילו לגרום גניבה מטע מריחואנה בלתי חוקי בחשמל. ברוב המקרים, אנשים ספציפיים הופכים להיות האשמים באירוע, כלומר אנחנו שוב עוסקים בגורם האנושי, כאשר לבעיה יש שם ושם משפחה. גם אם במבט ראשון התאונה קשורה לתקלה טכנית או אסונות טבע, ניתן להימנע ממנה בתנאי שהמתקן מתוכנן כהלכה ומתופעל נכון. החריגים היחידים הם מקרים של נזק קריטי לתשתית מרכז הנתונים או הרס של מבנים ומבנים עקב אסון טבע. אלו באמת נסיבות כוח עליון, וכל שאר הבעיות נגרמות מהאטם בין המחשב לכיסא - אולי זה החלק הכי לא אמין בכל מערכת מורכבת.

מקור: www.habr.com

הוספת תגובה