หัวข้ออุบัติเหตุร้ายแรงในศูนย์ข้อมูลสมัยใหม่ทำให้เกิดคำถามที่ไม่ได้รับคำตอบในบทความแรก - เราตัดสินใจที่จะพัฒนามัน
จากสถิติของ Uptime Institute เหตุการณ์ส่วนใหญ่ในศูนย์ข้อมูลเกี่ยวข้องกับความล้มเหลวของระบบจ่ายไฟ ซึ่งคิดเป็น 39% ของเหตุการณ์ทั้งหมด รองลงมาคือปัจจัยด้านมนุษย์ซึ่งคิดเป็นสัดส่วนอีก 24% ของอุบัติเหตุ เหตุผลที่สำคัญที่สุดอันดับที่สาม (15%) คือความล้มเหลวของระบบปรับอากาศ และอันดับที่สี่ (12%) คือภัยพิบัติทางธรรมชาติ ส่วนแบ่งปัญหาอื่นๆ ทั้งหมดมีเพียง 10% เท่านั้น เราจะเน้นย้ำถึงบางสิ่งที่พบบ่อยในอุบัติเหตุต่างๆ และพยายามทำความเข้าใจว่าสามารถหลีกเลี่ยงได้หรือไม่ สปอยเลอร์: เป็นไปได้ในกรณีส่วนใหญ่
ศาสตร์แห่งการติดต่อ
พูดง่ายๆ ก็คือ มีเพียงสองปัญหาเกี่ยวกับแหล่งจ่ายไฟ: ไม่มีหน้าสัมผัสในจุดที่ควรจะอยู่ หรือมีหน้าสัมผัสในจุดที่ไม่ควรสัมผัส คุณสามารถพูดคุยเป็นเวลานานเกี่ยวกับความน่าเชื่อถือของระบบจ่ายไฟสำรองที่ทันสมัย แต่ไม่ได้ช่วยคุณเสมอไป ยกตัวอย่างกรณีที่มีชื่อเสียงของศูนย์ข้อมูลที่ British Airways ซึ่งเป็นเจ้าของโดยบริษัทแม่ International Airlines Group มีที่พักสองแห่งที่ตั้งใกล้สนามบินฮีทโธรว์ ได้แก่ Boadicea House และ Comet House ในช่วงแรกเมื่อวันที่ 27 พฤษภาคม 2017 เกิดเหตุไฟฟ้าดับโดยไม่ได้ตั้งใจ ส่งผลให้ระบบ UPS ทำงานหนักเกินไปและล้มเหลว ส่งผลให้อุปกรณ์ไอทีบางส่วนได้รับความเสียหายทางกายภาพ และภัยพิบัติครั้งล่าสุดใช้เวลาสามวันในการแก้ไข
สายการบินต้องยกเลิกหรือเปลี่ยนเที่ยวบินมากกว่าหนึ่งพันเที่ยวบิน ผู้โดยสารประมาณ 75 คนไม่สามารถบินได้ตรงเวลา - มีการใช้เงิน 128 ล้านดอลลาร์เพื่อจ่ายค่าชดเชย ไม่นับค่าใช้จ่ายที่จำเป็นในการฟื้นฟูการทำงานของศูนย์ข้อมูล ประวัติสาเหตุของไฟดับยังไม่ชัดเจน หากคุณเชื่อว่าผลการสอบสวนภายในที่ประกาศโดยวิลลี วอลช์ ซีอีโอกลุ่มสายการบินนานาชาติ แสดงว่าเป็นเพราะความผิดพลาดของวิศวกร อย่างไรก็ตาม ระบบจ่ายไฟสำรองต้องทนต่อการปิดระบบดังกล่าวได้ - นั่นคือสาเหตุว่าทำไมจึงได้รับการติดตั้ง ศูนย์ข้อมูลได้รับการจัดการโดยผู้เชี่ยวชาญจากบริษัทเอาท์ซอร์ส CBRE Managed Services ดังนั้นบริติชแอร์เวย์จึงพยายามกู้คืนจำนวนความเสียหายผ่านทางศาลในลอนดอน
ไฟฟ้าดับเกิดขึ้นในสถานการณ์ที่คล้ายกัน: ประการแรก ไฟดับเนื่องจากความผิดพลาดของผู้จำหน่ายไฟฟ้า บางครั้งเนื่องจากสภาพอากาศเลวร้ายหรือปัญหาภายใน (รวมถึงข้อผิดพลาดของมนุษย์) จากนั้นระบบจ่ายไฟสำรองไม่สามารถรับมือกับโหลดหรือไฟฟ้าลัดวงจรได้ - การหยุดชะงักของคลื่นไซน์ในระยะทำให้เกิดความล้มเหลวของบริการหลายอย่าง ทำให้เกิดการบูรณะซึ่งต้องใช้เวลาและเงินเป็นจำนวนมาก สามารถหลีกเลี่ยงอุบัติเหตุดังกล่าวได้หรือไม่? ไม่ต้องสงสัยเลย หากคุณออกแบบระบบอย่างถูกต้อง แม้แต่ผู้สร้างศูนย์ข้อมูลขนาดใหญ่ก็ยังไม่รอดพ้นจากข้อผิดพลาด
ปัจจัยมนุษย์
เมื่อสาเหตุเฉพาะหน้าของเหตุการณ์คือการกระทำที่ไม่ถูกต้องของบุคลากรศูนย์ข้อมูล ปัญหาส่วนใหญ่มักจะ (แต่ไม่เสมอไป) จะส่งผลกระทบต่อส่วนซอฟต์แวร์ของโครงสร้างพื้นฐานด้านไอที อุบัติเหตุดังกล่าวเกิดขึ้นได้แม้กระทั่งในองค์กรขนาดใหญ่ ในเดือนกุมภาพันธ์ 2017 เนื่องจากสมาชิกในทีมที่ได้รับคัดเลือกอย่างไม่ถูกต้องของกลุ่มปฏิบัติการทางเทคนิคของศูนย์ข้อมูลแห่งหนึ่ง เซิร์ฟเวอร์ Amazon Web Services บางส่วนจึงถูกปิดใช้งาน เกิดข้อผิดพลาดขณะดีบักกระบวนการเรียกเก็บเงินสำหรับลูกค้าพื้นที่จัดเก็บบนคลาวด์ของ Amazon Simple Storage Service (S3) พนักงานพยายามลบเซิร์ฟเวอร์เสมือนจำนวนหนึ่งที่ใช้โดยระบบการเรียกเก็บเงิน แต่กลับโดนคลัสเตอร์ที่ใหญ่กว่า
จากข้อผิดพลาดของวิศวกร เซิร์ฟเวอร์ที่ใช้งานโมดูลซอฟต์แวร์จัดเก็บข้อมูลบนคลาวด์ของ Amazon ที่สำคัญจึงถูกลบออก ผลกระทบแรกคือระบบย่อยการจัดทำดัชนี ซึ่งมีข้อมูลเกี่ยวกับเมตาดาต้าและตำแหน่งของออบเจ็กต์ S3 ทั้งหมดในภูมิภาค US-EAST-1 ของอเมริกา เหตุการณ์ดังกล่าวยังส่งผลกระทบต่อระบบย่อยที่ใช้ในการโฮสต์ข้อมูลและจัดการพื้นที่ว่างสำหรับการจัดเก็บข้อมูล หลังจากลบเครื่องเสมือนแล้ว ระบบย่อยทั้งสองนี้จำเป็นต้องรีสตาร์ทใหม่ทั้งหมด และวิศวกรของ Amazon ก็ต้องประหลาดใจ เนื่องจากพื้นที่เก็บข้อมูลบนคลาวด์สาธารณะไม่สามารถให้บริการตามคำขอของลูกค้าได้เป็นเวลานาน
ผลกระทบดังกล่าวแพร่กระจายอย่างกว้างขวาง เนื่องจากทรัพยากรขนาดใหญ่จำนวนมากใช้ Amazon S3 การหยุดทำงานส่งผลกระทบต่อ Trello, Coursera, IFTTT และบริการของพันธมิตร Amazon รายใหญ่จากรายชื่อ S&P 500 ความเสียหายในกรณีดังกล่าวเป็นเรื่องยากที่จะคำนวณ อย่างที่คุณเห็น คำสั่งที่ผิดเพียงคำสั่งเดียวก็เพียงพอที่จะปิดการใช้งานบริการของแพลตฟอร์มคลาวด์ที่ใหญ่ที่สุด นี่ไม่ใช่กรณีที่แยกได้ ในวันที่ 16 พฤษภาคม 2019 ระหว่างงานบำรุงรักษา บริการ Yandex.Cloud
ความเย็นแบบแช่แข็ง
ในเดือนมกราคม 2017 เกิดอุบัติเหตุใหญ่ในศูนย์ข้อมูล Dmitrov ของ บริษัท Megafon จากนั้นอุณหภูมิในภูมิภาคมอสโกก็ลดลงเหลือ -35 °C ซึ่งทำให้ระบบทำความเย็นของโรงงานขัดข้อง บริการกดของผู้ดำเนินการไม่ได้พูดถึงสาเหตุของเหตุการณ์โดยเฉพาะ - บริษัท รัสเซียลังเลอย่างยิ่งที่จะพูดคุยเกี่ยวกับอุบัติเหตุในโรงงานที่พวกเขาเป็นเจ้าของ ในแง่ของการประชาสัมพันธ์เราล้าหลังตะวันตกมาก มีเวอร์ชันที่เผยแพร่บนโซเชียลเน็ตเวิร์กเกี่ยวกับการแช่แข็งสารหล่อเย็นในท่อที่วางตามถนนและการรั่วไหลของเอทิลีนไกลคอล ตามที่เธอบอก ฝ่ายปฏิบัติการไม่สามารถรับน้ำยาหล่อเย็น 30 ตันได้อย่างรวดเร็วเนื่องจากการหยุดยาว และออกไปโดยใช้วิธีการชั่วคราว จัดให้มีการทำความเย็นฟรีแบบชั่วคราวโดยฝ่าฝืนกฎในการใช้งานระบบ ความหนาวเย็นที่รุนแรงทำให้ปัญหารุนแรงขึ้น - ในเดือนมกราคม ฤดูหนาวก็เข้าโจมตีรัสเซียอย่างกะทันหัน แม้ว่าจะไม่มีใครคาดคิดก็ตาม ส่งผลให้พนักงานต้องปิดไฟส่วนหนึ่งของชั้นวางเซิร์ฟเวอร์ ซึ่งเป็นเหตุให้บริการของผู้ให้บริการบางรายใช้งานไม่ได้เป็นเวลาสองวัน
อาจเป็นไปได้ว่าเราสามารถพูดคุยเกี่ยวกับความผิดปกติของสภาพอากาศได้ที่นี่ แต่น้ำค้างแข็งดังกล่าวไม่ใช่เรื่องผิดปกติสำหรับภูมิภาคเมืองหลวง อุณหภูมิในฤดูหนาวในภูมิภาคมอสโกอาจลดลงสู่ระดับที่ต่ำกว่า ดังนั้นศูนย์ข้อมูลจึงถูกสร้างขึ้นโดยคาดว่าจะมีการดำเนินงานที่มั่นคงที่อุณหภูมิ −42°C บ่อยครั้งที่ระบบทำความเย็นล้มเหลวในสภาพอากาศหนาวเย็นเนื่องจากมีไกลคอลที่มีความเข้มข้นสูงและน้ำส่วนเกินในสารละลายน้ำหล่อเย็นไม่เพียงพอ ยังมีปัญหาในการติดตั้งท่อหรือการคำนวณผิดพลาดในการออกแบบและทดสอบระบบซึ่งส่วนใหญ่เกี่ยวข้องกับความต้องการประหยัดเงิน ส่งผลให้เกิดอุบัติเหตุร้ายแรงโดยไม่คาดคิดซึ่งสามารถป้องกันได้
ภัยพิบัติทางธรรมชาติ
บ่อยครั้งที่พายุฝนฟ้าคะนองและ/หรือพายุเฮอริเคนรบกวนโครงสร้างพื้นฐานทางวิศวกรรมของศูนย์ข้อมูล ส่งผลให้บริการหยุดชะงักและ/หรือความเสียหายทางกายภาพต่ออุปกรณ์ เหตุการณ์ที่เกิดจากสภาพอากาศเลวร้ายเกิดขึ้นค่อนข้างบ่อย ในปี 2012 พายุเฮอริเคนแซนดี้พัดปกคลุมชายฝั่งตะวันตกของสหรัฐอเมริกา โดยมีฝนตกหนัก ศูนย์ข้อมูล Peer 1 ตั้งอยู่ในอาคารสูงในแมนฮัตตันตอนล่าง
ปั๊มเชื้อเพลิงก็ล้มเหลวเช่นกัน เจ้าหน้าที่จึงใช้เวลาหลายวันในการลากน้ำมันดีเซลไปยังเครื่องกำเนิดไฟฟ้าด้วยมือ ความกล้าหาญของทีมช่วยศูนย์ข้อมูลให้พ้นจากอุบัติเหตุร้ายแรง แต่จำเป็นจริงๆ หรือไม่ เราอาศัยอยู่บนดาวเคราะห์ที่มีบรรยากาศไนโตรเจน-ออกซิเจนและมีน้ำปริมาณมาก พายุฝนฟ้าคะนองและพายุเฮอริเคนเป็นเรื่องปกติที่นี่ (โดยเฉพาะในพื้นที่ชายฝั่งทะเล) นักออกแบบน่าจะพิจารณาความเสี่ยงที่เกี่ยวข้องและสร้างระบบจ่ายไฟสำรองที่เหมาะสม หรืออย่างน้อยก็เลือกสถานที่ที่เหมาะสมสำหรับศูนย์ข้อมูลมากกว่าตึกสูงบนเกาะ
อย่างอื่น
Uptime Institute ระบุเหตุการณ์ต่างๆ ในหมวดหมู่นี้ ซึ่งเป็นเรื่องยากที่จะเลือกเหตุการณ์ทั่วไป การโจรกรรมสายเคเบิลทองแดง รถยนต์ชนเข้ากับศูนย์ข้อมูล การรองรับสายไฟและสถานีไฟฟ้าย่อย ไฟไหม้ พนักงานขุดทำลายทัศนศาสตร์ สัตว์ฟันแทะ (หนู กระต่าย และแม้แต่วอมแบทซึ่งจริงๆ แล้วเป็นสัตว์มีกระเป๋าหน้าท้อง) รวมถึงผู้ที่ชอบฝึกยิงปืน สายไฟ-เมนูมีให้เลือกมากมาย ไฟฟ้าขัดข้องก็สามารถทำให้เกิดได้
ที่มา: will.com