สาเหตุหลักของอุบัติเหตุในศูนย์ข้อมูลคือปะเก็นระหว่างคอมพิวเตอร์กับเก้าอี้

หัวข้ออุบัติเหตุร้ายแรงในศูนย์ข้อมูลสมัยใหม่ทำให้เกิดคำถามที่ไม่ได้รับคำตอบในบทความแรก - เราตัดสินใจที่จะพัฒนามัน

สาเหตุหลักของอุบัติเหตุในศูนย์ข้อมูลคือปะเก็นระหว่างคอมพิวเตอร์กับเก้าอี้

จากสถิติของ Uptime Institute เหตุการณ์ส่วนใหญ่ในศูนย์ข้อมูลเกี่ยวข้องกับความล้มเหลวของระบบจ่ายไฟ ซึ่งคิดเป็น 39% ของเหตุการณ์ทั้งหมด รองลงมาคือปัจจัยด้านมนุษย์ซึ่งคิดเป็นสัดส่วนอีก 24% ของอุบัติเหตุ เหตุผลที่สำคัญที่สุดอันดับที่สาม (15%) คือความล้มเหลวของระบบปรับอากาศ และอันดับที่สี่ (12%) คือภัยพิบัติทางธรรมชาติ ส่วนแบ่งปัญหาอื่นๆ ทั้งหมดมีเพียง 10% เท่านั้น เราจะเน้นย้ำถึงบางสิ่งที่พบบ่อยในอุบัติเหตุต่างๆ และพยายามทำความเข้าใจว่าสามารถหลีกเลี่ยงได้หรือไม่ สปอยเลอร์: เป็นไปได้ในกรณีส่วนใหญ่

ศาสตร์แห่งการติดต่อ

พูดง่ายๆ ก็คือ มีเพียงสองปัญหาเกี่ยวกับแหล่งจ่ายไฟ: ไม่มีหน้าสัมผัสในจุดที่ควรจะอยู่ หรือมีหน้าสัมผัสในจุดที่ไม่ควรสัมผัส คุณสามารถพูดคุยเป็นเวลานานเกี่ยวกับความน่าเชื่อถือของระบบจ่ายไฟสำรองที่ทันสมัย ​​แต่ไม่ได้ช่วยคุณเสมอไป ยกตัวอย่างกรณีที่มีชื่อเสียงของศูนย์ข้อมูลที่ British Airways ซึ่งเป็นเจ้าของโดยบริษัทแม่ International Airlines Group มีที่พักสองแห่งที่ตั้งใกล้สนามบินฮีทโธรว์ ได้แก่ Boadicea House และ Comet House ในช่วงแรกเมื่อวันที่ 27 พฤษภาคม 2017 เกิดเหตุไฟฟ้าดับโดยไม่ได้ตั้งใจ ส่งผลให้ระบบ UPS ทำงานหนักเกินไปและล้มเหลว ส่งผลให้อุปกรณ์ไอทีบางส่วนได้รับความเสียหายทางกายภาพ และภัยพิบัติครั้งล่าสุดใช้เวลาสามวันในการแก้ไข

สายการบินต้องยกเลิกหรือเปลี่ยนเที่ยวบินมากกว่าหนึ่งพันเที่ยวบิน ผู้โดยสารประมาณ 75 คนไม่สามารถบินได้ตรงเวลา - มีการใช้เงิน 128 ล้านดอลลาร์เพื่อจ่ายค่าชดเชย ไม่นับค่าใช้จ่ายที่จำเป็นในการฟื้นฟูการทำงานของศูนย์ข้อมูล ประวัติสาเหตุของไฟดับยังไม่ชัดเจน หากคุณเชื่อว่าผลการสอบสวนภายในที่ประกาศโดยวิลลี วอลช์ ซีอีโอกลุ่มสายการบินนานาชาติ แสดงว่าเป็นเพราะความผิดพลาดของวิศวกร อย่างไรก็ตาม ระบบจ่ายไฟสำรองต้องทนต่อการปิดระบบดังกล่าวได้ - นั่นคือสาเหตุว่าทำไมจึงได้รับการติดตั้ง ศูนย์ข้อมูลได้รับการจัดการโดยผู้เชี่ยวชาญจากบริษัทเอาท์ซอร์ส CBRE Managed Services ดังนั้นบริติชแอร์เวย์จึงพยายามกู้คืนจำนวนความเสียหายผ่านทางศาลในลอนดอน

สาเหตุหลักของอุบัติเหตุในศูนย์ข้อมูลคือปะเก็นระหว่างคอมพิวเตอร์กับเก้าอี้

ไฟฟ้าดับเกิดขึ้นในสถานการณ์ที่คล้ายกัน: ประการแรก ไฟดับเนื่องจากความผิดพลาดของผู้จำหน่ายไฟฟ้า บางครั้งเนื่องจากสภาพอากาศเลวร้ายหรือปัญหาภายใน (รวมถึงข้อผิดพลาดของมนุษย์) จากนั้นระบบจ่ายไฟสำรองไม่สามารถรับมือกับโหลดหรือไฟฟ้าลัดวงจรได้ - การหยุดชะงักของคลื่นไซน์ในระยะทำให้เกิดความล้มเหลวของบริการหลายอย่าง ทำให้เกิดการบูรณะซึ่งต้องใช้เวลาและเงินเป็นจำนวนมาก สามารถหลีกเลี่ยงอุบัติเหตุดังกล่าวได้หรือไม่? ไม่ต้องสงสัยเลย หากคุณออกแบบระบบอย่างถูกต้อง แม้แต่ผู้สร้างศูนย์ข้อมูลขนาดใหญ่ก็ยังไม่รอดพ้นจากข้อผิดพลาด

ปัจจัยมนุษย์

เมื่อสาเหตุเฉพาะหน้าของเหตุการณ์คือการกระทำที่ไม่ถูกต้องของบุคลากรศูนย์ข้อมูล ปัญหาส่วนใหญ่มักจะ (แต่ไม่เสมอไป) จะส่งผลกระทบต่อส่วนซอฟต์แวร์ของโครงสร้างพื้นฐานด้านไอที อุบัติเหตุดังกล่าวเกิดขึ้นได้แม้กระทั่งในองค์กรขนาดใหญ่ ในเดือนกุมภาพันธ์ 2017 เนื่องจากสมาชิกในทีมที่ได้รับคัดเลือกอย่างไม่ถูกต้องของกลุ่มปฏิบัติการทางเทคนิคของศูนย์ข้อมูลแห่งหนึ่ง เซิร์ฟเวอร์ Amazon Web Services บางส่วนจึงถูกปิดใช้งาน เกิดข้อผิดพลาดขณะดีบักกระบวนการเรียกเก็บเงินสำหรับลูกค้าพื้นที่จัดเก็บบนคลาวด์ของ Amazon Simple Storage Service (S3) พนักงานพยายามลบเซิร์ฟเวอร์เสมือนจำนวนหนึ่งที่ใช้โดยระบบการเรียกเก็บเงิน แต่กลับโดนคลัสเตอร์ที่ใหญ่กว่า

สาเหตุหลักของอุบัติเหตุในศูนย์ข้อมูลคือปะเก็นระหว่างคอมพิวเตอร์กับเก้าอี้

จากข้อผิดพลาดของวิศวกร เซิร์ฟเวอร์ที่ใช้งานโมดูลซอฟต์แวร์จัดเก็บข้อมูลบนคลาวด์ของ Amazon ที่สำคัญจึงถูกลบออก ผลกระทบแรกคือระบบย่อยการจัดทำดัชนี ซึ่งมีข้อมูลเกี่ยวกับเมตาดาต้าและตำแหน่งของออบเจ็กต์ S3 ทั้งหมดในภูมิภาค US-EAST-1 ของอเมริกา เหตุการณ์ดังกล่าวยังส่งผลกระทบต่อระบบย่อยที่ใช้ในการโฮสต์ข้อมูลและจัดการพื้นที่ว่างสำหรับการจัดเก็บข้อมูล หลังจากลบเครื่องเสมือนแล้ว ระบบย่อยทั้งสองนี้จำเป็นต้องรีสตาร์ทใหม่ทั้งหมด และวิศวกรของ Amazon ก็ต้องประหลาดใจ เนื่องจากพื้นที่เก็บข้อมูลบนคลาวด์สาธารณะไม่สามารถให้บริการตามคำขอของลูกค้าได้เป็นเวลานาน

ผลกระทบดังกล่าวแพร่กระจายอย่างกว้างขวาง เนื่องจากทรัพยากรขนาดใหญ่จำนวนมากใช้ Amazon S3 การหยุดทำงานส่งผลกระทบต่อ Trello, Coursera, IFTTT และบริการของพันธมิตร Amazon รายใหญ่จากรายชื่อ S&P 500 ความเสียหายในกรณีดังกล่าวเป็นเรื่องยากที่จะคำนวณ อย่างที่คุณเห็น คำสั่งที่ผิดเพียงคำสั่งเดียวก็เพียงพอที่จะปิดการใช้งานบริการของแพลตฟอร์มคลาวด์ที่ใหญ่ที่สุด นี่ไม่ใช่กรณีที่แยกได้ ในวันที่ 16 พฤษภาคม 2019 ระหว่างงานบำรุงรักษา บริการ Yandex.Cloud ลบแล้ว เครื่องเสมือนของผู้ใช้ในโซน ru-central1-c ที่อยู่ในสถานะ SUSPENDED อย่างน้อยหนึ่งครั้ง ข้อมูลลูกค้าได้รับความเสียหายที่นี่แล้ว ซึ่งบางส่วนก็สูญหายไปอย่างไม่อาจแก้ไขได้ แน่นอนว่าผู้คนไม่สมบูรณ์แบบ แต่ระบบรักษาความปลอดภัยข้อมูลสมัยใหม่สามารถตรวจสอบการกระทำของผู้ใช้ที่ได้รับสิทธิพิเศษมานานแล้วก่อนที่จะดำเนินการคำสั่งที่พวกเขาป้อน หากมีการนำโซลูชันดังกล่าวไปใช้ใน Yandex หรือ Amazon ก็สามารถหลีกเลี่ยงเหตุการณ์ดังกล่าวได้

สาเหตุหลักของอุบัติเหตุในศูนย์ข้อมูลคือปะเก็นระหว่างคอมพิวเตอร์กับเก้าอี้

ความเย็นแบบแช่แข็ง

ในเดือนมกราคม 2017 เกิดอุบัติเหตุใหญ่ในศูนย์ข้อมูล Dmitrov ของ บริษัท Megafon จากนั้นอุณหภูมิในภูมิภาคมอสโกก็ลดลงเหลือ -35 °C ซึ่งทำให้ระบบทำความเย็นของโรงงานขัดข้อง บริการกดของผู้ดำเนินการไม่ได้พูดถึงสาเหตุของเหตุการณ์โดยเฉพาะ - บริษัท รัสเซียลังเลอย่างยิ่งที่จะพูดคุยเกี่ยวกับอุบัติเหตุในโรงงานที่พวกเขาเป็นเจ้าของ ในแง่ของการประชาสัมพันธ์เราล้าหลังตะวันตกมาก มีเวอร์ชันที่เผยแพร่บนโซเชียลเน็ตเวิร์กเกี่ยวกับการแช่แข็งสารหล่อเย็นในท่อที่วางตามถนนและการรั่วไหลของเอทิลีนไกลคอล ตามที่เธอบอก ฝ่ายปฏิบัติการไม่สามารถรับน้ำยาหล่อเย็น 30 ตันได้อย่างรวดเร็วเนื่องจากการหยุดยาว และออกไปโดยใช้วิธีการชั่วคราว จัดให้มีการทำความเย็นฟรีแบบชั่วคราวโดยฝ่าฝืนกฎในการใช้งานระบบ ความหนาวเย็นที่รุนแรงทำให้ปัญหารุนแรงขึ้น - ในเดือนมกราคม ฤดูหนาวก็เข้าโจมตีรัสเซียอย่างกะทันหัน แม้ว่าจะไม่มีใครคาดคิดก็ตาม ส่งผลให้พนักงานต้องปิดไฟส่วนหนึ่งของชั้นวางเซิร์ฟเวอร์ ซึ่งเป็นเหตุให้บริการของผู้ให้บริการบางรายใช้งานไม่ได้เป็นเวลาสองวัน

สาเหตุหลักของอุบัติเหตุในศูนย์ข้อมูลคือปะเก็นระหว่างคอมพิวเตอร์กับเก้าอี้

อาจเป็นไปได้ว่าเราสามารถพูดคุยเกี่ยวกับความผิดปกติของสภาพอากาศได้ที่นี่ แต่น้ำค้างแข็งดังกล่าวไม่ใช่เรื่องผิดปกติสำหรับภูมิภาคเมืองหลวง อุณหภูมิในฤดูหนาวในภูมิภาคมอสโกอาจลดลงสู่ระดับที่ต่ำกว่า ดังนั้นศูนย์ข้อมูลจึงถูกสร้างขึ้นโดยคาดว่าจะมีการดำเนินงานที่มั่นคงที่อุณหภูมิ −42°C บ่อยครั้งที่ระบบทำความเย็นล้มเหลวในสภาพอากาศหนาวเย็นเนื่องจากมีไกลคอลที่มีความเข้มข้นสูงและน้ำส่วนเกินในสารละลายน้ำหล่อเย็นไม่เพียงพอ ยังมีปัญหาในการติดตั้งท่อหรือการคำนวณผิดพลาดในการออกแบบและทดสอบระบบซึ่งส่วนใหญ่เกี่ยวข้องกับความต้องการประหยัดเงิน ส่งผลให้เกิดอุบัติเหตุร้ายแรงโดยไม่คาดคิดซึ่งสามารถป้องกันได้

ภัยพิบัติทางธรรมชาติ

บ่อยครั้งที่พายุฝนฟ้าคะนองและ/หรือพายุเฮอริเคนรบกวนโครงสร้างพื้นฐานทางวิศวกรรมของศูนย์ข้อมูล ส่งผลให้บริการหยุดชะงักและ/หรือความเสียหายทางกายภาพต่ออุปกรณ์ เหตุการณ์ที่เกิดจากสภาพอากาศเลวร้ายเกิดขึ้นค่อนข้างบ่อย ในปี 2012 พายุเฮอริเคนแซนดี้พัดปกคลุมชายฝั่งตะวันตกของสหรัฐอเมริกา โดยมีฝนตกหนัก ศูนย์ข้อมูล Peer 1 ตั้งอยู่ในอาคารสูงในแมนฮัตตันตอนล่าง สูญเสียแหล่งจ่ายไฟภายนอกหลังจากน้ำทะเลเค็มท่วมชั้นใต้ดิน เครื่องกำเนิดไฟฟ้าฉุกเฉินของสถานที่นี้ตั้งอยู่บนชั้น 18 และการจ่ายเชื้อเพลิงมีจำกัด กฎที่บังคับใช้ในนิวยอร์กหลังการโจมตีของผู้ก่อการร้าย 9/11 ห้ามมิให้เก็บเชื้อเพลิงจำนวนมากไว้ที่ชั้นบน

ปั๊มเชื้อเพลิงก็ล้มเหลวเช่นกัน เจ้าหน้าที่จึงใช้เวลาหลายวันในการลากน้ำมันดีเซลไปยังเครื่องกำเนิดไฟฟ้าด้วยมือ ความกล้าหาญของทีมช่วยศูนย์ข้อมูลให้พ้นจากอุบัติเหตุร้ายแรง แต่จำเป็นจริงๆ หรือไม่ เราอาศัยอยู่บนดาวเคราะห์ที่มีบรรยากาศไนโตรเจน-ออกซิเจนและมีน้ำปริมาณมาก พายุฝนฟ้าคะนองและพายุเฮอริเคนเป็นเรื่องปกติที่นี่ (โดยเฉพาะในพื้นที่ชายฝั่งทะเล) นักออกแบบน่าจะพิจารณาความเสี่ยงที่เกี่ยวข้องและสร้างระบบจ่ายไฟสำรองที่เหมาะสม หรืออย่างน้อยก็เลือกสถานที่ที่เหมาะสมสำหรับศูนย์ข้อมูลมากกว่าตึกสูงบนเกาะ

อย่างอื่น

Uptime Institute ระบุเหตุการณ์ต่างๆ ในหมวดหมู่นี้ ซึ่งเป็นเรื่องยากที่จะเลือกเหตุการณ์ทั่วไป การโจรกรรมสายเคเบิลทองแดง รถยนต์ชนเข้ากับศูนย์ข้อมูล การรองรับสายไฟและสถานีไฟฟ้าย่อย ไฟไหม้ พนักงานขุดทำลายทัศนศาสตร์ สัตว์ฟันแทะ (หนู กระต่าย และแม้แต่วอมแบทซึ่งจริงๆ แล้วเป็นสัตว์มีกระเป๋าหน้าท้อง) รวมถึงผู้ที่ชอบฝึกยิงปืน สายไฟ-เมนูมีให้เลือกมากมาย ไฟฟ้าขัดข้องก็สามารถทำให้เกิดได้ การขโมย ไฟฟ้าปลูกกัญชาผิดกฎหมาย ในกรณีส่วนใหญ่ บุคคลใดบุคคลหนึ่งจะกลายเป็นผู้กระทำผิดของเหตุการณ์ เช่น เรากำลังเผชิญกับปัจจัยมนุษย์อีกครั้ง เมื่อปัญหามีชื่อและนามสกุล แม้ว่าอุบัติเหตุจะเกี่ยวข้องกับความผิดปกติทางเทคนิคหรือภัยพิบัติทางธรรมชาติเมื่อมองแวบแรก แต่ก็สามารถหลีกเลี่ยงได้หากสถานที่ได้รับการออกแบบและดำเนินการอย่างถูกต้องเหมาะสม ข้อยกเว้นเพียงอย่างเดียวคือกรณีของความเสียหายร้ายแรงต่อโครงสร้างพื้นฐานของศูนย์ข้อมูล หรือการทำลายอาคารและโครงสร้างอันเนื่องมาจากภัยพิบัติทางธรรมชาติ นี่เป็นสถานการณ์เหตุสุดวิสัยอย่างแท้จริง และปัญหาอื่นๆ ทั้งหมดเกิดจากปะเก็นระหว่างคอมพิวเตอร์กับเก้าอี้ - บางทีนี่อาจเป็นส่วนที่ไม่น่าเชื่อถือที่สุดของระบบที่ซับซ้อนใดๆ

ที่มา: will.com

เพิ่มความคิดเห็น