เหตุใดการตรวจสอบความถูกต้องของซอฟต์แวร์ในพื้นที่จัดเก็บข้อมูลที่มีความพร้อมใช้งานสูงจึงมีความสำคัญ (99,9999%)

เหตุใดการตรวจสอบความถูกต้องของซอฟต์แวร์ในพื้นที่จัดเก็บข้อมูลที่มีความพร้อมใช้งานสูงจึงมีความสำคัญ (99,9999%)

เฟิร์มแวร์เวอร์ชันใดที่ "ถูกต้อง" และ "ใช้งานได้" มากที่สุด? หากระบบจัดเก็บข้อมูลรับประกันความทนทานต่อข้อผิดพลาดที่ 99,9999% นั่นหมายความว่าระบบจะทำงานได้อย่างต่อเนื่องแม้จะไม่มีการอัพเดตซอฟต์แวร์ใช่หรือไม่ หรือในทางกลับกัน เพื่อให้ได้ความทนทานต่อข้อผิดพลาดสูงสุด คุณควรติดตั้งเฟิร์มแวร์เวอร์ชันล่าสุดเสมอ เราจะพยายามตอบคำถามเหล่านี้ตามประสบการณ์ของเรา

บทนำเล็กน้อย

เราทุกคนเข้าใจว่าซอฟต์แวร์แต่ละเวอร์ชัน ไม่ว่าจะเป็นระบบปฏิบัติการหรือไดรเวอร์สำหรับอุปกรณ์ มักจะมีข้อบกพร่อง/จุดบกพร่อง และ “คุณสมบัติ” อื่นๆ ที่อาจไม่ “ปรากฏ” จนกว่าจะสิ้นสุดอายุการใช้งานของอุปกรณ์ หรือ “เปิด” ภายใต้เงื่อนไขบางประการเท่านั้น จำนวนและความสำคัญของความแตกต่างดังกล่าวขึ้นอยู่กับความซับซ้อน (ฟังก์ชันการทำงาน) ของซอฟต์แวร์และคุณภาพของการทดสอบระหว่างการพัฒนา 

บ่อยครั้งที่ผู้ใช้ยังคงอยู่ใน "เฟิร์มแวร์จากโรงงาน" (อันโด่งดัง "ใช้งานได้ดังนั้นอย่ายุ่งกับมัน") หรือติดตั้งเวอร์ชันล่าสุดเสมอ (ตามความเข้าใจของพวกเขา ล่าสุดหมายถึงทำงานได้ดีที่สุด) เราใช้แนวทางที่แตกต่างออกไป - เราดูบันทึกประจำรุ่นสำหรับทุกอย่างที่ใช้ ในระบบคลาวด์ mClouds อุปกรณ์และเลือกเฟิร์มแวร์ที่เหมาะสมกับอุปกรณ์แต่ละชิ้นอย่างรอบคอบ

เราได้ข้อสรุปนี้ตามที่พวกเขาพูดด้วยประสบการณ์ เราจะบอกคุณว่าเหตุใดความน่าเชื่อถือของระบบจัดเก็บข้อมูลที่สัญญาไว้ 99,9999% จะไม่มีความหมายอะไรเลยหากคุณไม่ตรวจสอบการอัปเดตและคำอธิบายซอฟต์แวร์โดยทันที โดยใช้ตัวอย่างการทำงานของเรา กรณีของเราเหมาะสำหรับผู้ใช้ระบบจัดเก็บข้อมูลจากผู้ขายทุกราย เนื่องจากสถานการณ์ที่คล้ายกันสามารถเกิดขึ้นได้กับฮาร์ดแวร์จากผู้ผลิตทุกราย

การเลือกระบบจัดเก็บข้อมูลใหม่

เมื่อปลายปีที่แล้ว ระบบจัดเก็บข้อมูลที่น่าสนใจได้ถูกเพิ่มเข้าไปในโครงสร้างพื้นฐานของเรา: รุ่นน้องจากกลุ่มผลิตภัณฑ์ IBM FlashSystem 5000 ซึ่งตอนที่ซื้อเรียกว่า Storwize V5010e ตอนนี้ขายภายใต้ชื่อ FlashSystem 5010 แต่จริงๆ แล้วมันเป็นฮาร์ดแวร์ฐานเดียวกันกับ Spectrum Virtualize เดียวกันภายใน 

การมีอยู่ของระบบการจัดการแบบรวมเป็นข้อแตกต่างที่สำคัญระหว่าง IBM FlashSystem สำหรับรุ่นของซีรีย์ที่อายุน้อยกว่านั้นแทบจะไม่แตกต่างจากรุ่นที่มีประสิทธิผลมากกว่า การเลือกรุ่นเฉพาะจะให้เฉพาะฐานฮาร์ดแวร์ที่เหมาะสมเท่านั้น ลักษณะที่ทำให้สามารถใช้ฟังก์ชันอย่างใดอย่างหนึ่งหรือให้ความสามารถในการปรับขนาดในระดับที่สูงขึ้น ซอฟต์แวร์จะระบุฮาร์ดแวร์และมอบฟังก์ชันการทำงานที่จำเป็นและเพียงพอสำหรับแพลตฟอร์มนี้

เหตุใดการตรวจสอบความถูกต้องของซอฟต์แวร์ในพื้นที่จัดเก็บข้อมูลที่มีความพร้อมใช้งานสูงจึงมีความสำคัญ (99,9999%)ไอบีเอ็ม แฟลชซิสเต็ม 5010

สั้นๆ เกี่ยวกับรุ่น 5010 ของเรา นี่คือระบบจัดเก็บข้อมูลแบบบล็อกตัวควบคุมคู่ระดับเริ่มต้น สามารถรองรับดิสก์ NLSAS, SAS, SSD ไม่มีการวางตำแหน่ง NVMe เนื่องจากโมเดลการจัดเก็บข้อมูลนี้อยู่ในตำแหน่งเพื่อแก้ไขปัญหาที่ไม่ต้องการประสิทธิภาพของไดรฟ์ NVMe

ระบบจัดเก็บข้อมูลถูกซื้อเพื่อรองรับข้อมูลที่เก็บถาวรหรือข้อมูลที่ไม่ได้เข้าถึงบ่อย ดังนั้นชุดฟังก์ชันมาตรฐานจึงเพียงพอสำหรับเรา: การจัดระดับ (Easy Tier), Thin Provision ประสิทธิภาพบนดิสก์ NLSAS ที่ระดับ 1000-2000 IOPS ก็ค่อนข้างน่าพอใจสำหรับเราเช่นกัน

ประสบการณ์ของเรา - วิธีที่เราไม่ได้อัปเดตเฟิร์มแวร์ตรงเวลา

ตอนนี้เกี่ยวกับการอัพเดตซอฟต์แวร์เอง ในขณะที่ซื้อ ระบบมีซอฟต์แวร์ Spectrum Virtualize เวอร์ชันล้าสมัยเล็กน้อยอยู่แล้ว กล่าวคือ 8.2.1.3.

เราศึกษาคำอธิบายเฟิร์มแวร์และวางแผนการอัปเดต 8.2.1.9. หากเรามีประสิทธิภาพมากกว่านี้อีกหน่อย บทความนี้ก็คงจะไม่มีอยู่ - จุดบกพร่องจะไม่เกิดขึ้นในเฟิร์มแวร์ที่ใหม่กว่านี้ อย่างไรก็ตาม ด้วยเหตุผลบางประการ การอัปเดตระบบนี้จึงถูกเลื่อนออกไป

เป็นผลให้การอัปเดตล่าช้าเล็กน้อยทำให้เกิดภาพที่ไม่พึงประสงค์อย่างยิ่งดังในคำอธิบายที่ลิงก์: https://www.ibm.com/support/pages/node/6172341

ใช่ ในเฟิร์มแวร์ของเวอร์ชันนั้น สิ่งที่เรียกว่า APAR (รายงานการวิเคราะห์โปรแกรมที่ได้รับอนุญาต) HU02104 มีความเกี่ยวข้อง ปรากฏดังนี้ ภายใต้โหลด ภายใต้สถานการณ์บางอย่าง แคชจะเริ่มล้น จากนั้นระบบจะเข้าสู่โหมดการป้องกัน ซึ่งจะปิดใช้งาน I/O สำหรับพูล ในกรณีของเราดูเหมือนว่าจะตัดการเชื่อมต่อ 3 ดิสก์สำหรับกลุ่ม RAID ในโหมด RAID 6 การตัดการเชื่อมต่อเกิดขึ้นเป็นเวลา 6 นาที ถัดไป การเข้าถึงวอลุ่มในพูลจะถูกกู้คืน

หากใครไม่คุ้นเคยกับโครงสร้างและการตั้งชื่อเอนทิตีลอจิคัลในบริบทของ IBM Spectrum Virtualize ฉันจะอธิบายสั้น ๆ

เหตุใดการตรวจสอบความถูกต้องของซอฟต์แวร์ในพื้นที่จัดเก็บข้อมูลที่มีความพร้อมใช้งานสูงจึงมีความสำคัญ (99,9999%)โครงสร้างขององค์ประกอบทางลอจิคัลของระบบจัดเก็บข้อมูล

ดิสก์จะถูกรวบรวมเป็นกลุ่มที่เรียกว่า MDisk (Managed Disk) MDisk อาจเป็น RAID แบบคลาสสิก (0,1,10,5,6) หรือแบบเสมือน - DRAID (Distributed RAID) การใช้ DRAID ช่วยให้คุณสามารถเพิ่มประสิทธิภาพของอาร์เรย์ได้ เนื่องจาก... ดิสก์ทั้งหมดในกลุ่มจะถูกใช้ และเวลาในการสร้างใหม่จะลดลง เนื่องจากจำเป็นต้องกู้คืนเฉพาะบางบล็อกเท่านั้น และไม่ใช่ข้อมูลทั้งหมดจากดิสก์ที่ล้มเหลว

เหตุใดการตรวจสอบความถูกต้องของซอฟต์แวร์ในพื้นที่จัดเก็บข้อมูลที่มีความพร้อมใช้งานสูงจึงมีความสำคัญ (99,9999%)การกระจายบล็อกข้อมูลข้ามดิสก์เมื่อใช้ Distributed RAID (DRAID) ในโหมด RAID-5

และแผนภาพนี้แสดงตรรกะของวิธีการสร้าง DRAID ใหม่ในกรณีที่ดิสก์ตัวหนึ่งล้มเหลว:

เหตุใดการตรวจสอบความถูกต้องของซอฟต์แวร์ในพื้นที่จัดเก็บข้อมูลที่มีความพร้อมใช้งานสูงจึงมีความสำคัญ (99,9999%)ลอจิกของ DRAID สร้างขึ้นใหม่เมื่อดิสก์ตัวหนึ่งล้มเหลว

ถัดไป MDisk หนึ่งรายการขึ้นไปจะก่อตัวที่เรียกว่าพูล ภายในพูลเดียวกัน ไม่แนะนำให้ใช้ MDisk ที่มีระดับ RAID/DRAID ที่แตกต่างกันบนดิสก์ประเภทเดียวกัน เราจะไม่เจาะลึกเรื่องนี้มากนักเพราะ... เราวางแผนที่จะกล่าวถึงเรื่องนี้ในบทความใดบทความหนึ่งต่อไปนี้ ที่จริงแล้ว พูลถูกแบ่งออกเป็นวอลุ่ม ซึ่งนำเสนอโดยใช้โปรโตคอลการเข้าถึงบล็อกหนึ่งหรืออีกอันหนึ่งไปยังโฮสต์

ดังนั้นเราจึงเป็นผลมาจากสถานการณ์ที่อธิบายไว้ใน อาปาร์ HU02104เนื่องจากความล้มเหลวทางลอจิคัลของดิสก์สามตัว MDisk จึงหยุดทำงาน ซึ่งในทางกลับกัน ส่งผลให้เกิดความล้มเหลวของพูลและโวลุ่มที่เกี่ยวข้อง

เนื่องจากระบบเหล่านี้ค่อนข้างชาญฉลาด จึงสามารถเชื่อมต่อกับระบบตรวจสอบบนคลาวด์ IBM Storage Insights ซึ่งจะส่งคำขอบริการไปยังฝ่ายสนับสนุนของ IBM โดยอัตโนมัติหากเกิดปัญหา แอปพลิเคชันจะถูกสร้างขึ้นและผู้เชี่ยวชาญของ IBM จะทำการวินิจฉัยจากระยะไกลและติดต่อผู้ใช้ระบบ 

ด้วยเหตุนี้ ปัญหาจึงได้รับการแก้ไขอย่างรวดเร็วและได้รับคำแนะนำทันทีจากบริการสนับสนุนให้อัปเดตระบบของเราเป็นเฟิร์มแวร์ 8.2.1.9 ที่เลือกไว้ก่อนหน้านี้ ซึ่งในเวลานั้นได้รับการแก้ไขแล้ว มันยืนยัน บันทึกประจำรุ่นที่เกี่ยวข้อง.

ผลลัพธ์และคำแนะนำของเรา

ดังสุภาษิตที่ว่า “ทุกอย่างย่อมจบลงด้วยดี” จุดบกพร่องในเฟิร์มแวร์ไม่ได้ทำให้เกิดปัญหาร้ายแรง - เซิร์ฟเวอร์ได้รับการกู้คืนโดยเร็วที่สุดและไม่มีข้อมูลสูญหาย ไคลเอนต์บางรายต้องรีสตาร์ทเครื่องเสมือน แต่โดยทั่วไปแล้ว เราได้เตรียมพร้อมสำหรับผลเสียที่ตามมา เนื่องจากเราทำการสำรองข้อมูลรายวันขององค์ประกอบโครงสร้างพื้นฐานและเครื่องไคลเอนต์ทั้งหมด 

เราได้รับการยืนยันว่าแม้แต่ระบบที่เชื่อถือได้ซึ่งมีความพร้อมใช้งานตามสัญญา 99,9999% ยังต้องการการดูแลเอาใจใส่และการบำรุงรักษาอย่างทันท่วงที จากสถานการณ์ เราได้ข้อสรุปหลายประการสำหรับตัวเราเองและแบ่งปันคำแนะนำของเรา:

  • จำเป็นต้องตรวจสอบการเปิดตัวการอัปเดต ศึกษาบันทึกประจำรุ่นเพื่อแก้ไขปัญหาที่อาจสำคัญ และดำเนินการอัปเดตตามแผนในเวลาที่เหมาะสม

    นี่เป็นจุดขององค์กรและค่อนข้างชัดเจนซึ่งดูเหมือนจะไม่คุ้มค่าที่จะมุ่งเน้น อย่างไรก็ตาม ใน "ระดับพื้นดิน" นี้ คุณอาจสะดุดล้มได้ง่ายมาก จริงๆ แล้ว มันเป็นช่วงเวลาที่เพิ่มปัญหาที่อธิบายไว้ข้างต้น โปรดใช้ความระมัดระวังเป็นอย่างยิ่งเมื่อจัดทำกฎเกณฑ์การอัพเดตและติดตามการปฏิบัติตามกฎเกณฑ์เหล่านั้นอย่างระมัดระวังไม่น้อย ประเด็นนี้เกี่ยวข้องกับแนวคิดเรื่อง "วินัย" มากกว่า

  • จะดีกว่าเสมอถ้าจะเก็บระบบด้วยซอฟต์แวร์เวอร์ชันล่าสุด ยิ่งกว่านั้นอันปัจจุบันไม่ใช่อันที่มีการกำหนดตัวเลขที่ใหญ่กว่า แต่เป็นอันที่มีวันวางจำหน่ายในภายหลัง 

    ตัวอย่างเช่น IBM คอยอัปเดตซอฟต์แวร์อย่างน้อยสองรุ่นสำหรับระบบจัดเก็บข้อมูลของตน ในขณะที่เขียนบทความนี้คือ 8.2 และ 8.3 การอัปเดตสำหรับ 8.2 ออกมาก่อนหน้านี้ การอัปเดตที่คล้ายกันสำหรับ 8.3 มักจะปล่อยออกมาโดยมีความล่าช้าเล็กน้อย

    รีลีส 8.3 มีข้อดีด้านการทำงานหลายประการ เช่น ความสามารถในการขยาย MDisk (ในโหมด DRAID) โดยการเพิ่มดิสก์ใหม่อย่างน้อยหนึ่งดิสก์ (คุณลักษณะนี้ปรากฏตั้งแต่เวอร์ชัน 8.3.1) นี่เป็นฟังก์ชันที่ค่อนข้างพื้นฐาน แต่น่าเสียดายในเวอร์ชัน 8.2 ที่ไม่มีฟีเจอร์ดังกล่าว

  • หากไม่สามารถอัปเดตได้ด้วยเหตุผลบางประการ สำหรับซอฟต์แวร์ Spectrum Virtualize เวอร์ชันก่อนเวอร์ชัน 8.2.1.9 และ 8.3.1.0 (โดยที่ข้อบกพร่องที่อธิบายไว้ข้างต้นมีความเกี่ยวข้อง) เพื่อลดความเสี่ยงที่จะเกิดขึ้น ฝ่ายสนับสนุนด้านเทคนิคของ IBM แนะนำ การจำกัดประสิทธิภาพของระบบในระดับพูลดังแสดงในรูปด้านล่าง (รูปภาพนี้ถ่ายใน GUI เวอร์ชัน Russified) ค่า 10000 IOPS แสดงเป็นตัวอย่าง และเลือกตามคุณลักษณะของระบบของคุณ

เหตุใดการตรวจสอบความถูกต้องของซอฟต์แวร์ในพื้นที่จัดเก็บข้อมูลที่มีความพร้อมใช้งานสูงจึงมีความสำคัญ (99,9999%)การจำกัดประสิทธิภาพการจัดเก็บข้อมูลของ IBM

  • จำเป็นต้องคำนวณโหลดบนระบบจัดเก็บข้อมูลอย่างถูกต้องและหลีกเลี่ยงการโอเวอร์โหลด ในการดำเนินการนี้ คุณสามารถใช้ IBM sizer (หากคุณมีสิทธิ์เข้าถึง) หรือความช่วยเหลือจากคู่ค้า หรือทรัพยากรของบุคคลที่สาม จำเป็นต้องเข้าใจโปรไฟล์โหลดบนระบบจัดเก็บข้อมูลเนื่องจาก ประสิทธิภาพในหน่วย MB/s และ IOPS จะแตกต่างกันอย่างมาก ขึ้นอยู่กับพารามิเตอร์ต่อไปนี้เป็นอย่างน้อย:

    • ประเภทการทำงาน: อ่านหรือเขียน

    • ขนาดบล็อกการทำงาน

    • เปอร์เซ็นต์ของการดำเนินการอ่านและเขียนในสตรีม I/O ทั้งหมด

    นอกจากนี้ ความเร็วของการดำเนินการยังได้รับผลกระทบจากวิธีการอ่านบล็อกข้อมูล: ตามลำดับหรือแบบสุ่ม เมื่อดำเนินการเข้าถึงข้อมูลหลายรายการในฝั่งแอปพลิเคชัน จะมีแนวคิดของการดำเนินการที่ต้องพึ่งพา ขอแนะนำให้คำนึงถึงเรื่องนี้ด้วย ทั้งหมดนี้ช่วยให้เห็นข้อมูลทั้งหมดจากตัวนับประสิทธิภาพของระบบปฏิบัติการ ระบบจัดเก็บข้อมูล เซิร์ฟเวอร์/ไฮเปอร์ไวเซอร์ ตลอดจนความเข้าใจคุณสมบัติการทำงานของแอปพลิเคชัน DBMS และ “ผู้บริโภค” อื่นๆ ของทรัพยากรดิสก์

  • และสุดท้ายต้องแน่ใจว่ามีข้อมูลสำรองที่ทันสมัยและใช้งานได้ กำหนดการสำรองข้อมูลควรได้รับการกำหนดค่าตามค่า RPO ที่ยอมรับได้สำหรับธุรกิจ และการตรวจสอบความสมบูรณ์ของการสำรองข้อมูลเป็นระยะควรได้รับการตรวจสอบ (ผู้จำหน่ายซอฟต์แวร์สำรองข้อมูลไม่กี่รายมีการตรวจสอบอัตโนมัติในผลิตภัณฑ์ของตน) เพื่อให้มั่นใจว่าค่า RTO ที่ยอมรับได้

ขอบคุณที่อ่านจนจบ
เราพร้อมที่จะตอบคำถามและความคิดเห็นของคุณในความคิดเห็น อีกด้วย เราขอเชิญคุณสมัครรับข้อมูลช่องโทรเลขของเราซึ่งเราจัดโปรโมชั่นเป็นประจำ (ส่วนลดสำหรับ IaaS และการแจกของรางวัลสำหรับรหัสส่งเสริมการขายสูงถึง 100% บน VPS) เขียนข่าวที่น่าสนใจและประกาศบทความใหม่ในบล็อก Habr

ที่มา: will.com

เพิ่มความคิดเห็น