ความน่าเชื่อถือของหน่วยความจำแฟลช: คาดหวังและไม่คาดคิด ส่วนที่ 2 การประชุม XIV ของสมาคม USENIX เทคโนโลยีการจัดเก็บไฟล์

ความน่าเชื่อถือของหน่วยความจำแฟลช: คาดหวังและไม่คาดคิด ส่วนที่ 1 การประชุม XIV ของสมาคม USENIX เทคโนโลยีการจัดเก็บไฟล์

4.2.2. RBER และอายุดิสก์ (ไม่รวมรอบ PE)

รูปที่ 1 แสดงความสัมพันธ์ที่มีนัยสำคัญระหว่าง RBER และอายุ ซึ่งเป็นจำนวนเดือนที่ดิสก์อยู่ในสนาม อย่างไรก็ตาม นี่อาจเป็นความสัมพันธ์ปลอม เนื่องจากมีแนวโน้มว่าไดรฟ์รุ่นเก่าจะมี PE มากกว่า ดังนั้น RBER จึงสัมพันธ์กับวงจร PE มากกว่า

เพื่อกำจัดผลกระทบของอายุต่อการสึกหรอที่เกิดจากวงจร PE เราได้จัดกลุ่มการบริการทุกเดือนไว้ในคอนเทนเนอร์โดยใช้เดซิลของการกระจายวงจร PE เป็นตัวตัดระหว่างคอนเทนเนอร์ ตัวอย่างเช่น คอนเทนเนอร์แรกประกอบด้วยอายุการใช้งานดิสก์ทุกเดือนจนถึง เดไซล์แรกของการกระจายวัฏจักร PE และอื่นๆ เราตรวจสอบแล้วว่าภายในแต่ละคอนเทนเนอร์มีความสัมพันธ์ระหว่างวงจร PE และ RBER ค่อนข้างน้อย (เนื่องจากแต่ละคอนเทนเนอร์ครอบคลุมเฉพาะรอบ PE ช่วงเล็กๆ เท่านั้น) จากนั้นจึงคำนวณค่าสัมประสิทธิ์สหสัมพันธ์ระหว่าง RBER และอายุของดิสก์แยกกันสำหรับแต่ละคอนเทนเนอร์

เราทำการวิเคราะห์นี้แยกกันสำหรับแต่ละรุ่น เนื่องจากความสัมพันธ์ที่สังเกตได้ไม่ได้เกิดจากความแตกต่างระหว่างรุ่นที่อายุน้อยกว่าและรุ่นเก่า แต่เนื่องมาจากอายุของไดรฟ์ในรุ่นเดียวกันเท่านั้น เราสังเกตว่าแม้จะจำกัดผลกระทบของวงจร PE ในลักษณะที่อธิบายไว้ข้างต้นแล้ว สำหรับไดรฟ์ทุกรุ่น ยังคงมีความสัมพันธ์อย่างมีนัยสำคัญระหว่างจำนวนเดือนที่ไดรฟ์อยู่ในสนามและ RBER (ค่าสัมประสิทธิ์สหสัมพันธ์อยู่ระหว่าง 0,2 ถึง 0,4 ).

ความน่าเชื่อถือของหน่วยความจำแฟลช: คาดหวังและไม่คาดคิด ส่วนที่ 2 การประชุม XIV ของสมาคม USENIX เทคโนโลยีการจัดเก็บไฟล์
ข้าว. 3. ความสัมพันธ์ระหว่าง RBER และจำนวนรอบ PE สำหรับดิสก์ใหม่และเก่าแสดงให้เห็นว่าอายุของดิสก์ส่งผลต่อค่า RBER โดยไม่คำนึงถึงวงจร PE ที่เกิดจากการสึกหรอ

นอกจากนี้เรายังแสดงภาพผลกระทบของอายุของไดรฟ์แบบกราฟิกด้วยการแบ่งวันที่ใช้งานไดรฟ์เมื่ออายุ “น้อย” สูงสุด 1 ปี และวันที่ใช้งานไดรฟ์ที่มีอายุเกิน 4 ปี จากนั้นจึงวางแผน RBER ของแต่ละไดรฟ์ กลุ่มเทียบกับจำนวนรอบ PE รูปที่ 3 แสดงผลลัพธ์เหล่านี้สำหรับรุ่นไดรฟ์ MLC-D เราเห็นความแตกต่างที่เห็นได้ชัดเจนในค่า RBER ระหว่างกลุ่มดิสก์เก่าและใหม่ตลอดวงจร PE ทั้งหมด

จากนี้ เราสรุปได้ว่าอายุซึ่งวัดจากจำนวนวันที่ใช้งานดิสก์ในภาคสนาม มีผลกระทบอย่างมีนัยสำคัญต่อ RBER โดยไม่คำนึงถึงการสึกหรอของเซลล์หน่วยความจำเนื่องจากการสัมผัสกับวงจร PE ซึ่งหมายความว่าปัจจัยอื่นๆ เช่น อายุของซิลิคอน มีบทบาทสำคัญในการสึกหรอทางกายภาพของดิสก์

4.2.3. RBER และภาระงาน

คิดว่าข้อผิดพลาดบิตมีสาเหตุจากหนึ่งในสี่กลไก:

  1. ข้อผิดพลาดในการจัดเก็บ ข้อผิดพลาดในการเก็บรักษา เมื่อเซลล์หน่วยความจำสูญเสียข้อมูลเมื่อเวลาผ่านไป
    ข้อผิดพลาดในการอ่านรบกวน ซึ่งการดำเนินการอ่านสร้างความเสียหายให้กับเนื้อหาของเซลล์ที่อยู่ติดกัน
  2. ข้อผิดพลาดในการเขียนรบกวน ซึ่งการดำเนินการอ่านสร้างความเสียหายให้กับเนื้อหาของเซลล์ที่อยู่ติดกัน
  3. ข้อผิดพลาดในการลบที่ไม่สมบูรณ์ เมื่อการดำเนินการลบไม่ได้ลบเนื้อหาของเซลล์ทั้งหมด

ข้อผิดพลาดของสามประเภทสุดท้าย (รบกวนการอ่าน, รบกวนการเขียน, การลบที่ไม่สมบูรณ์) มีความสัมพันธ์กับปริมาณงาน ดังนั้นการทำความเข้าใจความสัมพันธ์ระหว่าง RBER และปริมาณงานช่วยให้เราเข้าใจความแพร่หลายของกลไกข้อผิดพลาดต่างๆ ในการศึกษาล่าสุด "การศึกษาขนาดใหญ่เกี่ยวกับความล้มเหลวของหน่วยความจำแฟลชในภาคสนาม" (MEZA, J., WU, Q., KUMAR, S., MUTLU, O. "การศึกษาขนาดใหญ่เกี่ยวกับความล้มเหลวของหน่วยความจำแฟลชใน ในการดำเนินการของการประชุมนานาชาติ ACM SIGMETRICS ปี 2015 ว่าด้วยการวัดและการสร้างแบบจำลองของระบบคอมพิวเตอร์ นิวยอร์ก ปี 2015 SIGMETRICS '15, ACM, หน้า 177–190) สรุปว่าข้อผิดพลาดในการจัดเก็บข้อมูลมีอิทธิพลเหนือกว่าในภาคสนาม ในขณะที่ข้อผิดพลาดในการอ่าน ค่อนข้างน้อย

รูปที่ 1 แสดงความสัมพันธ์ที่สำคัญระหว่างค่า RBER ในเดือนที่กำหนดของอายุการใช้งานดิสก์กับจำนวนการอ่าน เขียน และลบในเดือนเดียวกันสำหรับบางรุ่น (เช่น ค่าสัมประสิทธิ์สหสัมพันธ์สูงกว่า 0,2 สำหรับ MLC - B และสูงกว่า 0,6 สำหรับ SLC-B) อย่างไรก็ตาม อาจเป็นไปได้ว่านี่เป็นความสัมพันธ์ปลอม เนื่องจากปริมาณงานต่อเดือนอาจเกี่ยวข้องกับจำนวนรอบ PE ทั้งหมด

เราใช้วิธีการเดียวกันกับที่อธิบายไว้ในส่วนที่ 4.2.2 เพื่อแยกผลกระทบของปริมาณงานออกจากผลกระทบของวงจร PE โดยการแยกเดือนของการทำงานของไดรฟ์ตามรอบ PE ก่อนหน้า จากนั้นจึงกำหนดค่าสัมประสิทธิ์สหสัมพันธ์แยกกันสำหรับแต่ละคอนเทนเนอร์

เราเห็นว่าความสัมพันธ์ระหว่างจำนวนการอ่านในเดือนที่กำหนดของอายุการใช้งานดิสก์กับค่า RBER ในเดือนนั้นยังคงมีอยู่สำหรับรุ่น MLC-B และ SLC-B แม้ว่าจะจำกัดวงจร PE ก็ตาม นอกจากนี้เรายังทำการวิเคราะห์ที่คล้ายกันซ้ำโดยไม่รวมผลกระทบของการอ่านต่อจำนวนการเขียนและการลบพร้อมกัน และสรุปว่าความสัมพันธ์ระหว่าง RBER และจำนวนการอ่านถือเป็นจริงสำหรับโมเดล SLC-B

รูปที่ 1 ยังแสดงความสัมพันธ์ระหว่าง RBER กับการดำเนินการเขียนและลบ ดังนั้นเราจึงทำการวิเคราะห์แบบเดียวกันซ้ำสำหรับการดำเนินการอ่าน เขียน และลบ เราสรุปได้ว่าโดยการจำกัดผลกระทบของวงจร PE และการอ่าน จะไม่มีความสัมพันธ์ระหว่างค่า RBER กับจำนวนการเขียนและการลบ

ดังนั้นจึงมีหลายโมเดลดิสก์ที่ข้อผิดพลาดการละเมิดการอ่านมีผลกระทบอย่างมากต่อ RBER ในทางกลับกัน ไม่มีหลักฐานว่า RBER ได้รับผลกระทบจากข้อผิดพลาดการละเมิดการเขียนและข้อผิดพลาดในการลบที่ไม่สมบูรณ์

4.2.4 RBER และการพิมพ์หิน

ความแตกต่างของขนาดออบเจ็กต์อาจอธิบายความแตกต่างในค่า RBER ได้บางส่วนระหว่างไดรฟ์รุ่นต่างๆ ที่ใช้เทคโนโลยีเดียวกัน เช่น MLC หรือ SLC (ดูตารางที่ 1 สำหรับภาพรวมของการพิมพ์หินของแบบจำลองต่างๆ ที่รวมอยู่ในการศึกษานี้)

ตัวอย่างเช่น รุ่น SLC 2 รุ่นที่ใช้การพิมพ์หินขนาด 34 นาโนเมตร (รุ่น SLC-A และ SLC-D) มี RBER ที่มีลำดับความสำคัญสูงกว่ารุ่น 2 รุ่นที่ใช้การพิมพ์หินไมโครอิเล็กทรอนิกส์ขนาด 50 นาโนเมตร (รุ่น SLC-B และ SLC-C) ในกรณีของรุ่น MLC เฉพาะรุ่น 43 นาโนเมตร (MLC-B) เท่านั้นที่มีค่ามัธยฐาน RBER ซึ่งสูงกว่ารุ่นอื่นๆ 50 รุ่นที่ใช้การพิมพ์หิน 3 นาโนเมตรถึง 50% ยิ่งไปกว่านั้น ความแตกต่างของ RBER นี้จะเพิ่มขึ้น 4 เท่าเมื่อไดรฟ์เสื่อมสภาพ ดังแสดงในรูปที่ 2 สุดท้ายนี้ การพิมพ์หินที่บางลงอาจอธิบาย RBER ที่สูงขึ้นของไดรฟ์ eMLC เมื่อเปรียบเทียบกับไดรฟ์ MLC โดยรวมแล้ว เรามีหลักฐานที่ชัดเจนว่าการพิมพ์หินส่งผลต่อ RBER

4.2.5. การปรากฏตัวของข้อผิดพลาดอื่น ๆ

เราตรวจสอบความสัมพันธ์ระหว่าง RBER และข้อผิดพลาดประเภทอื่นๆ เช่น ข้อผิดพลาดที่ไม่สามารถแก้ไขได้ ข้อผิดพลาดการหมดเวลา ฯลฯ โดยเฉพาะอย่างยิ่ง ไม่ว่าค่า RBER จะสูงขึ้นหรือไม่หลังจากพบข้อผิดพลาดประเภทอื่นเป็นเวลาหนึ่งเดือน

รูปที่ 1 แสดงให้เห็นว่าในขณะที่ RBER ของเดือนก่อนคาดการณ์ค่า RBER ในอนาคต (ค่าสัมประสิทธิ์สหสัมพันธ์มากกว่า 0,8) แต่ก็ไม่มีความสัมพันธ์ที่มีนัยสำคัญระหว่างข้อผิดพลาดที่ไม่สามารถแก้ไขได้กับ RBER (กลุ่มรายการขวาสุดในรูปที่ 1) สำหรับข้อผิดพลาดประเภทอื่นๆ ค่าสัมประสิทธิ์สหสัมพันธ์จะต่ำกว่านี้อีก (ไม่แสดงในรูป) เราได้สำรวจความสัมพันธ์ระหว่าง RBER และข้อผิดพลาดที่ไม่สามารถแก้ไขได้เพิ่มเติมในหัวข้อ 5.2 ของบทความนี้

4.2.6. อิทธิพลของปัจจัยอื่นๆ

เราพบหลักฐานว่ามีปัจจัยที่ส่งผลกระทบอย่างมีนัยสำคัญต่อ RBER ซึ่งข้อมูลของเราไม่สามารถระบุได้ โดยเฉพาะอย่างยิ่ง เราสังเกตเห็นว่า RBER สำหรับดิสก์รุ่นที่กำหนดจะแตกต่างกันไปขึ้นอยู่กับคลัสเตอร์ที่ใช้งานดิสก์ ตัวอย่างที่ดีคือ รูปที่ 4 ซึ่งแสดง RBER เป็นฟังก์ชันของวงจร PE สำหรับไดรฟ์ MLC-D ในคลัสเตอร์ที่แตกต่างกันสามคลัสเตอร์ (เส้นประ) และเปรียบเทียบกับ RBER สำหรับรุ่นนี้โดยสัมพันธ์กับจำนวนไดรฟ์ทั้งหมด (เส้นทึบ) เราพบว่าความแตกต่างเหล่านี้ยังคงมีอยู่แม้ว่าเราจะจำกัดอิทธิพลของปัจจัยต่างๆ เช่น อายุของดิสก์หรือจำนวนการอ่านก็ตาม

คำอธิบายหนึ่งที่เป็นไปได้สำหรับสิ่งนี้คือความแตกต่างในประเภทปริมาณงานระหว่างคลัสเตอร์ เนื่องจากเราสังเกตว่าคลัสเตอร์ที่มีปริมาณงานมีอัตราส่วนการอ่าน/เขียนสูงสุดจะมี RBER สูงสุด

ความน่าเชื่อถือของหน่วยความจำแฟลช: คาดหวังและไม่คาดคิด ส่วนที่ 2 การประชุม XIV ของสมาคม USENIX เทคโนโลยีการจัดเก็บไฟล์
ข้าว. 4 ก) ข) ค่ามัธยฐาน RBER เป็นฟังก์ชันของวงจร PE สำหรับคลัสเตอร์ที่แตกต่างกันสามคลัสเตอร์ และการขึ้นต่อกันของอัตราส่วนการอ่าน/เขียนกับจำนวนรอบ PE สำหรับคลัสเตอร์ที่แตกต่างกันสามคลัสเตอร์

ตัวอย่างเช่น รูปที่ 4(b) แสดงอัตราส่วนการอ่าน/เขียนของคลัสเตอร์ที่แตกต่างกันสำหรับรุ่นไดรฟ์ MLC-D อย่างไรก็ตาม อัตราส่วนการอ่าน/เขียนไม่ได้อธิบายความแตกต่างระหว่างคลัสเตอร์สำหรับทุกรุ่น ดังนั้นอาจมีปัจจัยอื่นๆ ที่ข้อมูลของเราไม่ได้คำนึงถึง เช่น ปัจจัยด้านสิ่งแวดล้อมหรือพารามิเตอร์ภาระงานภายนอกอื่นๆ

4.3. RBER ระหว่างการทดสอบความทนทานแบบเร่ง

งานทางวิทยาศาสตร์ส่วนใหญ่ รวมถึงการทดสอบที่ดำเนินการเมื่อซื้อสื่อในระดับอุตสาหกรรม คาดการณ์ความน่าเชื่อถือของอุปกรณ์ในภาคสนามโดยพิจารณาจากผลการทดสอบความทนทานแบบเร่ง เราตัดสินใจว่าผลลัพธ์ของการทดสอบดังกล่าวสอดคล้องกับประสบการณ์จริงในการใช้งานสื่อจัดเก็บข้อมูลโซลิดสเตตได้ดีเพียงใด
การวิเคราะห์ผลการทดสอบที่ดำเนินการโดยใช้วิธีทดสอบแบบเร่งทั่วไปสำหรับอุปกรณ์ที่จัดหาให้กับศูนย์ข้อมูลของ Google แสดงให้เห็นว่าค่า RBER ของฟิลด์นั้นสูงกว่าที่คาดการณ์ไว้อย่างมาก ตัวอย่างเช่น สำหรับรุ่น eMLC-a ค่ามัธยฐาน RBER สำหรับดิสก์ที่ทำงานในภาคสนาม (เมื่อสิ้นสุดการทดสอบจำนวนรอบ PE ถึง 600) คือ 1e-05 ในขณะที่ตามผลการทดสอบเร่งเบื้องต้น RBER นี้ ค่าควรสอดคล้องกับรอบ PE มากกว่า 4000 รอบ สิ่งนี้บ่งชี้ว่าการคาดการณ์ค่า RBER ในภาคสนามอย่างแม่นยำเป็นเรื่องยากมาก โดยอิงจากการประมาณค่า RBER ที่ได้รับจากการทดสอบในห้องปฏิบัติการ

นอกจากนี้เรายังตั้งข้อสังเกตอีกว่าข้อผิดพลาดบางประเภทนั้นค่อนข้างยากที่จะทำซ้ำในระหว่างการทดสอบแบบเร่ง ตัวอย่างเช่น ในกรณีของรุ่น MLC-B เกือบ 60% ของไดรฟ์ในภาคสนามพบข้อผิดพลาดที่ไม่สามารถแก้ไขได้ และเกือบ 80% ของไดรฟ์มีการพัฒนาบล็อกที่เสียหาย อย่างไรก็ตาม ในระหว่างการทดสอบความทนทานแบบเร่งด่วน ไม่มีอุปกรณ์ใดในหกเครื่องที่ประสบกับข้อผิดพลาดที่ไม่สามารถแก้ไขได้จนกว่าไดรฟ์จะถึงขีดจำกัดวงจร PE มากกว่าสามเท่า สำหรับรุ่น eMLC ข้อผิดพลาดที่ไม่สามารถแก้ไขได้เกิดขึ้นในมากกว่า 80% ของไดรฟ์ในภาคสนาม ในขณะที่ในระหว่างการทดสอบแบบเร่งด่วน ข้อผิดพลาดดังกล่าวเกิดขึ้นหลังจากถึงรอบ PE 15000

นอกจากนี้เรายังดู RBER ที่รายงานในงานวิจัยก่อนหน้านี้ซึ่งอิงจากการทดลองในสภาพแวดล้อมที่มีการควบคุม และสรุปได้ว่าช่วงของค่านั้นกว้างมาก ตัวอย่างเช่น L.M. Grupp และบริษัทอื่นๆ ในรายงานการทำงานประจำปี 2009-2012 ค่า RBER สำหรับไดรฟ์ที่ใกล้ถึงขีดจำกัดวงจร PE ตัวอย่างเช่น สำหรับอุปกรณ์ SLC และ MLC ที่มีขนาดการพิมพ์หินคล้ายกับที่ใช้ในงานของเรา (25-50 นาโนเมตร) ค่า RBER จะอยู่ในช่วงตั้งแต่ 1e-08 ถึง 1e-03 โดยรุ่นไดรฟ์ส่วนใหญ่ที่ทดสอบแล้วมีค่า RBER ใกล้เคียงกับ 1e- 06.

ในการศึกษาของเรา ไดรฟ์ทั้งสามรุ่นที่ถึงขีดจำกัดวงจร PE มี RBER ตั้งแต่ 3e-08 ถึง 8e-08 แม้ว่าตัวเลขของเราจะมีขอบเขตต่ำกว่าและอาจมากกว่านั้นถึง 16 เท่าในกรณีที่แย่ที่สุด หรือเมื่อคำนึงถึงเปอร์เซ็นไทล์ที่ 95 ของ RBER แล้ว ค่าของเราก็ยังต่ำกว่าอย่างเห็นได้ชัด

โดยรวมแล้ว แม้ว่าค่า RBER ของสนามจริงจะสูงกว่าค่าที่คาดการณ์ไว้จากการทดสอบความทนทานแบบเร่ง แต่ค่า RBER ก็ยังคงต่ำกว่าค่า RBER ส่วนใหญ่สำหรับอุปกรณ์ที่คล้ายกันซึ่งรายงานในงานวิจัยอื่นๆ และคำนวณจากการทดสอบในห้องปฏิบัติการ ซึ่งหมายความว่าคุณไม่ควรพึ่งพาค่า RBER ของฟิลด์ที่คาดการณ์ไว้ซึ่งได้มาจากการทดสอบความทนทานแบบเร่ง

5. ข้อผิดพลาดที่ไม่สามารถแก้ไขได้

เนื่องจากข้อผิดพลาดที่ไม่สามารถแก้ไขได้ (UE) เกิดขึ้นอย่างกว้างขวาง ซึ่งได้มีการอภิปรายไว้ในส่วนที่ 3 ของบทความนี้ ในส่วนนี้เราจะสำรวจคุณลักษณะของข้อผิดพลาดเหล่านี้โดยละเอียดยิ่งขึ้น เราเริ่มต้นด้วยการพูดคุยกันว่าตัวชี้วัดใดที่จะใช้ในการวัด UE เกี่ยวข้องกับ RBER อย่างไร และ UE ได้รับผลกระทบจากปัจจัยต่างๆ อย่างไร

5.1. ทำไมอัตราส่วน UBER ถึงไม่สมเหตุสมผล

ตัวชี้วัดมาตรฐานที่แสดงข้อผิดพลาดที่ไม่สามารถแก้ไขได้คืออัตราข้อผิดพลาดบิตที่ไม่สามารถแก้ไขได้ของ UBER นั่นคืออัตราส่วนของจำนวนข้อผิดพลาดบิตที่ไม่สามารถแก้ไขได้ต่อจำนวนบิตทั้งหมดที่อ่าน

หน่วยวัดนี้ถือว่าโดยปริยายว่าจำนวนข้อผิดพลาดที่ไม่สามารถแก้ไขได้นั้นเชื่อมโยงกับจำนวนบิตที่อ่าน ดังนั้นจึงต้องทำให้เป็นมาตรฐานด้วยตัวเลขนี้

สมมติฐานนี้ใช้ได้กับข้อผิดพลาดที่แก้ไขได้ โดยพบว่าจำนวนข้อผิดพลาดที่พบในเดือนที่กำหนดมีความสัมพันธ์อย่างมากกับจำนวนการอ่านในช่วงเวลาเดียวกัน (ค่าสัมประสิทธิ์สหสัมพันธ์สเปียร์แมนมากกว่า 0.9) สาเหตุของความสัมพันธ์ที่แข็งแกร่งดังกล่าวก็คือ แม้แต่บิตที่ไม่ดีเพียงบิตเดียว ตราบใดที่สามารถแก้ไขได้โดยใช้ ECC จะยังคงเพิ่มจำนวนข้อผิดพลาดต่อไปในการดำเนินการอ่านแต่ละครั้งที่บิตนั้นเข้าถึงได้ เนื่องจากการประเมินเซลล์ที่มีบิตที่ไม่ดีนั้น ไม่ได้รับการแก้ไขทันทีเมื่อตรวจพบข้อผิดพลาด (ดิสก์จะเขียนซ้ำเพจด้วยบิตที่เสียหายเป็นระยะเท่านั้น)

สมมติฐานเดียวกันนี้ใช้ไม่ได้กับข้อผิดพลาดที่ไม่สามารถแก้ไขได้ ข้อผิดพลาดที่ไม่สามารถแก้ไขได้จะทำให้ไม่สามารถใช้งานบล็อกที่เสียหายต่อไปได้ ดังนั้นเมื่อตรวจพบแล้ว การบล็อกดังกล่าวจะไม่ส่งผลกระทบต่อจำนวนข้อผิดพลาดในอนาคต

เพื่อยืนยันสมมติฐานนี้อย่างเป็นทางการ เราใช้ตัวชี้วัดต่างๆ เพื่อวัดความสัมพันธ์ระหว่างจำนวนการอ่านในเดือนของอายุการใช้งานดิสก์และจำนวนข้อผิดพลาดที่ไม่สามารถแก้ไขได้ในช่วงเวลาเดียวกัน รวมถึงค่าสัมประสิทธิ์สหสัมพันธ์ต่างๆ (Pearson, Spearman, Kendall) ตลอดจนการตรวจสอบกราฟด้วยสายตา นอกเหนือจากจำนวนข้อผิดพลาดที่ไม่สามารถแก้ไขได้แล้ว เรายังพิจารณาความถี่ของเหตุการณ์ข้อผิดพลาดที่ไม่สามารถแก้ไขได้ (เช่น ความน่าจะเป็นที่ดิสก์จะมีเหตุการณ์ดังกล่าวอย่างน้อยหนึ่งเหตุการณ์ในช่วงเวลาที่กำหนด) และความสัมพันธ์ในการอ่านการดำเนินการ
เราไม่พบหลักฐานของความสัมพันธ์ระหว่างจำนวนการอ่านและจำนวนข้อผิดพลาดที่ไม่สามารถแก้ไขได้ สำหรับไดรฟ์ทุกรุ่น ค่าสัมประสิทธิ์สหสัมพันธ์ต่ำกว่า 0.02 และกราฟไม่แสดงการเพิ่มขึ้นของ UE เมื่อจำนวนการอ่านเพิ่มขึ้น

ในส่วนที่ 5.4 ของบทความนี้ เราจะอภิปรายว่าการดำเนินการเขียนและลบไม่มีความสัมพันธ์กับข้อผิดพลาดที่ไม่สามารถแก้ไขได้ ดังนั้นคำจำกัดความทางเลือกของ UBER ซึ่งได้รับการทำให้เป็นมาตรฐานด้วยการดำเนินการเขียนหรือลบแทนการดำเนินการอ่านจึงไม่มีความหมาย

ดังนั้นเราจึงสรุปได้ว่า UBER ไม่ใช่ตัวชี้วัดที่มีความหมาย ยกเว้นในกรณีที่ทดสอบในสภาพแวดล้อมที่มีการควบคุม ซึ่งผู้ทดลองเป็นผู้กำหนดจำนวนการอ่าน หากใช้ UBER เป็นตัวชี้วัดในระหว่างการทดสอบภาคสนาม มันจะลดอัตราข้อผิดพลาดปลอมสำหรับไดรฟ์ที่มีจำนวนการอ่านสูง และเพิ่มอัตราข้อผิดพลาดปลอมสำหรับไดรฟ์ที่มีจำนวนการอ่านต่ำ เนื่องจากข้อผิดพลาดที่ไม่สามารถแก้ไขได้เกิดขึ้นโดยไม่คำนึงถึงจำนวนการอ่าน

5.2. ข้อผิดพลาดที่ไม่สามารถแก้ไขได้และ RBER

ความเกี่ยวข้องของ RBER ได้รับการอธิบายโดยข้อเท็จจริงที่ว่า RBER ทำหน้าที่เป็นตัววัดในการพิจารณาความน่าเชื่อถือโดยรวมของไดรฟ์ โดยเฉพาะอย่างยิ่ง โดยพิจารณาจากโอกาสที่จะเกิดข้อผิดพลาดที่ไม่สามารถแก้ไขได้ ในงานของพวกเขา N. Mielke และคณะในปี 2008 เป็นคนแรกที่เสนอการกำหนดอัตราข้อผิดพลาดที่ไม่สามารถแก้ไขได้ที่คาดหวังโดยเป็นฟังก์ชันของ RBER ตั้งแต่นั้นมา นักพัฒนาระบบจำนวนมากได้ใช้วิธีการที่คล้ายกัน เช่น การประมาณอัตราข้อผิดพลาดที่ไม่สามารถแก้ไขได้ที่คาดหวังเป็นฟังก์ชันของประเภท RBER และ ECC

วัตถุประสงค์ของส่วนนี้คือเพื่อระบุว่า RBER คาดการณ์ข้อผิดพลาดที่ไม่สามารถแก้ไขได้ได้ดีเพียงใด เริ่มจากรูปที่ 5a ซึ่งพล็อตค่ามัธยฐาน RBER สำหรับไดรฟ์รุ่นแรกจำนวนหนึ่งเทียบกับเปอร์เซ็นต์ของวันที่ใช้งานซึ่งมีข้อผิดพลาด UE ที่ไม่สามารถแก้ไขได้ ควรสังเกตว่าแบบจำลองทั้ง 16 แบบที่แสดงในกราฟไม่รวมอยู่ในตารางที่ 1 เนื่องจากขาดข้อมูลเชิงวิเคราะห์

ความน่าเชื่อถือของหน่วยความจำแฟลช: คาดหวังและไม่คาดคิด ส่วนที่ 2 การประชุม XIV ของสมาคม USENIX เทคโนโลยีการจัดเก็บไฟล์
ข้าว. 5ก. ความสัมพันธ์ระหว่างค่ามัธยฐาน RBER และข้อผิดพลาดที่ไม่สามารถแก้ไขได้สำหรับไดรฟ์รุ่นต่างๆ

ความน่าเชื่อถือของหน่วยความจำแฟลช: คาดหวังและไม่คาดคิด ส่วนที่ 2 การประชุม XIV ของสมาคม USENIX เทคโนโลยีการจัดเก็บไฟล์
ข้าว. 5ข. ความสัมพันธ์ระหว่างค่ามัธยฐาน RBER และข้อผิดพลาดที่ไม่สามารถแก้ไขได้สำหรับไดรฟ์ที่แตกต่างกันในรุ่นเดียวกัน

โปรดทราบว่าโมเดลทั้งหมดภายในเจเนอเรชันเดียวกันใช้กลไก ECC เดียวกัน ดังนั้นความแตกต่างระหว่างโมเดลจึงไม่ขึ้นอยู่กับความแตกต่างของ ECC เราไม่เห็นความสัมพันธ์ระหว่างเหตุการณ์ RBER และ UE เราสร้างพล็อตเดียวกันสำหรับ RBER เปอร์เซ็นไทล์ที่ 95 เทียบกับความน่าจะเป็น UE และไม่พบความสัมพันธ์กันอีกครั้ง

ต่อไป เราทำการวิเคราะห์ซ้ำในระดับละเอียดสำหรับไดรฟ์แต่ละตัว เช่น เราพยายามค้นหาว่ามีไดรฟ์ที่ค่า RBER ที่สูงกว่าสอดคล้องกับความถี่ UE ที่สูงกว่าหรือไม่ ตามตัวอย่าง รูปที่ 5b พล็อตค่ามัธยฐาน RBER สำหรับแต่ละไดรฟ์ของโมเดล MLC-c เทียบกับจำนวน UE (ผลลัพธ์คล้ายกับผลลัพธ์ที่ได้รับสำหรับ RBER เปอร์เซ็นไทล์ที่ 95) ขอย้ำอีกครั้งว่าเราไม่เห็นความสัมพันธ์ใดๆ ระหว่าง RBER และ UE

สุดท้ายนี้ เราทำการวิเคราะห์เวลาที่แม่นยำยิ่งขึ้นเพื่อตรวจสอบว่าเดือนที่ใช้งานของไดรฟ์ที่มี RBER สูงกว่าจะสอดคล้องกับเดือนที่เกิด UE หรือไม่ รูปที่ 1 ได้ระบุแล้วว่าค่าสัมประสิทธิ์สหสัมพันธ์ระหว่างข้อผิดพลาดที่ไม่สามารถแก้ไขได้และ RBER ต่ำมาก นอกจากนี้เรายังทดลองด้วยวิธีต่างๆ ในการวางแผนความน่าจะเป็นของ UE ที่เป็นฟังก์ชันของ RBER และไม่พบหลักฐานที่แสดงถึงความสัมพันธ์กัน

ดังนั้นเราจึงสรุปได้ว่า RBER เป็นตัวชี้วัดที่ไม่น่าเชื่อถือในการทำนาย UE ซึ่งอาจหมายความว่ากลไกความล้มเหลวที่นำไปสู่ ​​RBER นั้นแตกต่างจากกลไกที่นำไปสู่ข้อผิดพลาดที่ไม่สามารถแก้ไขได้ (เช่น ข้อผิดพลาดที่มีอยู่ในเซลล์แต่ละเซลล์เทียบกับปัญหาใหญ่ที่เกิดขึ้นกับอุปกรณ์ทั้งหมด)

5.3. ข้อผิดพลาดที่ไม่สามารถแก้ไขได้และการสึกหรอ

เนื่องจากการสึกหรอเป็นหนึ่งในปัญหาหลักของหน่วยความจำแฟลช รูปที่ 6 แสดงความน่าจะเป็นรายวันของข้อผิดพลาดของไดรฟ์ที่ไม่สามารถแก้ไขได้ตามฟังก์ชันของวงจร PE

ความน่าเชื่อถือของหน่วยความจำแฟลช: คาดหวังและไม่คาดคิด ส่วนที่ 2 การประชุม XIV ของสมาคม USENIX เทคโนโลยีการจัดเก็บไฟล์
รูปที่ 6 ความน่าจะเป็นรายวันที่จะเกิดข้อผิดพลาดของไดรฟ์ที่ไม่สามารถแก้ไขได้ ขึ้นอยู่กับรอบ PE

เราทราบว่าความน่าจะเป็นของ UE จะเพิ่มขึ้นอย่างต่อเนื่องตามอายุของไดรฟ์ อย่างไรก็ตาม เช่นเดียวกับ RBER การเพิ่มขึ้นจะช้ากว่าที่คาดไว้: กราฟแสดงให้เห็นว่า UE เติบโตเป็นเส้นตรงมากกว่าแบบทวีคูณด้วยวงจร PE

ข้อสรุปสองประการที่เราทำกับ RBER ยังใช้กับ UE ได้ด้วย ประการแรก ไม่มีข้อผิดพลาดที่อาจเกิดขึ้นเพิ่มขึ้นอย่างชัดเจนเมื่อถึงขีดจำกัดวงจร PE เช่นในรูปที่ 6 สำหรับรุ่น MLC-D ซึ่งขีดจำกัดวงจร PE อยู่ที่ 3000 ประการที่สอง ประการที่สอง อัตราข้อผิดพลาดจะแตกต่างกันไปตามรุ่นต่างๆ แม้จะอยู่ในคลาสเดียวกันก็ตาม อย่างไรก็ตามความแตกต่างเหล่านี้ไม่ได้ใหญ่เท่ากับ RBER

สุดท้ายนี้ เพื่อสนับสนุนการค้นพบของเราในส่วน 5.2 เราพบว่าภายในคลาสโมเดลเดียว (MLC กับ SLC) โมเดลที่มีค่า RBER ต่ำที่สุดสำหรับจำนวนรอบ PE ที่กำหนด ไม่จำเป็นต้องเป็นโมเดลที่มีค่า RBER ต่ำที่สุด ความน่าจะเป็นของการเกิด UE ตัวอย่างเช่น รอบ PE มากกว่า 3000 รอบ โมเดล MLC-D มีค่า RBER ต่ำกว่ารุ่น MLC-B 4 เท่า แต่ความน่าจะเป็น UE สำหรับจำนวนรอบ PE เท่ากันนั้นสูงกว่าเล็กน้อยสำหรับรุ่น MLC-D มากกว่าสำหรับ MLC-B โมเดล

ความน่าเชื่อถือของหน่วยความจำแฟลช: คาดหวังและไม่คาดคิด ส่วนที่ 2 การประชุม XIV ของสมาคม USENIX เทคโนโลยีการจัดเก็บไฟล์
รูปที่ 7 ความน่าจะเป็นรายเดือนที่จะเกิดข้อผิดพลาดของไดรฟ์ที่ไม่สามารถแก้ไขได้โดยพิจารณาจากข้อผิดพลาดประเภทต่างๆ ก่อนหน้านี้

5.4. ข้อผิดพลาดและภาระงานที่ไม่สามารถแก้ไขได้

ด้วยเหตุผลเดียวกันกับที่ปริมาณงานอาจส่งผลต่อ RBER (ดูหัวข้อ 4.2.3) ก็คาดว่าจะส่งผลต่อ UE ได้เช่นกัน ตัวอย่างเช่น เนื่องจากเราสังเกตเห็นว่าข้อผิดพลาดการละเมิดการอ่านส่งผลต่อ RBER การดำเนินการอ่านอาจเพิ่มโอกาสที่จะเกิดข้อผิดพลาดที่ไม่สามารถแก้ไขได้ด้วย

เราทำการศึกษาโดยละเอียดเกี่ยวกับผลกระทบของภาระงานต่อ UE อย่างไรก็ตาม ตามที่ระบุไว้ในส่วน 5.1 เราไม่พบความสัมพันธ์ระหว่าง UE และจำนวนการอ่าน เราทำการวิเคราะห์แบบเดียวกันซ้ำสำหรับการดำเนินการเขียนและลบ และไม่เห็นความสัมพันธ์กันอีกครั้ง
โปรดทราบว่าเมื่อมองแวบแรก สิ่งนี้ดูเหมือนจะขัดแย้งกับข้อสังเกตก่อนหน้าของเราที่ว่าข้อผิดพลาดที่ไม่สามารถแก้ไขได้มีความสัมพันธ์กับวงจร PE ดังนั้น เราอาจคาดหวังความสัมพันธ์กับจำนวนการดำเนินการเขียนและลบ

อย่างไรก็ตาม ในการวิเคราะห์ผลกระทบของวงจร PE เราได้เปรียบเทียบจำนวนข้อผิดพลาดที่ไม่สามารถแก้ไขได้ในเดือนหนึ่งๆ กับจำนวนรอบ PE ทั้งหมดที่ไดรฟ์ประสบมาตลอดชีวิตจนถึงปัจจุบัน เพื่อวัดผลกระทบของการสึกหรอ เมื่อศึกษาผลกระทบของปริมาณงาน เราพิจารณาเดือนของการดำเนินการไดรฟ์ที่มีจำนวนการดำเนินการอ่าน/เขียน/ลบสูงสุดในเดือนใดเดือนหนึ่ง ซึ่งมีโอกาสสูงกว่าที่จะก่อให้เกิดข้อผิดพลาดที่ไม่สามารถแก้ไขได้ กล่าวคือ เราไม่ได้คำนึงถึง พิจารณาจำนวนการดำเนินการอ่าน/เขียน/ลบทั้งหมด การลบ

เป็นผลให้เราได้ข้อสรุปว่าข้อผิดพลาดในการอ่านการละเมิด ข้อผิดพลาดในการละเมิดการเขียน และข้อผิดพลาดในการลบที่ไม่สมบูรณ์ไม่ใช่ปัจจัยหลักในการพัฒนาข้อผิดพลาดที่ไม่สามารถแก้ไขได้

ขอบคุณที่อยู่กับเรา คุณชอบบทความของเราหรือไม่? ต้องการดูเนื้อหาที่น่าสนใจเพิ่มเติมหรือไม่ สนับสนุนเราโดยการสั่งซื้อหรือแนะนำให้เพื่อน ส่วนลด 30% สำหรับผู้ใช้ Habr ในอะนาล็อกที่ไม่ซ้ำใครของเซิร์ฟเวอร์ระดับเริ่มต้น ซึ่งเราคิดค้นขึ้นเพื่อคุณ: ความจริงทั้งหมดเกี่ยวกับ VPS (KVM) E5-2650 v4 (6 Cores) 10GB DDR4 240GB SSD 1Gbps จาก $20 หรือจะแชร์เซิร์ฟเวอร์ได้อย่างไร (ใช้ได้กับ RAID1 และ RAID10 สูงสุด 24 คอร์ และสูงสุด 40GB DDR4)

Dell R730xd ถูกกว่า 2 เท่า? ที่นี่ที่เดียวเท่านั้น 2 x Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 ทีวีจาก $199 ในเนเธอร์แลนด์! Dell R420 - 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB - จาก $99! อ่านเกี่ยวกับ วิธีสร้างบริษัทโครงสร้างพื้นฐาน ระดับด้วยการใช้เซิร์ฟเวอร์ Dell R730xd E5-2650 v4 มูลค่า 9000 ยูโรต่อเพนนี?

ที่มา: will.com

เพิ่มความคิดเห็น