Надійність Flash-пам'яті: очікуване та несподіване. Частина 2. XIV конференція асоціації USENIX. Технології зберігання файлів

Надійність Flash-пам'яті: очікуване та несподіване. Частина 1. XIV конференція асоціації USENIX. Технології зберігання файлів

4.2.2. RBER та вік дисків (без урахування циклів PE).

На малюнку 1 показана значна кореляція між RBER та віком, який дорівнює кількості місяців експлуатації диска в польових умовах. Однак це може бути хибною кореляцією, оскільки ймовірно, що старіші диски мають більшу кількість PE і тому RBER більшою мірою взаємопов'язаний із циклами PE.

Для того, щоб виключити вплив віку на зношування, викликаний циклами PE, ми згрупували всі місяці експлуатації в контейнери, використовуючи децилі розподілу циклу PE як відсічення між контейнерами, наприклад, перший контейнер містить всі місяці експлуатації диска до першого децилю розподілу циклу PE, і так далі. Ми перевірили, що всередині кожного контейнера кореляція між циклами PE та RBER досить незначна (оскільки кожен контейнер охоплює лише малий діапазон циклів PE), а потім обчислили коефіцієнт кореляції між RBER та віком диска окремо для кожного контейнера.

Ми проводили цей аналіз окремо для кожної моделі, тому що будь-які кореляції, що спостерігаються, обумовлені не відмінностями між молодшою ​​і старшою моделлю, а виключно віком дисків однієї і тієї ж моделі. Ми спостерігали, що навіть після обмеження ефекту впливу циклів PE описаним вище способом, для всіх моделей дисків все ще існувала значна кореляція між кількістю місяців експлуатації диска в польових умовах і його RBER (коефіцієнти кореляції мали значення від 0,2 до 0,4).

Надійність Flash-пам'яті: очікуване та несподіване. Частина 2. XIV конференція асоціації USENIX. Технології зберігання файлів
Мал. 3. Залежність між RBER та кількістю циклів PE для нових та старих дисків показує, що вік диска впливає на величину RBER незалежно від циклів PE, викликаних зносом.

Ми також графічно візуалізували вплив віку приводу шляхом поділу днів експлуатації диска в «молодому» віці до 1 року та днів експлуатації диска старше 4 років, після чого будували графіки залежності RBER кожної групи від кількості циклів PE. На малюнку 3 наведено ці результати для моделі приводу MLC-D. Ми бачимо помітну різницю значень коефіцієнта RBER між групами старих і нових дисків протягом всіх значень циклів PE.

Звідси ми зробили висновок, що вік, що вимірюється днями експлуатації дисків у польових умовах, значно впливає на RBER, незалежно від зносу осередків пам'яті внаслідок впливу циклів PE. Це означає, що велику роль у фізичному зносі диска відіграють інші причини, наприклад, старіння кремнію.

4.2.3. RBER та робоче навантаження.

Вважається, що бітові помилки викликані одним із чотирьох механізмів:

  1. помилки зберігання Retention errors, коли осередок пам'яті з часом втрачає дані
    помилки порушення читання Read disturb errors, у яких операція читання пошкоджує вміст сусіднього осередку;
  2. помилки порушення запису Write disturb errors, у яких операція читання пошкоджує вміст сусіднього осередку;
  3. помилки неповного стирання Incomplete erase errors, коли операція стирання не повністю видаляє вміст комірки.

Помилки, що стосуються останніх трьох типів (read disturb, write disturb, incomplete erase) корелюють з робочим навантаженням, тому розуміння кореляції між RBER і робочим навантаженням допомагають зрозуміти поширеність різних механізмів помилок. У нещодавньому дослідженні «Широкомасштабне вивчення збоїв флеш-пам'яті в польових умовах» (MEZA, J., WU, Q., KUMAR, S., MUTLU, O. «Висока освіта в flash memory failures in the field». In Proceedings of the 2015 ACM (SIGMETRICS International Conference on Measurement and Modeling of Computer Systems, New York, 2015, SIGMETRICS '15, ACM, стор. 177–190) зроблено висновок про те, що в польових умовах переважають помилки зберігання, в той час як помилки порушення читання досить незначні.

На малюнку 1 показана істотна залежність між значенням RBER у визначеному місяці експлуатації диска та кількістю операцій читання, запису та стирання в тому ж місяці для деяких моделей (наприклад, коефіцієнт кореляції вище 0,2 для моделі MLC - B і вище 0,6 для моделі SLC-B). Однак, можливо, це помилкова кореляція, оскільки місячне робоче навантаження може бути пов'язане із загальною кількістю циклів PE.

Ми використовували ту ж методику, що описана в розділі 4.2.2, для ізоляції наслідків робочого навантаження від впливу циклів PE шляхом відокремлення місяців експлуатації приводу, заснованих на попередніх циклах PE, а потім визначали коефіцієнти кореляції окремо для кожного контейнера.

Ми побачили, що кореляція між числом операцій читання в певному місяці експлуатації диска та значення RBER цього ж місяця зберігається для моделей MLC-B та SLC-B, навіть при обмеженні циклів PE. Ми також повторили аналогічний аналіз, де виключили ефект впливу операцій читання на кількість паралельних операцій запису та стирання, і дійшли висновку, що кореляція між RBER та числом операцій читання зберігається для моделі SLC-B.

На малюнку 1 також відображена кореляція між RBER і операціями запису та стирання, тому ми повторили той же аналіз для операцій читання, запису та стирання. Ми дійшли висновку, що при обмеженні впливу циклів PE та операцій читання, залежності між значенням RBER та кількістю операцій запису та стирання не існує.

Таким чином, існують моделі дисків, де помилки порушення читання значно впливають на RBER. З іншого боку, немає жодних доказів того, що на RBER впливають помилки порушення запису та помилки неповного стирання.

4.2.4 RBER та літографія.

Відмінності об'єктів можуть частково пояснити відмінності у значеннях RBER у моделей дисків, що використовують однакову технологію, тобто MLC або SLC. (див. Таблицю 1, де наведено огляд літографії різних моделей, що у цьому дослідженні).

Наприклад, 2 моделі SLC з літографією 34нм (моделі SLC-A і SLC-D) мають RBER, який набагато вище, ніж у 2-х моделей з мікроелектронною літографією 50 нм (моделі SLC-B і SLC-C). У випадку моделей MLC тільки модель 43нм (MLC-B) має медіанний RBER, який на 50% вище, ніж у 3-х інших моделей з літографією 50 нм. Більше того, ця різниця в RBER збільшується в 4 рази в міру зносу дисків, як показано на Рисунку 2. Нарешті, більш тонка літографія може пояснити вищий RBER у приводів eMLC у порівнянні з приводами MLC. Загалом ми отримали чіткі докази того, що літографія впливає на RBER.

4.2.5. Наявність інших помилок.

Ми досліджували взаємозв'язок між RBER та іншими видами помилок, наприклад, невиправними помилками, помилками тайм-ауту тощо, зокрема, чи стане значення RBER вище за місяць впливу інших типів помилок.

На Рисунку 1 показано, що в той час як значення RBER за попередній місяць дозволяє прогнозувати майбутні значення RBER (коефіцієнт кореляції вище 0,8) між невиправними помилками і RBER не існує істотної кореляції (крайня справа група елементів на рис.1). Для інших типів помилок коефіцієнт кореляції ще нижче (на малюнку не відображено). Ми продовжили дослідження взаємозв'язку між RBER та невиправними помилками у розділі 5.2 цієї статті.

4.2.6. Вплив інших факторів.

Ми знайшли докази того, що існують фактори, що значно впливають на RBER і які не змогли врахувати отримані нами дані. Зокрема, ми помітили, що RBER для конкретної моделі диска варіюється в залежності від кластера, в якому диск розгорнутий. Наочним прикладом є Рисунок 4, на якому показана залежність RBER від циклів PE для приводів моделі MLC-D у трьох різних кластерах (пунктирні лінії) та порівняння її з RBER для цієї моделі щодо загальної кількості дисків (суцільна лінія). Ми вважаємо, що ці відмінності зберігаються, навіть коли ми обмежуємо вплив таких факторів як вік диска або кількість операцій читання.

Одним з можливих пояснень цього фактора є відмінності типу робочого навантаження в різних кластерах, оскільки ми спостерігаємо, що кластери, робоче навантаження яких має найвищі коефіцієнти зчитування/запису, характеризуються найвищим RBER.

Надійність Flash-пам'яті: очікуване та несподіване. Частина 2. XIV конференція асоціації USENIX. Технології зберігання файлів
Мал. 4 а), b). Медіальні значення RBER в залежності від циклів РЕ за трьома різними кластерами і залежність коефіцієнта зчитування/запису від кількості циклів РЕ за трьома різними кластерами.

Наприклад, на малюнку 4 (b) показані коефіцієнти читання/запису різних кластерів для моделі приводу MLC-D. Однак співвідношення читання/запису не пояснює різницю між кластерами для всіх моделей, тому можуть бути й інші фактори, які наші дані не враховують, наприклад, фактори впливу навколишнього середовища або інші зовнішні параметри робочого навантаження.

4.3. Коефіцієнт RBER під час пришвидшених випробувань на довговічність.

Більшість наукових праць, а також тести, які проводяться при закупівлі носіїв у промислових масштабах, прогнозують надійність пристроїв у польових умовах на основі результатів прискорених випробувань на довговічність. Ми вирішили розібратися, наскільки результати таких тестів відповідають практичному досвіду експлуатації носіїв інформації.
Аналіз результатів випробувань, проведених за загальною методикою прискорених випробувань для обладнання, що поставляється в дата-центри Google, показав, що польові значення RBER значно вищі за прогнозовані. Наприклад, для моделі eMLC-a медіана RBER для дисків, що експлуатуються в польових умовах (на кінець випробувань кількість циклів PE досягала 600), склала 1e-05, у той час як за результатами попереднього прискореного тестування така величина RBER мала б відповідати більш ніж 4000 циклів PE. Це свідчить про те, що дуже складно точно передбачити значення RBER в польових умовах з урахуванням оцінок RBER, отриманих у результаті лабораторних тестів.

Ми також наголосили, що деякі типи помилок досить складно відтворити під час прискорених випробувань. Наприклад, у випадку моделі MLC-B, майже у 60% приводів у польових умовах виникають помилки, що не виправляються, і у майже 80% приводів з'являються пошкоджені блоки. Однак під час прискорених випробувань на довговічність у жодного з шести пристроїв не виникли будь-які невиправні помилки, поки диски не досягли більш ніж триразового перевищення ліміту циклів PE. Для моделей eMLC невиправні помилки в польових умовах виникли більше ніж у 80% дисків, у той час як при проведенні прискореного тестування такі помилки виникали після досягнення 15000 циклів PE.

Ми також розглянули RBER, що описується в попередній дослідницькій роботі, який ґрунтувався на експериментах у контрольованому середовищі, і дійшли висновку, що діапазон розкиду значень надзвичайно високий. Наприклад, Л.М. Груп та інші у своїх роботах 2009-2012 років вказують значення RBER для дисків, які близькі до досягнення граничних значень циклів PE. Наприклад, для пристроїв SLC і MLC з розміром літографії, аналогічної використовуваної в нашій роботі (25-50nm), значення RBER коливається від 1e-08 до 1e-03, причому для більшості моделей приводів, що випробовуються, значення RBER було близько до 1e-06.

У нашому дослідженні три моделі дисків, які досягли ліміту циклів PE, мали RBER у діапазоні від 3e-08 до 8e-08. Навіть беручи до уваги, що наші числа є нижніми межами і в абсолютно гіршому випадку можуть приймати значення в 16 разів більше, або беручи до уваги 95-й процентиль RBER, отримані нами значення однаково значно нижчі.

В цілому, в той час як реальні значення RBER в польових умовах вище прогнозних значень, заснованих на прискорених випробуваннях на довговічність, вони все ж таки нижчі, ніж більшість RBER для аналогічних пристроїв, про які повідомляється в інших дослідницьких роботах, і які обчислені на основі лабораторних тестів. Це означає, що не варто покладатися на прогнозні значення RBER у польових умовах, отриманих на основі результатів прискорених випробувань на довговічність.

5. Несправні помилки.

Враховуючи широке поширення помилок, що не виправляються (UE), які розглядалися в розділі 3 цієї статті, в даному розділі ми більш докладно вивчаємо їх характеристики. Ми починаємо з обговорення того, яку метрику використовувати для вимірювання UE, розглядаємо, який їхній зв'язок з RBER і як на UE впливають різні фактори.

5.1. Чому коефіцієнт UBER немає сенсу.

Стандартною метрикою, що характеризує помилки, що не виправляються, є коефіцієнт невиправлюваних бітових помилок UBER, тобто відношення числа невиправлюваних бітових помилок до загального числа прочитаних бітів.

Ця метрика неявно припускає, що число помилок, що не виправляються, якимось чином прив'язано до прочитаних бітів, а значить, повинно бути нормалізовано цим числом.

Дане припущення справедливе для помилок, що виправляються, де виявляється, що кількість помилок, що спостерігаються в даний місяць, сильно корелює з кількістю операцій читання за той же період часу (коефіцієнт кореляції Спірмена більше 0.9). Причина такої сильної кореляції в тому, що навіть один пошкоджений біт, поки він виправляємо за допомогою ECC, продовжуватиме збільшувати кількість помилок з кожною зверненою до нього операцією зчитування, оскільки оцінка осередку, що містить пошкоджений біт, не виправляється негайно при виявленні помилки (диски лише періодично переписують сторінки із пошкодженими бітами).

Те ж саме припущення не працює щодо помилок, що не виправляються. Несправна помилка виключає подальше використання пошкодженого блоку, тому виявлений одного разу, такий блок надалі не впливатиме на кількість помилок.

Для офіційного підтвердження цього припущення ми використовували різні метрики для вимірювання відносин між числом операцій читання в даному місяці експлуатації диска і числом невиправних помилок за той же період часу, у тому числі різні коефіцієнти кореляції (Пірсона, Спірмена, Кендалла), а також візуальне вивчення графіків . На додаток до кількості помилок, що не виправляються, ми також розглянули частоту інцидентів з несправними помилками (наприклад, ймовірність того, що диск матиме принаймні один такий інцидент протягом певного періоду часу) і їх зв'язок з операціями читання.
Ми не знайшли доказів кореляції між кількістю зчитувань та кількістю невиправних помилок. Для всіх моделей приводів коефіцієнти кореляції були нижчими за 0.02, і графіки не показали ніякого збільшення UE при зростанні числа операцій читання.

У розділі 5.4 цієї статті ми розглядаємо, що операції запису та стирання також не мають жодного зв'язку з помилками, що не виправляються, тому альтернативне визначення UBER, яке нормалізується операціями запису або стирання замість операцій зчитування, не має жодного значення.

Тому ми робимо висновок, що UBER не є значною метрикою, за винятком, можливо, тестування в контрольованих середовищах, де кількість операцій зчитування задається експериментатором. Якщо ж UBER використовується як метрика під час польових випробувань, він штучно знижуватиме частоту помилок для дисків з високим числом зчитувань і штучно завищуватиме таку частоту для дисків з низьким числом зчитувань, оскільки несправні помилки відбуваються незалежно від кількості операцій зчитування.

5.2. Несправні помилки і RBER.

Актуальність RBER зрозуміла тим, що він є мірою визначення загальної надійності приводу, зокрема, виходячи з ймовірності виникнення помилок, що не виправляються. У своїй роботі М. Мієлке та інші у 2008 році першими запропонували визначати очікувану частоту невиправних помилок як функцію RBER. З того часу багато системних розробників використовували аналогічні методи, наприклад, оцінку очікуваної частоти помилок, що не виправляються в залежності від RBER і типу ECC.

Мета цього розділу - охарактеризувати, наскільки добре RBER прогнозує помилки, що не виправляються. Почнемо з Рисунка 5а, на якому наведені графіки медіанного значення RBER для ряду моделей приводів першого покоління, щодо частки їх експлуатації, протягом яких виникали помилки UE, що не виправляються. Слід врахувати, що деякі з 16 моделей, наведених на графіку, відсутні в Таблиці 1 через брак аналітичної інформації.

Надійність Flash-пам'яті: очікуване та несподіване. Частина 2. XIV конференція асоціації USENIX. Технології зберігання файлів
Мал. 5а. Взаємозв'язок медіанного RBER з помилками, що не виправляються, для різних моделей приводів.

Надійність Flash-пам'яті: очікуване та несподіване. Частина 2. XIV конференція асоціації USENIX. Технології зберігання файлів
Мал. 5b. Взаємозв'язок медіанного RBER з помилками, що не виправляються, для різних приводів однієї і тієї ж моделі.

Нагадаємо, що всі моделі в рамках одного покоління використовують однаковий механізм ECC, тому відмінності між моделями не залежать від відмінностей ECC. Ми не побачили кореляції між RBER та інцидентами UE. Ми створили такий самий графік для 95-го процентиля RBER у порівнянні з ймовірністю UE і знову не побачили жодної кореляції.

Далі ми повторили аналіз при деталізації окремих дисків, тобто спробували з'ясувати, чи існують диски, де вищому значенню RBER відповідає вища частота UE. Як приклад на Малюнку 5b наводяться графіки медіанного значення RBER для кожного приводу моделі MLC-c у порівнянні з кількістю UE (результати аналогічні отриманим для 95-го відсотка RBER). Знову ж таки, ми не побачили ніякої кореляції між RBER та UE.

Нарешті, ми виконали точніший тимчасовий аналіз для з'ясування, чи будуть місяці експлуатації приводів з вищим RBER відповідати місяцям, протягом яких виникали UE. На Рисунку 1 вже вказувалося, що коефіцієнт кореляції між помилками, що не виправляються, і RBER дуже низький. Ми також експериментували з різними способами побудови графіків ймовірності UE як функції RBER та не знайшли жодних ознак кореляції.

Таким чином, ми дійшли висновку, що RBER є ненадійним показником прогнозування UE. Це може означати, що механізми збоїв, що призводять до RBER, відрізняються від механізмів, що призводять до виникнення помилок, що не виправляються (наприклад, помилки, що містяться в окремих осередках, проти більших проблем, що виникають з цілим пристроєм).

5.3. Несправні помилки та знос.

Оскільки знос є однією з основних проблем флеш-пам'яті, на Малюнку 6 показана добова ймовірність виникнення помилок приводу, що не виправляються, в залежності від циклів PE.

Надійність Flash-пам'яті: очікуване та несподіване. Частина 2. XIV конференція асоціації USENIX. Технології зберігання файлів
Рис 6. Добова ймовірність виникнення помилок приводу, що не виправляються, залежно від циклів PE.

Ми відзначаємо, що ймовірність UE постійно збільшується з віком приводу. Однак, як і у випадку з RBER, збільшення відбувається повільніше, ніж зазвичай передбачається: графіки показують, що UE ростуть з циклами PE лінійно, а не експоненційно.

Два висновки, які ми зробили для RBER, також застосовуються до UE: по-перше, немає чіткого збільшення можливості помилок після досягнення граничної кількості циклів PE, наприклад, на Рисунку 6 для моделі MLC-D, чий ліміт циклів PE дорівнює 3000. по-друге, частота виникнення помилок варіюється в різних моделей навіть усередині одного класу. Тим не менш, ці відмінності не такі великі, як RBER.

Нарешті, на підтвердження наших висновків, наведених у розділі 5.2, ми виявили, що в межах одного класу моделей (MLC проти SLC) моделі з найнижчими значеннями RBER для даної кількості циклів PE не обов'язково ті, що мають найнижчу ймовірність виникнення UE. Наприклад, за 3000 циклів PE приводи моделі MLC-D мали значення RBER у 4 рази нижчі, ніж моделі MLC-B, проте ймовірність UE при однаковій кількості циклів PE у моделей MLC-D була трохи вищою, ніж у моделей MLC-B.

Надійність Flash-пам'яті: очікуване та несподіване. Частина 2. XIV конференція асоціації USENIX. Технології зберігання файлів
Рис 7. Місячна ймовірність виникнення помилок приводу, що не виправляються, як функція залежності від наявності попередніх помилок різного типу.

5.4. Несправні помилки та робоче навантаження.

З тих же причин, з яких робоче навантаження може вплинути на RBER (див. розділ 4.2.3), можна очікувати, що воно також вплине і на UE. Наприклад, оскільки ми спостерігали, що помилки порушення читання впливають на RBER, то операції читання також можуть збільшити ймовірність помилок, що не виправляються.

Ми провели детальне дослідження впливу робочого навантаження на UE. Однак, як зазначалося у розділі 5.1, ми не знайшли взаємозв'язку між UE та кількістю операцій читання. Ми повторили той же аналіз для операцій запису та стирання і знову не побачили жодної кореляції.
Зверніть увагу, що на перший погляд, тут можна побачити протиріччя нашому попередньому спостереженню, згідно з яким помилки, що виправляються, корелюють з циклами PE. Отже, цілком можна було б очікувати і кореляцію з кількістю операцій запису та стирання.

Однак у нашому аналізі впливу циклів PE ми порівнювали кількість помилок, що не виправляються, за даний місяць з підсумковою кількістю циклів PE, який привід випробував протягом усього свого життя на даний момент для того, щоб виміряти ефект зносу. Вивчаючи вплив робочого навантаження, ми розглядали місяці експлуатації приводу, протягом яких відбувалася найбільша кількість операцій читання / запису / стирання в певний місяць, який також мав більш високий шанс виникнення помилок, що не виправляються, тобто не враховували сумарну кількість операцій читання / запису / стирання.

В результаті ми дійшли висновку, що помилки порушення читання, помилки порушення запису та помилки неповного стирання не є основними факторами розвитку помилок, що не виправляються.

Дякую, що залишаєтеся з нами. Вам подобаються наші статті? Бажаєте бачити більше цікавих матеріалів? Підтримайте нас, оформивши замовлення або порекомендувавши знайомим, 30% знижка для користувачів Хабра на унікальний аналог entry-level серверів, який був винайдений нами для Вас: Вся правда про VPS (KVM) E5-2650 v4 (6 Cores) 10GB DDR4 240GB SSD 1Gbps від $20 чи як правильно ділити сервер? (Доступні варіанти з RAID1 і RAID10, до 24 ядер і до 40GB DDR4).

Dell R730xd у 2 рази дешевше? Тільки в нас 2 х Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 ТБ від $199 у Нідерландах! Dell R420 – 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB – від $99! Читайте про те Як побудувати інфраструктуру корп. класу із застосуванням серверів Dell R730xd Е5-2650 v4 вартістю 9000 євро за копійки?

Джерело: habr.com

Додати коментар або відгук