Трохи про SMART та утиліти для моніторингу

У мережі досить багато інформації про SMART та значення атрибутів. Але мені не зустрічалися згадки про кілька важливих моментів, про які я знаю від людей, які займаються дослідженням носіїв інформації.

Коли я вкотре розповідав знайомому про те, чому показанням SMART не слід беззастережно вірити і чому краще не використовувати класичні «моніторилки СМАРТу» постійно, спала на думку ідея записати сказані слова у вигляді набору тез із поясненнями. Щоб давати посилання, замість того, щоб щоразу переказувати. І для ознайомлення широкої аудиторії.

1) Програми для автоматичного моніторингу атрибутів SMART слід користуватися з великою обережністю.

Те, що ви знаєте як атрибути SMART, не зберігається в готовому вигляді, а генерується в той момент, коли ви їх запитуєте. Обчислюються вони на основі внутрішньої статистики, що накопичується та використовується мікропрограмою накопичувача в процесі роботи.

Частина даних пристрою для забезпечення основного функціоналу не потрібна. І вона не зберігається, а формується щоразу, коли потрібно. Тому, коли відбувається запит атрибутів SMART, мікропрограма запускає велику кількість процесів, які потрібні для отримання даних, що відсутні.

Але ці процеси погано сумісні з процедурами, які виконуються під час навантаження накопичувача операціями читання-запису.

В ідеальному світі, це не мало б призводити до будь-яких проблем. Але насправді прошивки жорстких дисків пишуть звичайні люди. Які можуть помилятися та помиляються. Тому якщо ви запитуєте атрибути SMART під час активного виконання пристроєм операцій читання-запису, то різко зростає ймовірність того, що щось піде не так. Наприклад, будуть пошкоджені дані в буфері читання або запису.

Твердження про зростання ризиків - це не теоретичний висновок, а практичне спостереження. Наприклад, відомий баг, який мав місце в прошивці HDD Samsung 103UI, де в процесі виконання запиту атрибутів SMART, пошкоджувалися дані користувача.

Тому не налаштовуйте автоматичну перевірку атрибутів SMART. Якщо тільки точно не знаєте, що подається команда скидання кеша (Flush Cache). Або якщо без цього не обійтися, налаштовуйте виконання перевірки дуже рідко. У багатьох програмах моніторингу, налаштований за замовчуванням час між перевірками — близько 10 хвилин. Це дуже часто. Все одно такі перевірки панацеєю від несподіваного виходу диска з ладу не є (панацея лише резервування). Раз на добу вважаю цілком достатнім.

Запит температури до запуску процесів обчислення атрибутів не призводить та може виконуватися часто. Оскільки за правильної реалізації це виконується через протокол SCT. Через SCT віддається лише те, що відомо. Ці дані автоматично оновлюються у фоновому режимі.

2) Дані атрибутів SMART часто недостовірні.

Мікропрограма жорсткого диска показує вам те, що вважає за потрібне показати, а не те, що насправді відбувається. Найбільш наочний приклад, це 5й атрибут, кількість перепризначених секторів. Фахівцям з відновлення даних добре відомо, що жорсткий диск може у п'ятому атрибуті показувати нульову кількість реалокейтів, при тому що вони є і продовжують з'являтися.

Я поставив запитання фахівцеві, що вивчає жорсткі диски та досліджує їх мікропрограми. Поцікавився, який принцип, за яким прошивка пристрою вирішує, що зараз треба приховувати факт перепризначення секторів, а зараз можна розповідати про це через атрибути SMART.

Він відповів, що загального правила, згідно з яким пристрої показують чи приховують реальну картину, не існує. І логіка програмістів, які пишуть прошивки жорстких дисків, часом дуже дивно. Вивчаючи прошивки різних моделей він побачив, що найчастіше рішення «приховати чи показати» приймається на основі набору параметрів, які взагалі незрозуміло як пов'язані між собою та з залишковим ресурсом жорсткого диска.

3) Інтерпретація показників SMART вендор-специфічна.

Наприклад, на Сігейтах не варто звертати увагу на «погані» raw значення атрибутів 1 і 7, поки решта в нормі. На дисках цього виробника їх абсолютні значення можуть збільшуватися в процесі нормальної експлуатації.

Трохи про SMART та утиліти для моніторингу

Для оцінки стану та залишкового ресурсу жорсткого диска, в першу чергу рекомендується звертати увагу на параметри 5, 196, 197, 198. Причому орієнтуватися має сенс саме на абсолютні, сирі значення (raw), а не на наведені. Приведення атрибутів може виконуватися неочевидними способами, різними у різних алгоритмах та прошивках.

Взагалі, серед фахівців з носіїв інформації, коли говорять про значення атрибута, зазвичай мається на увазі саме абсолютне значення.

Джерело: habr.com

Додати коментар або відгук