Um pouco sobre SMART e utilitários de monitoramento

Há muita informação na Internet sobre SMART e valores de atributos. Mas não encontrei nenhuma menção a vários pontos importantes que conheço de pessoas envolvidas no estudo de mídias de armazenamento.

Quando eu estava mais uma vez contando a um amigo sobre por que as leituras SMART não deveriam ser confiáveis ​​​​incondicionalmente e por que é melhor não usar os clássicos “monitores SMART” o tempo todo, surgiu-me a ideia de escrever as palavras faladas na forma de um conjunto de teses com explicações. Fornecer links em vez de recontar todas as vezes. E torná-lo disponível para um público mais amplo.

1) Programas de monitoramento automático de atributos SMART devem ser utilizados com muita cautela.

O que você conhece como atributos SMART não são armazenados prontos, mas gerados no momento em que você os solicita. Eles são calculados com base em estatísticas internas acumuladas e utilizadas pelo firmware do drive durante a operação.

O dispositivo não precisa de alguns desses dados para fornecer funcionalidade básica. E não é armazenado, mas gerado sempre que necessário. Portanto, quando ocorre uma solicitação de atributos SMART, o firmware inicia um grande número de processos necessários para obter os dados ausentes.

Mas esses processos são pouco compatíveis com os procedimentos executados quando a unidade é carregada com operações de leitura e gravação.

Num mundo ideal, isso não deveria causar problemas. Mas, na realidade, o firmware do disco rígido é escrito por pessoas comuns. Quem pode e comete erros. Portanto, se você consultar atributos SMART enquanto o dispositivo estiver executando ativamente operações de leitura e gravação, a probabilidade de algo dar errado aumenta drasticamente. Por exemplo, os dados no buffer de leitura ou gravação do usuário serão corrompidos.

A afirmação sobre riscos crescentes não é uma conclusão teórica, mas uma observação prática. Por exemplo, existe um bug conhecido que ocorreu no firmware do HDD Samsung 103UI, onde os dados do usuário foram danificados durante o processo de solicitação de atributos SMART.

Portanto, não configure a verificação automática de atributos SMART. A menos que você tenha certeza de que o comando de liberação de cache (Flush Cache) foi emitido antes disso. Ou, se você não puder ficar sem ele, configure a verificação para ser executada o mais raramente possível. Em muitos programas de monitoramento, o tempo padrão entre verificações é de cerca de 10 minutos. Isso é muito comum. Mesmo assim, essas verificações não são uma panacéia para falhas inesperadas de disco (uma panacéia é apenas backup). Uma vez por dia – acho que é o suficiente.

A consulta de temperatura não aciona processos de cálculo de atributos e pode ser executada com frequência. Porque quando implementado corretamente, isso é feito através do protocolo SCT. Através da SCT, apenas o que já é conhecido é doado. Esses dados são atualizados automaticamente em segundo plano.

2) Os dados de atributos SMART muitas vezes não são confiáveis.

O firmware do disco rígido mostra o que acha que deveria mostrar, não o que realmente está acontecendo. O exemplo mais óbvio é o 5º atributo, o número de setores reatribuídos. Os especialistas em recuperação de dados estão bem cientes de que um disco rígido pode apresentar um número zero de realocações no quinto atributo, mesmo que elas existam e continuem a aparecer.

Fiz uma pergunta a um especialista que estuda discos rígidos e examina seu firmware. Perguntei qual é o princípio pelo qual o firmware do dispositivo decide que agora é necessário ocultar o fato da reatribuição do setor, mas agora você pode falar sobre isso através dos atributos SMART.

Ele respondeu que não existe uma regra geral segundo a qual os dispositivos mostram ou ocultam a imagem real. E a lógica dos programadores que escrevem firmware para discos rígidos às vezes parece muito estranha. Estudando o firmware de diferentes modelos, ele viu que muitas vezes a decisão de “ocultar ou mostrar” é tomada com base em um conjunto de parâmetros que geralmente não são claros como eles estão relacionados entre si e com o recurso restante do disco rígido.

3) A interpretação dos indicadores SMART é específica do fornecedor.

Por exemplo, na Seagates você não deve prestar atenção aos valores brutos “ruins” dos atributos 1 e 7, desde que o restante seja normal. Nos discos deste fabricante, seus valores absolutos podem aumentar durante o uso normal.

Um pouco sobre SMART e utilitários de monitoramento

Para avaliar a condição e a vida útil restante do disco rígido, é recomendável, em primeiro lugar, prestar atenção aos parâmetros 5, 196, 197, 198. Além disso, faz sentido focar em valores absolutos e brutos, e não nos dados. . A coerção de atributos pode ser realizada de maneiras não óbvias, diferentes em diferentes algoritmos e firmware.

Em geral, entre os especialistas em armazenamento de dados, quando falam sobre o valor de um atributo, geralmente se referem ao valor absoluto.

Fonte: habr.com

Adicionar um comentário