Tutorial

Perguntas simples: O que é o SMART e o que ele faz?

Muitos de nós experimentaram uma falha no disco rígido; alguns de nós tentaram descobrir mais sobre a confiabilidade dos discos rígidos e sua função de previsão profundamente oculta que faz parte de uma tecnologia chamada SMART. Pode-se argumentar que o SMART não é tão confiável quanto não prevê falhas em todos os casos. Esse fato é parcialmente verdadeiro, mas o funcionamento interno real desse sistema de automonitoramento não é tão simples. Então, vamos tentar remediar essa situação incerta e examinar como a SMART realmente funciona. Vamos começar:

SMART - Um pouco de história

A SMART, às vezes escrita como SMART (tecnologia de automonitoramento, análise e geração de relatórios), é um sistema que monitora as informações internas da sua unidade. Ele foi desenvolvido a partir do ano de 1992 e agora está incluído em todos os discos rígidos IDE (IDE) e Serial ATA (HDDs) modernos. Claro, é um recurso presente também em unidades de estado sólido (SSDs).

Sua história abrange uma matriz de nomes como Predictive Failure Analysis ou IntelliSafe e entrada de todos os principais fabricantes de discos rígidos: IBM, Seagate, Quantum, Western Digital. Finalmente, sua documentação é apresentada pela primeira vez em 2004 dentro do padrão Parallel ATA e recebeu revisões regulares até 2008.

Sua criação foi baseada na necessidade de monitorar o status de um disco e ele supostamente lhe dirá se o disco rígido está prestes a morrer. Embora você possa pensar que a SMART irá adivinhar magicamente se a unidade é saudável, na verdade, ela mostra uma série de variáveis cujo número e tipo variam de unidade para unidade, que são indicadores de sua confiabilidade. Para obter uma lista completa de atributos, há cerca de 50 deles (por exemplo, taxa de erro de leitura bruta, tempo de aceleração, erros incorrigíveis relatados, poder no tempo, contagem do ciclo de carregamento, etc.), que podem ser acessados aqui.

Além de algumas tentativas singulares (Google, Backblaze), a maioria dos dados SMART não está documentada. O sistema fornece uma grande quantidade de dados internos, mas há muitas inconsistências nas estatísticas, principalmente porque muitos dos fabricantes de discos rígidos usam diferentes definições e medidas. Por exemplo, alguns fabricantes armazenam energia em horas e horas, enquanto outros medem em minutos ou segundos. Além disso, nenhum deles tenta explicar quais dos vários atributos ou variáveis merecem a nossa atenção, fazendo-nos afogar em dados.

Antes de tentar entender qual dos atributos é relevante, primeiro temos que diferenciar entre os principais tipos de falhas: previsíveis e não previsíveis. O primeiro tipo inclui as falhas que aparecem no tempo e que são causadas por mecânicas de disco defeituosas ou danos na superfície do disco. Os problemas pioram com o tempo e o disco acabará por falhar. Falhas não previsíveis são causadas por eventos repentinos, dos quais podemos mencionar, por exemplo, surtos repentinos de energia.

OBSERVAÇÃO: É importante entender que o SMART só pode ajudá-lo a detectar falhas previsíveis.

Atributos importantes do SMART

O status de integridade do disco rígido é constantemente monitorado pelo uso de vários sensores. Os valores são medidos pelo uso de algoritmos típicos e, em seguida, os atributos correspondentes são ajustados de acordo com os resultados.

Em qualquer programa de monitoramento que você usará, todos os atributos SMART terão estes campos:

Identificador: a definição do atributo. Geralmente tem um significado padrão e é marcado com um número entre 1 e 250 (por exemplo, 9 é Contagem de Energia). Ainda assim, todas as ferramentas de monitoramento e teste de disco fornecem o nome e uma descrição textual do atributo.
Limite: o valor mínimo para o atributo. Se esse valor for atingido, o disco rígido está prestes a falhar.
Valor: valor atual do atributo. O algoritmo calcula esse número com base nos dados brutos. Um novo disco rígido terá um número alto, o máximo teórico (100, 200 ou 253, dependendo do fabricante), que diminuirá durante a vida útil do disco rígido.
Pior: o menor valor do atributo já registrado.
Dados: valores brutos medidos fornecidos por um sensor ou um contador. Esses são os dados usados pelo algoritmo projetado pelo fabricante do HDD. Seu conteúdo depende do atributo e do criador do disco rígido. Usuários regulares devem pular este aqui.
Bandeiras: o objetivo do atributo. Isso geralmente é definido pelo fabricante e, portanto, varia de disco para disco. Cada um dos atributos é crítico e pode prever uma falha iminente (por exemplo, ID 5 setores realocados) ou estatística sem efeito direto no status (por exemplo, ID 174, perda inesperada de energia).

NOTA: Lembre-se sempre, ao tentar entender o status de qualquer atributo SMART, verifique os valores desses três campos: valor, limite e sinalizadores. Lembre-se também que valores menores são uma indicação de uma diminuição na confiabilidade.

A temperatura do disco é um parâmetro altamente debatido. Ainda assim, considera-se que valores acima de 60 ° C reduzem o tempo de vida de um HDD e aumentam a probabilidade de danos. Recomendamos usar um ventilador para diminuir a temperatura de seus discos rígidos e talvez prolongar sua vida útil.

Como mencionamos acima, nem todos os atributos SMART são críticos para a previsão de falhas. Os dois estudos mencionados acima sobre as taxas de falhas no disco rígido e outras fontes concordam que uma ajuda importante na identificação de unidades com falha é a contagem do setor realocado de ID 5. A realocação acontece quando a lógica da unidade remapeia um setor danificado, como resultado de erros recorrentes, leves ou duros, para um novo setor físico, a partir de seus sobressalentes. Este atributo reflete o número de vezes que um remapeamento aconteceu e é uma indicação do desgaste da superfície dos HDDs.

Outro atributo útil a ser monitorado é o ID 197 - Contagem do setor pendente atual. Isso conta os setores "instáveis", significando os danificados com erros de leitura que estão aguardando um remapeamento, uma espécie de sistema de "provação". Os algoritmos da SMART têm sentimentos mistos sobre este atributo em particular, como às vezes não é convincente, mas afirma-se que ele pode fornecer um aviso prévio de possíveis problemas.

O último desses indicadores que devem ser monitorados é o ID 187 - Erros não corrigidos reportados. É a contagem de erros impossíveis de recuperar e é útil porque parece ter o mesmo significado para todos os fabricantes.

NOTA: Todos os atributos SMART mencionados acima têm um valor fácil de interpretar. Se eles reportarem um número de 1 ou mais, é muito possível que sua unidade esteja falhando, então é melhor começar a fazer o backup. Ainda assim, embora sejam indicadores úteis de confiabilidade do drive, eles não são infalíveis e você deve compará-los com os conselhos dados pela ferramenta de monitoramento de HDD escolhida.

Conclusão

Este foi o nosso breve estudo sobre o funcionamento interno do SMART e suas habilidades para monitorar e prever falhas no disco rígido. O principal ponto de vista que você deve lembrar é que este sistema de auto-monitoramento irá ajudá-lo a rever o status do seu HDD. Se você quiser usar esses dados SMART para ver se sua própria unidade tem problemas, leia os artigos recomendados abaixo.