SSDs e Dados SMART

SMART significa Tecnologia de Automonitoramento, Análise e Relatório (Self-Monitoring, Analysis and Reporting Technology). Como o nome sugere, trata-se de uma ferramenta que registra os dados de integridade de um disco rígido (HDD) ou de uma unidade de estado sólido (SSD). Os dados SMART podem ser uma valiosa ferramenta, ao avisar logo se um drive tem problemas ou se chegou ao fim de sua vida útil, levando à possibilidade de substituição antes de uma falha.

A fácil comunicação com o usuário ou administrador do sistema é importante, porque a unidade sozinha não pode conduzir uma análise profunda dos dados. A unidade apenas pode informar se alguns atributos passaram por limites pré-determinados e ainda assim somente se os limites forem programados em firmware.

SMART existe há muitos anos, sendo anterior ao nascimento do SSD. SMART foi originalmente implementado em HDDs e foi adaptado para SSD quando esta nova tecnologia foi inventada, como uma substituição para os discos rígidos giratórios. Infelizmente, seja qual for a tecnologia de armazenamento, não há um padrão para todo o setor que lhe informa qual atributo SMART numerado descreve uma propriedade física específica de uma unidade. As descrições de atributo variam entre o SSD e HDD, e mesmo dentre os diversos fornecedores de SSD.

Há muitas ferramentas de terceiros que podem recuperar e informar os dados SMART de uma unidade, geralmente disponíveis em freeware e shareware. No entanto, a menos que o fornecedor de software de terceiros consulte o fornecedor da unidade sobre os atributos SMART corretos, suas definições e limites (quando aplicáveis) provavelmente confundem os atributos e podem levar a relatórios de falha falso-positivo ou falso-negativo.

Vimos exemplos em que o atributo “Contagem de Horas Ligado” informa um número à ferramenta e a ferramenta incompatível pode identificar o número como “Contagem de Falha do Programa” ou “Erros Incorrigíveis Informados”. Pior, esta ferramenta de terceiros pode ter limites de falha inapropriados para o SSD em questão, de forma que a ferramenta SMART informa uma falha em um ponto em que o fabricante sabe ser uma operação aceitável.

Por causa da possível confusão, a Crucial recomenda usar apenas nosso software Storage Executive como a ferramenta para recuperar e analisar dados SMART com precisão em SSDs da Crucial. O Storage Executive sempre será programado com as descrições e limites de atributos corretos (quando aplicáveis) para todos os SSDs da Crucial, exceto os legados mais antigos.

Atributos SMART definidos e descritos pela Crucial

Os SSD da Crucial registram diferentes atributos para recuperação pelo Storage Executive. Alguns atributos reportam informações críticas sobre o SSD, enquanto outros são apenas para fins de informação.

Falaremos sobre alguns dos mais importantes aqui; quando o atributo tiver nomes diferentes em SATA e PCIe, ambos os nomes serão apresentados:

Atributo 202: Porcentagem da vida útil usada

Este atributo é exatamente o que seu nome diz. É uma medida de quanto da vida útil esperada para a unidade foi usada até um determinado momento. Quando o SSD é novo, o atributo 202 informará “0” e, quando sua vida útil determinada acabar, mostrará “100”, o que significa que 100% da vida útil foi usada.

Porém, é importante entender o que significa alcançar 100% da vida útil esperada, isso não quer dizer que a unidade falhará quando o contador passar para 101%, mas que o SSD pode precisar ser substituído em breve.

A vida útil de um dispositivo NAND-flash é definida por outra característica: a retenção de dados. A retenção de dados é a quantidade de tempo em que o dispositivo pode armazenar com segurança e permitir com sucesso a recuperação dos dados do usuário em estado sem energia. Quando um SSD ou dispositivo NAND-flash é novo, sua retenção de dados sem energia será de muitos anos. Porém, quase de forma parecida com a memória humana, a retenção de dados cai com o uso ao gravar dados (a leitura de dados não causa desgaste direto).

O Conselho Conjunto para Engenharia de Dispositivos de Elétrons (Joint Electron Device Engineering Council, JEDEC) é o grupo setorial que cria padrões e especificações para dispositivos e unidades baseadas em semicondutores. A Micron é uma das protagonistas do Conselho Conjunto para Engenharia de Dispositivos de Elétrons (JEDEC), que define a retenção de dados da seguinte forma: Para SSDs em aplicativos cliente (como negócios ou computadores pessoais), a retenção de dados para um SSD deve ser de um ano, em estado sem energia, armazenado a 30° C. Isso deve fornecer à maioria de usuários de computadores muito tempo para recuperar quaisquer dados de uma unidade sem uso após algum tempo na prateleira, se necessário.

A partir desta descrição, você pode esperar que um SSD trabalhe bem quando o contador da vida útil passar de 100%. Porém, com a passagem do tempo, a retenção de dados continuará a se degradar, de um ano para seis meses, depois para três meses e assim por diante. Eventualmente, muito depois da vida garantida da unidade, nenhum novo dado será retido sem energia.

Mas o firmware para SSD leva isso em consideração. À medida que o SSD continua a envelhecer, o código de correção de erro (ECC), recuperações de leitura, parâmetros adaptativos de leitura, a manutenção de dados ao fundo e outros ajustes em firmware podem corrigir problemas que surgem com a gradual deterioração da retenção de dados. À medida que os blocos de dados NAND se deterioram, eles podem ser substituídos por sobressalentes integrados e as operações podem prosseguir normalmente. É claro que todas estas operações de fundo ocorrem quando a energia está ligada, daí o motivo por que a retenção de dados é definida em um estado sem energia.

Atributo 5: Blocos NAND desativados

O número de blocos desativados por meio deste processo de avaliação contínua da qualidade dos blocos NAND é acompanhado pelo atributo SMART 5. O firmware SSD desativará os blocos NAND por diversos motivos, além do desgaste e da retenção de dados, como descrito acima. Um motivo para a desativação é a falha ao apagar o bloco ao deletar ou mover dados durante a coleta de lixo. Este tipo de falha causa um baixo risco aos dados do usuário, já que os dados em questão estão sendo excluídos ou já foram copiados com sucesso a um novo local no SSD.

Atributo 180: Contagem de blocos reservados sem uso (blocos sobressalentes disponíveis em SSDs PCIe)

Novamente, como o nome deixa implícito, esta é uma contagem de blocos extras que estão disponíveis para uso, caso os blocos ruins precisem ser desativados. Este número muda conforme a arquitetura NAND subjacente, a arquitetura do firmware e a capacidade de usuários da unidade, mas geralmente começa em milhares.

Este número cai à medida que o número de blocos desativados aumenta. Quando o Atributo 180 atinge 0, o firmware colocará o SSD em modo somente leitura. O SSD não poderá ser usado como uma unidade normal, mas o usuário poderá recuperar os dados armazenados e transferi-los para um novo dispositivo. Recomenda-se enfaticamente que, caso este número fique abaixo de 100, a unidade seja substituída.

Atributo 210: Contagem de páginas recuperadas por Matriz redundante de NANDs independentes (Redundant Array of Independent NAND, RAIN) com sucesso

A Matriz redundante de NANDs independentes (Redundant Array of Independent NAND, RAIN) é bem similar a obter redundância de dados usando RAID em uma matriz de unidade. Porém, a Matriz redundante de NANDs independentes (Redundant Array of Independent NAND, RAIN) é alcançada dentro da unidade, de forma transparente ao usuário. A Matriz redundante de NANDs independentes (Redundant Array of Independent NAND, RAIN) é um recurso usado pelo SSD para proteger os dados do usuário e ampliar a vida útil da unidade.

Os eventos de Matriz redundante de NANDs independentes (Redundant Array of Independent NAND, RAIN) são raros, portanto, se a contagem ficar alta, é hora de examinar alguns dos atributos acima para ver se a unidade precisa ser substituída. Eventos de Matriz redundante de NANDs independentes (Redundant Array of Independent NAND, RAIN) frequentes podem causar uma piora perceptível no desempenho. O uso da redundância por paridade para recuperar dados permite que as operações normais da unidade continuem, mas com algum consumo de largura de banda E/S. Se ocorrerem reduções ao desempenho com frequência, as reconstruções de Matriz redundante de NANDs independentes (Redundant Array of Independent NAND, RAIN) poderiam ser motivo e causa de preocupação.

Atributo 174: Contagem de perdas inesperadas de energia (contagem de desligamentos sem segurança em SSDs PCIe)

Uma perda normal de energia em um sistema de computador é precedida pela mensagem do host do computador ao SSD de que a energia está prestes a ser desativada. Este aviso dá tempo ao SSD para concluir suas tarefas em andamento. Ao terminar, o SSD envia uma mensagem de “reconhecimento” ao host, que conclui o desligamento.

Há muitas situações, quando ocorre a perda inesperada de energia, que podem causar problemas para o SSD. Em quase todas as condições, o SSD pode compensar por isso, embora a próxima inicialização possa levar mais tempo (alguns segundos, ao invés de centenas de milissegundos), mas o sistema reiniciará.

O atributo 174 geralmente é apenas para fins de informação. Porém, a ocorrência frequente de tais eventos pode indicar que um usuário precisa ser treinado para efetuar o desligamento apropriado de sistemas operacionais ou que pode haver um problema com o fornecimento ou as conexões de energia elétrica.

Atributo 194: Temperatura do gabinete (temperatura do dispositivo no PCIe)

O software Storage Executive da Crucual reportará a temperatura atual e a temperatura mais alta durante a vida útil em centígrados, medida por um sensor no SSD. A faixa operacional específica para a maioria dos SSD da Crucial é de 0° C a 70° C. Toda temperatura registrada acima de 70° C poderia anular a garantia do produto, portanto a temperatura deve ser monitorada regularmente. Se as temperaturas ultrapassarem 65° C com frequência, recomendam-se medidas corretivas como melhor ventilação ou ventoinha.

Algumas ideias para encerrar

SMART pode ser uma ferramenta muito útil para monitorar a integridade do seu SSD. Mas SMART não é uma ampla ferramenta para diagnósticos. As informações obtidas dos atributos SMART, juntamente com o diagnóstico do sistema operacional, podem oferecer um bom ponto de partida para práticas comuns de resolução de problemas.

Dados SMART informados ou interpretados incorretamente podem levar a conclusões erradas que, infelizmente, podem ocasionar a devolução de uma unidade perfeitamente funcional. Portanto, vale a pena repetir que a Crucial sugere enfaticamente que apenas o software Storage Executive, da Crucial, seja usado para ler dados SMART dos SSD da Crucial.

©2019 Micron Technology, Inc. Todos os direitos reservados. As informações, os produtos e/ou as especificações estão sujeitos a alterações sem aviso prévio. A Crucial e a Micron Technology, Inc. não se responsabilizam por omissões ou erros tipográficos ou fotográficos. Micron, o logotipo da Micron, Crucial e o logotipo da Crucial são marcas comerciais ou marcas registradas da Micron Technology, Inc. PCI Express e PCIe são marcas registradas da PCI-SIG. Todas as demais marcas comerciais e de serviço pertencem a seus respectivos proprietários.