SSDs e Dados SMART

SMART significa Tecnologia de Automonitoramento, Análise e Relatório (Self-Monitoring, Analysis and Reporting Technology). Como o nome sugere, trata-se de uma ferramenta que registra os dados de integridade de um disco rígido (HDD) ou de uma unidade de estado sólido (SSD). Os dados SMART podem ser uma ferramenta valiosa, ao avisar antecipadamente se um drive está com problemas ou se chegou ao fim de sua vida útil, levando à possibilidade de substituição antes de uma falha.

A fácil comunicação com o usuário ou administrador do sistema é importante, porque a unidade sozinha não pode conduzir uma análise profunda dos dados. A unidade apenas pode informar se alguns atributos passaram por limites pré-determinados e ainda assim somente se os limites forem programados em firmware.

SMART existe há muitos anos, sendo anterior ao nascimento do SSD. SMART foi originalmente implementada em HDDs e foi adaptada para SSD quando esta nova tecnologia foi inventada, como uma substituição para os discos rígidos giratórios. Infelizmente, seja qual for a tecnologia de armazenamento, não há um padrão para todo o setor que informa qual atributo SMART numerado descreve uma propriedade física específica de uma unidade. As descrições de atributo variam entre a SSD e o HDD, e mesmo dentre os diversos fornecedores de SSD.

Há muitas ferramentas de terceiros que podem recuperar e informar os dados SMART de uma unidade, geralmente disponíveis em freeware e shareware. No entanto, a menos que o fornecedor de software de terceiros consulte o fornecedor da unidade sobre os atributos SMART corretos, suas definições e limites (quando aplicáveis) provavelmente confundem os atributos e podem levar a relatórios de falha falso-positivo ou falso-negativo.

Vimos exemplos em que o atributo “Contagem de Horas Ligado” informa um número à ferramenta e a ferramenta incompatível pode identificar o número como “Contagem de Falha do Programa” ou “Erros Incorrigíveis Informados”. E para piorar, esta ferramenta de terceiro pode ter limites de falha inapropriados para a SSD em questão, de forma que a ferramenta SMART informa uma falha em um ponto em que o fabricante sabe que é uma operação aceitável.

Por causa da possível confusão, a Crucial recomenda usar apenas nosso software Storage Executive como a ferramenta para recuperar e analisar dados SMART com precisão em SSDs da Crucial. O Storage Executive sempre será programado com as descrições e limites de atributos corretos (quando aplicáveis) para todas as SSDs da Crucial, exceto as mais antigas.

Atributos SMART definidos e descritos pela Crucial

As SSD da Crucial registram diferentes atributos para recuperação pelo Storage Executive. Alguns atributos reportam informações críticas sobre a SSD, enquanto outros são apenas para fins de informação.

Falaremos sobre alguns dos mais importantes aqui; quando o atributo tiver nomes diferentes em SATA e PCIe, ambos os nomes serão apresentados:

Atributo 202: Porcentagem de vida útil restante (Porcentagem de vida útil usada em PCIe)

Este atributo é exatamente o que o nome diz. É uma medida de quanto da vida útil esperada resta para a unidade até um determinado momento. Quando a SSD é nova, o atributo 202 informará “100” e, quando sua vida útil determinada acabar, mostrará “0”, o que significa que resta 0% da vida útil.

Porém, é importante entender o que significa usar a vida útil esperada, isso não quer dizer que a unidade falhará quando o contador atingir zero, mas é possível que a SSD precise ser substituída em breve.

A vida útil de um dispositivo NAND-flash é definida por outra característica: a retenção de dados. A retenção de dados é a quantidade de tempo em que o dispositivo pode armazenar com segurança e permitir com sucesso a recuperação dos dados do usuário em estado sem energia. Quando uma SSD ou dispositivo NAND-flash é novo, sua retenção de dados sem energia será de muitos anos. Porém, quase de forma parecida com a memória humana, a retenção de dados cai com o uso ao gravar dados (a leitura de dados não causa desgaste direto).

O Conselho Conjunto para Engenharia de Dispositivos de Elétrons (Joint Electron Device Engineering Council, JEDEC) é o grupo setorial que cria padrões e especificações para dispositivos e unidades baseadas em semicondutores. A Micron é uma das protagonistas do Conselho Conjunto para Engenharia de Dispositivos de Elétrons (JEDEC), que define a retenção de dados da seguinte forma: Para SSDs em aplicativos de cliente (como negócios ou computadores pessoais), a retenção de dados para uma SSD deve ser de um ano, em estado sem energia, armazenada a 30 °C. Isso deve fornecer à maioria de usuários de computadores muito tempo para recuperar quaisquer dados de uma unidade sem uso após algum tempo na prateleira, se necessário.

Desta forma, você pode esperar que uma SSD trabalhe bem quando o contador da vida útil passar de 100%. Porém, com o tempo, a retenção de dados continuará a se degradar, de um ano para seis meses, depois para três meses e assim por diante. Eventualmente, muito depois da vida garantida da unidade, nenhum novo dado será retido sem energia.

Mas o firmware para SSD leva isso em consideração. À medida que a SSD continua a envelhecer, o código de correção de erro (ECC), as recuperações de leitura, os parâmetros adaptativos de leitura, a manutenção de dados ao fundo e outros ajustes em firmware podem corrigir problemas que surgem com a gradual deterioração da retenção de dados. À medida que os blocos de dados NAND se deterioram, eles podem ser substituídos por sobressalentes integrados e as operações podem prosseguir normalmente. É claro que todas estas operações de fundo ocorrem quando a energia está ligada, daí o motivo pelo qual a retenção de dados é definida em um estado sem energia.

Esse atributo também é apresentado como "Porcentagem usada durante a vida útil" em determinadas SSDs Crucial herdadas, bem como em modelos NVMe, e funciona de forma semelhante ao restante de vida útil, apenas na ordem inversa. O novo atributo 202 da SSD informará “0” e, quando sua vida útil determinada acabar, mostrará “100”, o que significa que 100% da vida útil foi usada. Nesses modelos, a porcentagem pode exceder 100 à medida que mais operações de gravação são feitas, mas as preocupações com a retenção de dados são as mesmas.

Atributo 5: Blocos NAND desativados

O número de blocos desativados por meio deste processo de avaliação contínua da qualidade dos blocos NAND é acompanhado pelo atributo SMART 5. O firmware da SSD desativará os blocos NAND por diversos motivos, além do desgaste e da retenção de dados, como descrito acima. Um motivo para a desativação é a falha ao apagar o bloco ao deletar ou mover dados durante a coleta de lixo. Este tipo de falha causa um baixo risco aos dados do usuário, já que os dados em questão estão sendo excluídos ou já foram copiados com sucesso em um novo local na SSD.

As SSDs Crucial mais recentes medem superblocos, que são grupos de vários blocos individuais, usando esse atributo. Quando o Atributo 5 está medindo isso, o total do bloco não aumentará até que muitos blocos individuais sejam desativados.

Atributo 180: Contagem de blocos reservados sem uso (blocos sobressalentes disponíveis em SSDs PCIe)

Novamente, como o nome deixa implícito, esta é uma contagem de blocos extras que estão disponíveis para uso, caso os blocos ruins precisem ser desativados. Este número muda de acordo com a arquitetura NAND subjacente, a arquitetura do firmware e a capacidade de usuários da unidade, mas geralmente começa em milhares.

Este número cai à medida que o número de blocos desativados aumenta. Quando o Atributo 180 atinge 0, o firmware colocará a SSD em modo somente leitura. A SSD não poderá ser usada como uma unidade normal, mas o usuário poderá recuperar os dados armazenados e transferi-los para um novo dispositivo.

Como no Atributo 5, as SSDs Crucial mais recentes também medem superblocos com esse atributo, o que significa que esse total de blocos não diminuirá até que vários blocos individuais sejam desativados. E isso pode refletir uma peça pronta para uso com um valor bem inferior a uma peça anterior.

Atributo 210: Contagem de páginas recuperadas por Matriz redundante de NANDs independentes (Redundant Array of Independent NAND, RAIN) com sucesso

A Matriz redundante de NANDs independentes (Redundant Array of Independent NAND, RAIN) é bem similar à obtenção de redundância de dados usando RAID em uma matriz de unidade. Porém, a Matriz redundante de NANDs independentes (Redundant Array of Independent NAND, RAIN) é alcançada dentro da unidade, de forma transparente ao usuário. A Matriz redundante de NANDs independentes (Redundant Array of Independent NAND, RAIN) é um recurso usado pela SSD para proteger os dados do usuário e ampliar a vida útil da unidade.

Os eventos de Matriz redundante de NANDs independentes (Redundant Array of Independent NAND, RAIN) são raros, portanto, se a contagem ficar alta, é hora de examinar os atributos acima para ver se a unidade precisa ser substituída. Eventos de Matriz redundante de NANDs independentes (Redundant Array of Independent NAND, RAIN) frequentes podem causar uma redução perceptível de desempenho. O uso da redundância por paridade para recuperar dados permite que as operações normais da unidade continuem, mas com algum consumo de largura de banda de E/S. Se as reduções de desempenho forem frequentes, as reconstruções de Matriz redundante de NANDs independentes (Redundant Array of Independent NAND, RAIN) podem ser motivo para preocupação.

Atributo 174: Contagem de perdas inesperadas de energia (contagem de desligamentos sem segurança em SSDs PCIe)

Uma perda normal de energia em um sistema de computador é precedida pela mensagem do host do computador à SSD de que a energia está prestes a ser desativada. Este aviso dá tempo à SSD para concluir suas tarefas em andamento. Ao terminar, a SSD envia uma mensagem de “confirmação” ao host, que conclui o desligamento.

Há muitas situações, quando ocorre a perda inesperada de energia, que podem causar problemas para a SSD. Em quase todas as condições, a SSD pode compensar isso, embora a próxima inicialização possa levar mais tempo (alguns segundos, ao invés de centenas de milissegundos), mas o sistema será reiniciado.

Geralmente, o atributo 174 é apenas para fins de informação. Porém, a ocorrência frequente de tais eventos pode indicar que um usuário precisa ser treinado para efetuar o desligamento apropriado de sistemas operacionais ou que pode haver um problema com o fornecimento ou as conexões de energia elétrica.

Atributo 194: Temperatura do gabinete (temperatura do dispositivo no PCIe)

O software Storage Executive da Crucual reportará a temperatura atual e a temperatura mais alta durante a vida útil em centígrados, medida por um sensor na SSD. A faixa operacional específica para a maioria das SSD da Crucial é de 0° C a 70° C. Toda temperatura registrada acima de 70 °C poderia anular a garantia do produto, portanto a temperatura deve ser monitorada regularmente. Se as temperaturas ultrapassarem 65 °C com frequência, recomendam-se medidas corretivas como melhor ventilação ou ventoinha.

Algumas ideias para encerrar

SMART pode ser uma ferramenta muito útil para monitorar a integridade da sua SSD. Mas SMART não é uma ampla ferramenta para diagnósticos. As informações obtidas dos atributos SMART, juntamente com o diagnóstico do sistema operacional, podem oferecer um bom ponto de partida para práticas comuns de resolução de problemas.

Dados SMART informados ou interpretados incorretamente podem levar a conclusões erradas que, infelizmente, podem ocasionar a devolução de uma unidade perfeitamente funcional. Portanto, vale a pena repetir que a Crucial sugere enfaticamente que apenas o software Storage Executive da Crucial seja usado para ler dados SMART das SSDs Crucial.

©2019 Micron Technology, Inc. Todos os direitos reservados. As informações, os produtos e/ou as especificações estão sujeitos a alterações sem aviso prévio. A Crucial e a Micron Technology, Inc. não se responsabilizam por omissões ou erros tipográficos ou fotográficos. Micron, o logotipo da Micron, Crucial e o logotipo da Crucial são marcas comerciais ou marcas registradas da Micron Technology, Inc. PCI Express e PCIe são marcas registradas da PCI-SIG. Todas as demais marcas comerciais e de serviço pertencem aos seus respectivos proprietários.