Confiabilidade da memória flash: esperada e inesperada. Parte 2. XIV conferência da associação USENIX. Tecnologias de armazenamento de arquivos

Confiabilidade da memória flash: esperada e inesperada. Parte 1. XIV conferência da associação USENIX. Tecnologias de armazenamento de arquivos

4.2.2. RBER e idade do disco (excluindo ciclos PE).

A Figura 1 mostra uma correlação significativa entre RBER e idade, que é o número de meses que o disco está em campo. No entanto, esta pode ser uma correlação espúria, uma vez que é provável que unidades mais antigas tenham mais PEs e, portanto, o RBER esteja mais correlacionado com os ciclos de PE.

Para eliminar o efeito da idade no desgaste causado pelos ciclos PE, agrupamos todos os meses de serviço em contêineres usando os decis da distribuição do ciclo PE como um ponto de corte entre os contêineres, por exemplo, o primeiro contêiner contém todos os meses de vida útil do disco até o primeiro decil da distribuição do ciclo PE, e assim por diante. Verificamos que dentro de cada contêiner a correlação entre os ciclos PE e o RBER é bastante pequena (já que cada contêiner cobre apenas uma pequena faixa de ciclos PE) e então calculamos o coeficiente de correlação entre o RBER e a idade do disco separadamente para cada contêiner.

Realizamos esta análise separadamente para cada modelo porque quaisquer correlações observadas não se devem a diferenças entre os modelos mais novos e mais antigos, mas apenas à idade dos drives do mesmo modelo. Observamos que mesmo depois de limitar o efeito dos ciclos PE da maneira descrita acima, para todos os modelos de acionamento ainda havia uma correlação significativa entre o número de meses que um acionamento esteve em campo e seu RBER (os coeficientes de correlação variaram de 0,2 a 0,4). ).

Confiabilidade da memória flash: esperada e inesperada. Parte 2. XIV conferência da associação USENIX. Tecnologias de armazenamento de arquivos
Arroz. 3. A relação entre RBER e o número de ciclos PE para discos novos e antigos mostra que a idade do disco afeta o valor RBER independentemente dos ciclos PE causados ​​pelo desgaste.

Também visualizamos graficamente o efeito da idade da unidade dividindo os dias de uso da unidade em uma idade “jovem” até 1 ano e os dias de uso da unidade acima de 4 anos e, em seguida, traçamos o RBER de cada grupo em relação ao número de ciclos de PE. A Figura 3 mostra esses resultados para o modelo de drive MLC-D. Vemos uma diferença notável nos valores RBER entre os grupos de discos antigos e novos ao longo de todos os ciclos de PE.

A partir disso concluímos que a idade, medida por dias de uso do disco em campo, tem um impacto significativo no RBER, independente do desgaste das células de memória devido à exposição aos ciclos de PE. Isto significa que outros fatores, como o envelhecimento do silício, desempenham um papel importante no desgaste físico do disco.

4.2.3. RBER e carga de trabalho.

Acredita-se que os erros de bits sejam causados ​​por um dos quatro mecanismos:

  1. erros de armazenamento Erros de retenção, quando uma célula de memória perde dados ao longo do tempo
    Erros de perturbação de leitura, nos quais uma operação de leitura danifica o conteúdo de uma célula adjacente;
  2. Erros de perturbação de gravação, nos quais uma operação de leitura danifica o conteúdo de uma célula adjacente;
  3. Erros de apagamento incompleto, quando a operação de apagamento não exclui completamente o conteúdo da célula.

Os erros dos últimos três tipos (perturbação de leitura, perturbação de gravação, apagamento incompleto) estão correlacionados com a carga de trabalho, portanto, compreender a correlação entre RBER e carga de trabalho nos ajuda a compreender a prevalência de diferentes mecanismos de erro. Em um estudo recente, "Um estudo em larga escala de falhas de memória flash no campo" (MEZA, J., WU, Q., KUMAR, S., MUTLU, O. "Um estudo em larga escala de falhas de memória flash em o campo." Em Proceedings of the 2015 ACM SIGMETRICS International Conference on Measurement and Modeling of Computer Systems, Nova York, 2015, SIGMETRICS '15, ACM, pp. 177–190) concluiu que erros de armazenamento predominam no campo, enquanto erros de leitura são bem menores.

A Figura 1 mostra uma relação significativa entre o valor RBER em um determinado mês de vida do disco e o número de leituras, gravações e apagamentos no mesmo mês para alguns modelos (por exemplo, o coeficiente de correlação é superior a 0,2 para o MLC - B modelo e superior a 0,6 para o SLC-B). Contudo, é possível que se trate de uma correlação espúria, uma vez que a carga horária mensal pode estar relacionada com o número total de ciclos de EF.

Usamos a mesma metodologia descrita na Seção 4.2.2 para isolar os efeitos da carga de trabalho dos efeitos dos ciclos PE, isolando meses de operação do drive com base em ciclos PE anteriores e, em seguida, determinando os coeficientes de correlação separadamente para cada contêiner.

Vimos que a correlação entre o número de leituras em um determinado mês de vida do disco e o valor RBER naquele mês persistiu para os modelos MLC-B e SLC-B, mesmo limitando os ciclos de PE. Também repetimos uma análise semelhante onde excluímos o efeito das leituras no número de gravações e apagamentos simultâneos e concluímos que a correlação entre o RBER e o número de leituras é verdadeira para o modelo SLC-B.

A Figura 1 também mostra a correlação entre RBER e operações de gravação e apagamento, portanto repetimos a mesma análise para operações de leitura, gravação e apagamento. Concluímos que, ao limitar o impacto dos ciclos e leituras do PE, não há relação entre o valor do RBER e o número de escritas e apagamentos.

Assim, existem modelos de disco onde erros de violação de leitura têm um impacto significativo no RBER. Por outro lado, não há evidências de que o RBER seja afetado por erros de violação de gravação e erros de apagamento incompleto.

4.2.4 RBER e litografia.

As diferenças no tamanho do objeto podem explicar parcialmente as diferenças nos valores RBER entre modelos de drive que usam a mesma tecnologia, ou seja, MLC ou SLC. (Ver Tabela 1 para uma visão geral da litografia dos vários modelos incluídos neste estudo).

Por exemplo, 2 modelos SLC com litografia de 34 nm (modelos SLC-A e SLC-D) possuem um RBER que é uma ordem de grandeza superior ao de 2 modelos com litografia microeletrônica de 50 nm (modelos SLC-B e SLC-C). No caso dos modelos MLC, apenas o modelo de 43nm (MLC-B) possui uma RBER mediana 50% superior aos outros 3 modelos com litografia de 50nm. Além disso, essa diferença no RBER aumenta por um fator de 4 à medida que as unidades se desgastam, conforme mostrado na Figura 2. Finalmente, a litografia mais fina pode explicar o RBER mais alto das unidades eMLC em comparação com as unidades MLC. No geral, temos evidências claras de que a litografia afeta o RBER.

4.2.5. Presença de outros erros.

Investigamos a relação entre o RBER e outros tipos de erros, como erros incorrigíveis, erros de timeout, etc., em particular, se o valor do RBER aumenta após um mês de exposição a outros tipos de erros.

A Figura 1 mostra que, embora o RBER do mês anterior seja preditivo de valores futuros do RBER (coeficiente de correlação maior que 0,8), não há correlação significativa entre erros incorrigíveis e o RBER (grupo de itens mais à direita na Figura 1). Para outros tipos de erros, o coeficiente de correlação é ainda menor (não mostrado na figura). Exploramos ainda mais a relação entre RBER e erros incorrigíveis na Seção 5.2 deste artigo.

4.2.6. Influência de outros fatores.

Encontrámos evidências de que existem fatores que têm um impacto significativo no RBER que os nossos dados não conseguiram explicar. Em particular, notamos que o RBER para um determinado modelo de disco varia dependendo do cluster no qual o disco está implantado. Um bom exemplo é a Figura 4, que mostra o RBER em função dos ciclos PE para drives MLC-D em três clusters diferentes (linhas tracejadas) e o compara com o RBER deste modelo em relação ao número total de drives (linha sólida). Descobrimos que essas diferenças persistem mesmo quando limitamos a influência de fatores como idade do disco ou número de leituras.

Uma possível explicação para isso são as diferenças no tipo de carga de trabalho entre clusters, pois observamos que os clusters cujas cargas de trabalho têm as taxas de leitura/gravação mais altas têm o RBER mais alto.

Confiabilidade da memória flash: esperada e inesperada. Parte 2. XIV conferência da associação USENIX. Tecnologias de armazenamento de arquivos
Arroz. 4a), b). Valores medianos de RBER em função dos ciclos PE para três clusters diferentes e dependência da relação leitura/gravação do número de ciclos PE para três clusters diferentes.

Por exemplo, a Figura 4(b) mostra as taxas de leitura/gravação de diferentes clusters para o modelo de unidade MLC-D. No entanto, a relação leitura/gravação não explica as diferenças entre clusters para todos os modelos, portanto pode haver outros fatores que nossos dados não levam em conta, como fatores ambientais ou outros parâmetros externos de carga de trabalho.

4.3. RBER durante testes de durabilidade acelerados.

A maioria dos trabalhos científicos, bem como os testes realizados na compra de mídia em escala industrial, prevêem a confiabilidade dos dispositivos em campo com base nos resultados de testes acelerados de durabilidade. Decidimos descobrir até que ponto os resultados de tais testes correspondem à experiência prática na operação de mídias de armazenamento de estado sólido.
A análise dos resultados dos testes realizados usando a metodologia geral de teste acelerado para equipamentos fornecidos aos data centers do Google mostrou que os valores RBER de campo são significativamente maiores do que o previsto. Por exemplo, para o modelo eMLC-a, o RBER mediano para discos operados em campo (no final do teste o número de ciclos PE atingiu 600) foi 1e-05, enquanto de acordo com os resultados dos testes acelerados preliminares, este RBER o valor deve corresponder a mais de 4000 ciclos PE. Isto indica que é muito difícil prever com precisão o valor do RBER no campo com base nas estimativas do RBER obtidas em testes de laboratório.

Observamos também que alguns tipos de erros são bastante difíceis de reproduzir durante testes acelerados. Por exemplo, no caso do modelo MLC-B, quase 60% das unidades em campo apresentam erros incorrigíveis e quase 80% das unidades desenvolvem blocos defeituosos. No entanto, durante os testes de resistência acelerados, nenhum dos seis dispositivos apresentou erros incorrigíveis até que os drives atingissem mais de três vezes o limite do ciclo PE. Para modelos eMLC, erros incorrigíveis ocorreram em mais de 80% dos drives em campo, enquanto durante testes acelerados tais erros ocorreram após atingir 15000 ciclos PE.

Também analisamos o RBER relatado em trabalhos de pesquisa anteriores, que se basearam em experimentos em ambiente controlado, e concluímos que a faixa de valores era extremamente ampla. Por exemplo, L. M. Grupp e outros, em seu trabalho de 2009-2012, relatam valores RBER para unidades que estão perto de atingir os limites do ciclo PE. Por exemplo, para dispositivos SLC e MLC com tamanhos de litografia semelhantes aos utilizados no nosso trabalho (25-50nm), o valor RBER varia de 1e-08 a 1e-03, com a maioria dos modelos de drive testados tendo um valor RBER próximo de 1e- 06.

Em nosso estudo, os três modelos de acionamento que atingiram o limite do ciclo PE tiveram RBERs variando de 3e-08 a 8e-08. Mesmo tendo em conta que os nossos números são limites inferiores e podem ser 16 vezes maiores no pior caso, ou tendo em conta o percentil 95 do RBER, os nossos valores ainda são significativamente mais baixos.

No geral, embora os valores reais de RBER de campo sejam superiores aos valores previstos com base em testes de durabilidade acelerados, eles ainda são inferiores à maioria dos RBERs para dispositivos semelhantes relatados em outros artigos de pesquisa e calculados a partir de testes de laboratório. Isso significa que você não deve confiar em valores RBER de campo previstos derivados de testes de durabilidade acelerados.

5. Erros incorrigíveis.

Dada a ocorrência generalizada de erros incorrigíveis (UEs), que foram discutidos na Seção 3 deste artigo, nesta seção exploramos suas características com mais detalhes. Começamos discutindo qual métrica usar para medir o UE, como ela se relaciona com o RBER e como o UE é afetado por vários fatores.

5.1. Por que a proporção UBER não faz sentido.

A métrica padrão que caracteriza erros incorrigíveis é a taxa de erros de bits incorrigíveis UBER, ou seja, a razão entre o número de erros de bits incorrigíveis e o número total de bits lidos.

Esta métrica assume implicitamente que o número de erros incorrigíveis está de alguma forma vinculado ao número de bits lidos e, portanto, deve ser normalizado por esse número.

Esta suposição é válida para erros corrigíveis, onde o número de erros observados em um determinado mês é altamente correlacionado com o número de leituras no mesmo período de tempo (coeficiente de correlação de Spearman maior que 0.9). A razão para uma correlação tão forte é que mesmo um bit ruim, desde que seja corrigível usando ECC, continuará a aumentar o número de erros a cada operação de leitura acessada por ele, uma vez que a avaliação da célula que contém o bit ruim é não corrigido imediatamente quando um erro é detectado (os discos reescrevem páginas apenas periodicamente com bits danificados).

A mesma suposição não se aplica a erros incorrigíveis. Um erro incorrigível impede o uso posterior do bloco danificado; portanto, uma vez detectado, tal bloco não afetará o número de erros no futuro.

Para confirmar formalmente esta suposição, usamos várias métricas para medir a relação entre o número de leituras em um determinado mês de vida do disco e o número de erros incorrigíveis durante o mesmo período de tempo, incluindo vários coeficientes de correlação (Pearson, Spearman, Kendall) , bem como inspeção visual de gráficos . Além do número de erros incorrigíveis, também analisamos a frequência de incidentes de erros incorrigíveis (ou seja, a probabilidade de um disco ter pelo menos um desses incidentes durante um determinado período de tempo) e sua relação com as operações de leitura.
Não encontramos evidências de correlação entre o número de leituras e o número de erros incorrigíveis. Para todos os modelos de drive, os coeficientes de correlação ficaram abaixo de 0.02, e os gráficos não mostraram nenhum aumento no UE à medida que o número de leituras aumentou.

Na Seção 5.4 deste artigo, discutimos que as operações de gravação e apagamento também não têm relação com erros incorrigíveis, portanto a definição alternativa de UBER, que é normalizada por operações de gravação ou apagamento em vez de operações de leitura, não tem significado.

Concluímos, portanto, que o UBER não é uma métrica significativa, exceto talvez quando testado em ambientes controlados onde o número de leituras é definido pelo experimentador. Se o UBER for usado como métrica durante os testes de campo, ele reduzirá artificialmente a taxa de erro para unidades com uma contagem de leitura alta e aumentará artificialmente a taxa de erro para unidades com uma contagem de leitura baixa, uma vez que erros incorrigíveis ocorrem independentemente do número de leituras.

5.2. Erros incorrigíveis e RBER.

A relevância do RBER explica-se pelo facto de servir como medida para determinar a fiabilidade global do acionamento, em particular, com base na probabilidade de erros incorrigíveis. Em seu trabalho, N. Mielke et al em 2008 foram os primeiros a propor a definição da taxa de erro incorrigível esperada em função do RBER. Desde então, muitos desenvolvedores de sistemas têm usado métodos semelhantes, como estimar a taxa de erro incorrigível esperada em função do tipo RBER e ECC.

O objetivo desta seção é caracterizar quão bem o RBER prevê erros incorrigíveis. Vamos começar com a Figura 5a, que representa graficamente o RBER mediano para vários modelos de unidade de primeira geração em relação à porcentagem de dias de uso que apresentaram erros de UE incorrigíveis. Ressalta-se que alguns dos 16 modelos apresentados no gráfico não estão incluídos na Tabela 1 por falta de informações analíticas.

Confiabilidade da memória flash: esperada e inesperada. Parte 2. XIV conferência da associação USENIX. Tecnologias de armazenamento de arquivos
Arroz. 5a. Relação entre RBER mediano e erros incorrigíveis para vários modelos de drive.

Confiabilidade da memória flash: esperada e inesperada. Parte 2. XIV conferência da associação USENIX. Tecnologias de armazenamento de arquivos
Arroz. 5b. Relação entre RBER mediano e erros incorrigíveis para diferentes drives do mesmo modelo.

Lembre-se de que todos os modelos da mesma geração usam o mesmo mecanismo ECC, portanto, as diferenças entre os modelos são independentes das diferenças de ECC. Não vimos nenhuma correlação entre os incidentes RBER e UE. Criamos o mesmo gráfico para o RBER do 95º percentil versus probabilidade UE e novamente não vimos nenhuma correlação.

Em seguida, repetimos a análise numa granularidade de discos individuais, ou seja, tentamos descobrir se existiam discos onde um valor RBER mais elevado corresponde a uma frequência UE mais elevada. Como exemplo, a Figura 5b representa graficamente o RBER mediano para cada unidade do modelo MLC-c versus o número de UEs (resultados semelhantes aos obtidos para o RBER do 95º percentil). Novamente, não vimos nenhuma correlação entre RBER e UE.

Por fim, realizamos uma análise temporal mais precisa para examinar se os meses de operação dos drives com maior RBER corresponderiam aos meses durante os quais ocorreram os UEs. A Figura 1 já indicou que o coeficiente de correlação entre erros incorrigíveis e RBER é muito baixo. Também experimentamos diferentes maneiras de representar graficamente a probabilidade de UE em função do RBER e não encontramos nenhuma evidência de correlação.

Assim, concluímos que RBER não é uma métrica confiável para prever UE. Isto pode significar que os mecanismos de falha que levam ao RBER são diferentes dos mecanismos que levam a erros incorrigíveis (por exemplo, erros contidos em células individuais versus problemas maiores que ocorrem com todo o dispositivo).

5.3. Erros incorrigíveis e desgaste.

Como o desgaste é um dos principais problemas da memória flash, a Figura 6 mostra a probabilidade diária de erros incorrigíveis do drive em função dos ciclos PE.

Confiabilidade da memória flash: esperada e inesperada. Parte 2. XIV conferência da associação USENIX. Tecnologias de armazenamento de arquivos
Figura 6. Probabilidade diária de ocorrência de erros de acionamento incorrigíveis dependendo dos ciclos PE.

Notamos que a probabilidade de um UE aumenta continuamente com a idade da unidade. No entanto, tal como acontece com o RBER, o aumento é mais lento do que normalmente se supõe: os gráficos mostram que os UEs crescem linearmente em vez de exponencialmente com os ciclos PE.

Duas conclusões que tiramos para o RBER também se aplicam aos UEs: primeiro, não há um aumento claro no potencial de erro quando o limite do ciclo PE é atingido, como na Figura 6 para o modelo MLC-D cujo limite do ciclo PE é 3000. Em segundo lugar, em segundo lugar , a taxa de erro varia entre diferentes modelos, mesmo dentro da mesma classe. No entanto, estas diferenças não são tão grandes como para o RBER.

Finalmente, em apoio às nossas conclusões na Secção 5.2, descobrimos que dentro de uma única classe de modelo (MLC vs. SLC), os modelos com os valores mais baixos de RBER para um determinado número de ciclos de PE não são necessariamente aqueles com os mais baixos. probabilidade de ocorrência de UE. Por exemplo, ao longo de 3000 ciclos PE, os modelos MLC-D tiveram valores RBER 4 vezes menores que os modelos MLC-B, mas a probabilidade UE para o mesmo número de ciclos PE foi ligeiramente maior para os modelos MLC-D do que para MLC-B modelos.

Confiabilidade da memória flash: esperada e inesperada. Parte 2. XIV conferência da associação USENIX. Tecnologias de armazenamento de arquivos
Figura 7. Probabilidade mensal de ocorrência de erros incorrigíveis no drive em função da presença de erros anteriores de diversos tipos.

5.4. Erros e carga de trabalho incorrigíveis.

Pelas mesmas razões que a carga de trabalho pode afetar o RBER (ver Secção 4.2.3), pode-se esperar que também afete o UE. Por exemplo, como observamos que erros de violação de leitura afetam o RBER, as operações de leitura também podem aumentar a probabilidade de erros incorrigíveis.

Realizamos um estudo detalhado sobre o impacto da carga de trabalho na UE. Porém, conforme observado na Seção 5.1, não encontramos relação entre o UE e o número de leituras. Repetimos a mesma análise para operações de gravação e apagamento e novamente não vimos nenhuma correlação.
Observe que, à primeira vista, isso parece contradizer nossa observação anterior de que erros incorrigíveis estão correlacionados com ciclos de EF. Portanto, pode-se esperar uma correlação com o número de operações de gravação e apagamento.

No entanto, na nossa análise do impacto dos ciclos PE, comparámos o número de erros incorrigíveis num determinado mês com o número total de ciclos PE que a unidade sofreu ao longo da sua vida útil até à data, a fim de medir o efeito do desgaste. Ao estudar o impacto da carga de trabalho, analisamos os meses de operação do drive que tiveram o maior número de operações de leitura/gravação/apagamento em um determinado mês, que também tiveram maior chance de causar erros incorrigíveis, ou seja, não levamos em consideração conta o número total de operações de leitura/gravação/apagamento.

Como resultado, chegamos à conclusão de que erros de violação de leitura, erros de violação de gravação e erros de apagamento incompleto não são os principais fatores no desenvolvimento de erros incorrigíveis.

Obrigado por ficar com a gente. Gostou dos nossos artigos? Quer ver mais conteúdos interessantes? Apoie-nos fazendo um pedido ou recomendando a amigos, 30% de desconto para usuários do Habr em um análogo exclusivo de servidores básicos, que foi inventado por nós para você: Toda a verdade sobre VPS (KVM) E5-2650 v4 (6 núcleos) 10 GB DDR4 240 GB SSD 1 Gbps a partir de $ 20 ou como compartilhar um servidor? (disponível com RAID1 e RAID10, até 24 núcleos e até 40 GB DDR4).

Dell R730xd 2 vezes mais barato? Só aqui 2 x Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 TV a partir de US$ 199 na Holanda! Dell R420 - 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB - a partir de US$ 99! Ler sobre Como construir uma empresa de infraestrutura. classe com o uso de servidores Dell R730xd E5-2650 v4 no valor de 9000 euros por um centavo?

Fonte: habr.com

Adicionar um comentário