Fiabilidade da memoria flash: esperada e inesperada. Parte 2. XIV conferencia da asociación USENIX. Tecnoloxías de almacenamento de ficheiros

Fiabilidade da memoria flash: esperada e inesperada. Parte 1. XIV conferencia da asociación USENIX. Tecnoloxías de almacenamento de ficheiros

4.2.2. RBER e antigüidade do disco (excluídos os ciclos PE).

A Figura 1 mostra unha correlación significativa entre o RBER e a idade, que é o número de meses que o disco estivo no campo. Non obstante, esta pode ser unha correlación espúrea xa que é probable que as unidades máis antigas teñan máis PE e, polo tanto, RBER estea máis correlacionada cos ciclos PE.

Para eliminar o efecto da idade sobre o desgaste causado polos ciclos de PE, agrupamos todos os meses de servizo en contedores utilizando os deciles da distribución do ciclo de PE como punto de corte entre recipientes, por exemplo, o primeiro recipiente contén todos os meses de vida útil do disco ata o primeiro decil da distribución do ciclo PE, e así sucesivamente. Verificamos que dentro de cada recipiente a correlación entre os ciclos PE e RBER é bastante pequena (xa que cada recipiente só cobre un pequeno intervalo de ciclos PE), e despois calculamos o coeficiente de correlación entre RBER e idade do disco por separado para cada recipiente.

Realizamos esta análise por separado para cada modelo porque as correlacións observadas non se deben a diferenzas entre os modelos máis novos e os máis antigos, senón unicamente á idade das unidades do mesmo modelo. Observamos que mesmo despois de limitar o efecto dos ciclos de PE da forma descrita anteriormente, para todos os modelos de accionamento aínda había unha correlación significativa entre o número de meses que un accionamento estivo no campo e o seu RBER (os coeficientes de correlación oscilaban entre 0,2 e 0,4). ).

Fiabilidade da memoria flash: esperada e inesperada. Parte 2. XIV conferencia da asociación USENIX. Tecnoloxías de almacenamento de ficheiros
Arroz. 3. A relación entre RBER e o número de ciclos PE para discos novos e antigos mostra que a idade do disco afecta ao valor RBER independentemente dos ciclos PE causados ​​polo desgaste.

Tamén visualizamos gráficamente o efecto da idade da unidade dividindo os días de uso da unidade a unha idade "xoven" de ata 1 ano e os días de uso da unidade maiores de 4 anos, e logo representamos o RBER de cada un. grupo contra o número de ciclos de PE. A Figura 3 mostra estes resultados para o modelo de unidade MLC-D. Vemos unha diferenza notable nos valores RBER entre os grupos de discos antigos e novos en todos os ciclos de PE.

A partir diso, concluímos que a idade, medida polos días de uso do disco no campo, ten un impacto significativo no RBER, independentemente do desgaste das células de memoria debido á exposición aos ciclos de PE. Isto significa que outros factores, como o envellecemento do silicio, xogan un papel importante no desgaste físico do disco.

4.2.3. RBER e carga de traballo.

Pénsase que os erros de bit son causados ​​por un dos catro mecanismos:

  1. erros de almacenamento Erros de retención, cando unha célula de memoria perde datos co paso do tempo
    Erros de perturbación de lectura, nos que unha operación de lectura dana o contido dunha cela adxacente;
  2. Erros de perturbación de escritura, nos que unha operación de lectura dana o contido dunha cela adxacente;
  3. Erros de borrado incompletos, cando a operación de borrado non elimina completamente o contido da cela.

Os erros dos tres últimos tipos (perturbación de lectura, perturbación de escritura, borrado incompleto) están correlacionados coa carga de traballo, polo que comprender a correlación entre RBER e carga de traballo axúdanos a comprender a prevalencia de diferentes mecanismos de erro. Nun estudo recente, "A large-scale study of flash memory failures in the field" (MEZA, J., WU, Q., KUMAR, S., MUTLU, O. "Un estudo a grande escala de fallos de memoria flash en En Proceedings of the 2015 ACM SIGMETRICS International Conference on Measurement and Modeling of Computer Systems, Nova York, 2015, SIGMETRICS '15, ACM, pp. 177–190) concluíu que os erros de almacenamento predominan no campo, mentres que os erros de lectura son bastante menores.

A Figura 1 mostra unha relación significativa entre o valor RBER nun determinado mes de vida do disco e o número de lecturas, escrituras e borrados no mesmo mes para algúns modelos (por exemplo, o coeficiente de correlación é superior a 0,2 para o MLC - B). modelo e superior a 0,6 para o SLC-B). Non obstante, é posible que se trate dunha correlación espúrea, xa que a carga de traballo mensual pode estar relacionada co número total de ciclos de PE.

Usamos a mesma metodoloxía descrita na Sección 4.2.2 para illar os efectos da carga de traballo dos efectos dos ciclos PE, illando os meses de operación da unidade en función dos ciclos PE anteriores e, a continuación, determinando os coeficientes de correlación por separado para cada recipiente.

Vimos que a correlación entre o número de lecturas nun determinado mes de vida do disco e o valor RBER nese mes persistiu para os modelos MLC-B e SLC-B, mesmo cando se limitaban os ciclos PE. Tamén repetimos unha análise similar onde excluímos o efecto das lecturas sobre o número de escrituras e borrados simultáneos e concluímos que a correlación entre RBER e o número de lecturas é certa para o modelo SLC-B.

A figura 1 tamén mostra a correlación entre RBER e as operacións de escritura e borrado, polo que repetimos a mesma análise para as operacións de lectura, escritura e borrado. Concluímos que ao limitar o impacto dos ciclos e lecturas de PE, non hai relación entre o valor RBER e o número de escrituras e borrados.

Así, hai modelos de disco onde os erros de infracción de lectura teñen un impacto significativo no RBER. Por outra banda, non hai probas de que RBER estea afectado por erros de infracción de escritura e erros de borrado incompleto.

4.2.4 RBER e litografía.

As diferenzas no tamaño do obxecto poden explicar parcialmente as diferenzas nos valores RBER entre os modelos de unidades que usan a mesma tecnoloxía, é dicir, MLC ou SLC. (Consulte a táboa 1 para obter unha visión xeral da litografía dos distintos modelos incluídos neste estudo).

Por exemplo, 2 modelos SLC con litografía de 34 nm (modelos SLC-A e SLC-D) teñen un RBER que é unha orde de magnitude superior ao de 2 modelos con litografía microelectrónica de 50 nm (modelos SLC-B e SLC-C). No caso dos modelos MLC, só o modelo de 43 nm (MLC-B) ten un RBER medio que é un 50% superior aos outros 3 modelos con litografía de 50 nm. Ademais, esta diferenza no RBER aumenta nun factor 4 a medida que as unidades se desgastan, como se mostra na Figura 2. Finalmente, unha litografía máis delgada pode explicar o maior RBER das unidades eMLC en comparación coas unidades MLC. En xeral, temos probas claras de que a litografía afecta a RBER.

4.2.5. Presenza doutros erros.

Investigamos a relación entre o RBER e outros tipos de erros, como erros non corrixibles, erros de tempo de espera, etc., en particular, se o valor RBER aumenta despois dun mes de exposición a outros tipos de erros.

A Figura 1 mostra que, aínda que o RBER do mes anterior é predictivo dos valores futuros de RBER (coeficiente de correlación superior a 0,8), non hai unha correlación significativa entre os erros non corrixibles e o RBER (grupo de elementos máis á dereita da Figura 1). Para outros tipos de erros, o coeficiente de correlación é aínda menor (non se mostra na figura). Exploramos aínda máis a relación entre o RBER e os erros non corrixibles na sección 5.2 deste documento.

4.2.6. Influencia doutros factores.

Atopamos evidencia de que hai factores que teñen un impacto significativo no RBER que os nosos datos non poderían explicar. En particular, observamos que o RBER para un modelo de disco determinado varía dependendo do clúster no que estea implantado o disco. Un bo exemplo é a Figura 4, que mostra RBER en función dos ciclos PE para unidades MLC-D en tres grupos diferentes (liñas discontinuas) e compárao co RBER deste modelo en relación ao número total de unidades (liña continua). Descubrimos que estas diferenzas persisten aínda que limitamos a influencia de factores como a idade do disco ou o número de lecturas.

Unha posible explicación para isto son as diferenzas no tipo de carga de traballo entre os clústeres, xa que observamos que os clústeres cuxas cargas de traballo teñen as relacións de lectura/escritura máis altas teñen o RBER máis alto.

Fiabilidade da memoria flash: esperada e inesperada. Parte 2. XIV conferencia da asociación USENIX. Tecnoloxías de almacenamento de ficheiros
Arroz. 4 a), b). Valores RBER medios en función dos ciclos PE para tres clusters diferentes e a dependencia da relación de lectura/escritura do número de ciclos PE para tres clusters diferentes.

Por exemplo, a Figura 4(b) mostra as relacións de lectura/escritura de diferentes clústeres para o modelo de unidade MLC-D. Non obstante, a relación de lectura/escritura non explica as diferenzas entre clústeres para todos os modelos, polo que pode haber outros factores que os nosos datos non teñan en conta, como factores ambientais ou outros parámetros externos de carga de traballo.

4.3. RBER durante as probas de durabilidade aceleradas.

A maioría dos traballos científicos, así como as probas realizadas ao comprar medios a escala industrial, predicen a fiabilidade dos dispositivos no campo en función dos resultados das probas aceleradas de durabilidade. Decidimos descubrir o ben que os resultados deste tipo de probas se corresponden coa experiencia práctica no manexo de medios de almacenamento en estado sólido.
A análise dos resultados das probas realizada mediante a metodoloxía xeral de proba acelerada para os equipos subministrados aos centros de datos de Google mostrou que os valores de RBER de campo son significativamente superiores ao previsto. Por exemplo, para o modelo eMLC-a, o RBER medio para os discos operados no campo (ao final da proba o número de ciclos PE chegou a 600) foi 1e-05, mentres que segundo os resultados das probas aceleradas preliminares, este RBER o valor debe corresponder a máis de 4000 ciclos PE. Isto indica que é moi difícil predicir con precisión o valor RBER no campo baseándose nas estimacións RBER obtidas a partir de probas de laboratorio.

Tamén observamos que algúns tipos de erros son bastante difíciles de reproducir durante as probas aceleradas. Por exemplo, no caso do modelo MLC-B, case o 60% das unidades no campo experimentan erros non corrixibles e case o 80% das unidades desenvolven bloques defectuosos. Non obstante, durante as probas de resistencia aceleradas, ningún dos seis dispositivos experimentou erros non corrixibles ata que as unidades alcanzaron máis de tres veces o límite do ciclo PE. Para os modelos eMLC, producíronse erros non corrixibles en máis do 80% das unidades no campo, mentres que durante as probas aceleradas producíronse estes erros despois de alcanzar os 15000 ciclos PE.

Tamén analizamos o RBER informado en traballos de investigación anteriores, que se baseaban en experimentos nun ambiente controlado, e concluímos que o rango de valores era extremadamente amplo. Por exemplo, L.M. Grupp e outros no seu informe de traballo 2009-2012 sobre os valores RBER para unidades que están preto de alcanzar os límites do ciclo PE. Por exemplo, para os dispositivos SLC e MLC con tamaños de litografía similares aos utilizados no noso traballo (25-50 nm), o valor RBER varía de 1e-08 a 1e-03, coa maioría dos modelos de unidades probados tendo un valor RBER próximo a 1e- 06.

No noso estudo, os tres modelos de condución que alcanzaron o límite do ciclo PE tiñan RBERs que van desde 3e-08 ata 8e-08. Mesmo tendo en conta que os nosos números son límites inferiores e poden ser 16 veces maiores no peor dos casos absolutos, ou tendo en conta o percentil 95 do RBER, os nosos valores aínda son significativamente máis baixos.

En xeral, aínda que os valores reais de RBER de campo son superiores aos valores previstos baseados nas probas de durabilidade aceleradas, aínda son máis baixos que a maioría dos RBER para dispositivos similares informados noutros traballos de investigación e calculados a partir de probas de laboratorio. Isto significa que non debe confiar nos valores RBER de campo previstos que se derivaron das probas de durabilidade aceleradas.

5. Erros non corrixibles.

Dada a aparición xeneralizada de erros non corrixibles (UE), que foron discutidos na Sección 3 deste traballo, nesta sección exploramos as súas características con máis detalle. Comezamos discutindo que métrica usar para medir UE, como se relaciona co RBER e como a UE se ve afectada por varios factores.

5.1. Por que a relación UBER non ten sentido.

A métrica estándar que caracteriza os erros non corrixibles é a taxa de erros de bits non corrixibles UBER, é dicir, a relación entre o número de erros de bits non corrixibles e o número total de bits lidos.

Esta métrica asume implicitamente que o número de erros non corrixibles está ligado dalgún xeito ao número de bits lidos e, polo tanto, debe ser normalizado por este número.

Esta suposición é válida para os erros corrixibles, nos que o número de erros observados nun mes determinado está altamente correlacionado co número de lecturas durante o mesmo período de tempo (coeficiente de correlación de Spearman superior a 0.9). A razón para unha correlación tan forte é que mesmo un bit erróneo, sempre que sexa corrixible mediante ECC, continuará aumentando o número de erros con cada operación de lectura á que accede, xa que a avaliación da cela que contén o bit erróneo é non se corrixe inmediatamente cando se detecta un erro (os discos só reescriben periodicamente páxinas con bits danados).

A mesma suposición non se aplica aos erros non corrixibles. Un erro non corrixible impide un uso posterior do bloque danado, polo que unha vez detectado, tal bloque non afectará o número de erros no futuro.

Para confirmar formalmente esta suposición, utilizamos varias métricas para medir a relación entre o número de lecturas nun determinado mes de vida do disco e o número de erros non corrixibles durante o mesmo período de tempo, incluíndo varios coeficientes de correlación (Pearson, Spearman, Kendall) , así como a inspección visual de gráficos . Ademais do número de erros non corrixibles, tamén analizamos a frecuencia dos incidentes de erros non corrixibles (é dicir, a probabilidade de que un disco teña polo menos un incidente deste tipo durante un período de tempo determinado) e a súa relación coas operacións de lectura.
Non atopamos evidencias de correlación entre o número de lecturas e o número de erros non corrixibles. Para todos os modelos de unidade, os coeficientes de correlación estaban por debaixo de 0.02 e os gráficos non mostraron ningún aumento na UE a medida que aumentaba o número de lecturas.

Na sección 5.4 deste artigo, comentamos que as operacións de escritura e borrado tampouco teñen relación con erros non corrixibles, polo que a definición alternativa de UBER, que se normaliza mediante operacións de escritura ou borrado en lugar de operacións de lectura, non ten ningún significado.

Polo tanto, concluímos que UBER non é unha métrica significativa, excepto quizais cando se proba en ambientes controlados onde o número de lecturas o establece o experimentador. Se se usa UBER como métrica durante as probas de campo, reducirá artificialmente a taxa de erros para as unidades cun alto número de lecturas e aumentará artificialmente a taxa de erros para as unidades cun baixo número de lecturas, xa que os erros non corrixibles ocorren independentemente do número de lecturas.

5.2. Erros non corrixibles e RBER.

A relevancia do RBER explícase polo feito de que serve como medida para determinar a fiabilidade global da unidade, en particular, en función da probabilidade de erros non corrixibles. No seu traballo, N. Mielke et al en 2008 foron os primeiros en propoñer definir a taxa de erro non corrixible esperada en función do RBER. Desde entón, moitos desenvolvedores de sistemas utilizaron métodos similares, como a estimación da taxa de erro non corrixible esperada en función do tipo RBER e ECC.

O propósito desta sección é caracterizar o ben que RBER prevé erros non corrixibles. Comecemos coa Figura 5a, que representa o RBER medio para varios modelos de unidades de primeira xeración en función da porcentaxe de días que estiveron en uso que experimentaron erros de UE non corrixibles. Cómpre sinalar que algúns dos 16 modelos mostrados no gráfico non están incluídos na táboa 1 por falta de información analítica.

Fiabilidade da memoria flash: esperada e inesperada. Parte 2. XIV conferencia da asociación USENIX. Tecnoloxías de almacenamento de ficheiros
Arroz. 5a. Relación entre o RBER medio e os erros non corrixibles para varios modelos de unidades.

Fiabilidade da memoria flash: esperada e inesperada. Parte 2. XIV conferencia da asociación USENIX. Tecnoloxías de almacenamento de ficheiros
Arroz. 5b. Relación entre o RBER medio e os erros non corrixibles para diferentes unidades do mesmo modelo.

Lembre que todos os modelos da mesma xeración usan o mesmo mecanismo ECC, polo que as diferenzas entre modelos son independentes das diferenzas ECC. Non vimos correlación entre os incidentes RBER e UE. Creamos a mesma gráfica para o percentil 95 RBER fronte á probabilidade da UE e de novo non vimos correlación.

A continuación, repetimos a análise a nivel granular para unidades individuais, é dicir, tentamos descubrir se había unidades onde un valor RBER máis alto corresponde a unha frecuencia de UE máis alta. Como exemplo, a Figura 5b representa o RBER medio para cada unidade do modelo MLC-c fronte ao número de UE (resultados similares aos obtidos para o RBER do percentil 95). De novo, non vimos ningunha correlación entre RBER e UE.

Finalmente, realizamos unha análise de tempo máis precisa para examinar se os meses de funcionamento das unidades con RBER máis alto corresponderían aos meses durante os que se produciron UE. A figura 1 xa indicou que o coeficiente de correlación entre erros non corrixibles e RBER é moi baixo. Tamén experimentamos con diferentes formas de representar a probabilidade de UE en función do RBER e non atopamos ningunha evidencia de correlación.

Así, concluímos que o RBER é unha métrica pouco fiable para predicir UE. Isto pode significar que os mecanismos de falla que conducen a RBER son diferentes dos mecanismos que conducen a erros non corrixibles (por exemplo, erros contidos en celas individuais fronte a problemas máis grandes que ocorren con todo o dispositivo).

5.3. Erros non corrixibles e desgaste.

Dado que o desgaste é un dos principais problemas da memoria flash, a Figura 6 mostra a probabilidade diaria de erros de disco non corrixibles en función dos ciclos PE.

Fiabilidade da memoria flash: esperada e inesperada. Parte 2. XIV conferencia da asociación USENIX. Tecnoloxías de almacenamento de ficheiros
Figura 6. Probabilidade diaria de que se produzan erros de condución non corrixibles en función dos ciclos PE.

Observamos que a probabilidade dunha UE aumenta continuamente coa idade da unidade. Non obstante, do mesmo xeito que co RBER, o aumento é máis lento do que se asumiu habitualmente: os gráficos mostran que os UE crecen de forma lineal en lugar de exponencialmente cos ciclos PE.

Dúas conclusións que fixemos para RBER tamén se aplican aos UE: en primeiro lugar, non hai un aumento claro do potencial de erro unha vez que se alcanza o límite do ciclo PE, como na Figura 6 para o modelo MLC-D cuxo límite de ciclo PE é 3000. En segundo lugar, en segundo lugar. , a taxa de erro varía entre os distintos modelos, incluso dentro da mesma clase. Non obstante, estas diferenzas non son tan grandes como para RBER.

Finalmente, en apoio dos nosos descubrimentos na sección 5.2, descubrimos que dentro dunha única clase de modelo (MLC vs. SLC), os modelos cos valores RBER máis baixos para un determinado número de ciclos PE non son necesariamente os que teñen o menor valor de RBER. probabilidade de aparición de UE. Por exemplo, máis de 3000 ciclos PE, os modelos MLC-D tiñan valores RBER 4 veces inferiores aos modelos MLC-B, pero a probabilidade de UE para o mesmo número de ciclos PE foi lixeiramente maior para os modelos MLC-D que para MLC-B. modelos.

Fiabilidade da memoria flash: esperada e inesperada. Parte 2. XIV conferencia da asociación USENIX. Tecnoloxías de almacenamento de ficheiros
Figura 7. Probabilidade mensual de que se produzan erros de condución non corrixibles en función da presenza de erros anteriores de varios tipos.

5.4. Erros e carga de traballo non corrixibles.

Polas mesmas razóns polas que a carga de traballo pode afectar a RBER (consulte a Sección 4.2.3), cabe esperar que tamén afecte á UE. Por exemplo, dado que observamos que os erros de infracción de lectura afectan a RBER, as operacións de lectura tamén poden aumentar a probabilidade de erros non corrixibles.

Realizamos un estudo detallado sobre o impacto da carga de traballo na UE. Non obstante, como se indica na Sección 5.1, non atopamos unha relación entre UE e o número de lecturas. Repetimos a mesma análise para as operacións de escritura e borrado e de novo non vimos ningunha correlación.
Teña en conta que, a primeira vista, isto parece contradicir a nosa observación anterior de que os erros non corrixibles están correlacionados cos ciclos PE. Polo tanto, cabe esperar unha correlación co número de operacións de escritura e borrado.

Non obstante, na nosa análise do impacto dos ciclos de PE, comparamos o número de erros non corrixibles nun mes determinado co número total de ciclos de PE que experimentou a unidade ao longo da súa vida útil ata a data para medir o efecto do desgaste. Ao estudar o impacto da carga de traballo, analizamos os meses de funcionamento da unidade que tiveron o maior número de operacións de lectura/escritura/borrado nun mes concreto, o que tamén tiña unha maior probabilidade de causar erros non corrixibles, é dicir, non tivemos en conta. conta o número total de operacións de lectura/escritura/borrado.

Como resultado, chegamos á conclusión de que os erros de infracción de lectura, erros de infracción de escritura e erros de borrado incompleto non son os principais factores no desenvolvemento de erros non corrixibles.

Grazas por estar connosco. Gústanche os nosos artigos? Queres ver máis contido interesante? Apóyanos facendo un pedido ou recomendando a amigos, Desconto do 30 % para os usuarios de Habr nun análogo único de servidores de nivel de entrada, que inventamos nós para ti: Toda a verdade sobre VPS (KVM) E5-2650 v4 (6 núcleos) 10 GB DDR4 240 GB SSD 1 Gbps desde 20 dólares ou como compartir un servidor? (dispoñible con RAID1 e RAID10, ata 24 núcleos e ata 40 GB DDR4).

Dell R730xd 2 veces máis barato? Só aquí 2 x Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 TV desde $199 nos Países Baixos! Dell R420 - 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB - desde $ 99! Ler sobre Como construír a infraestrutura corp. clase co uso de servidores Dell R730xd E5-2650 v4 por valor de 9000 euros por un centavo?

Fonte: www.habr.com

Engadir un comentario