Fiabilidad de la memoria flash: esperada e inesperada. Parte 2. XIV congreso de la asociación USENIX. Tecnologías de almacenamiento de archivos

Fiabilidad de la memoria flash: esperada e inesperada. Parte 1. XIV congreso de la asociación USENIX. Tecnologías de almacenamiento de archivos

4.2.2. RBER y edad del disco (excluidos los ciclos de PE).

La Figura 1 muestra una correlación significativa entre RBER y la edad, que es la cantidad de meses que el disco ha estado en el campo. Sin embargo, esto puede ser una correlación falsa ya que es probable que las unidades más antiguas tengan más PE y, por lo tanto, el RBER esté más correlacionado con los ciclos de PE.

Para eliminar el efecto de la edad en el desgaste causado por los ciclos de PE, agrupamos todos los meses de servicio en contenedores usando los deciles de la distribución del ciclo de PE como límite entre contenedores; por ejemplo, el primer contenedor contiene todos los meses de vida útil del disco hasta el primer decil de la distribución del ciclo PE, y así sucesivamente. Verificamos que dentro de cada contenedor la correlación entre los ciclos de PE y RBER es bastante pequeña (ya que cada contenedor solo cubre un pequeño rango de ciclos de PE) y luego calculamos el coeficiente de correlación entre RBER y la edad del disco por separado para cada contenedor.

Realizamos este análisis por separado para cada modelo porque las correlaciones observadas no se deben a diferencias entre los modelos más jóvenes y mayores, sino únicamente a la antigüedad de las unidades del mismo modelo. Observamos que incluso después de limitar el efecto de los ciclos de PE de la manera descrita anteriormente, para todos los modelos de unidades todavía había una correlación significativa entre la cantidad de meses que una unidad había estado en el campo y su RBER (los coeficientes de correlación oscilaban entre 0,2 y 0,4). ).

Fiabilidad de la memoria flash: esperada e inesperada. Parte 2. XIV congreso de la asociación USENIX. Tecnologías de almacenamiento de archivos
Arroz. 3. La relación entre RBER y el número de ciclos PE para discos nuevos y viejos muestra que la edad del disco afecta el valor RBER independientemente de los ciclos PE causados ​​por el desgaste.

También visualizamos gráficamente el efecto de la antigüedad del disco dividiendo los días de uso del disco a una edad “joven” de hasta 1 año y los días de uso del disco a partir de los 4 años, y luego trazamos el RBER de cada uno. grupo contra el número de ciclos de PE. La Figura 3 muestra estos resultados para el modelo de unidad MLC-D. Vemos una diferencia notable en los valores de RBER entre los grupos de discos nuevos y antiguos a lo largo de todos los ciclos de PE.

De esto concluimos que la edad, medida por los días de uso del disco en el campo, tiene un impacto significativo en la RBER, independientemente del desgaste de las células de memoria debido a la exposición a los ciclos de PE. Esto significa que otros factores, como el envejecimiento del silicio, desempeñan un papel importante en el desgaste físico del disco.

4.2.3. RBER y carga de trabajo.

Se cree que los errores de bits son causados ​​por uno de cuatro mecanismos:

  1. Errores de almacenamiento Errores de retención, cuando una celda de memoria pierde datos con el tiempo.
    Errores de perturbación de lectura, en los que una operación de lectura daña el contenido de una celda adyacente;
  2. Errores de perturbación de escritura, en los que una operación de lectura daña el contenido de una celda adyacente;
  3. Errores de borrado incompleto, cuando la operación de borrado no elimina por completo el contenido de la celda.

Los errores de los últimos tres tipos (perturbación de lectura, perturbación de escritura, borrado incompleto) están correlacionados con la carga de trabajo, por lo que comprender la correlación entre RBER y la carga de trabajo nos ayuda a comprender la prevalencia de diferentes mecanismos de error. En un estudio reciente, "Un estudio a gran escala de fallas de memoria flash en el campo" (MEZA, J., WU, Q., KUMAR, S., MUTLU, O. "Un estudio a gran escala de fallas de memoria flash en the field." En Actas de la Conferencia Internacional ACM SIGMETRICS 2015 sobre Medición y Modelado de Sistemas Informáticos, Nueva York, 2015, SIGMETRICS '15, ACM, págs. 177-190) concluyó que los errores de almacenamiento predominan en el campo, mientras que los errores de lectura son bastante menores.

La Figura 1 muestra una relación significativa entre el valor RBER en un mes determinado de vida útil del disco y el número de lecturas, escrituras y borrados en el mismo mes para algunos modelos (por ejemplo, el coeficiente de correlación es superior a 0,2 para el MLC - B modelo y superior a 0,6 para el SLC-B). Sin embargo, es posible que se trate de una correlación espuria, ya que la carga de trabajo mensual puede estar relacionada con el número total de ciclos de educación física.

Utilizamos la misma metodología descrita en la Sección 4.2.2 para aislar los efectos de la carga de trabajo de los efectos de los ciclos de PE al aislar los meses de operación de la unidad en función de los ciclos de PE anteriores y luego determinar los coeficientes de correlación por separado para cada contenedor.

Vimos que la correlación entre el número de lecturas en un mes determinado de vida útil del disco y el valor RBER en ese mes persistió para los modelos MLC-B y SLC-B, incluso cuando se limitaron los ciclos de PE. También repetimos un análisis similar en el que excluimos el efecto de las lecturas sobre el número de escrituras y borrados simultáneos, y concluimos que la correlación entre RBER y el número de lecturas es válida para el modelo SLC-B.

La Figura 1 también muestra la correlación entre RBER y las operaciones de escritura y borrado, por lo que repetimos el mismo análisis para las operaciones de lectura, escritura y borrado. Concluimos que al limitar el impacto de los ciclos y lecturas de PE, no existe relación entre el valor RBER y el número de escrituras y borrados.

Por lo tanto, existen modelos de disco en los que los errores de infracción de lectura tienen un impacto significativo en el RBER. Por otro lado, no hay evidencia de que RBER se vea afectado por errores de violación de escritura y errores de borrado incompleto.

4.2.4 RBER y litografía.

Las diferencias en el tamaño de los objetos pueden explicar parcialmente las diferencias en los valores RBER entre modelos de unidades que utilizan la misma tecnología, es decir, MLC o SLC. (Consulte la Tabla 1 para obtener una descripción general de la litografía de los distintos modelos incluidos en este estudio).

Por ejemplo, 2 modelos SLC con litografía de 34 nm (modelos SLC-A y SLC-D) tienen un RBER que es un orden de magnitud mayor que el de 2 modelos con litografía microelectrónica de 50 nm (modelos SLC-B y SLC-C). En el caso de los modelos MLC, sólo el modelo de 43 nm (MLC-B) tiene un RBER medio un 50% superior a los otros 3 modelos con litografía de 50 nm. Además, esta diferencia en RBER aumenta en un factor de 4 a medida que las unidades se desgastan, como se muestra en la Figura 2. Finalmente, la litografía más delgada puede explicar el mayor RBER de las unidades eMLC en comparación con las unidades MLC. En general, tenemos pruebas claras de que la litografía afecta al RBER.

4.2.5. Presencia de otros errores.

Investigamos la relación entre RBER y otros tipos de errores, como errores incorregibles, errores de tiempo de espera, etc., en particular, si el valor RBER aumenta después de un mes de exposición a otros tipos de errores.

La Figura 1 muestra que, si bien el RBER del mes anterior predice valores RBER futuros (coeficiente de correlación superior a 0,8), no existe una correlación significativa entre los errores no corregibles y el RBER (grupo de elementos situado más a la derecha en la Figura 1). Para otros tipos de errores, el coeficiente de correlación es aún menor (no se muestra en la figura). Exploramos más a fondo la relación entre RBER y errores incorregibles en la Sección 5.2 de este documento.

4.2.6. Influencia de otros factores.

Encontramos evidencia de que hay factores que tienen un impacto significativo en la RBER que nuestros datos no pudieron explicar. En particular, notamos que el RBER para un modelo de disco determinado varía según el clúster en el que se implementa el disco. Un buen ejemplo es la Figura 4, que muestra el RBER en función de los ciclos PE para unidades MLC-D en tres grupos diferentes (líneas discontinuas) y lo compara con el RBER para este modelo en relación con el número total de unidades (línea continua). Descubrimos que estas diferencias persisten incluso cuando limitamos la influencia de factores como la antigüedad del disco o el número de lecturas.

Una posible explicación para esto son las diferencias en el tipo de carga de trabajo entre los clústeres, ya que observamos que los clústeres cuyas cargas de trabajo tienen las proporciones de lectura/escritura más altas tienen el RBER más alto.

Fiabilidad de la memoria flash: esperada e inesperada. Parte 2. XIV congreso de la asociación USENIX. Tecnologías de almacenamiento de archivos
Arroz. 4 a), b). Valores medios de RBER en función de los ciclos de PE para tres grupos diferentes y la dependencia de la relación de lectura/escritura del número de ciclos de PE para tres grupos diferentes.

Por ejemplo, la Figura 4(b) muestra las relaciones de lectura/escritura de diferentes grupos para el modelo de unidad MLC-D. Sin embargo, la relación lectura/escritura no explica las diferencias entre los grupos para todos los modelos, por lo que puede haber otros factores que nuestros datos no tienen en cuenta, como factores ambientales u otros parámetros de carga de trabajo externos.

4.3. RBER durante pruebas de durabilidad aceleradas.

La mayoría de los trabajos científicos, así como las pruebas realizadas al comprar medios a escala industrial, predicen la confiabilidad de los dispositivos en el campo basándose en los resultados de pruebas de durabilidad aceleradas. Decidimos averiguar en qué medida los resultados de dichas pruebas se corresponden con la experiencia práctica en el funcionamiento de medios de almacenamiento de estado sólido.
El análisis de los resultados de las pruebas realizadas utilizando la metodología de prueba general acelerada para los equipos suministrados a los centros de datos de Google mostró que los valores de campo RBER son significativamente más altos de lo previsto. Por ejemplo, para el modelo eMLC-a, la RBER mediana para los discos operados en el campo (al final de las pruebas, el número de ciclos PE alcanzó 600) fue 1e-05, mientras que, según los resultados de las pruebas aceleradas preliminares, esta RBER El valor debe corresponder a más de 4000 ciclos PE. Esto indica que es muy difícil predecir con precisión el valor RBER en el campo basándose en estimaciones RBER obtenidas de pruebas de laboratorio.

También notamos que algunos tipos de errores son bastante difíciles de reproducir durante las pruebas aceleradas. Por ejemplo, en el caso del modelo MLC-B, casi el 60% de las unidades en el campo experimentan errores incorregibles y casi el 80% de las unidades desarrollan bloques defectuosos. Sin embargo, durante las pruebas de resistencia aceleradas, ninguno de los seis dispositivos experimentó errores incorregibles hasta que las unidades alcanzaron más de tres veces el límite del ciclo PE. Para los modelos eMLC, se produjeron errores incorregibles en más del 80% de las unidades en el campo, mientras que durante las pruebas aceleradas dichos errores ocurrieron después de alcanzar los 15000 ciclos PE.

También analizamos el RBER informado en trabajos de investigación anteriores, que se basaron en experimentos en un ambiente controlado, y concluimos que el rango de valores era extremadamente amplio. Por ejemplo, L. M. Grupp y otros en su trabajo de 2009-2012 informan valores RBER para unidades que están cerca de alcanzar los límites del ciclo PE. Por ejemplo, para dispositivos SLC y MLC con tamaños de litografía similares a los utilizados en nuestro trabajo (25-50 nm), el valor RBER oscila entre 1e-08 y 1e-03, y la mayoría de los modelos de unidades probados tienen un valor RBER cercano a 1e- 06.

En nuestro estudio, los tres modelos de propulsión que alcanzaron el límite del ciclo PE tenían RBER que oscilaban entre 3e-08 y 8e-08. Incluso teniendo en cuenta que nuestras cifras son límites inferiores y podrían ser 16 veces mayores en el peor de los casos, o teniendo en cuenta el percentil 95 del RBER, nuestros valores siguen siendo significativamente más bajos.

En general, si bien los valores reales de RBER en el campo son más altos que los valores pronosticados según las pruebas de durabilidad aceleradas, siguen siendo más bajos que la mayoría de los RBER para dispositivos similares informados en otros artículos de investigación y calculados a partir de pruebas de laboratorio. Esto significa que no debe confiar en los valores RBER de campo previstos que se hayan derivado de pruebas de durabilidad aceleradas.

5. Errores incorregibles.

Dada la aparición generalizada de errores incorregibles (UE), que se analizaron en la Sección 3 de este artículo, en esta sección exploramos sus características con más detalle. Comenzamos discutiendo qué métrica usar para medir la UE, cómo se relaciona con la RBER y cómo la UE se ve afectada por varios factores.

5.1. Por qué el ratio UBER no tiene sentido.

La métrica estándar que caracteriza los errores incorregibles es la tasa de errores de bits incorregibles UBER, es decir, la relación entre el número de errores de bits incorregibles y el número total de bits leídos.

Esta métrica supone implícitamente que la cantidad de errores incorregibles está de alguna manera ligada a la cantidad de bits leídos y, por lo tanto, debe normalizarse según este número.

Esta suposición es válida para errores corregibles, donde se encuentra que la cantidad de errores observados en un mes determinado está altamente correlacionada con la cantidad de lecturas durante el mismo período de tiempo (coeficiente de correlación de Spearman superior a 0.9). La razón de una correlación tan fuerte es que incluso un bit incorrecto, siempre que se pueda corregir mediante ECC, seguirá aumentando el número de errores con cada operación de lectura a la que acceda, ya que la evaluación de la celda que contiene el bit incorrecto es no se corrige inmediatamente cuando se detecta un error (los discos solo reescriben periódicamente páginas con bits dañados).

La misma suposición no se aplica a los errores incorregibles. Un error incorregible impide el uso posterior del bloque dañado, por lo que una vez detectado, dicho bloque no afectará la cantidad de errores en el futuro.

Para confirmar formalmente esta suposición, utilizamos varias métricas para medir la relación entre la cantidad de lecturas en un mes determinado de vida útil del disco y la cantidad de errores no corregibles durante el mismo período de tiempo, incluidos varios coeficientes de correlación (Pearson, Spearman, Kendall). , así como inspección visual de gráficos . Además de la cantidad de errores incorregibles, también analizamos la frecuencia de los incidentes de errores no corregibles (es decir, la probabilidad de que un disco tenga al menos uno de esos incidentes durante un período de tiempo determinado) y su relación con las operaciones de lectura.
No encontramos evidencia de una correlación entre el número de lecturas y el número de errores incorregibles. Para todos los modelos de unidad, los coeficientes de correlación estuvieron por debajo de 0.02 y los gráficos no mostraron ningún aumento en UE a medida que aumentaba el número de lecturas.

En la Sección 5.4 de este documento, analizamos que las operaciones de escritura y borrado tampoco tienen relación con errores incorregibles, por lo que la definición alternativa de UBER, que está normalizada mediante operaciones de escritura o borrado en lugar de operaciones de lectura, no tiene significado.

Por lo tanto, concluimos que UBER no es una métrica significativa, excepto quizás cuando se prueba en entornos controlados donde el experimentador establece el número de lecturas. Si se utiliza UBER como métrica durante las pruebas de campo, reducirá artificialmente la tasa de error de las unidades con un recuento de lecturas alto e inflará artificialmente la tasa de error de las unidades con un recuento de lecturas bajo, ya que se producen errores incorregibles independientemente del número de lecturas.

5.2. Errores incorregibles y RBER.

La relevancia del RBER se explica por el hecho de que sirve como medida para determinar la confiabilidad general del variador, en particular, en función de la probabilidad de errores no corregibles. En su trabajo, N. Mielke et al en 2008 fueron los primeros en proponer definir la tasa de error incorregible esperada como una función de RBER. Desde entonces, muchos desarrolladores de sistemas han utilizado métodos similares, como estimar la tasa de error incorregible esperada en función del tipo RBER y ECC.

El propósito de esta sección es caracterizar qué tan bien el RBER predice errores incorregibles. Comencemos con la Figura 5a, que representa el RBER medio para varios modelos de unidades de primera generación frente al porcentaje de días que estuvieron en uso y que experimentaron errores de UE incorregibles. Cabe señalar que algunos de los 16 modelos que se muestran en el gráfico no están incluidos en la Tabla 1 por falta de información analítica.

Fiabilidad de la memoria flash: esperada e inesperada. Parte 2. XIV congreso de la asociación USENIX. Tecnologías de almacenamiento de archivos
Arroz. 5a. Relación entre el RBER medio y los errores incorregibles para varios modelos de unidades.

Fiabilidad de la memoria flash: esperada e inesperada. Parte 2. XIV congreso de la asociación USENIX. Tecnologías de almacenamiento de archivos
Arroz. 5b. Relación entre RBER mediana y errores incorregibles para diferentes unidades del mismo modelo.

Recuerde que todos los modelos de la misma generación utilizan el mismo mecanismo ECC, por lo que las diferencias entre modelos son independientes de las diferencias ECC. No vimos correlación entre los incidentes RBER y UE. Creamos el mismo gráfico para el percentil 95 de RBER frente a la probabilidad de UE y nuevamente no vimos correlación.

A continuación, repetimos el análisis con una granularidad de discos individuales, es decir, intentamos averiguar si había discos en los que un valor RBER más alto corresponde a una frecuencia UE más alta. Como ejemplo, la Figura 5b traza la RBER mediana para cada unidad del modelo MLC-c versus el número de UE (resultados similares a los obtenidos para el RBER del percentil 95). Nuevamente, no vimos ninguna correlación entre RBER y UE.

Finalmente, realizamos un análisis de tiempo más preciso para examinar si los meses de funcionamiento de las unidades con mayor RBER corresponderían a los meses durante los cuales ocurrieron los UE. La Figura 1 ya ha indicado que el coeficiente de correlación entre errores incorregibles y RBER es muy bajo. También experimentamos con diferentes formas de representar gráficamente la probabilidad de UE en función de RBER y no encontramos evidencia de correlación.

Por lo tanto, concluimos que RBER es una métrica poco confiable para predecir UE. Esto puede significar que los mecanismos de falla que conducen a RBER son diferentes de los mecanismos que conducen a errores incorregibles (por ejemplo, errores contenidos en celdas individuales versus problemas más grandes que ocurren con todo el dispositivo).

5.3. Errores incorregibles y desgaste.

Dado que el desgaste es uno de los principales problemas de la memoria flash, la Figura 6 muestra la probabilidad diaria de errores incorregibles en la unidad en función de los ciclos PE.

Fiabilidad de la memoria flash: esperada e inesperada. Parte 2. XIV congreso de la asociación USENIX. Tecnologías de almacenamiento de archivos
Figura 6. Probabilidad diaria de aparición de errores de conducción incorregibles en función de los ciclos de PE.

Observamos que la probabilidad de un UE aumenta continuamente con la antigüedad de la unidad. Sin embargo, al igual que con el RBER, el aumento es más lento de lo que normalmente se supone: los gráficos muestran que los UE crecen linealmente en lugar de exponencialmente con los ciclos de PE.

Dos conclusiones que llegamos a RBER también se aplican a los UE: primero, no hay un aumento claro en el potencial de error una vez que se alcanza el límite del ciclo PE, como en la Figura 6 para el modelo MLC-D cuyo límite del ciclo PE es 3000. En segundo lugar, en segundo lugar , la tasa de error varía entre diferentes modelos, incluso dentro de la misma clase. Sin embargo, estas diferencias no son tan grandes como para el RBER.

Finalmente, en apoyo de nuestros hallazgos en la Sección 5.2, encontramos que dentro de una sola clase de modelo (MLC vs. SLC), los modelos con los valores RBER más bajos para un número determinado de ciclos PE no son necesariamente los que tienen los valores más bajos. probabilidad de ocurrencia de UE. Por ejemplo, durante 3000 ciclos de PE, los modelos MLC-D tenían valores RBER 4 veces más bajos que los modelos MLC-B, pero la probabilidad de UE para la misma cantidad de ciclos de PE fue ligeramente mayor para los modelos MLC-D que para MLC-B. modelos.

Fiabilidad de la memoria flash: esperada e inesperada. Parte 2. XIV congreso de la asociación USENIX. Tecnologías de almacenamiento de archivos
Figura 7. Probabilidad mensual de aparición de errores de accionamiento no corregibles en función de la presencia de errores previos de diversos tipos.

5.4. Errores incorregibles y carga de trabajo.

Por las mismas razones por las que la carga de trabajo puede afectar a la RBER (ver Sección 4.2.3), se puede esperar que también afecte a la UE. Por ejemplo, dado que observamos que los errores de infracción de lectura afectan a RBER, las operaciones de lectura también pueden aumentar la probabilidad de errores incorregibles.

Realizamos un estudio detallado sobre el impacto de la carga de trabajo en la UE. Sin embargo, como se señaló en la Sección 5.1, no encontramos una relación entre UE y el número de lecturas. Repetimos el mismo análisis para las operaciones de escritura y borrado y nuevamente no vimos correlación.
Tenga en cuenta que, a primera vista, esto parece contradecir nuestra observación anterior de que los errores incorregibles están correlacionados con los ciclos de PE. Por lo tanto, bien se podría esperar una correlación con el número de operaciones de escritura y borrado.

Sin embargo, en nuestro análisis del impacto de los ciclos de PE, comparamos el número de errores no corregibles en un mes determinado con el número total de ciclos de PE que la unidad ha experimentado a lo largo de su vida útil hasta la fecha para medir el efecto del desgaste. Al estudiar el impacto de la carga de trabajo, observamos los meses de funcionamiento de la unidad que tuvieron el mayor número de operaciones de lectura/escritura/borrado en un mes en particular, que también tenían una mayor probabilidad de causar errores incorregibles, es decir, no tomamos en cuenta cuenta el número total de operaciones de lectura/escritura/borrado.

Como resultado, llegamos a la conclusión de que los errores de infracción de lectura, los errores de infracción de escritura y los errores de borrado incompleto no son los factores principales en el desarrollo de errores no corregibles.

Gracias por estar con nosotros. ¿Te gustan nuestros artículos? ¿Quieres ver más contenido interesante? Apóyanos haciendo un pedido o recomendándonos a amigos, 30% de descuento para usuarios de Habr en un análogo único de servidores de nivel de entrada, que fue inventado por nosotros para usted: Toda la verdad sobre VPS (KVM) E5-2650 v4 (6 Cores) 10GB DDR4 240GB SSD 1Gbps desde $20 o como compartir servidor? (disponible con RAID1 y RAID10, hasta 24 núcleos y hasta 40GB DDR4).

Dell R730xd 2 veces más barato? Solo aqui 2 x Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 TV desde $199 ¡en los Paises Bajos! Dell R420 - 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB - ¡desde $99! Leer acerca de Cómo construir infraestructura corp. clase con el uso de servidores Dell R730xd E5-2650 v4 por valor de 9000 euros por un centavo?

Fuente: habr.com

Añadir un comentario