Fiabilitat de la memòria flash: l'esperat i l'inesperat. Part 2. XIV Jornada de l'Associació USENIX. Tecnologies d'emmagatzematge d'arxius

Fiabilitat de la memòria flash: l'esperat i l'inesperat. Part 1. XIV Jornada de l'Associació USENIX. Tecnologies d'emmagatzematge d'arxius

4.2.2. RBER i antiguitat del disc (excepte els cicles PE).

La figura 1 mostra una correlació significativa entre RBER i edat, que és el nombre de mesos que el disc ha estat al camp. Tanmateix, aquesta pot ser una correlació espúrea, ja que és probable que les unitats més antigues tinguin més PE ​​i, per tant, RBER estigui més correlacionat amb els cicles PE.

Per eliminar l'efecte de l'edat sobre el desgast causat pels cicles de PE, hem agrupat tots els mesos de servei en contenidors utilitzant els decils de la distribució del cicle de PE com a tall entre contenidors, per exemple, el primer contenidor conté tots els mesos de vida del disc fins al primer decil de la distribució del cicle PE, i així successivament. Hem verificat que dins de cada contenidor la correlació entre els cicles PE i RBER és força petita (ja que cada contenidor només cobreix un petit rang de cicles PE) i després hem calculat el coeficient de correlació entre RBER i l'edat del disc per separat per a cada contenidor.

Hem realitzat aquesta anàlisi per separat per a cada model perquè les correlacions observades no es deuen a diferències entre els models més joves i els més antics, sinó únicament a l'edat de les unitats del mateix model. Vam observar que fins i tot després de limitar l'efecte dels cicles PE de la manera descrita anteriorment, per a tots els models d'accionament encara hi havia una correlació significativa entre el nombre de mesos que havia estat una unitat al camp i el seu RBER (els coeficients de correlació oscil·laven entre 0,2 i 0,4). ).

Fiabilitat de la memòria flash: l'esperat i l'inesperat. Part 2. XIV Jornada de l'Associació USENIX. Tecnologies d'emmagatzematge d'arxius
Arròs. 3. La relació entre RBER i el nombre de cicles PE per a discs nous i vells mostra que l'edat del disc afecta el valor RBER independentment dels cicles PE causats pel desgast.

També vam visualitzar gràficament l'efecte de l'edat de la unitat dividint els dies d'ús de la unitat a una edat "jove" fins a 1 any i els dies d'ús de la unitat a partir dels 4 anys, i després vam representar el RBER de cada un. grup contra el nombre de cicles de PE. La figura 3 mostra aquests resultats per al model de unitat MLC-D. Veiem una diferència notable en els valors RBER entre els grups de discs antics i nous al llarg de tots els cicles de PE.

D'això concloem que l'edat, mesurada pels dies d'ús del disc al camp, té un impacte significatiu en el RBER, independentment del desgast de les cèl·lules de memòria a causa de l'exposició als cicles PE. Això significa que altres factors, com l'envelliment del silici, tenen un paper important en el desgast físic del disc.

4.2.3. RBER i càrrega de treball.

Es creu que els errors de bits són causats per un dels quatre mecanismes:

  1. errors d'emmagatzematge Errors de retenció, quan una cel·la de memòria perd dades amb el temps
    Errors de lectura pertorbada, en què una operació de lectura danya el contingut d'una cel·la adjacent;
  2. Errors de pertorbació d'escriptura, en què una operació de lectura danya el contingut d'una cel·la adjacent;
  3. Errors d'esborrat incomplets, quan l'operació d'esborrat no elimina completament el contingut de la cel·la.

Els errors dels tres darrers tipus (llegir alterar, escriure alterar, esborrar incomplet) estan correlacionats amb la càrrega de treball, de manera que entendre la correlació entre RBER i càrrega de treball ens ajuda a comprendre la prevalença de diferents mecanismes d'error. En un estudi recent, "Un estudi a gran escala de fallades de memòria flash en el camp" (MEZA, J., WU, Q., KUMAR, S., MUTLU, O. "Un estudi a gran escala de fallades de memòria flash en A Proceedings of the 2015 ACM SIGMETRICS International Conference on Measurement and Modeling of Computer Systems, Nova York, 2015, SIGMETRICS '15, ACM, pp. 177–190) va concloure que els errors d'emmagatzematge predominen en el camp, mentre que els errors de lectura són força menors.

La figura 1 mostra una relació significativa entre el valor RBER en un mes determinat de vida del disc i el nombre de lectures, escriptures i esborrats en el mateix mes per a alguns models (per exemple, el coeficient de correlació és superior a 0,2 per a l'MLC - B). model i superior a 0,6 per al SLC-B). Tanmateix, és possible que es tracti d'una correlació espúrea, ja que la càrrega de treball mensual pot estar relacionada amb el nombre total de cicles d'EP.

Hem utilitzat la mateixa metodologia que es descriu a la secció 4.2.2 per aïllar els efectes de la càrrega de treball dels efectes dels cicles PE aïllant mesos de funcionament de la unitat en funció dels cicles PE anteriors i, a continuació, determinant els coeficients de correlació per separat per a cada contenidor.

Vam veure que la correlació entre el nombre de lectures en un mes determinat de vida del disc i el valor RBER d'aquest mes persistia per als models MLC-B i SLC-B, fins i tot quan es limitaven els cicles PE. També vam repetir una anàlisi similar on vam excloure l'efecte de les lectures sobre el nombre d'escriptures i esborrats simultàniament i vam concloure que la correlació entre RBER i el nombre de lectures és certa per al model SLC-B.

La figura 1 també mostra la correlació entre RBER i les operacions d'escriptura i esborrat, de manera que vam repetir la mateixa anàlisi per a les operacions de lectura, escriptura i esborrat. Arribem a la conclusió que limitant l'impacte dels cicles i lectures PE, no hi ha cap relació entre el valor RBER i el nombre d'escriptures i esborrats.

Per tant, hi ha models de disc on els errors de violació de lectura tenen un impacte significatiu en RBER. D'altra banda, no hi ha proves que RBER es vegi afectat per errors d'infracció d'escriptura i errors d'esborrat incomplets.

4.2.4 RBER i litografia.

Les diferències en la mida de l'objecte poden explicar parcialment les diferències en els valors RBER entre els models d'accionament que utilitzen la mateixa tecnologia, és a dir, MLC o SLC. (Vegeu la taula 1 per obtenir una visió general de la litografia dels diferents models inclosos en aquest estudi).

Per exemple, 2 models SLC amb litografia de 34 nm (models SLC-A i SLC-D) tenen un RBER que és un ordre de magnitud superior al de 2 models amb litografia microelectrònica de 50 nm (models SLC-B i SLC-C). En el cas dels models MLC, només el model de 43 nm (MLC-B) té un RBER mitjà que és un 50% més alt que els altres 3 models amb litografia de 50 nm. A més, aquesta diferència de RBER augmenta en un factor de 4 a mesura que es desgasten les unitats, tal com es mostra a la figura 2. Finalment, una litografia més fina pot explicar el RBER més elevat de les unitats eMLC en comparació amb les unitats MLC. En general, tenim evidències clares que la litografia afecta RBER.

4.2.5. Presència d'altres errors.

Hem investigat la relació entre RBER i altres tipus d'errors, com ara errors no corregibles, errors de temps d'espera, etc., en particular, si el valor RBER augmenta després d'un mes d'exposició a altres tipus d'errors.

La figura 1 mostra que si bé el RBER del mes anterior és predictiu dels valors futurs del RBER (coeficient de correlació superior a 0,8), no hi ha una correlació significativa entre els errors no corregibles i el RBER (grup d'elements més a la dreta de la figura 1). Per a altres tipus d'errors, el coeficient de correlació és encara més baix (no es mostra a la figura). Vam explorar més a fons la relació entre RBER i errors no corregibles a la secció 5.2 d'aquest document.

4.2.6. Influència d'altres factors.

Hem trobat proves que hi ha factors que tenen un impacte significatiu en RBER que les nostres dades no podrien tenir en compte. En particular, vam observar que el RBER per a un model de disc determinat varia en funció del clúster en què es desplega el disc. Un bon exemple és la figura 4, que mostra RBER en funció dels cicles PE per a unitats MLC-D en tres clústers diferents (línies discontinues) i el compara amb RBER per a aquest model en relació al nombre total de unitats (línia sòlida). Trobem que aquestes diferències persisteixen fins i tot quan limitem la influència de factors com l'edat del disc o el nombre de lectures.

Una possible explicació d'això són les diferències en el tipus de càrrega de treball entre clústers, ja que observem que els clústers les càrregues de treball dels quals tenen les ràtios de lectura/escriptura més altes tenen el RBER més alt.

Fiabilitat de la memòria flash: l'esperat i l'inesperat. Part 2. XIV Jornada de l'Associació USENIX. Tecnologies d'emmagatzematge d'arxius
Arròs. 4 a), b). Valors RBER mitjans en funció dels cicles PE per a tres clústers diferents i la dependència de la relació de lectura/escriptura del nombre de cicles PE per a tres clústers diferents.

Per exemple, la figura 4 (b) mostra les relacions de lectura/escriptura de diferents clústers per al model d'unitat MLC-D. Tanmateix, la relació de lectura/escriptura no explica les diferències entre clústers per a tots els models, de manera que pot haver-hi altres factors que les nostres dades no tenen en compte, com ara factors ambientals o altres paràmetres de càrrega de treball externs.

4.3. RBER durant les proves de durabilitat accelerades.

La majoria dels treballs científics, així com les proves realitzades a l'hora de comprar suports a escala industrial, prediuen la fiabilitat dels dispositius en el camp a partir dels resultats de les proves de durabilitat accelerades. Vam decidir esbrinar fins a quin punt els resultats d'aquestes proves corresponen a l'experiència pràctica en l'ús de mitjans d'emmagatzematge en estat sòlid.
L'anàlisi dels resultats de les proves realitzada mitjançant la metodologia general de proves accelerades per als equips subministrats als centres de dades de Google va mostrar que els valors RBER de camp són significativament més alts del previst. Per exemple, per al model eMLC-a, el RBER mitjà dels discs operats al camp (al final de la prova el nombre de cicles PE va arribar als 600) va ser 1e-05, mentre que segons els resultats de les proves accelerades preliminars, aquest RBER el valor hauria de correspondre a més de 4000 cicles PE. Això indica que és molt difícil predir amb precisió el valor RBER al camp basant-se en les estimacions RBER obtingudes a partir de proves de laboratori.

També vam observar que alguns tipus d'errors són bastant difícils de reproduir durant les proves accelerades. Per exemple, en el cas del model MLC-B, gairebé el 60% de les unitats del camp experimenten errors no corregibles i gairebé el 80% de les unitats desenvolupen blocs defectuosos. Tanmateix, durant les proves de resistència accelerades, cap dels sis dispositius va experimentar cap error incorregible fins que les unitats van assolir més de tres vegades el límit del cicle PE. Per als models eMLC, es van produir errors no corregibles en més del 80% de les unitats del camp, mentre que durant les proves accelerades aquests errors es van produir després d'arribar als 15000 cicles PE.

També vam analitzar el RBER informat en treballs de recerca anteriors, que es basaven en experiments en un entorn controlat, i vam concloure que el rang de valors era extremadament ampli. Per exemple, L.M. Grupp i altres en el seu informe de treball 2009-2012 sobre els valors RBER per a les unitats que estan a prop d'assolir els límits del cicle PE. Per exemple, per als dispositius SLC i MLC amb mides de litografia similars a les utilitzades en el nostre treball (25-50 nm), el valor RBER oscil·la entre 1e-08 i 1e-03, amb la majoria dels models d'accionament provats amb un valor RBER proper a 1e- 06.

En el nostre estudi, els tres models de conducció que van assolir el límit del cicle PE tenien RBER que van des del 3e-08 fins al 8e-08. Fins i tot tenint en compte que els nostres números són límits inferiors i podrien ser 16 vegades més grans en el pitjor dels casos absoluts, o tenint en compte el percentil 95 de RBER, els nostres valors encara són significativament més baixos.

En general, si bé els valors reals de RBER de camp són més alts que els valors previstos basats en proves de durabilitat accelerades, encara són inferiors a la majoria de RBER per a dispositius similars reportats en altres treballs de recerca i calculats a partir de proves de laboratori. Això vol dir que no hauríeu de confiar en els valors RBER de camp predits que s'han derivat de les proves de durabilitat accelerades.

5. Errors incorregibles.

Donada l'aparició generalitzada d'errors no corregibles (UE), que es van discutir a la secció 3 d'aquest document, en aquesta secció n'explorem les característiques amb més detall. Comencem discutint quina mètrica utilitzar per mesurar UE, com es relaciona amb RBER i com la UE es veu afectada per diversos factors.

5.1. Per què la ràtio UBER no té sentit.

La mètrica estàndard que caracteritza els errors incorregibles és la taxa d'error de bits incorregibles UBER, és a dir, la relació entre el nombre d'errors de bits no corregibles i el nombre total de bits llegits.

Aquesta mètrica assumeix implícitament que el nombre d'errors no corregibles està d'alguna manera lligat al nombre de bits llegits i, per tant, s'ha de normalitzar amb aquest nombre.

Aquesta hipòtesi és vàlida per als errors corregibles, on es troba que el nombre d'errors observats en un mes determinat està altament correlacionat amb el nombre de lectures durant el mateix període de temps (coeficient de correlació de Spearman superior a 0.9). El motiu d'una correlació tan forta és que fins i tot un bit dolent, sempre que sigui corregible mitjançant ECC, continuarà augmentant el nombre d'errors amb cada operació de lectura a la qual accedeix, ja que l'avaluació de la cel·la que conté el bit dolent és no es corregeix immediatament quan es detecta un error (els discs només reescriuen periòdicament pàgines amb bits danyats).

La mateixa hipòtesi no s'aplica als errors no corregibles. Un error no corregible impedeix l'ús posterior del bloc danyat, de manera que un cop detectat, aquest bloc no afectarà el nombre d'errors en el futur.

Per confirmar formalment aquesta hipòtesi, hem utilitzat diverses mètriques per mesurar la relació entre el nombre de lectures en un mes determinat de vida del disc i el nombre d'errors no corregibles durant el mateix període de temps, inclosos diversos coeficients de correlació (Pearson, Spearman, Kendall) , així com la inspecció visual de gràfics . A més del nombre d'errors no corregibles, també hem analitzat la freqüència dels incidents d'error no corregibles (és a dir, la probabilitat que un disc tingui almenys un incident durant un període de temps determinat) i la seva relació amb les operacions de lectura.
No hem trobat cap evidència d'una correlació entre el nombre de lectures i el nombre d'errors no corregibles. Per a tots els models d'accionament, els coeficients de correlació estaven per sota de 0.02 i els gràfics no mostraven cap augment de la UE a mesura que augmentava el nombre de lectures.

A la secció 5.4 d'aquest article, discutim que les operacions d'escriptura i esborrat tampoc tenen cap relació amb els errors no corregibles, de manera que la definició alternativa d'UBER, que es normalitza mitjançant operacions d'escriptura o esborrat en lloc d'operacions de lectura, no té cap significat.

Per tant, concloem que UBER no és una mètrica significativa, excepte potser quan es prova en entorns controlats on el nombre de lectures el defineix l'experimentador. Si s'utilitza UBER com a mètrica durant les proves de camp, reduirà artificialment la taxa d'error de les unitats amb un recompte de lectures elevat i augmentarà artificialment la taxa d'error de les unitats amb un recompte de lectures baix, ja que es produeixen errors incorregibles independentment del nombre de lectures.

5.2. Errors incorregibles i RBER.

La rellevància de RBER s'explica pel fet que serveix com a mesura per determinar la fiabilitat global de la unitat, en particular, en funció de la probabilitat d'errors incorregibles. En el seu treball, N. Mielke et al l'any 2008 van ser els primers a proposar definir la taxa d'error no corregible esperada en funció del RBER. Des de llavors, molts desenvolupadors de sistemes han utilitzat mètodes similars, com ara estimar la taxa d'error no corregible esperada en funció del tipus RBER i ECC.

L'objectiu d'aquesta secció és caracteritzar fins a quin punt RBER prediu els errors no corregibles. Comencem amb la figura 5a, que representa el RBER mitjà per a diversos models d'accionament de primera generació en funció del percentatge de dies que van estar en ús que van experimentar errors d'UE no corregibles. Cal tenir en compte que alguns dels 16 models que es mostren al gràfic no estan inclosos a la Taula 1 per manca d'informació analítica.

Fiabilitat de la memòria flash: l'esperat i l'inesperat. Part 2. XIV Jornada de l'Associació USENIX. Tecnologies d'emmagatzematge d'arxius
Arròs. 5a. Relació entre RBER mitjà i errors no corregibles per a diversos models d'accionament.

Fiabilitat de la memòria flash: l'esperat i l'inesperat. Part 2. XIV Jornada de l'Associació USENIX. Tecnologies d'emmagatzematge d'arxius
Arròs. 5b. Relació entre RBER mitjà i errors no corregibles per a diferents unitats del mateix model.

Recordeu que tots els models de la mateixa generació utilitzen el mateix mecanisme ECC, de manera que les diferències entre models són independents de les diferències ECC. No vam veure cap correlació entre els incidents RBER i UE. Vam crear la mateixa trama per al percentil 95 RBER versus la probabilitat de la UE i de nou no vam veure cap correlació.

A continuació, vam repetir l'anàlisi amb una granularitat de discs individuals, és a dir, vam intentar esbrinar si hi havia discs on un valor RBER més alt corresponia a una freqüència UE més alta. Com a exemple, la figura 5b representa el RBER mitjà per a cada unitat del model MLC-c en funció del nombre d'UE (resultats similars als obtinguts per al percentil 95 RBER). De nou, no vam veure cap correlació entre RBER i UE.

Finalment, vam realitzar una anàlisi de temps més precisa per examinar si els mesos de funcionament de les unitats amb un RBER més alt correspondrien als mesos durant els quals es van produir les UE. La figura 1 ja ha indicat que el coeficient de correlació entre errors no corregibles i RBER és molt baix. També vam experimentar amb diferents maneres de representar la probabilitat d'UE en funció del RBER i no vam trobar cap evidència de correlació.

Per tant, concloem que RBER és una mètrica poc fiable per predir UE. Això pot significar que els mecanismes de fallada que condueixen a RBER són diferents dels mecanismes que provoquen errors no corregibles (per exemple, errors continguts en cel·les individuals en comparació amb problemes més grans que es produeixen amb tot el dispositiu).

5.3. Errors incorregibles i desgast.

Com que el desgast és un dels principals problemes de la memòria flaix, la figura 6 mostra la probabilitat diària d'errors de la unitat no corregibles en funció dels cicles PE.

Fiabilitat de la memòria flash: l'esperat i l'inesperat. Part 2. XIV Jornada de l'Associació USENIX. Tecnologies d'emmagatzematge d'arxius
Figura 6. Probabilitat diària d'ocurrència d'errors d'accionament no corregibles en funció dels cicles PE.

Observem que la probabilitat d'una UE augmenta contínuament amb l'edat de la unitat. Tanmateix, igual que amb RBER, l'augment és més lent del que s'assumeix habitualment: els gràfics mostren que les UE creixen de manera lineal en lloc de de manera exponencial amb els cicles PE.

Dues conclusions que vam fer per a RBER també s'apliquen als UE: en primer lloc, no hi ha un augment clar del potencial d'error un cop s'arriba al límit del cicle PE, com a la figura 6 per al model MLC-D el límit del cicle PE del qual és de 3000. En segon lloc, en segon lloc , la taxa d'error varia entre diferents models, fins i tot dins de la mateixa classe. Tanmateix, aquestes diferències no són tan grans com per a RBER.

Finalment, en suport de les nostres troballes a la secció 5.2, vam trobar que dins d'una sola classe de model (MLC vs. SLC), els models amb els valors RBER més baixos per a un nombre determinat de cicles de PE no són necessàriament els que tenen el més baix. probabilitat d'ocurrència d'UE. Per exemple, més de 3000 cicles PE, els models MLC-D tenien valors RBER 4 vegades inferiors als models MLC-B, però la probabilitat d'UE per al mateix nombre de cicles PE era lleugerament més alta per als models MLC-D que per a MLC-B. models.

Fiabilitat de la memòria flash: l'esperat i l'inesperat. Part 2. XIV Jornada de l'Associació USENIX. Tecnologies d'emmagatzematge d'arxius
Figura 7. Probabilitat mensual d'ocurrència d'errors de conducció no corregibles en funció de la presència d'errors anteriors de diversos tipus.

5.4. Errors incorregibles i càrrega de treball.

Per les mateixes raons per les quals la càrrega de treball pot afectar RBER (vegeu la secció 4.2.3), es pot esperar que també afecti la UE. Per exemple, com que vam observar que els errors d'infracció de lectura afecten RBER, les operacions de lectura també poden augmentar la probabilitat d'errors incorregibles.

Hem realitzat un estudi detallat sobre l'impacte de la càrrega de treball a la UE. Tanmateix, tal com s'apunta a la secció 5.1, no hem trobat cap relació entre UE i el nombre de lectures. Vam repetir la mateixa anàlisi per a les operacions d'escriptura i esborrat i de nou no vam veure cap correlació.
Tingueu en compte que a primera vista, això sembla contradir la nostra observació anterior que els errors incorregibles estan correlacionats amb els cicles PE. Per tant, es podria esperar una correlació amb el nombre d'operacions d'escriptura i esborrat.

Tanmateix, en la nostra anàlisi de l'impacte dels cicles de PE, vam comparar el nombre d'errors no corregibles en un mes determinat amb el nombre total de cicles de PE que ha experimentat la unitat al llarg de la seva vida útil fins a la data per mesurar l'efecte del desgast. Quan vam estudiar l'impacte de la càrrega de treball, vam analitzar els mesos d'operació de la unitat que van tenir el major nombre d'operacions de lectura/escriptura/esborrat en un mes concret, que també tenien més possibilitats de provocar errors no corregibles, és a dir, no vam tenir en compte. compta amb el nombre total d'operacions de lectura/escriptura/esborrat.

Com a resultat, vam arribar a la conclusió que els errors d'infracció de lectura, els errors d'infracció d'escriptura i els errors d'esborrat incomplets no són els factors principals en el desenvolupament d'errors incorregibles.

Gràcies per quedar-te amb nosaltres. T'agraden els nostres articles? Vols veure més contingut interessant? Doneu-nos suport fent una comanda o recomanant als amics, 30% de descompte per als usuaris d'Habr en un únic anàleg de servidors d'entrada, que hem inventat per a tu: Tota la veritat sobre VPS (KVM) E5-2650 v4 (6 nuclis) 10 GB DDR4 240 GB SSD 1 Gbps des de 20 dòlars o com compartir un servidor? (disponible amb RAID1 i RAID10, fins a 24 nuclis i fins a 40 GB DDR4).

Dell R730xd 2 vegades més barat? Només aquí 2 x Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6 GHz 14C 64 GB DDR4 4 x 960 GB SSD 1 Gbps 100 TV des de 199 $ als Països Baixos! Dell R420 - 2x E5-2430 2.2 Ghz 6C 128 GB DDR3 2 x 960 GB SSD 1 Gbps 100 TB - a partir de 99 $! Llegeix sobre Com construir infrastructure corp. classe amb l'ús de servidors Dell R730xd E5-2650 v4 per valor de 9000 euros per un cèntim?

Font: www.habr.com

Afegeix comentari