Flash-minnets pålitelighet: forventet og uventet. Del 2. XIV-konferansen til USENIX-foreningen. Fillagringsteknologier

Flash-minnets pålitelighet: forventet og uventet. Del 1. XIV-konferansen til USENIX-foreningen. Fillagringsteknologier

4.2.2. RBER og diskalder (unntatt PE-sykluser).

Figur 1 viser en signifikant sammenheng mellom RBER og alder, som er antall måneder disken har vært i felt. Imidlertid kan dette være en falsk korrelasjon siden det er sannsynlig at eldre stasjoner har flere PE-er og derfor er RBER mer korrelert med PE-sykluser.

For å eliminere effekten av alder på slitasje forårsaket av PE-sykluser, grupperte vi alle servicemånedene i containere ved å bruke desilene til PE-syklusfordelingen som et grensesnitt mellom containere, for eksempel inneholder den første containeren alle måneder med diskservice frem til den første desil av PE-syklusfordelingen, og så videre Videre. Vi bekreftet at i hver beholder er korrelasjonen mellom PE-sykluser og RBER ganske liten (siden hver beholder bare dekker et lite utvalg av PE-sykluser), og beregnet deretter korrelasjonskoeffisienten mellom RBER og diskalder separat for hver beholder.

Vi utførte denne analysen separat for hver modell fordi eventuelle observerte korrelasjoner ikke skyldes forskjeller mellom de yngre og eldre modellene, men utelukkende på grunn av alderen til stasjonene til den samme modellen. Vi observerte at selv etter å ha begrenset effekten av PE-sykluser på måten beskrevet ovenfor, var det for alle drivmodeller fortsatt en signifikant korrelasjon mellom antall måneder en drivenhet hadde vært i felt og dens RBER (korrelasjonskoeffisienter varierte fra 0,2 til 0,4 ).

Flash-minnets pålitelighet: forventet og uventet. Del 2. XIV-konferansen til USENIX-foreningen. Fillagringsteknologier
Ris. 3. Forholdet mellom RBER og antall PE-sykluser for nye og gamle skiver viser at alderen på skiven påvirker RBER-verdien uavhengig av PE-syklusene forårsaket av slitasje.

Vi har også grafisk visualisert effekten av stasjonens alder ved å dele dagene med bruk av stasjonen ved en "ung" alder på opptil 1 år og dagene med bruk av stasjonen over 4 år, og plottet deretter RBER for hver gruppe mot antall PE-sykluser. Figur 3 viser disse resultatene for MLC-D-stasjonsmodellen. Vi ser en merkbar forskjell i RBER-verdier mellom gruppene av gamle og nye disker gjennom alle PE-sykluser.

Fra dette konkluderer vi med at alder, målt etter dager med diskbruk i felt, har en betydelig innvirkning på RBER, uavhengig av minnecelleslitasje på grunn av eksponering for PE-sykluser. Dette betyr at andre faktorer, som silisiumaldring, spiller en stor rolle i den fysiske slitasjen på disken.

4.2.3. RBER og arbeidsmengde.

Bitfeil antas å være forårsaket av en av fire mekanismer:

  1. lagringsfeil Oppbevaringsfeil, når en minnecelle mister data over tid
    Lese forstyrrende feil, der en leseoperasjon skader innholdet i en tilstøtende celle;
  2. Skrive forstyrrende feil, der en leseoperasjon skader innholdet i en tilstøtende celle;
  3. Ufullstendige slettefeil, når sletteoperasjonen ikke sletter innholdet i cellen fullstendig.

Feil av de tre siste typene (leseforstyrrelse, skriveforstyrrelser, ufullstendig sletting) er korrelert med arbeidsbelastning, så å forstå sammenhengen mellom RBER og arbeidsbelastning hjelper oss å forstå utbredelsen av forskjellige feilmekanismer. I en fersk studie, "A large-scale study of flash memory failures in the field" (MEZA, J., WU, Q., KUMAR, S., MUTLU, O. "En storskala studie av flashminnefeil i feltet." I Proceedings of 2015 ACM SIGMETRICS International Conference on Measurement and Modeling of Computer Systems, New York, 2015, SIGMETRICS '15, ACM, s. 177–190) konkluderte med at lagringsfeil dominerer i feltet, mens lesefeil er ganske små.

Figur 1 viser et signifikant forhold mellom RBER-verdien i en gitt måned med disklevetid og antall lesinger, skrivinger og slettinger i samme måned for noen modeller (for eksempel er korrelasjonskoeffisienten høyere enn 0,2 for MLC - B modell og høyere enn 0,6 for SLC-B). Det er imidlertid mulig at dette er en falsk korrelasjon, da månedlig arbeidsbelastning kan være relatert til det totale antallet PE-sykluser.

Vi brukte den samme metoden som er beskrevet i avsnitt 4.2.2 for å isolere effekten av arbeidsbelastning fra effekten av PE-sykluser ved å isolere måneders drift basert på tidligere PE-sykluser, og deretter bestemme korrelasjonskoeffisienter separat for hver beholder.

Vi så at korrelasjonen mellom antall avlesninger i en gitt måned med disklevetid og RBER-verdien i den måneden vedvarte for MLC-B- og SLC-B-modellene, selv når PE-sykluser begrenses. Vi gjentok også en lignende analyse der vi ekskluderte effekten av lesninger på antall samtidige skrivinger og slettinger, og konkluderte med at korrelasjonen mellom RBER og antall lesinger stemmer for SLC-B-modellen.

Figur 1 viser også korrelasjonen mellom RBER og skrive- og sletteoperasjoner, så vi gjentok den samme analysen for lese-, skrive- og sletteoperasjoner. Vi konkluderer med at ved å begrense virkningen av PE-sykluser og lesninger, er det ingen sammenheng mellom RBER-verdien og antall skrivinger og slettinger.

Det er altså diskmodeller der lesebruddsfeil har en betydelig innvirkning på RBER. På den annen side er det ingen bevis for at RBER er berørt av skrivebruddsfeil og ufullstendige slettingsfeil.

4.2.4 RBER og litografi.

Forskjeller i objektstørrelse kan delvis forklare forskjellene i RBER-verdier mellom stasjonsmodeller som bruker samme teknologi, dvs. MLC eller SLC. (Se tabell 1 for en oversikt over litografien til de ulike modellene som inngår i denne studien).

For eksempel har 2 SLC-modeller med 34nm litografi (modellene SLC-A og SLC-D) en RBER som er en størrelsesorden høyere enn for 2 modeller med 50nm mikroelektronisk litografi (modellene SLC-B og SLC-C). Når det gjelder MLC-modeller, er det bare 43nm-modellen (MLC-B) som har en median RBER som er 50 % høyere enn de andre 3 modellene med 50nm litografi. Dessuten øker denne forskjellen i RBER med en faktor 4 ettersom stasjonene slites ut, som vist i figur 2. Til slutt kan tynnere litografi forklare den høyere RBER for eMLC-stasjoner sammenlignet med MLC-stasjoner. Samlet sett har vi klare bevis på at litografi påvirker RBER.

4.2.5. Tilstedeværelse av andre feil.

Vi undersøkte forholdet mellom RBER og andre typer feil, som ukorrigerbare feil, timeout-feil, etc., spesielt om RBER-verdien blir høyere etter en måneds eksponering for andre typer feil.

Figur 1 viser at mens forrige måneds RBER er prediktiv for fremtidige RBER-verdier (korrelasjonskoeffisient større enn 0,8), er det ingen signifikant korrelasjon mellom ukorrigerbare feil og RBER (gruppen av elementer lengst til høyre i figur 1). For andre typer feil er korrelasjonskoeffisienten enda lavere (ikke vist i figuren). Vi undersøkte videre forholdet mellom RBER og ukorrigerbare feil i avsnitt 5.2 i denne artikkelen.

4.2.6. Påvirkning av andre faktorer.

Vi fant bevis på at det er faktorer som har en betydelig innvirkning på RBER som dataene våre ikke kunne redegjøre for. Spesielt la vi merke til at RBER for en gitt diskmodell varierer avhengig av klyngen der disken er distribuert. Et godt eksempel er figur 4, som viser RBER som en funksjon av PE-sykluser for MLC-D-drev i tre forskjellige klynger (stiplede linjer) og sammenligner den med RBER for denne modellen i forhold til det totale antallet stasjoner (heltrukken linje). Vi finner at disse forskjellene vedvarer selv når vi begrenser påvirkningen av faktorer som diskens alder eller antall avlesninger.

En mulig forklaring på dette er forskjeller i arbeidsbelastningstype på tvers av klynger, da vi observerer at klynger med arbeidsbelastninger har høyest lese-/skriveforhold har høyest RBER.

Flash-minnets pålitelighet: forventet og uventet. Del 2. XIV-konferansen til USENIX-foreningen. Fillagringsteknologier
Ris. 4 a), b). Median RBER-verdier som en funksjon av PE-sykluser for tre forskjellige klynger og avhengighet av lese/skrive-forholdet på antall PE-sykluser for tre forskjellige klynger.

For eksempel viser figur 4(b) lese-/skriveforhold for forskjellige klynger for MLC-D-stasjonsmodellen. Lese/skrive-forholdet forklarer imidlertid ikke forskjellene mellom klynger for alle modeller, så det kan være andre faktorer som dataene våre ikke tar hensyn til, for eksempel miljøfaktorer eller andre eksterne arbeidsbelastningsparametere.

4.3. RBER under akselerert holdbarhetstesting.

Det meste av vitenskapelig arbeid, samt tester utført ved kjøp av medier i industriell skala, forutsier påliteligheten til enheter i feltet basert på resultatene av akselererte holdbarhetstester. Vi bestemte oss for å finne ut hvor godt resultatene av slike tester samsvarer med praktisk erfaring med drift av solid-state lagringsmedier.
Analyse av testresultater utført ved bruk av den generelle akselererte testmetoden for utstyr levert til Googles datasentre viste at felt RBER-verdier er betydelig høyere enn anslått. For eksempel, for eMLC-a-modellen, var median RBER for disker som ble operert i felt (ved slutten av testen nådde antall PE-sykluser 600) 1e-05, mens i henhold til resultatene av foreløpig akselerert testing, denne RBER verdien skal tilsvare mer enn 4000 PE-sykluser. Dette indikerer at det er svært vanskelig å presist forutsi RBER-verdien i felt basert på RBER-estimater innhentet fra laboratorietester.

Vi bemerket også at noen typer feil er ganske vanskelige å reprodusere under akselerert testing. For eksempel, når det gjelder MLC-B-modellen, opplever nesten 60 % av stasjonene i felten ukorrigerbare feil og nesten 80 % av stasjonene utvikler dårlige blokker. Men under akselerert utholdenhetstesting opplevde ingen av de seks enhetene noen ukorrigerbare feil før frekvensomformere nådde mer enn tre ganger PE-syklusgrensen. For eMLC-modeller oppsto ukorrigerbare feil i mer enn 80 % av stasjonene i feltet, mens under akselerert testing oppsto slike feil etter å ha nådd 15000 XNUMX PE-sykluser.

Vi så også på RBER rapportert i tidligere forskningsarbeid, som var basert på eksperimenter i et kontrollert miljø, og konkluderte med at spekteret av verdier var ekstremt bredt. For eksempel har L.M. Grupp og andre i deres 2009 -2012-arbeid rapporterer RBER-verdier for frekvensomformere som er nær ved å nå PE-syklusgrenser. For eksempel, for SLC- og MLC-enheter med litografistørrelser som ligner de som brukes i vårt arbeid (25-50nm), varierer RBER-verdien fra 1e-08 til 1e-03, med de fleste stasjonsmodeller som er testet med en RBER-verdi nær 1e- 06.

I vår studie hadde de tre drivmodellene som nådde PE-syklusgrensen RBER-er fra 3e-08 til 8e-08. Selv om vi tar i betraktning at tallene våre er nedre grenser og kan være 16 ganger større i verste fall, eller tatt i betraktning 95. persentilen til RBER, er verdiene våre fortsatt betydelig lavere.

Totalt sett, mens faktiske felt-RBER-verdier er høyere enn anslåtte verdier basert på akselerert holdbarhetstesting, er de fortsatt lavere enn de fleste RBER-er for lignende enheter rapportert i andre forskningsartikler og beregnet fra laboratorietester. Dette betyr at du ikke bør stole på predikerte felt RBER-verdier som er utledet fra akselerert holdbarhetstesting.

5. Ukorrigerbare feil.

Gitt den utbredte forekomsten av ukorrigerbare feil (UE-er), som ble diskutert i del 3 i denne artikkelen, undersøker vi i denne delen deres egenskaper mer detaljert. Vi starter med å diskutere hvilken metrikk som skal brukes for å måle UE, hvordan den forholder seg til RBER, og hvordan UE påvirkes av ulike faktorer.

5.1. Hvorfor UBER-forholdet ikke gir mening.

Standardmetrikken som karakteriserer ukorrigerbare feil er UBER ukorrigerbare bitfeilfrekvens, det vil si forholdet mellom antall ukorrigerbare bitfeil og det totale antallet leste biter.

Denne metrikken antar implisitt at antallet ukorrigerbare feil på en eller annen måte er knyttet til antall leste biter, og derfor må normaliseres med dette tallet.

Denne forutsetningen er gyldig for korrigerbare feil, der antall feil observert i en gitt måned er funnet å være sterkt korrelert med antall avlesninger over samme tidsperiode (Spearman-korrelasjonskoeffisient større enn 0.9). Grunnen til en så sterk korrelasjon er at selv en dårlig bit, så lenge den kan korrigeres ved hjelp av ECC, vil fortsette å øke antall feil med hver leseoperasjon som den får tilgang til, siden evalueringen av cellen som inneholder den dårlige biten er ikke umiddelbart korrigert når en feil oppdages (disker skriver bare periodisk om sider med skadede biter).

Den samme forutsetningen gjelder ikke for ukorrigerbare feil. En ukorrigerbar feil utelukker videre bruk av den skadede blokken, så når den først er oppdaget, vil ikke en slik blokk påvirke antallet feil i fremtiden.

For å formelt bekrefte denne antakelsen, brukte vi ulike beregninger for å måle forholdet mellom antall lesninger i en gitt måned med disklevetid og antall ukorrigerbare feil over samme tidsperiode, inkludert ulike korrelasjonskoeffisienter (Pearson, Spearman, Kendall) , samt visuell inspeksjon av grafer . I tillegg til antallet ukorrigerbare feil, så vi også på hyppigheten av ukorrigerbare feilhendelser (dvs. sannsynligheten for at en disk vil ha minst én slik hendelse i løpet av en gitt tidsperiode) og deres forhold til leseoperasjoner.
Vi fant ingen bevis for en korrelasjon mellom antall lesninger og antall ukorrigerbare feil. For alle drivmodeller var korrelasjonskoeffisientene under 0.02, og grafene viste ingen økning i UE etter hvert som antall avlesninger økte.

I seksjon 5.4 i denne artikkelen diskuterer vi at skrive- og sletteoperasjoner heller ikke har noen relasjon til ukorrigerbare feil, så den alternative definisjonen av UBER, som er normalisert av skrive- eller sletteoperasjoner i stedet for leseoperasjoner, har ingen betydning.

Vi konkluderer derfor med at UBER ikke er en meningsfylt beregning, kanskje bortsett fra når den er testet i kontrollerte miljøer der antall avlesninger er satt av eksperimentatoren. Hvis UBER brukes som en metrikk under felttesting, vil den kunstig senke feilraten for stasjoner med høy lesetelling og kunstig øke feilraten for stasjoner med lav lesetelling, siden ukorrigerbare feil oppstår uavhengig av antall avlesninger.

5.2. Ukorrigerbare feil og RBER.

Relevansen til RBER forklares av det faktum at den fungerer som et mål for å bestemme den generelle påliteligheten til stasjonen, spesielt basert på sannsynligheten for ukorrigerbare feil. I sitt arbeid var N. Mielke et al i 2008 de første som foreslo å definere den forventede ukorrigerbare feilraten som en funksjon av RBER. Siden den gang har mange systemutviklere brukt lignende metoder, for eksempel å estimere forventet ukorrigerbar feilrate som en funksjon av RBER- og ECC-type.

Hensikten med denne delen er å karakterisere hvor godt RBER forutsier ukorrigerbare feil. La oss starte med figur 5a, som plotter median RBER for en rekke førstegenerasjons stasjonsmodeller mot prosentandelen av dagene de var i bruk som opplevde ukorrigerbare UE-feil. Det skal bemerkes at noen av de 16 modellene vist i grafen ikke er inkludert i tabell 1 på grunn av mangel på analytisk informasjon.

Flash-minnets pålitelighet: forventet og uventet. Del 2. XIV-konferansen til USENIX-foreningen. Fillagringsteknologier
Ris. 5a. Sammenheng mellom median RBER og ukorrigerbare feil for ulike stasjonsmodeller.

Flash-minnets pålitelighet: forventet og uventet. Del 2. XIV-konferansen til USENIX-foreningen. Fillagringsteknologier
Ris. 5b. Forholdet mellom median RBER og ukorrigerbare feil for forskjellige stasjoner av samme modell.

Husk at alle modeller innen samme generasjon bruker samme ECC-mekanisme, så forskjeller mellom modellene er uavhengige av ECC-forskjeller. Vi så ingen sammenheng mellom RBER- og UE-hendelser. Vi laget det samme plottet for 95. persentilen RBER versus UE-sannsynlighet og så igjen ingen korrelasjon.

Deretter gjentok vi analysen på et granulært nivå for individuelle stasjoner, det vil si at vi prøvde å finne ut om det var stasjoner der en høyere RBER-verdi tilsvarer en høyere UE-frekvens. Som et eksempel, plotter figur 5b medianen RBER for hver stasjon i MLC-c-modellen versus antall UEer (resultater som ligner på de oppnådd for 95. persentil RBER). Igjen, vi så ingen sammenheng mellom RBER og UE.

Til slutt utførte vi en mer presis timinganalyse for å undersøke om driftsmånedene for stasjoner med høyere RBER ville samsvare med månedene UE-er oppsto. Figur 1 har allerede indikert at korrelasjonskoeffisienten mellom ukorrigerbare feil og RBER er svært lav. Vi eksperimenterte også med forskjellige måter å plotte sannsynligheten for UE som en funksjon av RBER og fant ingen bevis for korrelasjon.

Dermed konkluderer vi med at RBER er en upålitelig beregning for å forutsi UE. Dette kan bety at feilmekanismene som fører til RBER er forskjellige fra mekanismene som fører til ukorrigerbare feil (f.eks. feil inneholdt i individuelle celler versus større problemer som oppstår med hele enheten).

5.3. Ukorrigerbare feil og slitasje.

Siden slitasje er et av hovedproblemene til flash-minne, viser figur 6 den daglige sannsynligheten for ukorrigerbare stasjonsfeil som en funksjon av PE-sykluser.

Flash-minnets pålitelighet: forventet og uventet. Del 2. XIV-konferansen til USENIX-foreningen. Fillagringsteknologier
Figur 6. Daglig sannsynlighet for forekomst av ukorrigerbare drivfeil avhengig av PE-sykluser.

Vi legger merke til at sannsynligheten for en UE øker kontinuerlig med alderen på stasjonen. Imidlertid, som med RBER, er økningen langsommere enn vanlig antatt: grafene viser at UE-er vokser lineært i stedet for eksponentielt med PE-sykluser.

To konklusjoner vi gjorde for RBER gjelder også for UEer: For det første er det ingen klar økning i feilpotensialet når PE-syklusgrensen er nådd, slik som i figur 6 for MLC-D-modellen hvis PE-syklusgrense er 3000. For det andre, for det andre , varierer feilraten mellom ulike modeller, selv innenfor samme klasse. Disse forskjellene er imidlertid ikke like store som for RBER.

Til slutt, til støtte for funnene våre i seksjon 5.2, fant vi at innenfor en enkelt modellklasse (MLC vs. SLC), er ikke modellene med de laveste RBER-verdiene for et gitt antall PE-sykluser nødvendigvis de med lavest sannsynlighet for UE-forekomst. For eksempel, over 3000 PE-sykluser, MLC-D-modeller hadde RBER-verdier 4 ganger lavere enn MLC-B-modeller, men UE-sannsynligheten for samme antall PE-sykluser var litt høyere for MLC-D-modeller enn for MLC-B modeller.

Flash-minnets pålitelighet: forventet og uventet. Del 2. XIV-konferansen til USENIX-foreningen. Fillagringsteknologier
Figur 7. Månedlig sannsynlighet for forekomst av ukorrigerbare stasjonsfeil som en funksjon av tilstedeværelsen av tidligere feil av ulike typer.

5.4. Ukorrigerbare feil og arbeidsbelastning.

Av de samme grunner som arbeidsbelastning kan påvirke RBER (se avsnitt 4.2.3), kan det forventes å også påvirke UE. For eksempel, siden vi observerte at lesebruddsfeil påvirker RBER, kan leseoperasjoner også øke sannsynligheten for ukorrigerbare feil.

Vi gjennomførte en detaljert studie om virkningen av arbeidsbelastning på UE. Imidlertid, som nevnt i avsnitt 5.1, fant vi ingen sammenheng mellom UE og antall avlesninger. Vi gjentok den samme analysen for skrive- og sletteoperasjoner og så igjen ingen korrelasjon.
Merk at ved første øyekast ser dette ut til å motsi vår tidligere observasjon om at ukorrigerbare feil er korrelert med PE-sykluser. Derfor kan man godt forvente en korrelasjon med antall skrive- og sletteoperasjoner.

I vår analyse av virkningen av PE-sykluser sammenlignet vi imidlertid antall ukorrigerbare feil i en gitt måned med det totale antallet PE-sykluser som frekvensomformeren har opplevd gjennom hele levetiden til dags dato for å måle effekten av slitasje. Når vi studerte virkningen av arbeidsbelastning, så vi på månedene med stasjonsdrift som hadde det høyeste antallet lese-/skrive-/sletteoperasjoner i en bestemt måned, som også hadde større sjanse for å forårsake ukorrigerbare feil, dvs. vi tok ikke hensyn til ta hensyn til det totale antallet lese/skrive/slette operasjoner.

Som et resultat kom vi til den konklusjonen at lesebruddsfeil, skrivebruddsfeil og ufullstendige slettingsfeil ikke er hovedfaktorene i utviklingen av ukorrigerbare feil.

Takk for at du bor hos oss. Liker du artiklene våre? Vil du se mer interessant innhold? Støtt oss ved å legge inn en bestilling eller anbefale til venner, 30 % rabatt for Habr-brukere på en unik analog av inngangsnivåservere, som ble oppfunnet av oss for deg: Hele sannheten om VPS (KVM) E5-2650 v4 (6 kjerner) 10GB DDR4 240GB SSD 1Gbps fra $20 eller hvordan dele en server? (tilgjengelig med RAID1 og RAID10, opptil 24 kjerner og opptil 40 GB DDR4).

Dell R730xd 2 ganger billigere? Bare her 2 x Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 TV fra $199 i Nederland! Dell R420 - 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB - fra $99! Lese om Hvordan bygge infrastruktur corp. klasse med bruk av Dell R730xd E5-2650 v4-servere verdt 9000 euro for en krone?

Kilde: www.habr.com

Legg til en kommentar