Flash-hukommelses pålidelighed: forventet og uventet. Del 2. XIV konference for USENIX-foreningen. Fillagringsteknologier

Flash-hukommelses pålidelighed: forventet og uventet. Del 1. XIV konference for USENIX-foreningen. Fillagringsteknologier

4.2.2. RBER og diskalder (eksklusive PE-cyklusser).

Figur 1 viser en signifikant sammenhæng mellem RBER og alder, som er antallet af måneder disken har været i marken. Dette kan dog være en falsk korrelation, da det er sandsynligt, at ældre drev har flere PE'er, og derfor er RBER mere korreleret med PE-cyklusser.

For at eliminere virkningen af ​​alder på slid forårsaget af PE-cyklusser, grupperede vi alle måneders service i containere ved at bruge decilerne i PE-cyklusfordelingen som en afskæring mellem containere, for eksempel indeholder den første container alle måneders skivelevetid op til første decil af PE-cyklusfordelingen, og så videre Yderligere. Vi bekræftede, at korrelationen mellem PE-cyklusser og RBER inden for hver container er ret lille (da hver container kun dækker et lille område af PE-cyklusser), og beregnede derefter korrelationskoefficienten mellem RBER og diskalderen separat for hver container.

Vi udførte denne analyse separat for hver model, fordi eventuelle observerede korrelationer ikke skyldes forskelle mellem de yngre og ældre modeller, men udelukkende på grund af alderen på drevene i den samme model. Vi observerede, at selv efter at have begrænset effekten af ​​PE-cyklusser på den ovenfor beskrevne måde, var der for alle drevmodeller stadig en signifikant korrelation mellem antallet af måneder et drev havde været i marken og dets RBER (korrelationskoefficienter varierede fra 0,2 til 0,4 ).

Flash-hukommelses pålidelighed: forventet og uventet. Del 2. XIV konference for USENIX-foreningen. Fillagringsteknologier
Ris. 3. Forholdet mellem RBER og antallet af PE-cyklusser for nye og gamle skiver viser, at skivens alder påvirker RBER-værdien uanset PE-cyklusserne forårsaget af slid.

Vi visualiserede også grafisk effekten af ​​drevets alder ved at dividere drevets brugsdage i en "ung" alder op til 1 år og brugsdage af drevet over 4 år, og derefter plottede RBER for hver gruppe mod antallet af PE-cyklusser. Figur 3 viser disse resultater for MLC-D-drevmodellen. Vi ser en mærkbar forskel i RBER-værdier mellem grupperne af gamle og nye diske gennem alle PE-cyklusser.

Ud fra dette konkluderer vi, at alder, målt på dage med diskbrug i marken, har en betydelig indflydelse på RBER, uanset slid på hukommelsesceller på grund af eksponering for PE-cyklusser. Det betyder, at andre faktorer, såsom siliciumældning, spiller en stor rolle i det fysiske slid på disken.

4.2.3. RBER og arbejdsbyrde.

Bitfejl menes at være forårsaget af en af ​​fire mekanismer:

  1. lagringsfejl Retentionsfejl, når en hukommelsescelle mister data over tid
    Læseforstyrrelsesfejl, hvor en læseoperation beskadiger indholdet af en tilstødende celle;
  2. Skriveforstyrrelsesfejl, hvor en læseoperation beskadiger indholdet af en tilstødende celle;
  3. Ufuldstændige slettefejl, når sletningen ikke sletter indholdet af cellen fuldstændigt.

Fejl af de sidste tre typer (læseforstyrrelse, skriveforstyrrelse, ufuldstændig sletning) er korreleret med arbejdsbelastning, så forståelsen af ​​sammenhængen mellem RBER og arbejdsbelastning hjælper os med at forstå udbredelsen af ​​forskellige fejlmekanismer. I en nylig undersøgelse, "A large-scale study of flash memory failures in the field" (MEZA, J., WU, Q., KUMAR, S., MUTLU, O. "En storstilet undersøgelse af flashhukommelsesfejl i feltet." I Proceedings of the 2015 ACM SIGMETRICS International Conference on Measurement and Modeling of Computer Systems, New York, 2015, SIGMETRICS '15, ACM, s. 177-190) konkluderede, at lagringsfejl dominerer i feltet, mens læsefejl er ganske små.

Figur 1 viser et signifikant forhold mellem RBER-værdien i en given måneds disklevetid og antallet af læsninger, skrivninger og sletninger i samme måned for nogle modeller (for eksempel er korrelationskoefficienten højere end 0,2 for MLC - B model og højere end 0,6 for SLC-B). Det er dog muligt, at dette er en falsk sammenhæng, da den månedlige arbejdsbelastning kan være relateret til det samlede antal PE-cyklusser.

Vi brugte den samme metode beskrevet i afsnit 4.2.2 til at isolere virkningerne af arbejdsbelastning fra virkningerne af PE-cyklusser ved at isolere måneders drevdrift baseret på tidligere PE-cyklusser og derefter bestemme korrelationskoefficienter separat for hver beholder.

Vi så, at korrelationen mellem antallet af aflæsninger i en given måneds disklevetid og RBER-værdien i den måned fortsatte for MLC-B- og SLC-B-modellerne, selv ved begrænsning af PE-cyklusser. Vi gentog også en lignende analyse, hvor vi udelukkede effekten af ​​læsninger på antallet af samtidige skrivninger og sletninger, og konkluderede, at korrelationen mellem RBER og antallet af læsninger gælder for SLC-B-modellen.

Figur 1 viser også sammenhængen mellem RBER og skrive- og sletteoperationer, så vi gentog den samme analyse for læse-, skrive- og sletteoperationer. Vi konkluderer, at ved at begrænse virkningen af ​​PE-cyklusser og -læsninger, er der ingen sammenhæng mellem RBER-værdien og antallet af skrivninger og sletninger.

Der er således diskmodeller, hvor læsefejl har en væsentlig indflydelse på RBER. På den anden side er der ingen beviser for, at RBER er påvirket af skriveovertrædelsesfejl og ufuldstændige sletningsfejl.

4.2.4 RBER og litografi.

Forskelle i objektstørrelse kan delvist forklare forskellene i RBER-værdier mellem drevmodeller, der bruger den samme teknologi, dvs. MLC eller SLC. (Se tabel 1 for en oversigt over litografien af ​​de forskellige modeller, der indgår i denne undersøgelse).

For eksempel har 2 SLC-modeller med 34 nm litografi (modellerne SLC-A og SLC-D) en RBER, der er en størrelsesorden højere end den for 2 modeller med 50 nm mikroelektronisk litografi (modellerne SLC-B og SLC-C). I tilfælde af MLC-modeller har kun 43nm-modellen (MLC-B) en median RBER, der er 50 % højere end de andre 3 modeller med 50nm litografi. Desuden øges denne forskel i RBER med en faktor 4, når drevene slides, som vist i figur 2. Endelig kan tyndere litografi forklare den højere RBER for eMLC-drev sammenlignet med MLC-drev. Samlet set har vi klare beviser for, at litografi påvirker RBER.

4.2.5. Tilstedeværelse af andre fejl.

Vi undersøgte sammenhængen mellem RBER og andre typer fejl, såsom ukorrigerbare fejl, timeout-fejl osv., især om RBER-værdien bliver højere efter en måneds eksponering for andre typer fejl.

Figur 1 viser, at mens den foregående måneds RBER er forudsigelig for fremtidige RBER-værdier (korrelationskoefficient større end 0,8), er der ingen signifikant sammenhæng mellem ukorrigerbare fejl og RBER (gruppen af ​​elementer længst til højre i figur 1). For andre typer fejl er korrelationskoefficienten endnu lavere (ikke vist i figuren). Vi undersøgte yderligere forholdet mellem RBER og ukorrigerbare fejl i afsnit 5.2 i dette papir.

4.2.6. Påvirkning af andre faktorer.

Vi fandt bevis for, at der er faktorer, der har en væsentlig indflydelse på RBER, som vores data ikke kunne tage højde for. Vi har især bemærket, at RBER for en given diskmodel varierer afhængigt af klyngen, hvori disken er installeret. Et godt eksempel er figur 4, som viser RBER som funktion af PE-cyklusser for MLC-D-drev i tre forskellige klynger (stiplede linjer) og sammenligner det med RBER for denne model i forhold til det samlede antal drev (heltrukken linje). Vi finder ud af, at disse forskelle fortsætter, selv når vi begrænser indflydelsen af ​​faktorer som diskens alder eller antallet af læsninger.

En mulig forklaring på dette er forskelle i arbejdsbelastningstype på tværs af klynger, da vi observerer, at klynger, hvis arbejdsbelastninger har de højeste læse/skrive-forhold, har den højeste RBER.

Flash-hukommelses pålidelighed: forventet og uventet. Del 2. XIV konference for USENIX-foreningen. Fillagringsteknologier
Ris. 4 a), b). Median RBER-værdier som funktion af PE-cyklusser for tre forskellige klynger og afhængighed af læse/skrive-forholdet af antallet af PE-cyklusser for tre forskellige klynger.

For eksempel viser figur 4(b) læse/skrive-forholdet for forskellige klynger for MLC-D-drevmodellen. Læse/skrive-forholdet forklarer dog ikke forskellene mellem klynger for alle modeller, så der kan være andre faktorer, som vores data ikke tager højde for, såsom miljøfaktorer eller andre eksterne arbejdsbelastningsparametre.

4.3. RBER under accelereret holdbarhedstest.

Det meste videnskabelige arbejde såvel som test udført ved køb af medier i industriel skala forudsiger pålideligheden af ​​enheder i feltet baseret på resultaterne af accelererede holdbarhedstests. Vi besluttede at finde ud af, hvor godt resultaterne af sådanne test svarer til praktisk erfaring med drift af solid-state lagringsmedier.
Analyse af testresultater udført ved hjælp af den generelle accelererede testmetodologi for udstyr leveret til Googles datacentre viste, at felt RBER-værdier er væsentligt højere end forudsagt. For eksempel for eMLC-a-modellen var median-RBER for diske, der blev betjent i marken (ved slutningen af ​​testen nåede antallet af PE-cyklusser op på 600) 1e-05, mens denne RBER ifølge resultaterne af foreløbig accelereret testning værdien skal svare til mere end 4000 PE-cyklusser. Dette indikerer, at det er meget vanskeligt nøjagtigt at forudsige RBER-værdien i marken baseret på RBER-estimater opnået fra laboratorietest.

Vi bemærkede også, at nogle typer fejl er ret svære at genskabe under accelereret test. For eksempel, i tilfældet med MLC-B-modellen, oplever næsten 60 % af drevene i marken ukorrigerbare fejl, og næsten 80 % af drevene udvikler dårlige blokke. Men under accelereret udholdenhedstest oplevede ingen af ​​de seks enheder nogen ukorrigerbare fejl, før drevene nåede mere end tre gange PE-cyklusgrænsen. For eMLC-modeller opstod der ukorrigerbare fejl i mere end 80 % af drevene i marken, mens der under accelereret test opstod sådanne fejl efter at have nået 15000 PE-cyklusser.

Vi så også på RBER rapporteret i tidligere forskningsarbejde, som var baseret på eksperimenter i et kontrolleret miljø, og konkluderede, at rækken af ​​værdier var ekstremt bred. For eksempel har L.M. Grupp og andre rapporterer i deres 2009 -2012 arbejde RBER-værdier for drev, der er tæt på at nå PE-cyklusgrænserne. For eksempel, for SLC- og MLC-enheder med litografistørrelser svarende til dem, der bruges i vores arbejde (25-50nm), varierer RBER-værdien fra 1e-08 til 1e-03, hvor de fleste testede drevmodeller har en RBER-værdi tæt på 1e- 06.

I vores undersøgelse havde de tre drevmodeller, der nåede PE-cyklusgrænsen, RBER'er fra 3e-08 til 8e-08. Selv når man tager i betragtning, at vores tal er lavere grænser og kan være 16 gange større i det absolut værste tilfælde, eller når man tager højde for 95. percentilen af ​​RBER, er vores værdier stadig betydeligt lavere.

Samlet set, mens faktiske felt-RBER-værdier er højere end forudsagte værdier baseret på accelereret holdbarhedstest, er de stadig lavere end de fleste RBER'er for lignende enheder, der er rapporteret i andre forskningsartikler og beregnet ud fra laboratorietests. test. Dette betyder, at du ikke bør stole på forudsagte felt-RBER-værdier, der er afledt af accelereret holdbarhedstest.

5. Fejl, der ikke kan rettes.

I betragtning af den udbredte forekomst af ukorrigerbare fejl (UE'er), som blev diskuteret i afsnit 3 i dette papir, undersøger vi i dette afsnit deres karakteristika mere detaljeret. Vi starter med at diskutere, hvilken metrik der skal bruges til at måle UE, hvordan den relaterer sig til RBER, og hvordan UE påvirkes af forskellige faktorer.

5.1. Hvorfor UBER-forholdet ikke giver mening.

Standardmetrikken, der karakteriserer ukorrigerbare fejl, er den ukorrigerbare bitfejlrate i UBER, det vil sige forholdet mellem antallet af ukorrigerbare bitfejl og det samlede antal læste bits.

Denne metrik antager implicit, at antallet af ukorrigerbare fejl på en eller anden måde er bundet til antallet af læste bit, og derfor skal normaliseres med dette antal.

Denne antagelse er gyldig for korrigerbare fejl, hvor antallet af observerede fejl i en given måned viser sig at være stærkt korreleret med antallet af aflæsninger over samme tidsperiode (Spearman-korrelationskoefficient større end 0.9). Grunden til en så stærk korrelation er, at selv en dårlig bit, så længe den kan korrigeres ved hjælp af ECC, vil fortsætte med at øge antallet af fejl med hver læseoperation, som den får adgang til, da evalueringen af ​​cellen, der indeholder den dårlige bit, er ikke straks rettet, når en fejl opdages (diske omskriver kun periodisk sider med beskadigede bits).

Den samme antagelse gælder ikke for ukorrigerbare fejl. En fejl, der ikke kan rettes, udelukker yderligere brug af den beskadigede blok, så når først den er opdaget, vil en sådan blok ikke påvirke antallet af fejl i fremtiden.

For formelt at bekræfte denne antagelse brugte vi forskellige målinger til at måle forholdet mellem antallet af læsninger i en given måneds disklevetid og antallet af ukorrigerbare fejl over samme tidsperiode, inklusive forskellige korrelationskoefficienter (Pearson, Spearman, Kendall) , samt visuel inspektion af grafer . Ud over antallet af ukorrigerbare fejl, så vi også på hyppigheden af ​​ukorrigerbare fejlhændelser (dvs. sandsynligheden for, at en disk vil have mindst én sådan hændelse i løbet af en given periode) og deres forhold til læseoperationer.
Vi fandt ingen beviser for en sammenhæng mellem antallet af aflæsninger og antallet af ukorrigerbare fejl. For alle drevmodeller var korrelationskoefficienterne under 0.02, og graferne viste ingen stigning i UE, da antallet af aflæsninger steg.

I afsnit 5.4 i dette papir diskuterer vi, at skrive- og sletteoperationer heller ikke har nogen relation til ukorrigerbare fejl, så den alternative definition af UBER, som er normaliseret af skrive- eller sletteoperationer i stedet for læseoperationer, har ingen betydning.

Vi konkluderer derfor, at UBER ikke er en meningsfuld metrik, undtagen måske når den testes i kontrollerede miljøer, hvor antallet af læsninger er indstillet af eksperimentatoren. Hvis UBER bruges som en metrik under felttestning, vil den kunstigt sænke fejlraten for drev med et højt læseantal og kunstigt oppuste fejlfrekvensen for drev med lavt læsetal, da ukorrigerbare fejl opstår uanset antallet af aflæsninger.

5.2. Ukorrigerbare fejl og RBER.

Relevansen af ​​RBER forklares ved, at den tjener som et mål til at bestemme drevets overordnede pålidelighed, især baseret på sandsynligheden for ukorrigerbare fejl. I deres arbejde var N. Mielke et al i 2008 de første til at foreslå at definere den forventede ukorrigerbare fejlrate som en funktion af RBER. Siden da har mange systemudviklere brugt lignende metoder, såsom at estimere den forventede ukorrigerbare fejlrate som en funktion af RBER- og ECC-typen.

Formålet med dette afsnit er at karakterisere, hvor godt RBER forudsiger ukorrigerbare fejl. Lad os starte med figur 5a, som plotter medianen af ​​RBER for et antal førstegenerationsdrevmodeller mod procentdelen af ​​dage, de var i brug, som oplevede ukorrigerbare UE-fejl. Det skal bemærkes, at nogle af de 16 modeller vist i grafen ikke er inkluderet i tabel 1 på grund af manglende analytisk information.

Flash-hukommelses pålidelighed: forventet og uventet. Del 2. XIV konference for USENIX-foreningen. Fillagringsteknologier
Ris. 5a. Sammenhæng mellem median RBER og ukorrigerbare fejl for forskellige drevmodeller.

Flash-hukommelses pålidelighed: forventet og uventet. Del 2. XIV konference for USENIX-foreningen. Fillagringsteknologier
Ris. 5b. Forholdet mellem median RBER og ukorrigerbare fejl for forskellige drev af samme model.

Husk, at alle modeller inden for samme generation bruger den samme ECC-mekanisme, så forskelle mellem modeller er uafhængige af ECC-forskelle. Vi så ingen sammenhæng mellem RBER- og UE-hændelser. Vi lavede det samme plot for 95. percentilen RBER versus UE-sandsynlighed og så igen ingen korrelation.

Dernæst gentog vi analysen på et granulært niveau for individuelle drev, dvs. vi forsøgte at finde ud af, om der var drev, hvor en højere RBER-værdi svarer til en højere UE-frekvens. Som et eksempel plotter figur 5b medianen af ​​RBER for hvert drev i MLC-c modellen i forhold til antallet af UE'er (resultater svarende til dem opnået for 95. percentilen RBER). Igen så vi ikke nogen sammenhæng mellem RBER og UE.

Til sidst udførte vi en mere præcis timinganalyse for at undersøge, om driftsmånederne for drev med højere RBER ville svare til de måneder, hvor UE'er fandt sted. Figur 1 har allerede indikeret, at korrelationskoefficienten mellem ukorrigerbare fejl og RBER er meget lav. Vi eksperimenterede også med forskellige måder at plotte sandsynligheden for UE som en funktion af RBER og fandt ingen beviser for korrelation.

Således konkluderer vi, at RBER er en upålidelig metrik til at forudsige UE. Dette kan betyde, at de fejlmekanismer, der fører til RBER, er forskellige fra de mekanismer, der fører til ukorrigerbare fejl (f.eks. fejl indeholdt i individuelle celler versus større problemer, der opstår med hele enheden).

5.3. Urettelige fejl og slitage.

Da slid er et af hovedproblemerne ved flashhukommelse, viser figur 6 den daglige sandsynlighed for ukorrigerbare drevfejl som funktion af PE-cyklusser.

Flash-hukommelses pålidelighed: forventet og uventet. Del 2. XIV konference for USENIX-foreningen. Fillagringsteknologier
Figur 6. Daglig sandsynlighed for forekomst af ukorrigerbare drevfejl afhængigt af PE-cyklusser.

Vi bemærker, at sandsynligheden for en UE stiger kontinuerligt med drevets alder. Men som med RBER er stigningen langsommere end normalt antaget: graferne viser, at UE'er vokser lineært snarere end eksponentielt med PE-cyklusser.

To konklusioner, vi traf for RBER, gælder også for UE'er: For det første er der ingen klar stigning i fejlpotentiale, når PE-cyklusgrænsen er nået, såsom i figur 6 for MLC-D-modellen, hvis PE-cyklusgrænse er 3000. For det andet, for det andet , varierer fejlraten mellem forskellige modeller, selv inden for samme klasse. Disse forskelle er dog ikke så store som for RBER.

Endelig fandt vi til støtte for vores resultater i afsnit 5.2, at inden for en enkelt modelklasse (MLC vs. SLC) er modellerne med de laveste RBER-værdier for et givet antal PE-cyklusser ikke nødvendigvis dem med de laveste sandsynlighed for UE-forekomst. For eksempel havde over 3000 PE-cyklusser, MLC-D-modeller RBER-værdier 4 gange lavere end MLC-B-modeller, men UE-sandsynligheden for det samme antal PE-cyklusser var lidt højere for MLC-D-modeller end for MLC-B modeller.

Flash-hukommelses pålidelighed: forventet og uventet. Del 2. XIV konference for USENIX-foreningen. Fillagringsteknologier
Figur 7. Månedlig sandsynlighed for forekomst af ukorrigerbare drevfejl som funktion af tilstedeværelsen af ​​tidligere fejl af forskellige typer.

5.4. Ukorrigerbare fejl og arbejdsbyrde.

Af de samme grunde, som arbejdsbyrden kan påvirke RBER (se afsnit 4.2.3), kan det forventes også at påvirke UE. For eksempel, da vi har observeret, at læseovertrædelsesfejl påvirker RBER, kan læseoperationer også øge sandsynligheden for ukorrigerbare fejl.

Vi gennemførte en detaljeret undersøgelse af virkningen af ​​arbejdsbyrden på UE. Men som nævnt i afsnit 5.1 fandt vi ikke en sammenhæng mellem UE og antallet af læsninger. Vi gentog den samme analyse for skrive- og sletteoperationer og så igen ingen sammenhæng.
Bemærk, at dette ved første øjekast ser ud til at modsige vores tidligere observation om, at ukorrigerbare fejl er korreleret med PE-cyklusser. Derfor kan man godt forvente en sammenhæng med antallet af skrive- og sletteoperationer.

I vores analyse af virkningen af ​​PE-cyklusser sammenlignede vi dog antallet af ukorrigerbare fejl i en given måned med det samlede antal PE-cyklusser, som drevet har oplevet gennem dets levetid til dato for at måle effekten af ​​slid. Da vi undersøgte virkningen af ​​arbejdsbelastning, så vi på de måneder med drevdrift, der havde det højeste antal læse-/skrive-/sletoperationer i en bestemt måned, hvilket også havde en større chance for at forårsage ukorrigerbare fejl, dvs. vi tog ikke hensyn til tage højde for det samlede antal læse/skrive/slette operationer.

Som et resultat kom vi til den konklusion, at læseovertrædelsesfejl, skriveovertrædelsesfejl og ufuldstændige sletningsfejl ikke er hovedfaktorerne i udviklingen af ​​ukorrigerbare fejl.

Tak fordi du blev hos os. Kan du lide vores artikler? Vil du se mere interessant indhold? Støt os ved at afgive en ordre eller anbefale til venner, 30% rabat til Habr-brugere på en unik analog af entry-level servere, som er opfundet af os til dig: Hele sandheden om VPS (KVM) E5-2650 v4 (6 Cores) 10GB DDR4 240GB SSD 1Gbps fra $20 eller hvordan deler man en server? (tilgængelig med RAID1 og RAID10, op til 24 kerner og op til 40 GB DDR4).

Dell R730xd 2 gange billigere? Kun her 2 x Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 TV fra $199 i Holland! Dell R420 - 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB - fra $99! Læse om Hvordan man bygger infrastruktur corp. klasse med brug af Dell R730xd E5-2650 v4-servere til en værdi af 9000 euro for en krone?

Kilde: www.habr.com

Tilføj en kommentar