Flash-minnes tillförlitlighet: förväntat och oväntat. Del 2. XIV konferens för USENIX-föreningen. Fillagringsteknik

Flash-minnes tillförlitlighet: förväntat och oväntat. Del 1. XIV konferens för USENIX-föreningen. Fillagringsteknik

4.2.2. RBER och diskålder (exklusive PE-cykler).

Figur 1 visar en signifikant korrelation mellan RBER och ålder, vilket är antalet månader skivan har varit i fält. Detta kan dock vara en falsk korrelation eftersom det är troligt att äldre enheter har fler PE och därför är RBER mer korrelerad med PE-cykler.

För att eliminera effekten av ålder på slitage orsakat av PE-cykler, grupperade vi alla månaders drift i behållare med hjälp av decilerna för PE-cykelfördelningen som en gräns mellan behållare, till exempel innehåller den första behållaren alla månaders skivlivslängd upp till första decilen av PE-cykelfördelningen, och så vidare. Vi verifierade att i varje container är korrelationen mellan PE-cykler och RBER ganska liten (eftersom varje container bara täcker ett litet område av PE-cykler), och beräknade sedan korrelationskoefficienten mellan RBER och diskålder separat för varje container.

Vi utförde denna analys separat för varje modell eftersom eventuella observerade korrelationer inte beror på skillnader mellan de yngre och äldre modellerna, utan enbart på grund av åldern på enheterna i samma modell. Vi observerade att även efter att ha begränsat effekten av PE-cykler på det sätt som beskrivits ovan, för alla drivmodeller fanns det fortfarande en signifikant korrelation mellan antalet månader en drivenhet hade varit i fält och dess RBER (korrelationskoefficienter varierade från 0,2 till 0,4 ).

Flash-minnes tillförlitlighet: förväntat och oväntat. Del 2. XIV konferens för USENIX-föreningen. Fillagringsteknik
Ris. 3. Relationen mellan RBER och antalet PE-cykler för nya och gamla skivor visar att skivans ålder påverkar RBER-värdet oavsett PE-cykler som orsakas av slitage.

Vi visualiserade också grafiskt effekten av diskens ålder genom att dividera dagarna för användning av disken vid en "ung" ålder upp till 1 år och dagarna för användning av disken över en ålder av 4 år, och plottade sedan RBER för varje grupp mot antalet PE-cykler. Figur 3 visar dessa resultat för MLC-D-drivmodellen. Vi ser en märkbar skillnad i RBER-värden mellan grupperna av gamla och nya diskar under alla PE-cykler.

Av detta drar vi slutsatsen att ålder, mätt med dagar av diskanvändning i fält, har en betydande inverkan på RBER, oavsett minnescellsslitage på grund av exponering för PE-cykler. Det betyder att andra faktorer, som kiselåldring, spelar en stor roll för det fysiska slitaget på skivan.

4.2.3. RBER och arbetsbelastning.

Bitfel tros orsakas av en av fyra mekanismer:

  1. lagringsfel Lagringsfel, när en minnescell förlorar data över tid
    Lässtörningsfel, där en läsoperation skadar innehållet i en intilliggande cell;
  2. Skriv störningsfel, där en läsoperation skadar innehållet i en intilliggande cell;
  3. Ofullständiga raderingsfel, när raderingsoperationen inte helt tar bort innehållet i cellen.

Fel av de tre sista typerna (läs stör, skrivstörning, ofullständig radering) är korrelerade med arbetsbelastning, så att förstå sambandet mellan RBER och arbetsbelastning hjälper oss att förstå förekomsten av olika felmekanismer. I en nyligen genomförd studie, "En storskalig studie av flashminnesfel i fält" (MEZA, J., WU, Q., KUMAR, S., MUTLU, O. "En storskalig studie av flashminnesfel i fältet." I Proceedings of the 2015 ACM SIGMETRICS International Conference on Measurement and Modeling of Computer Systems, New York, 2015, SIGMETRICS '15, ACM, s. 177–190) drog slutsatsen att lagringsfel dominerar i fältet, medan läsfel är ganska små.

Figur 1 visar ett signifikant samband mellan RBER-värdet under en given månads skivlivslängd och antalet läsningar, skrivningar och raderingar under samma månad för vissa modeller (till exempel är korrelationskoefficienten högre än 0,2 för MLC - B modell och högre än 0,6 för SLC-B). Det är dock möjligt att detta är en falsk korrelation, eftersom månatlig arbetsbelastning kan vara relaterad till det totala antalet PE-cykler.

Vi använde samma metodik som beskrivs i avsnitt 4.2.2 för att isolera effekterna av arbetsbelastning från effekterna av PE-cykler genom att isolera månaders driftdrift baserat på tidigare PE-cykler och sedan bestämma korrelationskoefficienter separat för varje container.

Vi såg att korrelationen mellan antalet läsningar under en given månads skivlivslängd och RBER-värdet under den månaden kvarstod för MLC-B- och SLC-B-modellerna, även när PE-cykler begränsades. Vi upprepade också en liknande analys där vi uteslöt effekten av läsningar på antalet samtidiga skrivningar och raderingar, och drog slutsatsen att korrelationen mellan RBER och antalet läsningar gäller för SLC-B-modellen.

Figur 1 visar också korrelationen mellan RBER och skriv- och raderingsoperationer, så vi upprepade samma analys för läs-, skriv- och raderingsoperationer. Vi drar slutsatsen att genom att begränsa effekten av PE-cykler och läsningar finns det inget samband mellan RBER-värdet och antalet skrivningar och raderingar.

Det finns alltså diskmodeller där läsbrottsfel har en betydande inverkan på RBER. Å andra sidan finns det inga bevis för att RBER är påverkad av skrivfel och ofullständiga raderingsfel.

4.2.4 RBER och litografi.

Skillnader i objektstorlek kan delvis förklara skillnaderna i RBER-värden mellan drivmodeller som använder samma teknologi, det vill säga MLC eller SLC. (Se tabell 1 för en översikt över litografin för de olika modellerna som ingår i denna studie).

Till exempel har 2 SLC-modeller med 34 nm litografi (modellerna SLC-A och SLC-D) en RBER som är en storleksordning högre än den för 2 modeller med 50 nm mikroelektronisk litografi (modellerna SLC-B och SLC-C). När det gäller MLC-modeller är det bara 43nm-modellen (MLC-B) som har en median RBER som är 50 % högre än de andra 3 modellerna med 50nm litografi. Dessutom ökar denna skillnad i RBER med en faktor 4 när enheterna slits ut, som visas i figur 2. Slutligen kan tunnare litografi förklara den högre RBER för eMLC-enheter jämfört med MLC-enheter. Sammantaget har vi tydliga bevis för att litografi påverkar RBER.

4.2.5. Förekomst av andra fel.

Vi undersökte sambandet mellan RBER och andra typer av fel, såsom okorrigerbara fel, timeout-fel, etc., i synnerhet om RBER-värdet blir högre efter en månads exponering för andra typer av fel.

Figur 1 visar att medan föregående månads RBER är förutsägande för framtida RBER-värden (korrelationskoefficient större än 0,8), finns det ingen signifikant korrelation mellan okorrigerbara fel och RBER (gruppen längst till höger i figur 1). För andra typer av fel är korrelationskoefficienten ännu lägre (visas inte i figuren). Vi undersökte ytterligare sambandet mellan RBER och okorrigerbara fel i avsnitt 5.2 i detta dokument.

4.2.6. Påverkan av andra faktorer.

Vi hittade bevis för att det finns faktorer som har en betydande inverkan på RBER som vår data inte kunde redogöra för. I synnerhet märkte vi att RBER för en given diskmodell varierar beroende på i vilket kluster disken är distribuerad. Ett bra exempel är figur 4, som visar RBER som en funktion av PE-cykler för MLC-D-frekvensomriktare i tre olika kluster (streckade linjer) och jämför den med RBER för denna modell i förhållande till det totala antalet frekvensomriktare (heldragen linje). Vi finner att dessa skillnader kvarstår även när vi begränsar påverkan av faktorer som diskens ålder eller antal läsningar.

En möjlig förklaring till detta är skillnader i arbetsbelastningstyp mellan kluster, eftersom vi observerar att kluster vars arbetsbelastningar har de högsta läs/skrivkvoterna har den högsta RBER.

Flash-minnes tillförlitlighet: förväntat och oväntat. Del 2. XIV konferens för USENIX-föreningen. Fillagringsteknik
Ris. 4 a), b). Median RBER-värden som en funktion av PE-cykler för tre olika kluster och beroende av läs/skrivförhållandet på antalet PE-cykler för tre olika kluster.

Till exempel visar figur 4(b) läs-/skrivförhållandet för olika kluster för MLC-D-enhetsmodellen. Läs-/skrivförhållandet förklarar dock inte skillnaderna mellan kluster för alla modeller, så det kan finnas andra faktorer som vår data inte tar hänsyn till, såsom miljöfaktorer eller andra externa arbetsbelastningsparametrar.

4.3. RBER under accelererad hållbarhetstestning.

De flesta vetenskapliga arbeten, såväl som tester som utförs vid köp av media i industriell skala, förutsäger tillförlitligheten hos enheter inom området baserat på resultaten av accelererade hållbarhetstester. Vi bestämde oss för att ta reda på hur väl resultaten av sådana tester motsvarar praktisk erfarenhet av att använda solid-state lagringsmedia.
Analys av testresultat utförda med den allmänna accelererade testmetoden för utrustning som levereras till Googles datacenter visade att RBER-värdena i fältet är betydligt högre än förutspått. Till exempel, för eMLC-a-modellen, var median-RBER för diskar som körs i fält (vid slutet av testet nådde antalet PE-cykler 600) 1e-05, medan enligt resultaten av preliminär accelererad testning, denna RBER värde bör motsvara mer än 4000 PE-cykler. Detta indikerar att det är mycket svårt att exakt förutsäga RBER-värdet i fält baserat på RBER-uppskattningar som erhållits från laboratorietester.

Vi noterade också att vissa typer av fel är ganska svåra att reproducera under accelererad testning. Till exempel, i fallet med MLC-B-modellen, upplever nästan 60 % av enheterna i fält okorrigerbara fel och nästan 80 % av enheterna utvecklar dåliga block. Under accelererad uthållighetstestning upplevde dock ingen av de sex enheterna några okorrigerbara fel förrän frekvensomriktarna nådde mer än tre gånger PE-cykelgränsen. För eMLC-modeller inträffade okorrigerbara fel i mer än 80 % av frekvensomriktarna på fältet, medan under accelererad testning inträffade sådana fel efter att ha nått 15000 XNUMX PE-cykler.

Vi tittade också på RBER som rapporterats i tidigare forskningsarbete, som baserades på experiment i en kontrollerad miljö, och drog slutsatsen att intervallet av värden var extremt brett. Till exempel har L.M. Grupp och andra rapporterar i sitt arbete 2009 -2012 RBER-värden för frekvensomriktare som är nära att nå PE-cykelgränser. Till exempel, för SLC- och MLC-enheter med litografistorlekar som liknar de som används i vårt arbete (25-50nm), varierar RBER-värdet från 1e-08 till 1e-03, med de flesta testade drivmodeller med ett RBER-värde nära 1e- 06.

I vår studie hade de tre drivmodellerna som nådde PE-cykelgränsen RBER:er från 3e-08 till 8e-08. Även med tanke på att våra siffror är lägre gränser och kan vara 16 gånger större i absolut värsta fall, eller med hänsyn till 95:e percentilen av RBER, är våra värden fortfarande betydligt lägre.

Sammantaget, även om faktiska RBER-värden på fältet är högre än förutspådda värden baserat på accelererad hållbarhetstestning, är de fortfarande lägre än de flesta RBER:er för liknande enheter som rapporterats i andra forskningsdokument och beräknat från laboratorietester. Detta betyder att du inte bör förlita dig på förutsagda RBER-värden i fält som har härletts från accelererad hållbarhetstestning.

5. Okorrigerbara fel.

Med tanke på den utbredda förekomsten av okorrigerbara fel (UEs), som diskuterades i avsnitt 3 i detta dokument, undersöker vi i detta avsnitt deras egenskaper mer i detalj. Vi börjar med att diskutera vilket mått som ska användas för att mäta UE, hur det relaterar till RBER och hur UE påverkas av olika faktorer.

5.1. Varför UBER-förhållandet inte är vettigt.

Standardmåttet som kännetecknar okorrigerbara fel är den okorrigerbara UBER-bitfelsfrekvensen, det vill säga förhållandet mellan antalet okorrigerbara bitfel och det totala antalet lästa bitar.

Detta mått antar implicit att antalet okorrigerbara fel på något sätt är kopplat till antalet lästa bitar och därför måste normaliseras med detta antal.

Detta antagande är giltigt för korrigerbara fel, där antalet fel som observerats under en given månad visar sig vara starkt korrelerat med antalet läsningar under samma tidsperiod (Spearman-korrelationskoefficient större än 0.9). Anledningen till en så stark korrelation är att även en dålig bit, så länge den kan korrigeras med ECC, kommer att fortsätta att öka antalet fel med varje läsoperation som den kommer åt, eftersom utvärderingen av cellen som innehåller den dåliga biten är korrigeras inte omedelbart när ett fel upptäcks (diskar skriver bara periodiskt om sidor med skadade bitar).

Samma antagande gäller inte för okorrigerbara fel. Ett okorrigerbart fel utesluter ytterligare användning av det skadade blocket, så när det väl upptäckts kommer ett sådant block inte att påverka antalet fel i framtiden.

För att formellt bekräfta detta antagande använde vi olika mätetal för att mäta förhållandet mellan antalet läsningar under en given månads disklivslängd och antalet okorrigerbara fel under samma tidsperiod, inklusive olika korrelationskoefficienter (Pearson, Spearman, Kendall) , samt visuell inspektion av grafer . Förutom antalet okorrigerbara fel tittade vi också på frekvensen av okorrigerbara felincidenter (dvs. sannolikheten att en disk kommer att ha minst en sådan incident under en given tidsperiod) och deras förhållande till läsoperationer.
Vi hittade inga bevis för en korrelation mellan antalet läsningar och antalet okorrigerbara fel. För alla drivmodeller var korrelationskoefficienterna under 0.02, och graferna visade ingen ökning av UE när antalet avläsningar ökade.

I avsnitt 5.4 i detta dokument diskuterar vi att skriv- och raderingsoperationer inte heller har någon relation till okorrigerbara fel, så den alternativa definitionen av UBER, som normaliseras av skriv- eller raderingsoperationer istället för läsoperationer, har ingen betydelse.

Vi drar därför slutsatsen att UBER inte är ett meningsfullt mått, utom kanske när det testas i kontrollerade miljöer där antalet avläsningar ställs in av försöksledaren. Om UBER används som ett mått under fälttestning kommer det att på konstgjord väg sänka felfrekvensen för enheter med högt läsvärde och artificiellt öka felfrekvensen för enheter med lågt läsantal, eftersom okorrigerbara fel uppstår oavsett antalet läsningar.

5.2. Okorrigerbara fel och RBER.

Relevansen av RBER förklaras av det faktum att det fungerar som ett mått för att bestämma enhetens övergripande tillförlitlighet, i synnerhet baserat på sannolikheten för okorrigerbara fel. I sitt arbete var N. Mielke et al 2008 de första som föreslog att den förväntade okorrigerbara felfrekvensen skulle definieras som en funktion av RBER. Sedan dess har många systemutvecklare använt liknande metoder, som att uppskatta den förväntade okorrigerbara felfrekvensen som en funktion av RBER- och ECC-typ.

Syftet med detta avsnitt är att karakterisera hur väl RBER förutsäger okorrigerbara fel. Låt oss börja med figur 5a, som plottar medianvärdet för RBER för ett antal första generationens drivmodeller mot procentandelen dagar de användes som upplevde okorrigerbara UE-fel. Det bör noteras att några av de 16 modellerna som visas i grafen inte ingår i Tabell 1 på grund av brist på analytisk information.

Flash-minnes tillförlitlighet: förväntat och oväntat. Del 2. XIV konferens för USENIX-föreningen. Fillagringsteknik
Ris. 5a. Samband mellan median RBER och okorrigerbara fel för olika drivmodeller.

Flash-minnes tillförlitlighet: förväntat och oväntat. Del 2. XIV konferens för USENIX-föreningen. Fillagringsteknik
Ris. 5b. Samband mellan median RBER och okorrigerbara fel för olika enheter av samma modell.

Kom ihåg att alla modeller inom samma generation använder samma ECC-mekanism, så skillnader mellan modeller är oberoende av ECC-skillnader. Vi såg ingen korrelation mellan RBER- och UE-incidenter. Vi skapade samma plot för 95:e percentilen RBER mot UE-sannolikhet och återigen såg vi ingen korrelation.

Därefter upprepade vi analysen på en granulär nivå för enskilda enheter, det vill säga vi försökte ta reda på om det fanns enheter där ett högre RBER-värde motsvarar en högre UE-frekvens. Som ett exempel plottar figur 5b median-RBER för varje enhet av MLC-c-modellen mot antalet UE:er (resultat liknande de som erhålls för 95:e percentilen RBER). Återigen såg vi ingen korrelation mellan RBER och UE.

Slutligen utförde vi en mer exakt timinganalys för att undersöka om driftsmånaderna för enheter med högre RBER skulle motsvara de månader under vilka UEs inträffade. Figur 1 har redan indikerat att korrelationskoefficienten mellan okorrigerbara fel och RBER är mycket låg. Vi experimenterade också med olika sätt att plotta sannolikheten för UE som en funktion av RBER och fann inga bevis för korrelation.

Därför drar vi slutsatsen att RBER är ett opålitligt mått för att förutsäga UE. Detta kan innebära att felmekanismerna som leder till RBER skiljer sig från de mekanismer som leder till okorrigerbara fel (t.ex. fel som finns i enskilda celler kontra större problem som uppstår med hela enheten).

5.3. Okorrigerbara fel och slitage.

Eftersom utslitning är ett av huvudproblemen med flashminne visar figur 6 den dagliga sannolikheten för okorrigerbara drivfel som en funktion av PE-cykler.

Flash-minnes tillförlitlighet: förväntat och oväntat. Del 2. XIV konferens för USENIX-föreningen. Fillagringsteknik
Figur 6. Daglig sannolikhet för att okorrigerbara drivfel inträffar beroende på PE-cykler.

Vi noterar att sannolikheten för en UE ökar kontinuerligt med enhetens ålder. Men som med RBER är ökningen långsammare än vad man brukar anta: graferna visar att UE:er växer linjärt snarare än exponentiellt med PE-cykler.

Två slutsatser vi gjorde för RBER gäller också för UE:er: för det första finns det ingen tydlig ökning av felpotentialen när PE-cykelgränsen nås, såsom i figur 6 för MLC-D-modellen vars PE-cykelgräns är 3000. För det andra, för det andra , varierar felfrekvensen mellan olika modeller, även inom samma klass. Dessa skillnader är dock inte lika stora som för RBER.

Slutligen, till stöd för våra slutsatser i avsnitt 5.2, fann vi att inom en enda modellklass (MLC vs. SLC) är modellerna med de lägsta RBER-värdena för ett givet antal PE-cykler inte nödvändigtvis de med de lägsta sannolikheten för UE-förekomst. Till exempel, över 3000 PE-cykler, MLC-D-modeller hade RBER-värden 4 gånger lägre än MLC-B-modeller, men UE-sannolikheten för samma antal PE-cykler var något högre för MLC-D-modeller än för MLC-B modeller.

Flash-minnes tillförlitlighet: förväntat och oväntat. Del 2. XIV konferens för USENIX-föreningen. Fillagringsteknik
Figur 7. Månatlig sannolikhet för att okorrigerbara drivfel inträffar som en funktion av förekomsten av tidigare fel av olika slag.

5.4. Okorrigerbara fel och arbetsbelastning.

Av samma skäl som arbetsbelastningen kan påverka RBER (se avsnitt 4.2.3) kan den förväntas påverka även UE. Till exempel, eftersom vi observerade att läsöverträdelsefel påverkar RBER, kan läsoperationer också öka sannolikheten för okorrigerbara fel.

Vi genomförde en detaljerad studie om hur arbetsbelastningen påverkar UE. Men som noterats i avsnitt 5.1 hittade vi inget samband mellan UE och antalet läsningar. Vi upprepade samma analys för skriv- och raderingsoperationer och återigen såg vi ingen korrelation.
Observera att detta vid första anblicken verkar motsäga vår tidigare observation att okorrigerbara fel är korrelerade med PE-cykler. Därför kan man mycket väl förvänta sig en korrelation med antalet skriv- och raderingsoperationer.

Men i vår analys av effekten av PE-cykler jämförde vi antalet okorrigerbara fel under en given månad med det totala antalet PE-cykler som frekvensomriktaren har upplevt under sin livslängd hittills för att mäta effekten av slitage. När vi studerade påverkan av arbetsbelastning tittade vi på de månader av drivenhet som hade det högsta antalet läs-/skriv-/raderingsoperationer under en viss månad, vilket också hade en högre chans att orsaka okorrigerbara fel, dvs. vi tog inte hänsyn till ta hänsyn till det totala antalet läs-/skriv-/raderingsoperationer.

Som ett resultat kom vi till slutsatsen att läsöverträdelsefel, skrivöverträdelsefel och ofullständiga raderingsfel inte är huvudfaktorerna i utvecklingen av okorrigerbara fel.

Tack för att du stannar hos oss. Gillar du våra artiklar? Vill du se mer intressant innehåll? Stöd oss ​​genom att lägga en beställning eller rekommendera till vänner, 30 % rabatt för Habr-användare på en unik analog av nybörjarservrar, som uppfanns av oss för dig: Hela sanningen om VPS (KVM) E5-2650 v4 (6 kärnor) 10GB DDR4 240GB SSD 1Gbps från $20 eller hur delar man en server? (tillgänglig med RAID1 och RAID10, upp till 24 kärnor och upp till 40 GB DDR4).

Dell R730xd 2 gånger billigare? Bara här 2 x Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 TV från $199 i Nederländerna! Dell R420 - 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB - från $99! Läs om Hur man bygger infrastructure corp. klass med användning av Dell R730xd E5-2650 v4-servrar värda 9000 XNUMX euro för en slant?

Källa: will.com

Lägg en kommentar