Spolehlivost flash paměti: očekávaná a neočekávaná. 2. část. XIV konference sdružení USENIX. Technologie ukládání souborů

Spolehlivost flash paměti: očekávaná a neočekávaná. 1. část. XIV konference sdružení USENIX. Technologie ukládání souborů

4.2.2. RBER a stáří disku (kromě PE cyklů).

Obrázek 1 ukazuje významnou korelaci mezi RBER a věkem, což je počet měsíců, kdy byl disk v terénu. To však může být falešná korelace, protože je pravděpodobné, že starší disky mají více PE, a proto RBER více koreluje s PE cykly.

Abychom eliminovali vliv stáří na opotřebení způsobené PE cykly, seskupili jsme všechny měsíce provozu do kontejnerů pomocí decilů rozdělení PE cyklu jako hranici mezi kontejnery, například první kontejner obsahuje všechny měsíce životnosti disku až do první decil distribuce PE cyklu a tak dále Dále. Ověřili jsme, že v rámci každého kontejneru je korelace mezi PE cykly a RBER poměrně malá (protože každý kontejner pokrývá pouze malý rozsah PE cyklů), a poté jsme vypočítali korelační koeficient mezi RBER a stářím disku zvlášť pro každý kontejner.

Tuto analýzu jsme provedli samostatně pro každý model, protože jakékoli pozorované korelace nejsou způsobeny rozdíly mezi mladšími a staršími modely, ale výhradně stářím disků stejného modelu. Pozorovali jsme, že i po omezení vlivu PE cyklů výše popsaným způsobem u všech modelů pohonů stále existovala významná korelace mezi počtem měsíců, kdy byl pohon v terénu, a jeho RBER (korelační koeficienty se pohybovaly od 0,2 do 0,4 ).

Spolehlivost flash paměti: očekávaná a neočekávaná. 2. část. XIV konference sdružení USENIX. Technologie ukládání souborů
Rýže. 3. Vztah mezi RBER a počtem cyklů PE pro nové a staré disky ukazuje, že stáří disku ovlivňuje hodnotu RBER bez ohledu na cykly PE způsobené opotřebením.

Také jsme graficky znázornili vliv stáří disku vydělením dnů používání disku v „mladém“ věku do 1 roku a dnů používání disku ve věku nad 4 roky a poté jsme vynesli RBER každého skupiny oproti počtu PE cyklů. Obrázek 3 ukazuje tyto výsledky pro model pohonu MLC-D. Vidíme znatelný rozdíl v hodnotách RBER mezi skupinami starých a nových disků během všech cyklů PE.

Z toho vyvozujeme, že věk, měřený dny používání disku v terénu, má významný dopad na RBER, bez ohledu na opotřebení paměťových buněk v důsledku vystavení PE cyklům. To znamená, že na fyzickém opotřebení disku hrají velkou roli další faktory, jako je stárnutí křemíku.

4.2.3. RBER a pracovní vytížení.

Předpokládá se, že bitové chyby jsou způsobeny jedním ze čtyř mechanismů:

  1. chyby ukládání Chyby uchování, kdy paměťová buňka časem ztratí data
    Chyby při čtení, při kterých operace čtení poškodí obsah sousední buňky;
  2. Chyby rušení zápisu, při kterých operace čtení poškodí obsah sousední buňky;
  3. Chyby neúplného vymazání, kdy operace vymazání zcela neodstraní obsah buňky.

Chyby posledních tří typů (narušení při čtení, narušení při zápisu, neúplné vymazání) souvisí s pracovní zátěží, takže pochopení korelace mezi RBER a pracovní zátěží nám pomůže porozumět výskytu různých chybových mechanismů. V nedávné studii „Rozsáhlá studie selhání paměti flash v terénu“ (MEZA, J., WU, Q., KUMAR, S., MUTLU, O. „Rozsáhlá studie selhání paměti flash v pole." Ve sborníku 2015 ACM SIGMETRICS International Conference on Measurement and Modeling of Computer Systems, New York, 2015, SIGMETRICS '15, ACM, s. 177–190) dospěl k závěru, že v této oblasti převažují chyby úložiště, zatímco chyby čtení jsou docela drobné.

Obrázek 1 ukazuje významný vztah mezi hodnotou RBER v daném měsíci životnosti disku a počtem čtení, zápisů a mazání ve stejném měsíci u některých modelů (např. u MLC - B je korelační koeficient vyšší než 0,2 a vyšší než 0,6 pro SLC-B). Je však možné, že se jedná o falešnou korelaci, protože měsíční zátěž může souviset s celkovým počtem cyklů PE.

Použili jsme stejnou metodologii popsanou v části 4.2.2 k izolaci účinků pracovního zatížení od účinků cyklů PE izolací měsíců provozu pohonu na základě předchozích cyklů PE a poté stanovením korelačních koeficientů zvlášť pro každý kontejner.

Viděli jsme, že korelace mezi počtem přečtení v daném měsíci životnosti disku a hodnotou RBER v tomto měsíci přetrvávala u modelů MLC-B a SLC-B i při omezení PE cyklů. Také jsme zopakovali podobnou analýzu, kde jsme vyloučili vliv čtení na počet souběžných zápisů a mazání a došli jsme k závěru, že korelace mezi RBER a počtem čtení platí pro model SLC-B.

Obrázek 1 také ukazuje korelaci mezi RBER a operacemi zápisu a mazání, takže jsme zopakovali stejnou analýzu pro operace čtení, zápisu a mazání. Došli jsme k závěru, že omezením dopadu PE cyklů a čtení neexistuje žádný vztah mezi hodnotou RBER a počtem zápisů a mazání.

Existují tedy modely disků, kde chyby narušení čtení mají významný dopad na RBER. Na druhou stranu neexistuje žádný důkaz, že by RBER byl ovlivněn chybami porušení zápisu a neúplným vymazáním.

4.2.4 RBER a litografie.

Rozdíly ve velikosti objektu mohou částečně vysvětlit rozdíly v hodnotách RBER mezi modely pohonů používajících stejnou technologii, tedy MLC nebo SLC. (Viz Tabulka 1 pro přehled litografie různých modelů zahrnutých v této studii).

Například 2 modely SLC s 34nm litografií (modely SLC-A a SLC-D) mají RBER, který je řádově vyšší než u 2 modelů s 50nm mikroelektronickou litografií (modely SLC-B a SLC-C). V případě modelů MLC má pouze 43nm model (MLC-B) střední hodnotu RBER, která je o 50 % vyšší než u ostatních 3 modelů s 50nm litografií. Tento rozdíl v RBER se navíc zvyšuje o faktor 4, jak se disky opotřebovávají, jak ukazuje obrázek 2. A konečně tenčí litografie může vysvětlit vyšší RBER disků eMLC ve srovnání s disky MLC. Celkově máme jasný důkaz, že litografie ovlivňuje RBER.

4.2.5. Přítomnost dalších chyb.

Zkoumali jsme vztah mezi RBER a jinými typy chyb, jako jsou neopravitelné chyby, chyby timeoutu atd., zejména to, zda se hodnota RBER po měsíci vystavení jiným typům chyb zvýší.

Obrázek 1 ukazuje, že zatímco RBER z předchozího měsíce je prediktivní pro budoucí hodnoty RBER (korelační koeficient větší než 0,8), neexistuje žádná významná korelace mezi neopravitelnými chybami a RBER (skupina položek na obrázku 1 úplně vpravo). U ostatních typů chyb je korelační koeficient ještě nižší (na obrázku není znázorněn). Dále jsme prozkoumali vztah mezi RBER a neopravitelnými chybami v části 5.2 tohoto dokumentu.

4.2.6. Vliv dalších faktorů.

Našli jsme důkazy, že existují faktory, které mají významný dopad na RBER a které naše data nemohou zohlednit. Zejména jsme si všimli, že RBER pro daný model disku se liší v závislosti na clusteru, ve kterém je disk nasazen. Dobrým příkladem je obrázek 4, který ukazuje RBER jako funkci cyklů PE pro pohony MLC-D ve třech různých shlucích (přerušované čáry) a porovnává jej s RBER pro tento model vzhledem k celkovému počtu pohonů (plná čára). Zjistili jsme, že tyto rozdíly přetrvávají, i když omezíme vliv faktorů, jako je stáří disku nebo počet přečtení.

Jedním z možných vysvětlení jsou rozdíly v typu zátěže mezi clustery, protože pozorujeme, že clustery, jejichž pracovní zátěže mají nejvyšší poměry čtení/zápisu, mají nejvyšší RBER.

Spolehlivost flash paměti: očekávaná a neočekávaná. 2. část. XIV konference sdružení USENIX. Technologie ukládání souborů
Rýže. 4 a), b). Střední hodnoty RBER jako funkce PE cyklů pro tři různé clustery a závislost poměru čtení/zápisu na počtu PE cyklů pro tři různé clustery.

Například obrázek 4(b) ukazuje poměry čtení/zápisu různých clusterů pro model pohonu MLC-D. Poměr čtení/zápis však nevysvětluje rozdíly mezi clustery pro všechny modely, takže mohou existovat další faktory, které naše data nezohledňují, jako jsou faktory prostředí nebo jiné externí parametry pracovní zátěže.

4.3. RBER během zrychleného testování odolnosti.

Většina vědeckých prací i testů prováděných při nákupu médií v průmyslovém měřítku předpovídá spolehlivost zařízení v terénu na základě výsledků zrychlených testů odolnosti. Rozhodli jsme se zjistit, jak dobře výsledky takových testů odpovídají praktickým zkušenostem s provozem polovodičových paměťových médií.
Analýza výsledků testů provedených pomocí obecné zrychlené testovací metodiky pro zařízení dodávaná do datových center Google ukázala, že hodnoty RBER v poli jsou výrazně vyšší, než se předpokládalo. Například pro model eMLC-a byl medián RBER pro disky provozované v terénu (na konci testování dosáhl počet PE cyklů 600) 1e-05, přičemž podle výsledků předběžného zrychleného testování byl tento RBER hodnota by měla odpovídat více než 4000 PE cyklům. To naznačuje, že je velmi obtížné přesně předpovědět hodnotu RBER v terénu na základě odhadů RBER získaných z laboratorních testů.

Také jsme poznamenali, že některé typy chyb je poměrně obtížné reprodukovat během zrychleného testování. Například v případě modelu MLC-B téměř 60 % disků v terénu zaznamená neopravitelné chyby a téměř 80 % disků vytváří špatné bloky. Během zrychleného testování odolnosti však žádné ze šesti zařízení nezaznamenalo žádné neopravitelné chyby, dokud disky nedosáhly více než trojnásobku limitu cyklu PE. U modelů eMLC se neopravitelné chyby vyskytly u více než 80 % pohonů v terénu, zatímco při zrychleném testování se takové chyby vyskytly po dosažení 15000 XNUMX cyklů PE.

Podívali jsme se také na RBER uvedený v předchozí výzkumné práci, která byla založena na experimentech v kontrolovaném prostředí, a dospěli jsme k závěru, že rozsah hodnot byl extrémně široký. Například L.M. Grupp a další ve své práci v letech 2009–2012 uvádějí hodnoty RBER pro pohony, které se blíží dosažení limitů cyklu PE. Například pro zařízení SLC a MLC s litografickou velikostí podobnou těm, které byly použity v naší práci (25-50nm), se hodnota RBER pohybuje od 1e-08 do 1e-03, přičemž většina testovaných modelů pohonů má hodnotu RBER blízkou 1e- 06.

V naší studii měly tři modely pohonů, které dosáhly limitu cyklu PE, RBER v rozmezí od 3e-08 do 8e-08. I když vezmeme v úvahu, že naše čísla jsou spodní hranice a v absolutně nejhorším případě mohou být 16krát větší, nebo vezmeme-li v úvahu 95. percentil RBER, jsou naše hodnoty stále výrazně nižší.

Celkově, zatímco skutečné hodnoty RBER v terénu jsou vyšší než předpokládané hodnoty založené na zrychleném testování odolnosti, jsou stále nižší než u většiny RBER pro podobná zařízení uváděná v jiných výzkumných dokumentech a vypočítaná z laboratorních testů. To znamená, že byste se neměli spoléhat na předpokládané hodnoty RBER v terénu, které byly odvozeny z urychleného testování odolnosti.

5. Neopravitelné chyby.

Vzhledem k rozšířenému výskytu neopravitelných chyb (UE), které byly diskutovány v části 3 tohoto dokumentu, v této části podrobněji prozkoumáme jejich charakteristiky. Začneme diskuzí, kterou metriku použít k měření UE, jak souvisí s RBER a jak je UE ovlivněno různými faktory.

5.1. Proč poměr UBER nedává smysl.

Standardní metrikou charakterizující neopravitelné chyby je UBER neopravitelná bitová chybovost, tedy poměr počtu neopravitelných bitových chyb k celkovému počtu přečtených bitů.

Tato metrika implicitně předpokládá, že počet neopravitelných chyb je nějakým způsobem vázán na počet přečtených bitů, a proto musí být tímto číslem normalizován.

Tento předpoklad platí pro opravitelné chyby, kde je zjištěno, že počet chyb pozorovaných v daném měsíci vysoce koreluje s počtem čtení za stejné časové období (Spearmanův korelační koeficient větší než 0.9). Důvodem tak silné korelace je, že i jeden špatný bit, pokud je opravitelný pomocí ECC, bude nadále zvyšovat počet chyb s každou operací čtení, ke které přistupuje, protože vyhodnocení buňky obsahující špatný bit je není okamžitě opraveno při zjištění chyby (disky pouze periodicky přepisují stránky s poškozenými bity).

Stejný předpoklad neplatí pro neopravitelné chyby. Neopravitelná chyba znemožňuje další použití poškozeného bloku, takže jakmile je takový blok odhalen, neovlivní počet chyb v budoucnu.

Abychom tento předpoklad formálně potvrdili, použili jsme různé metriky k měření vztahu mezi počtem přečtení v daném měsíci životnosti disku a počtem neopravitelných chyb za stejné časové období, včetně různých korelačních koeficientů (Pearson, Spearman, Kendall) , stejně jako vizuální kontrola grafů . Kromě počtu neopravitelných chyb jsme sledovali také četnost neopravitelných chybových incidentů (tedy pravděpodobnost, že se na disku během daného časového období vyskytne alespoň jeden takový incident) a jejich vztah k operacím čtení.
Nenašli jsme žádné důkazy o korelaci mezi počtem přečtení a počtem neopravitelných chyb. U všech modelů pohonů byly korelační koeficienty nižší než 0.02 a grafy neukazovaly žádné zvýšení UE s rostoucím počtem čtení.

V části 5.4 tohoto článku diskutujeme o tom, že operace zápisu a mazání také nemají žádný vztah k neopravitelným chybám, takže alternativní definice UBER, která je normalizována operacemi zápisu nebo mazání místo operací čtení, nemá žádný význam.

Došli jsme tedy k závěru, že UBER není smysluplnou metrikou, snad s výjimkou testování v kontrolovaném prostředí, kde počet čtení nastavuje experimentátor. Pokud se UBER použije jako metrika během testování v terénu, uměle sníží chybovost u disků s vysokým počtem čtení a uměle zvýší chybovost u disků s nízkým počtem čtení, protože k neopravitelným chybám dochází bez ohledu na počet čtení.

5.2. Neopravitelné chyby a RBER.

Relevance RBER je vysvětlena skutečností, že slouží jako měřítko pro stanovení celkové spolehlivosti pohonu, zejména na základě pravděpodobnosti neopravitelných chyb. Ve své práci N. Mielke et al v roce 2008 jako první navrhli definovat očekávanou neopravitelnou chybovost jako funkci RBER. Od té doby mnoho vývojářů systémů používá podobné metody, jako je odhad očekávané neopravitelné chybovosti jako funkce typu RBER a ECC.

Účelem této části je charakterizovat, jak dobře RBER předpovídá neopravitelné chyby. Začněme s obrázkem 5a, který vykresluje střední hodnotu RBER pro řadu modelů disků první generace proti procentu dnů, kdy byly používány, kdy došlo k neopravitelným chybám UE. Je třeba poznamenat, že některé z 16 modelů uvedených v grafu nejsou zahrnuty v tabulce 1 kvůli nedostatku analytických informací.

Spolehlivost flash paměti: očekávaná a neočekávaná. 2. část. XIV konference sdružení USENIX. Technologie ukládání souborů
Rýže. 5a. Vztah mezi středním RBER a neopravitelnými chybami pro různé modely pohonů.

Spolehlivost flash paměti: očekávaná a neočekávaná. 2. část. XIV konference sdružení USENIX. Technologie ukládání souborů
Rýže. 5b. Vztah mezi středním RBER a neopravitelnými chybami pro různé disky stejného modelu.

Připomeňme, že všechny modely v rámci stejné generace používají stejný mechanismus ECC, takže rozdíly mezi modely jsou nezávislé na rozdílech ECC. Neviděli jsme žádnou korelaci mezi incidenty RBER a UE. Vytvořili jsme stejný graf pro 95. percentil RBER versus pravděpodobnost UE a opět jsme neviděli žádnou korelaci.

Dále jsme analýzu zopakovali na granulární úrovni pro jednotlivé pohony, čili jsme se snažili zjistit, zda existují pohony, kde vyšší hodnota RBER odpovídá vyšší frekvenci UE. Jako příklad je na obrázku 5b vynesena střední hodnota RBER pro každý disk modelu MLC-c oproti počtu UE (výsledky podobné těm, které byly získány pro 95. percentil RBER). Opět jsme neviděli žádnou korelaci mezi RBER a UE.

Nakonec jsme provedli přesnější časovou analýzu, abychom prozkoumali, zda by provozní měsíce disků s vyšší RBER odpovídaly měsícům, během kterých došlo k UE. Obrázek 1 již naznačil, že korelační koeficient mezi neopravitelnými chybami a RBER je velmi nízký. Také jsme experimentovali s různými způsoby vykreslení pravděpodobnosti UE jako funkce RBER a nenašli jsme žádný důkaz korelace.

Došli jsme tedy k závěru, že RBER je nespolehlivá metrika pro predikci UE. To může znamenat, že mechanismy selhání, které vedou k RBER, se liší od mechanismů, které vedou k neopravitelným chybám (např. chyby obsažené v jednotlivých buňkách versus větší problémy vyskytující se u celého zařízení).

5.3. Neopravitelné chyby a opotřebení.

Protože opotřebení je jedním z hlavních problémů flash paměti, ukazuje obrázek 6 denní pravděpodobnost neopravitelných chyb disku jako funkci cyklů PE.

Spolehlivost flash paměti: očekávaná a neočekávaná. 2. část. XIV konference sdružení USENIX. Technologie ukládání souborů
Obrázek 6. Denní pravděpodobnost výskytu neopravitelných chyb pohonu v závislosti na cyklech PE.

Upozorňujeme, že pravděpodobnost UE se neustále zvyšuje se stářím disku. Stejně jako u RBER je však nárůst pomalejší, než se obvykle předpokládá: grafy ukazují, že UE rostou lineárně spíše než exponenciálně s PE cykly.

Dva závěry, které jsme učinili pro RBER, platí také pro UE: za prvé, nedochází k žádnému jasnému nárůstu chybového potenciálu, jakmile je dosaženo limitu PE cyklu, jako na obrázku 6 pro model MLC-D, jehož limit PE cyklu je 3000. Za druhé, Za druhé , chybovost se u různých modelů liší, a to i v rámci stejné třídy. Tyto rozdíly však nejsou tak velké jako u RBER.

Nakonec jsme na podporu našich zjištění v části 5.2 zjistili, že v rámci jedné modelové třídy (MLC vs. SLC) modely s nejnižšími hodnotami RBER pro daný počet cyklů PE nemusí být nutně modely s nejnižší pravděpodobnost výskytu UE. Například více než 3000 cyklů PE měly modely MLC-D hodnoty RBER 4krát nižší než modely MLC-B, ale pravděpodobnost UE pro stejný počet cyklů PE byla u modelů MLC-D o něco vyšší než u modelů MLC-B. modely.

Spolehlivost flash paměti: očekávaná a neočekávaná. 2. část. XIV konference sdružení USENIX. Technologie ukládání souborů
Obrázek 7. Měsíční pravděpodobnost výskytu neopravitelných chyb pohonu jako funkce přítomnosti předchozích chyb různých typů.

5.4. Neopravitelné chyby a pracovní vytížení.

Ze stejných důvodů, z jakých může pracovní zátěž ovlivnit RBER (viz oddíl 4.2.3), lze očekávat, že ovlivní také UE. Protože jsme například pozorovali, že chyby narušení čtení ovlivňují RBER, operace čtení mohou také zvýšit pravděpodobnost neopravitelných chyb.

Provedli jsme podrobnou studii o dopadu pracovní zátěže na EU. Jak je však uvedeno v části 5.1, nenašli jsme vztah mezi UE a počtem čtení. Opakovali jsme stejnou analýzu pro operace zápisu a mazání a opět jsme neviděli žádnou korelaci.
Všimněte si, že na první pohled to vypadá, že je to v rozporu s naším předchozím pozorováním, že neopravitelné chyby korelují s PE cykly. Dá se tedy očekávat korelace s počtem operací zápisu a mazání.

V naší analýze dopadu cyklů PE jsme však porovnali počet neopravitelných chyb v daném měsíci s celkovým počtem cyklů PE, které pohon zažil během své dosavadní životnosti, abychom změřili vliv opotřebení. Při studiu dopadu pracovní zátěže jsme se zabývali měsíci provozu disku, které měly nejvyšší počet operací čtení/zápisu/mazání v konkrétním měsíci, což také mělo vyšší šanci způsobit neopravitelné chyby, tj. nebrali jsme v úvahu zohlednit celkový počet operací čtení/zápisu/mazání.

V důsledku toho jsme dospěli k závěru, že chyby při narušení čtení, chyby při narušení zápisu a chyby neúplného výmazu nejsou hlavními faktory vzniku neopravitelných chyb.

Děkujeme, že s námi zůstáváte. Líbí se vám naše články? Chcete vidět více zajímavého obsahu? Podpořte nás objednávkou nebo doporučením přátelům, 30% sleva pro uživatele Habr na unikátní obdobu entry-level serverů, kterou jsme pro vás vymysleli: Celá pravda o VPS (KVM) E5-2650 v4 (6 jader) 10GB DDR4 240GB SSD 1Gbps od 20 $ nebo jak sdílet server? (k dispozici s RAID1 a RAID10, až 24 jader a až 40 GB DDR4).

Dell R730xd 2x levnější? Pouze zde 2 x Intel TetraDeca-Core Xeon 2 x E5-2697v3 2.6 GHz 14C 64 GB DDR4 4 x 960 GB SSD 1 Gbps 100 TV od 199 USD V Nizozemsku! Dell R420 – 2x E5-2430 2.2 GHz 6C 128 GB DDR3 2 x 960 GB SSD 1 Gb/s 100 TB – od 99 $! Číst o Jak budovat infrastrukturu corp. třídy s využitím serverů Dell R730xd E5-2650 v4 v hodnotě 9000 XNUMX eur za cent?

Zdroj: www.habr.com

Přidat komentář