Pouzdanost fleš memorije: očekivano i neočekivano. Dio 2. XIV konferencija udruženja USENIX. Tehnologije skladištenja datoteka

Pouzdanost fleš memorije: očekivano i neočekivano. Dio 1. XIV konferencija udruženja USENIX. Tehnologije skladištenja datoteka

4.2.2. RBER i starost diska (isključujući PE cikluse).

Slika 1 pokazuje značajnu korelaciju između RBER-a i starosti, što je broj mjeseci u kojima je disk bio na terenu. Međutim, ovo može biti lažna korelacija jer je vjerovatno da stariji pogoni imaju više PE-ova i stoga je RBER više u korelaciji sa PE ciklusima.

Da bismo eliminisali uticaj starosti na habanje uzrokovano PE ciklusima, grupisali smo sve mesece rada u kontejnere koristeći decile distribucije PE ciklusa kao graničnu vrednost između kontejnera, na primer, prvi kontejner sadrži sve mesece trajanja diska do prvi decil distribucije PE ciklusa, i tako dalje. Provjerili smo da je unutar svakog kontejnera korelacija između PE ciklusa i RBER-a prilično mala (pošto svaki kontejner pokriva samo mali raspon PE ciklusa), a zatim smo izračunali koeficijent korelacije između RBER-a i starosti diska posebno za svaki kontejner.

Ovu analizu smo radili posebno za svaki model jer sve uočene korelacije nisu rezultat razlika između mlađih i starijih modela, već isključivo starosti pogona istog modela. Uočili smo da čak i nakon ograničavanja efekta PE ciklusa na gore opisani način, za sve modele pogona i dalje postoji značajna korelacija između broja mjeseci vožnje na terenu i njenog RBER-a (koeficijenti korelacije kretali su se od 0,2 do 0,4 ).

Pouzdanost fleš memorije: očekivano i neočekivano. Dio 2. XIV konferencija udruženja USENIX. Tehnologije skladištenja datoteka
Rice. 3. Odnos između RBER i broja PE ciklusa za nove i stare diskove pokazuje da starost diska utječe na vrijednost RBER bez obzira na PE cikluse uzrokovane habanjem.

Također smo grafički vizualizirali učinak starosti pogona tako što smo podijelili dane korištenja diska u "mladoj" dobi do 1 godine i dane korištenja diska starijih od 4 godine, a zatim nacrtali RBER za svaki grupa prema broju PE ciklusa. Slika 3 prikazuje ove rezultate za model MLC-D pogona. Vidimo primjetnu razliku u vrijednostima RBER-a između grupa starih i novih diskova kroz sve PE cikluse.

Iz ovoga zaključujemo da starost, mjerena danima korištenja diska na terenu, ima značajan utjecaj na RBER, neovisno o trošenju memorijskih ćelija uslijed izlaganja PE ciklusima. To znači da drugi faktori, kao što je starenje silikona, igraju veliku ulogu u fizičkom trošenju diska.

4.2.3. RBER i opterećenje.

Smatra se da su greške u bitovima uzrokovane jednim od četiri mehanizma:

  1. greške skladištenja Greške zadržavanja, kada memorijska ćelija gubi podatke tokom vremena
    Greške smetnje čitanja, u kojima operacija čitanja oštećuje sadržaj susjedne ćelije;
  2. Greške uznemiravanja pisanja, u kojima operacija čitanja oštećuje sadržaj susedne ćelije;
  3. Greške nepotpunog brisanja, kada operacija brisanja ne briše u potpunosti sadržaj ćelije.

Greške posljednje tri vrste (ometanje čitanja, ometanje pisanja, nepotpuno brisanje) su u korelaciji s radnim opterećenjem, tako da nam razumijevanje korelacije između RBER-a i radnog opterećenja pomaže razumjeti prevalenciju različitih mehanizama grešaka. U nedavnoj studiji, "Studija velikih razmjera kvarova flash memorije na terenu" (MEZA, J., WU, Q., KUMAR, S., MUTLU, O. "Studija velikih razmjera kvarova flash memorije u polje." U Proceedings of the 2015 ACM SIGMETRICS International Conference on Measurement and Modeling of Computer Systems, New York, 2015, SIGMETRICS '15, ACM, pp. 177–190) zaključio je da greške skladištenja prevladavaju na terenu, dok greške čitanja prilično su minorni.

Slika 1 pokazuje značajan odnos između vrijednosti RBER u datom mjesecu trajanja diska i broja čitanja, upisivanja i brisanja u istom mjesecu za neke modele (na primjer, koeficijent korelacije je veći od 0,2 za MLC - B model i veći od 0,6 za SLC-B). Međutim, moguće je da se radi o lažnoj korelaciji, jer mjesečno opterećenje može biti povezano s ukupnim brojem ciklusa PE.

Koristili smo istu metodologiju opisanu u odjeljku 4.2.2 da izolujemo efekte radnog opterećenja od efekata PE ciklusa izolacijom mjeseci pogona na osnovu prethodnih PE ciklusa, a zatim određivanjem koeficijenata korelacije posebno za svaki kontejner.

Vidjeli smo da je korelacija između broja čitanja u datom mjesecu trajanja diska i vrijednosti RBER u tom mjesecu opstala za modele MLC-B i SLC-B, čak i kada su PE ciklusi ograničeni. Također smo ponovili sličnu analizu gdje smo isključili uticaj čitanja na broj istovremenih upisivanja i brisanja i zaključili da korelacija između RBER-a i broja čitanja vrijedi za SLC-B model.

Slika 1 takođe pokazuje korelaciju između RBER i operacija pisanja i brisanja, tako da smo ponovili istu analizu za operacije čitanja, pisanja i brisanja. Zaključujemo da ograničavanjem utjecaja PE ciklusa i čitanja nema veze između vrijednosti RBER i broja upisivanja i brisanja.

Dakle, postoje modeli diskova kod kojih greške kršenja čitanja imaju značajan utjecaj na RBER. S druge strane, nema dokaza da na RBER utječu greške kršenja pisanja i greške nepotpunog brisanja.

4.2.4 RBER i litografija.

Razlike u veličini objekta mogu djelomično objasniti razlike u vrijednostima RBER između modela pogona koji koriste istu tehnologiju, tj. MLC ili SLC. (Pogledajte tabelu 1 za pregled litografije različitih modela uključenih u ovu studiju).

Na primjer, 2 SLC modela sa 34nm litografijom (modeli SLC-A i SLC-D) imaju RBER koji je red veličine veći od onog kod 2 modela sa 50nm mikroelektronskom litografijom (modeli SLC-B i SLC-C). U slučaju MLC modela, samo 43nm model (MLC-B) ima srednji RBER koji je 50% veći od ostala 3 modela sa 50nm litografijom. Štaviše, ova razlika u RBER-u se povećava za faktor 4 kako se diskovi istroše, kao što je prikazano na slici 2. Konačno, tanja litografija može objasniti veći RBER kod eMLC disk jedinica u poređenju sa MLC diskovima. Sve u svemu, imamo jasne dokaze da litografija utiče na RBER.

4.2.5. Prisustvo drugih grešaka.

Istraživali smo odnos između RBER-a i drugih vrsta grešaka, kao što su greške koje se ne mogu ispraviti, greške isteka vremena itd., posebno da li RBER vrijednost postaje veća nakon mjesec dana izloženosti drugim vrstama grešaka.

Slika 1 pokazuje da dok RBER prethodnog mjeseca predviđa buduće RBER vrijednosti (koeficijent korelacije veći od 0,8), ne postoji značajna korelacija između grešaka koje se ne mogu ispraviti i RBER (krajnja desna grupa stavki na slici 1). Za ostale vrste grešaka koeficijent korelacije je još niži (nije prikazan na slici). Dalje smo istražili odnos između RBER i grešaka koje se ne mogu ispraviti u odjeljku 5.2 ovog rada.

4.2.6. Uticaj drugih faktora.

Pronašli smo dokaze da postoje faktori koji imaju značajan utjecaj na RBER koje naši podaci ne mogu uzeti u obzir. Konkretno, primijetili smo da RBER za dati model diska varira ovisno o klasteru u kojem je disk raspoređen. Dobar primjer je Slika 4, koja prikazuje RBER kao funkciju PE ciklusa za MLC-D pogone u tri različita klastera (isprekidane linije) i upoređuje ga sa RBER za ovaj model u odnosu na ukupan broj pogona (puna linija). Otkrivamo da ove razlike i dalje postoje čak i kada ograničimo uticaj faktora kao što su starost diska ili broj čitanja.

Jedno od mogućih objašnjenja za ovo su razlike u tipu radnog opterećenja među klasterima, jer uočavamo da klasteri čiji radni opterećenja imaju najveći omjer čitanja/pisanja imaju najveći RBER.

Pouzdanost fleš memorije: očekivano i neočekivano. Dio 2. XIV konferencija udruženja USENIX. Tehnologije skladištenja datoteka
Rice. 4 a), b). Srednje vrijednosti RBER-a kao funkcija PE ciklusa za tri različita klastera i ovisnosti omjera čitanja/pisanja o broju PE ciklusa za tri različita klastera.

Na primjer, Slika 4(b) prikazuje omjere čitanja/pisanja različitih klastera za model MLC-D pogona. Međutim, omjer čitanja/pisanja ne objašnjava razlike između klastera za sve modele, tako da mogu postojati i drugi faktori koje naši podaci ne uzimaju u obzir, kao što su faktori okoline ili drugi vanjski parametri opterećenja.

4.3. RBER tokom ubrzanog testiranja izdržljivosti.

Većina naučnih radova, kao i ispitivanja koja se vrše pri kupovini medija u industrijskom obimu, predviđaju pouzdanost uređaja na terenu na osnovu rezultata ubrzanih ispitivanja izdržljivosti. Odlučili smo da otkrijemo koliko rezultati ovakvih testova odgovaraju praktičnom iskustvu u radu sa čvrstim medijima za skladištenje podataka.
Analiza rezultata testiranja obavljena općom metodologijom ubrzanog testiranja opreme koja se isporučuje u Google data centre pokazala je da su vrijednosti RBER na terenu znatno veće od predviđenih. Na primjer, za eMLC-a model, medijan RBER za diskove koji rade na terenu (na kraju testiranja broj PE ciklusa je dostigao 600) bio je 1e-05, dok je prema rezultatima preliminarnog ubrzanog testiranja ovaj RBER vrijednost bi trebala odgovarati više od 4000 PE ciklusa. Ovo ukazuje da je vrlo teško precizno predvidjeti vrijednost RBER-a na terenu na osnovu procjena RBER-a dobijenih iz laboratorijskih testova.

Također smo primijetili da je neke vrste grešaka prilično teško reproducirati tokom ubrzanog testiranja. Na primjer, u slučaju MLC-B modela, skoro 60% pogona na terenu doživljava nepopravljive greške i skoro 80% pogona razvija loše blokove. Međutim, tokom ubrzanog testiranja izdržljivosti, nijedan od šest uređaja nije doživio nijednu nepopravljivu grešku sve dok diskovi nisu dostigli više od tri puta granice PE ciklusa. Kod eMLC modela, greške koje se ne mogu ispraviti su se javljale u više od 80% pogona na terenu, dok su se tokom ubrzanog testiranja takve greške dešavale nakon dostizanja 15000 PE ciklusa.

Pogledali smo i RBER prijavljen u prethodnom istraživačkom radu, koji se temeljio na eksperimentima u kontroliranom okruženju, i zaključili da je raspon vrijednosti izuzetno širok. Na primjer, L.M. Grupp i drugi u svom radu od 2009. do 2012. navode RBER vrijednosti za pogone koji su blizu dostizanja granica PE ciklusa. Na primjer, za SLC i MLC uređaje sa veličinama litografije sličnim onima koje se koriste u našem radu (25-50nm), vrijednost RBER se kreće od 1e-08 do 1e-03, pri čemu većina testiranih modela pogona ima vrijednost RBER blizu 1e- 06.

U našoj studiji, tri modela pogona koji su dostigli granicu PE ciklusa imali su RBER u rasponu od 3e-08 do 8e-08. Čak i uzimajući u obzir da su naši brojevi donje granice i da bi u apsolutnom najgorem slučaju mogli biti 16 puta veći, ili uzimajući u obzir 95. percentil RBER-a, naše vrijednosti su i dalje značajno niže.

Sve u svemu, dok su stvarne vrijednosti RBER-a na terenu veće od predviđenih vrijednosti na osnovu ubrzanog testiranja izdržljivosti, one su još uvijek niže od većine RBER-ova za slične uređaje prijavljene u drugim istraživačkim radovima i izračunate iz laboratorijskih testova. To znači da se ne biste trebali oslanjati na predviđene vrijednosti RBER polja koje su izvedene iz ubrzanog testiranja izdržljivosti.

5. Neispravljive greške.

S obzirom na rasprostranjenu pojavu neispravljivih grešaka (UE), o kojima se govorilo u Odjeljku 3 ovog rada, u ovom dijelu ćemo detaljnije istražiti njihove karakteristike. Počinjemo tako što ćemo raspravljati o tome koju metriku koristiti za mjerenje UE, kako se ona odnosi na RBER i kako na UE utječu različiti faktori.

5.1. Zašto UBER omjer nema smisla.

Standardna metrika koja karakteriše greške koje se ne mogu ispraviti je UBER stopa neispravljivih bitova, odnosno odnos broja neispravljivih grešaka u bitu i ukupnog broja pročitanih bitova.

Ova metrika implicitno pretpostavlja da je broj grešaka koje se ne mogu ispraviti nekako vezan za broj pročitanih bitova, te stoga mora biti normaliziran ovim brojem.

Ova pretpostavka vrijedi za greške koje se mogu ispraviti, gdje je utvrđeno da je broj uočenih grešaka u datom mjesecu u velikoj korelaciji sa brojem čitanja u istom vremenskom periodu (Spearmanov koeficijent korelacije veći od 0.9). Razlog za tako jaku korelaciju je taj što će čak i jedan loš bit, sve dok se može ispraviti pomoću ECC-a, nastaviti da povećava broj grešaka sa svakom operacijom čitanja kojoj pristupi, budući da je procjena ćelije koja sadrži loš bit ne ispravlja se odmah kada se otkrije greška (diskovi samo periodično prepisuju stranice sa oštećenim bitovima).

Ista pretpostavka se ne odnosi na greške koje se ne mogu ispraviti. Greška koja se ne može ispraviti onemogućuje daljnju upotrebu oštećenog bloka, tako da kada se otkrije, takav blok neće utjecati na broj grešaka u budućnosti.

Da bismo formalno potvrdili ovu pretpostavku, koristili smo različite metrike za mjerenje odnosa između broja čitanja u datom mjesecu trajanja diska i broja nepopravljivih grešaka u istom vremenskom periodu, uključujući različite koeficijente korelacije (Pearson, Spearman, Kendall) , kao i vizuelni pregled grafova. Pored broja grešaka koje se ne mogu ispraviti, posmatrali smo i učestalost incidenata koji se ne mogu ispraviti (tj. vjerovatnoću da će disk imati barem jedan takav incident u određenom vremenskom periodu) i njihov odnos prema operacijama čitanja.
Nismo pronašli dokaze o korelaciji između broja čitanja i broja grešaka koje se ne mogu ispraviti. Za sve modele pogona, koeficijenti korelacije su bili ispod 0.02, a grafikoni nisu pokazali nikakvo povećanje UE kako se povećavao broj čitanja.

U odeljku 5.4 ovog rada razmatramo da operacije pisanja i brisanja takođe nemaju veze sa greškama koje se ne mogu ispraviti, tako da alternativna definicija UBER-a, koja je normalizovana operacijama pisanja ili brisanja umesto operacijama čitanja, nema smisla.

Stoga zaključujemo da UBER nije smislena metrika, osim možda kada se testira u kontroliranim okruženjima gdje broj čitanja postavlja eksperimentator. Ako se UBER koristi kao metrika tokom testiranja na terenu, on će umjetno smanjiti stopu greške za diskove s velikim brojem čitanja i umjetno naduvati stopu greške za diskove s malim brojem čitanja, budući da se greške koje se ne mogu ispraviti javljaju bez obzira na broj čitanja.

5.2. Neispravljive greške i RBER.

Relevantnost RBER-a objašnjava se činjenicom da on služi kao mjera za određivanje ukupne pouzdanosti pogona, posebno na osnovu vjerovatnoće nepopravljivih grešaka. U svom radu, N. Mielke i saradnici su 2008. godine prvi predložili definisanje očekivane stope nepopravljive greške kao funkcije RBER-a. Od tada su mnogi programeri sistema koristili slične metode, kao što je procjena očekivane stope nepopravljive greške kao funkcije tipa RBER i ECC.

Svrha ovog odjeljka je da okarakterizira koliko dobro RBER predviđa greške koje se ne mogu ispraviti. Počnimo sa slikom 5a, koja prikazuje medijan RBER-a za brojne prve generacije pogonskih modela u odnosu na postotak dana kada su bili u upotrebi kada su doživjele nepopravljive UE greške. Treba napomenuti da neki od 16 modela prikazanih na grafikonu nisu uključeni u tabelu 1 zbog nedostatka analitičkih informacija.

Pouzdanost fleš memorije: očekivano i neočekivano. Dio 2. XIV konferencija udruženja USENIX. Tehnologije skladištenja datoteka
Rice. 5a. Odnos između srednjeg RBER-a i grešaka koje se ne mogu ispraviti za različite modele pogona.

Pouzdanost fleš memorije: očekivano i neočekivano. Dio 2. XIV konferencija udruženja USENIX. Tehnologije skladištenja datoteka
Rice. 5b. Odnos između srednjeg RBER-a i grešaka koje se ne mogu ispraviti za različite pogone istog modela.

Podsjetimo da svi modeli unutar iste generacije koriste isti ECC mehanizam, tako da su razlike između modela neovisne o razlikama u ECC-u. Nismo vidjeli nikakvu korelaciju između RBER i UE incidenata. Napravili smo isti grafikon za 95. percentil RBER naspram UE vjerovatnoće i opet nismo vidjeli nikakvu korelaciju.

Zatim smo ponovili analizu na granularnosti pojedinačnih diskova, odnosno pokušali smo otkriti da li postoje diskovi na kojima veća vrijednost RBER odgovara višoj frekvenciji UE. Kao primjer, Slika 5b prikazuje srednji RBER za svaki pogon modela MLC-c u odnosu na broj UE (rezultati slični onima dobijenim za 95. percentil RBER). Opet, nismo vidjeli nikakvu korelaciju između RBER-a i UE.

Konačno, izvršili smo precizniju analizu vremena kako bismo ispitali da li će mjeseci rada pogona sa većim RBER-om odgovarati mjesecima tokom kojih su se pojavila UE. Slika 1 je već pokazala da je koeficijent korelacije između grešaka koje se ne mogu ispraviti i RBER-a vrlo nizak. Takođe smo eksperimentisali sa različitim načinima crtanja verovatnoće UE kao funkcije RBER-a i nismo pronašli dokaze o korelaciji.

Stoga zaključujemo da je RBER nepouzdana metrika za predviđanje UE. To može značiti da se mehanizmi kvara koji dovode do RBER-a razlikuju od mehanizama koji dovode do grešaka koje se ne mogu ispraviti (npr. greške sadržane u pojedinačnim ćelijama u odnosu na veće probleme koji se javljaju s cijelim uređajem).

5.3. Neispravljive greške i habanje.

Budući da je istrošenost jedan od glavnih problema fleš memorije, slika 6 prikazuje dnevnu vjerovatnoću nepopravljivih grešaka u pogonu kao funkciju PE ciklusa.

Pouzdanost fleš memorije: očekivano i neočekivano. Dio 2. XIV konferencija udruženja USENIX. Tehnologije skladištenja datoteka
Slika 6. Dnevna vjerovatnoća pojave neispravljivih pogonskih grešaka u zavisnosti od PE ciklusa.

Primećujemo da verovatnoća UE kontinuirano raste sa starošću diska. Međutim, kao i kod RBER-a, povećanje je sporije nego što se obično pretpostavlja: grafikoni pokazuju da UE rastu linearno, a ne eksponencijalno s PE ciklusima.

Dva zaključka koja smo napravili za RBER takođe se odnose na UE: prvo, nema jasnog povećanja potencijala greške kada se dostigne granica ciklusa PE, kao što je na slici 6 za model MLC-D čija je granica PE ciklusa 3000. Drugo, drugo , stopa greške varira među različitim modelima, čak i unutar iste klase. Međutim, ove razlike nisu tako velike kao za RBER.

Konačno, u prilog našim nalazima u odjeljku 5.2, otkrili smo da unutar jedne klase modela (MLC vs. SLC), modeli s najnižim vrijednostima RBER za dati broj PE ciklusa nisu nužno oni s najnižim vjerovatnoća pojave UE. Na primjer, preko 3000 PE ciklusa, MLC-D modeli su imali RBER vrijednosti 4 puta niže od MLC-B modela, ali je vjerovatnoća UE za isti broj PE ciklusa bila nešto veća za MLC-D modele nego za MLC-B modeli.

Pouzdanost fleš memorije: očekivano i neočekivano. Dio 2. XIV konferencija udruženja USENIX. Tehnologije skladištenja datoteka
Slika 7. Mjesečna vjerovatnoća pojave neispravljivih pogonskih grešaka u funkciji prisustva prethodnih grešaka različitih tipova.

5.4. Neispravljive greške i opterećenje.

Iz istih razloga zbog kojih radno opterećenje može utjecati na RBER (vidi odjeljak 4.2.3), može se očekivati ​​da će također utjecati na UE. Na primjer, pošto smo primijetili da greške kršenja čitanja utiču na RBER, operacije čitanja također mogu povećati vjerovatnoću grešaka koje se ne mogu ispraviti.

Sproveli smo detaljnu studiju o uticaju radnog opterećenja na UE. Međutim, kao što je navedeno u odjeljku 5.1, nismo pronašli vezu između UE i broja čitanja. Ponovili smo istu analizu za operacije pisanja i brisanja i opet nismo vidjeli nikakvu korelaciju.
Imajte na umu da se na prvi pogled čini da je ovo u suprotnosti sa našim prethodnim zapažanjem da su greške koje se ne mogu ispraviti u korelaciji sa PE ciklusima. Stoga se može očekivati ​​korelacija sa brojem operacija pisanja i brisanja.

Međutim, u našoj analizi uticaja PE ciklusa, uporedili smo broj nepopravljivih grešaka u datom mesecu sa ukupnim brojem PE ciklusa koje je pogon doživeo tokom svog životnog veka do danas kako bismo izmerili efekat habanja. Prilikom proučavanja uticaja radnog opterećenja, posmatrali smo mesece rada diska koji su imali najveći broj operacija čitanja/pisanja/brisanja u određenom mesecu, koji su takođe imali veće šanse da izazovu greške koje se ne mogu ispraviti, tj. nismo uzeli u obzir računa ukupan broj operacija čitanja/pisanja/brisanja.

Kao rezultat toga, došli smo do zaključka da greške pri čitanju, greške pri pisanju i greške nepotpunog brisanja nisu glavni faktori u razvoju neispravljivih grešaka.

Hvala vam što ste ostali s nama. Da li vam se sviđaju naši članci? Želite li vidjeti još zanimljivih sadržaja? Podržite nas naručivanjem ili preporukom prijateljima, 30% popusta za korisnike Habra na jedinstveni analog početnih servera, koji smo mi osmislili za vas: Cijela istina o VPS (KVM) E5-2650 v4 (6 Cores) 10GB DDR4 240GB SSD 1Gbps od 20$ ili kako dijeliti server? (dostupno sa RAID1 i RAID10, do 24 jezgra i do 40GB DDR4).

Dell R730xd 2 puta jeftiniji? Samo ovdje 2 x Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 TV od 199 USD u Holandiji! Dell R420 - 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB - od 99 USD! Pročitajte o Kako izgraditi infrastrukturnu kompaniju. klase uz korišćenje Dell R730xd E5-2650 v4 servera u vrednosti od 9000 evra za peni?

izvor: www.habr.com

Dodajte komentar