Pouzdanost flash memorije: očekivana i neočekivana. 2. dio. XIV konferencija udruge USENIX. Tehnologije pohrane datoteka

Pouzdanost flash memorije: očekivana i neočekivana. 1. dio. XIV konferencija udruge USENIX. Tehnologije pohrane datoteka

4.2.2. RBER i starost diska (isključujući PE cikluse).

Slika 1 pokazuje značajnu korelaciju između RBER-a i starosti, što je broj mjeseci koliko je disk bio u polju. Međutim, ovo može biti lažna korelacija jer je vjerojatno da stariji pogoni imaju više PE-ova i stoga je RBER u većoj korelaciji s PE ciklusima.

Kako bismo uklonili učinak starosti na trošenje uzrokovan PE ciklusima, grupirali smo sve mjesece rada u spremnike koristeći decile distribucije PE ciklusa kao granicu između spremnika, na primjer, prvi spremnik sadrži sve mjesece vijeka trajanja diska do prvi decil distribucije PE ciklusa, i tako dalje. Provjerili smo da je unutar svakog spremnika korelacija između PE ciklusa i RBER-a prilično mala (budući da svaki spremnik pokriva samo mali raspon PE ciklusa), a zatim smo izračunali koeficijent korelacije između RBER-a i starosti diska zasebno za svaki spremnik.

Ovu smo analizu proveli zasebno za svaki model jer sve uočene korelacije nisu posljedica razlika između mlađih i starijih modela, već isključivo zbog starosti pogona istog modela. Uočili smo da čak i nakon ograničavanja učinka PE ciklusa na gore opisani način, za sve modele pogona još uvijek postoji značajna korelacija između broja mjeseci koje je pogon proveo na terenu i njegovog RBER-a (koeficijenti korelacije bili su u rasponu od 0,2 do 0,4). ).

Pouzdanost flash memorije: očekivana i neočekivana. 2. dio. XIV konferencija udruge USENIX. Tehnologije pohrane datoteka
Riža. 3. Odnos između RBER i broja PE ciklusa za nove i stare diskove pokazuje da starost diska utječe na vrijednost RBER bez obzira na PE cikluse uzrokovane trošenjem.

Također smo grafički vizualizirali učinak starosti pogona dijeljenjem dana korištenja pogona u "mladoj" dobi do 1 godine i dana korištenja pogona starijih od 4 godine, a zatim nacrtali RBER za svaki grupi prema broju PE ciklusa. Slika 3 prikazuje ove rezultate za model pogona MLC-D. Vidimo primjetnu razliku u RBER vrijednostima između grupa starih i novih diskova kroz sve PE cikluse.

Iz ovoga zaključujemo da starost, mjerena danima korištenja diska na terenu, ima značajan utjecaj na RBER, bez obzira na trošenje memorijskih ćelija zbog izloženosti PE ciklusima. To znači da drugi čimbenici, poput starenja silicija, igraju veliku ulogu u fizičkom trošenju diska.

4.2.3. RBER i radno opterećenje.

Smatra se da su bitne pogreške uzrokovane jednim od četiri mehanizma:

  1. pogreške pohranjivanja Pogreške zadržavanja, kada memorijska ćelija gubi podatke tijekom vremena
    Pogreške ometanja čitanja, kod kojih operacija čitanja oštećuje sadržaj susjedne ćelije;
  2. Pogreške ometanja pisanja, u kojima operacija čitanja oštećuje sadržaj susjedne ćelije;
  3. Pogreške nepotpunog brisanja, kada operacija brisanja ne briše u potpunosti sadržaj ćelije.

Pogreške zadnje tri vrste (ometanje čitanja, ometanje pisanja, nepotpuno brisanje) povezane su s radnim opterećenjem, tako da nam razumijevanje korelacije između RBER-a i radnog opterećenja pomaže razumjeti prevalenciju različitih mehanizama pogreške. U nedavnoj studiji, "A large-scale study of flash memory failures in the field" (MEZA, J., WU, Q., KUMAR, S., MUTLU, O. "A large-scale study of flash memory failures in polje." U Proceedings of the 2015 ACM SIGMETRICS International Conference on Measurement and Modeling of Computer Systems, New York, 2015, SIGMETRICS '15, ACM, str. 177–190) zaključio je da pogreške pohrane prevladavaju na terenu, dok pogreške čitanja prilično su minorne.

Slika 1 prikazuje značajan odnos između vrijednosti RBER-a u određenom mjesecu trajanja diska i broja čitanja, pisanja i brisanja u istom mjesecu za neke modele (na primjer, koeficijent korelacije veći je od 0,2 za MLC - B model i viši od 0,6 za SLC-B). Međutim, moguće je da je ovo lažna korelacija, budući da se mjesečno radno opterećenje može povezati s ukupnim brojem ciklusa fizičkog vaspitanja.

Koristili smo istu metodologiju opisanu u Odjeljku 4.2.2 da izoliramo učinke radnog opterećenja od učinaka PE ciklusa izdvajanjem mjeseci rada pogona na temelju prethodnih PE ciklusa, a zatim određivanjem koeficijenata korelacije zasebno za svaki spremnik.

Vidjeli smo da je korelacija između broja čitanja u određenom mjesecu trajanja diska i vrijednosti RBER-a u tom mjesecu postojala za modele MLC-B i SLC-B, čak i kada su ograničeni PE ciklusi. Također smo ponovili sličnu analizu gdje smo isključili učinak čitanja na broj istodobnih pisanja i brisanja, te zaključili da korelacija između RBER-a i broja čitanja vrijedi za SLC-B model.

Slika 1 također prikazuje korelaciju između RBER-a i operacija pisanja i brisanja, pa smo ponovili istu analizu za operacije čitanja, pisanja i brisanja. Zaključujemo da ograničavanjem utjecaja PE ciklusa i čitanja, ne postoji odnos između vrijednosti RBER i broja pisanja i brisanja.

Dakle, postoje modeli diskova kod kojih pogreške čitanja imaju značajan utjecaj na RBER. S druge strane, nema dokaza da na RBER utječu pogreške kršenja pisanja i pogreške nepotpunog brisanja.

4.2.4 RBER i litografija.

Razlike u veličini objekta mogu djelomično objasniti razlike u RBER vrijednostima između modela pogona koji koriste istu tehnologiju, tj. MLC ili SLC. (Pogledajte tablicu 1 za pregled litografije različitih modela uključenih u ovu studiju).

Na primjer, 2 SLC modela s 34nm litografijom (modeli SLC-A i SLC-D) imaju RBER koji je za red veličine veći od onog kod 2 modela s 50nm mikroelektroničkom litografijom (modeli SLC-B i SLC-C). U slučaju MLC modela, samo 43nm model (MLC-B) ima srednji RBER koji je 50% veći od ostala 3 modela s 50nm litografijom. Štoviše, ova razlika u RBER-u povećava se za faktor 4 kako se pogoni troše, kao što je prikazano na slici 2. Konačno, tanja litografija može objasniti viši RBER eMLC pogona u usporedbi s MLC pogonima. Sve u svemu, imamo jasne dokaze da litografija utječe na RBER.

4.2.5. Prisutnost drugih grešaka.

Istražili smo odnos između RBER-a i drugih vrsta pogrešaka, kao što su neispravljive pogreške, pogreške isteka vremena itd., posebice postaje li vrijednost RBER-a viša nakon mjesec dana izloženosti drugim vrstama pogrešaka.

Slika 1 pokazuje da dok RBER za prethodni mjesec predviđa buduće vrijednosti RBER (koeficijent korelacije veći od 0,8), ne postoji značajna korelacija između grešaka koje se ne mogu ispraviti i RBER (krajnja desna grupa stavki na slici 1). Za druge vrste pogrešaka koeficijent korelacije je još manji (nije prikazano na slici). Dodatno smo istražili odnos između RBER-a i neispravljivih pogrešaka u odjeljku 5.2 ovog rada.

4.2.6. Utjecaj drugih faktora.

Pronašli smo dokaze da postoje čimbenici koji imaju značajan utjecaj na RBER, a koje naši podaci ne mogu objasniti. Konkretno, primijetili smo da RBER za dati model diska varira ovisno o klasteru u kojem je disk raspoređen. Dobar primjer je Slika 4, koja prikazuje RBER kao funkciju PE ciklusa za MLC-D pogone u tri različita klastera (isprekidane linije) i uspoređuje ga s RBER-om za ovaj model u odnosu na ukupni broj pogona (puna linija). Otkrili smo da te razlike postoje čak i kada ograničimo utjecaj faktora kao što su starost diska ili broj čitanja.

Jedno moguće objašnjenje za to su razlike u tipu radnog opterećenja među klasterima, budući da opažamo da klasteri čija radna opterećenja imaju najveći omjer čitanja/pisanja imaju najveći RBER.

Pouzdanost flash memorije: očekivana i neočekivana. 2. dio. XIV konferencija udruge USENIX. Tehnologije pohrane datoteka
Riža. 4 a), b). Medijan RBER vrijednosti kao funkcija PE ciklusa za tri različita klastera i ovisnost omjera čitanja/pisanja o broju PE ciklusa za tri različita klastera.

Na primjer, slika 4(b) prikazuje omjere čitanja/pisanja različitih klastera za model pogona MLC-D. Međutim, omjer čitanja/pisanja ne objašnjava razlike između klastera za sve modele, tako da mogu postojati drugi čimbenici koje naši podaci ne uzimaju u obzir, kao što su čimbenici okoline ili drugi vanjski parametri radnog opterećenja.

4.3. RBER tijekom ubrzanog ispitivanja trajnosti.

Većina znanstvenih radova, kao i ispitivanja provedena pri kupnji medija u industrijskim razmjerima, predviđaju pouzdanost uređaja na terenu na temelju rezultata ubrzanih testova trajnosti. Odlučili smo utvrditi koliko dobro rezultati takvih testova odgovaraju praktičnom iskustvu u radu sa solid-state medijima za pohranu.
Analiza rezultata testiranja provedena korištenjem opće metodologije ubrzanog testiranja za opremu isporučenu Googleovim podatkovnim centrima pokazala je da su RBER vrijednosti polja značajno više od predviđenih. Na primjer, za model eMLC-a, srednji RBER za diskove koji su radili na terenu (na kraju testiranja broj PE ciklusa dosegao je 600) bio je 1e-05, dok je prema rezultatima preliminarnog ubrzanog testiranja ovaj RBER vrijednost bi trebala odgovarati više od 4000 PE ciklusa. To ukazuje da je vrlo teško točno predvidjeti vrijednost RBER-a na terenu na temelju procjena RBER-a dobivenih laboratorijskim testovima.

Također smo primijetili da je neke vrste pogrešaka prilično teško reproducirati tijekom ubrzanog testiranja. Na primjer, u slučaju modela MLC-B, gotovo 60% pogona na terenu ima greške koje se ne mogu ispraviti, a gotovo 80% pogona razvija loše blokove. Međutim, tijekom ubrzanog testiranja izdržljivosti, nijedan od šest uređaja nije doživio nijednu nepopravljivu pogrešku sve dok pogoni nisu dosegli više od tri puta više od ograničenja PE ciklusa. Za eMLC modele, greške koje se nisu mogle ispraviti pojavile su se u više od 80% pogona na terenu, dok su se tijekom ubrzanog testiranja takve pogreške javljale nakon dostizanja 15000 PE ciklusa.

Također smo pogledali RBER prijavljen u prethodnom istraživačkom radu, koji se temeljio na eksperimentima u kontroliranom okruženju, i zaključili da je raspon vrijednosti iznimno širok. Na primjer, L.M. Grupp i drugi u svom radu 2009-2012 izvješćuju o RBER vrijednostima za pogone koji su blizu dostizanja ograničenja PE ciklusa. Na primjer, za SLC i MLC uređaje s veličinama litografije sličnim onima koje se koriste u našem radu (25-50 nm), RBER vrijednost kreće se od 1e-08 do 1e-03, pri čemu većina testiranih modela pogona ima RBER vrijednost blizu 1e- 06.

U našoj studiji, tri modela pogona koji su dosegli ograničenje PE ciklusa imali su RBER-ove u rasponu od 3e-08 do 8e-08. Čak i ako uzmemo u obzir da su naše brojke donje granice i da bi mogle biti 16 puta veće u apsolutno najgorem slučaju, ili ako uzmemo u obzir 95. percentil RBER-a, naše su vrijednosti još uvijek znatno niže.

Sve u svemu, dok su stvarne vrijednosti RBER-a veće od predviđenih vrijednosti na temelju ubrzanog testiranja izdržljivosti, one su još uvijek niže od većine RBER-ova za slične uređaje objavljene u drugim istraživačkim radovima i izračunate iz laboratorijskih testova. To znači da se ne biste trebali oslanjati na predviđene vrijednosti polja RBER koje su izvedene iz ubrzanog testiranja trajnosti.

5. Neispravljive pogreške.

S obzirom na raširenu pojavu neispravljivih pogrešaka (UE), o kojima je bilo riječi u odjeljku 3 ovog rada, u ovom odjeljku detaljnije istražujemo njihove karakteristike. Započinjemo raspravom o tome koju metriku koristiti za mjerenje UE, kako se ona odnosi na RBER i kako na UE utječu različiti čimbenici.

5.1. Zašto UBER omjer nema smisla.

Standardna metrika koja karakterizira neispravljive pogreške je UBER stopa neispravljivih bitnih pogrešaka, odnosno omjer broja neispravljivih bitnih pogrešaka prema ukupnom broju pročitanih bitova.

Ova metrika implicitno pretpostavlja da je broj neispravljivih pogrešaka na neki način povezan s brojem pročitanih bitova, te se stoga mora normalizirati tim brojem.

Ova pretpostavka vrijedi za pogreške koje se mogu ispraviti, gdje se broj pogrešaka uočenih u određenom mjesecu nalazi u visokoj korelaciji s brojem očitavanja u istom vremenskom razdoblju (Spearmanov koeficijent korelacije veći od 0.9). Razlog za tako snažnu korelaciju je da će čak i jedan loš bit, sve dok ga je moguće ispraviti pomoću ECC-a, nastaviti povećavati broj pogrešaka sa svakom operacijom čitanja kojoj pristupi, budući da je procjena ćelije koja sadrži loš bit ne ispravlja se odmah kada se otkrije pogreška (diskovi samo povremeno prepisuju stranice s oštećenim bitovima).

Ista pretpostavka ne vrijedi za greške koje se ne mogu ispraviti. Neispravljiva pogreška isključuje daljnju upotrebu oštećenog bloka, tako da jednom otkrivena takva blokada neće utjecati na broj budućih pogrešaka.

Kako bismo službeno potvrdili ovu pretpostavku, upotrijebili smo različite metrike za mjerenje odnosa između broja čitanja u određenom mjesecu trajanja diska i broja neispravljivih pogrešaka tijekom istog vremenskog razdoblja, uključujući različite koeficijente korelacije (Pearson, Spearman, Kendall) , kao i vizualni pregled grafova . Osim broja neispravljivih pogrešaka, također smo promatrali učestalost neispravljivih incidenata pogrešaka (tj. vjerojatnost da će disk imati barem jedan takav incident tijekom određenog vremenskog razdoblja) i njihov odnos s operacijama čitanja.
Nismo pronašli dokaze o korelaciji između broja čitanja i broja neispravljivih pogrešaka. Za sve modele pogona koeficijenti korelacije bili su ispod 0.02, a grafikoni nisu pokazali povećanje UE kako se povećavao broj očitavanja.

U Odjeljku 5.4 ovog rada raspravljamo o tome da operacije pisanja i brisanja također nemaju nikakve veze s greškama koje se ne mogu ispraviti, tako da alternativna definicija UBER-a, koja je normalizirana operacijama pisanja ili brisanja umjesto operacija čitanja, nema smisla.

Stoga zaključujemo da UBER nije značajna metrika, osim možda kada se testira u kontroliranim okruženjima gdje broj očitavanja postavlja eksperimentator. Ako se UBER koristi kao metrika tijekom testiranja na terenu, umjetno će smanjiti stopu pogreške za pogone s visokim brojem čitanja i umjetno povećati stopu pogreške za pogone s niskim brojem čitanja, jer se pogreške koje se ne mogu ispraviti pojavljuju bez obzira na broj čitanja.

5.2. Neispravljive pogreške i RBER.

Relevantnost RBER-a objašnjava se činjenicom da on služi kao mjera za određivanje ukupne pouzdanosti pogona, posebno na temelju vjerojatnosti nepopravljivih pogrešaka. U svom su radu N. Mielke i suradnici 2008. godine prvi predložili definiranje očekivane stope neispravljive pogreške kao funkcije RBER-a. Od tada su mnogi programeri sustava koristili slične metode, kao što je procjena očekivane stope grešaka koje se ne mogu ispraviti kao funkcije tipa RBER i ECC.

Svrha ovog odjeljka je opisati koliko dobro RBER predviđa greške koje se ne mogu ispraviti. Počnimo sa slikom 5a, koja prikazuje medijan RBER-a za brojne modele pogona prve generacije u odnosu na postotak dana kada su bili u upotrebi kada su se pojavile nepopravljive UE pogreške. Treba napomenuti da neki od 16 modela prikazanih na grafikonu nisu uključeni u tablicu 1 zbog nedostatka analitičkih podataka.

Pouzdanost flash memorije: očekivana i neočekivana. 2. dio. XIV konferencija udruge USENIX. Tehnologije pohrane datoteka
Riža. 5a. Odnos između srednjeg RBER-a i nepopravljivih pogrešaka za različite modele pogona.

Pouzdanost flash memorije: očekivana i neočekivana. 2. dio. XIV konferencija udruge USENIX. Tehnologije pohrane datoteka
Riža. 5b. Odnos između srednjeg RBER-a i nepopravljivih pogrešaka za različite pogone istog modela.

Podsjetimo se da svi modeli unutar iste generacije koriste isti ECC mehanizam, tako da su razlike između modela neovisne o ECC razlikama. Nismo vidjeli korelaciju između RBER i UE incidenata. Napravili smo isti dijagram za 95. percentil RBER u odnosu na vjerojatnost UE i ponovno nismo vidjeli nikakvu korelaciju.

Zatim smo ponovili analizu na granularnoj razini za pojedinačne pogone, tj. pokušali smo otkriti postoje li pogoni kod kojih veća RBER vrijednost odgovara višoj UE frekvenciji. Kao primjer, Slika 5b prikazuje medijan RBER-a za svaki pogon MLC-c modela u odnosu na broj UE-ova (rezultati slični onima dobivenim za 95. percentil RBER-a). Opet, nismo vidjeli nikakvu korelaciju između RBER-a i UE-a.

Konačno, izvršili smo precizniju analizu vremena kako bismo ispitali odgovaraju li mjeseci rada pogona s višim RBER-om mjesecima tijekom kojih su se dogodili UE. Slika 1 je već pokazala da je korelacijski koeficijent između neispravljivih pogrešaka i RBER-a vrlo nizak. Također smo eksperimentirali s različitim načinima iscrtavanja vjerojatnosti UE kao funkcije RBER-a i nismo pronašli dokaze o korelaciji.

Stoga zaključujemo da je RBER nepouzdana metrika za predviđanje UE. To može značiti da se mehanizmi kvara koji dovode do RBER-a razlikuju od mehanizama koji dovode do nepopravljivih pogrešaka (npr. pogreške sadržane u pojedinačnim ćelijama u odnosu na veće probleme koji se javljaju s cijelim uređajem).

5.3. Neispravljive pogreške i istrošenost.

Budući da je istrošenost jedan od glavnih problema flash memorije, slika 6 prikazuje dnevnu vjerojatnost nepopravljivih grešaka pogona kao funkciju PE ciklusa.

Pouzdanost flash memorije: očekivana i neočekivana. 2. dio. XIV konferencija udruge USENIX. Tehnologije pohrane datoteka
Slika 6. Dnevna vjerojatnost pojave nepopravljivih pogonskih grešaka ovisno o PE ciklusima.

Napominjemo da se vjerojatnost UE kontinuirano povećava sa starošću pogona. Međutim, kao i kod RBER-a, povećanje je sporije nego što se obično pretpostavlja: grafikoni pokazuju da UE-ovi rastu linearno, a ne eksponencijalno s PE ciklusima.

Dva zaključka koja smo donijeli za RBER također se odnose na UE: prvo, nema jasnog povećanja potencijala pogreške nakon što se postigne ograničenje PE ciklusa, kao na slici 6 za MLC-D model čije je ograničenje PE ciklusa 3000. Drugo, drugo , stopa pogreške varira među različitim modelima, čak i unutar iste klase. Međutim, te razlike nisu tako velike kao kod RBER-a.

Konačno, u prilog našim nalazima u odjeljku 5.2, otkrili smo da unutar jedne klase modela (MLC naspram SLC), modeli s najnižim RBER vrijednostima za određeni broj PE ciklusa nisu nužno oni s najnižim vjerojatnost pojave UE. Na primjer, tijekom 3000 PE ciklusa, MLC-D modeli imali su RBER vrijednosti 4 puta niže od MLC-B modela, ali je vjerojatnost UE za isti broj PE ciklusa bila nešto veća za MLC-D modele nego za MLC-B modeli.

Pouzdanost flash memorije: očekivana i neočekivana. 2. dio. XIV konferencija udruge USENIX. Tehnologije pohrane datoteka
Slika 7. Mjesečna vjerojatnost pojave neispravljivih grešaka u pogonu kao funkcija prisutnosti prethodnih grešaka različitih vrsta.

5.4. Neispravljive pogreške i opterećenje.

Iz istih razloga zbog kojih radno opterećenje može utjecati na RBER (vidi odjeljak 4.2.3), može se očekivati ​​da će također utjecati na UE. Na primjer, budući da smo primijetili da greške čitanja utječu na RBER, operacije čitanja također mogu povećati vjerojatnost neispravljivih pogrešaka.

Proveli smo detaljnu studiju o utjecaju opterećenja na NG. Međutim, kao što je navedeno u odjeljku 5.1, nismo pronašli odnos između UE i broja čitanja. Ponovili smo istu analizu za operacije pisanja i brisanja i ponovno nismo vidjeli korelaciju.
Imajte na umu da se na prvi pogled čini da je ovo proturječno našem prethodnom opažanju da su nepopravljive pogreške u korelaciji s PE ciklusima. Stoga se može očekivati ​​korelacija s brojem operacija pisanja i brisanja.

Međutim, u našoj analizi utjecaja PE ciklusa, usporedili smo broj neispravljivih pogrešaka u određenom mjesecu s ukupnim brojem PE ciklusa koje je pogon doživio tijekom svog životnog vijeka do danas kako bismo izmjerili učinak istrošenosti. Prilikom proučavanja utjecaja opterećenja promatrali smo mjesece rada pogona koji su imali najveći broj operacija čitanja/pisanja/brisanja u određenom mjesecu, koji su također imali veću vjerojatnost uzroka nepopravljivih pogrešaka, tj. nismo uzeli u obzir račun ukupnog broja operacija čitanja/pisanja/brisanja.

Kao rezultat toga, došli smo do zaključka da pogreške pri čitanju, pogreške pri pisanju i pogreške nepotpunog brisanja nisu glavni čimbenici u razvoju neispravljivih pogrešaka.

Hvala što ste ostali s nama. Sviđaju li vam se naši članci? Želite li vidjeti više zanimljivog sadržaja? Podržite nas narudžbom ili preporukom prijateljima, 30% popusta za korisnike Habra na jedinstveni analog početnih poslužitelja, koji smo izmislili za vas: Cijela istina o VPS (KVM) E5-2650 v4 (6 jezgri) 10GB DDR4 240GB SSD 1Gbps od 20 USD ili kako podijeliti poslužitelj? (dostupno s RAID1 i RAID10, do 24 jezgre i do 40 GB DDR4).

Dell R730xd 2 puta jeftiniji? Samo ovdje 2 x Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 TV od 199 USD u Nizozemskoj! Dell R420 - 2x E5-2430 2.2 Ghz 6C 128 GB DDR3 2x960 GB SSD 1 Gbps 100 TB - od 99 USD! Pročitaj o Kako izgraditi infrastrukturu corp. klase uz korištenje Dell R730xd E5-2650 v4 servera vrijednih 9000 eura za lipu?

Izvor: www.habr.com

Dodajte komentar