Fiabilitatea memoriei flash: așteptată și neașteptată. Partea 2. XIV conferință a asociației USENIX. Tehnologii de stocare a fișierelor

Fiabilitatea memoriei flash: așteptată și neașteptată. Partea 1. XIV conferință a asociației USENIX. Tehnologii de stocare a fișierelor

4.2.2. RBER și vârsta discului (excluzând ciclurile PE).

Figura 1 arată o corelație semnificativă între RBER și vârstă, care este numărul de luni în care discul a stat pe teren. Cu toate acestea, aceasta poate fi o corelație falsă, deoarece este probabil ca unitățile mai vechi să aibă mai multe PE și, prin urmare, RBER este mai corelat cu ciclurile PE.

Pentru a elimina efectul vechimii asupra uzurii cauzate de ciclurile PE, am grupat toate lunile de serviciu în containere folosind decilele distribuției ciclului PE ca limită între containere, de exemplu, primul container conține toate lunile de viață a discului până la primul decil al distribuției ciclului PE și așa mai departe. Am verificat că în cadrul fiecărui container corelația dintre ciclurile PE și RBER este destul de mică (deoarece fiecare container acoperă doar o gamă mică de cicluri PE), apoi am calculat coeficientul de corelație dintre RBER și vârsta discului separat pentru fiecare container.

Am efectuat această analiză separat pentru fiecare model, deoarece orice corelații observate nu se datorează diferențelor dintre modelele mai tinere și cele mai vechi, ci numai din cauza vechimii unităților aceluiași model. Am observat că, chiar și după limitarea efectului ciclurilor PE în modul descris mai sus, pentru toate modelele de acționare a existat încă o corelație semnificativă între numărul de luni în care o unitate a fost pe teren și RBER (coeficienții de corelație au variat între 0,2 și 0,4). ).

Fiabilitatea memoriei flash: așteptată și neașteptată. Partea 2. XIV conferință a asociației USENIX. Tehnologii de stocare a fișierelor
Orez. 3. Relația dintre RBER și numărul de cicluri PE pentru discuri noi și vechi arată că vârsta discului afectează valoarea RBER indiferent de ciclurile PE cauzate de uzură.

De asemenea, am vizualizat grafic efectul vârstei unității prin împărțirea zilelor de utilizare a unității la o vârstă „tânără” de până la 1 an și zilele de utilizare a unității peste vârsta de 4 ani, apoi am trasat RBER-ul fiecăruia. grup față de numărul de cicluri PE. Figura 3 prezintă aceste rezultate pentru modelul de unitate MLC-D. Vedem o diferență notabilă în valorile RBER între grupurile de discuri vechi și noi pe parcursul tuturor ciclurilor PE.

Din aceasta concluzionăm că vârsta, măsurată prin zilele de utilizare a discului în teren, are un impact semnificativ asupra RBER, independent de uzura celulelor de memorie din cauza expunerii la ciclurile PE. Aceasta înseamnă că alți factori, cum ar fi îmbătrânirea siliciului, joacă un rol important în uzura fizică a discului.

4.2.3. RBER și volumul de muncă.

Erorile de biți sunt considerate a fi cauzate de unul dintre cele patru mecanisme:

  1. erori de stocare Erori de reținere, atunci când o celulă de memorie pierde date în timp
    Erori de perturbare citire, în care o operație de citire dăunează conținutului unei celule adiacente;
  2. Erori de scriere perturbare, în care o operație de citire dăunează conținutului unei celule adiacente;
  3. Erori de ștergere incompletă, atunci când operația de ștergere nu șterge complet conținutul celulei.

Erorile din ultimele trei tipuri (deranjare de citire, tulburare de scriere, ștergere incompletă) sunt corelate cu volumul de lucru, astfel încât înțelegerea corelației dintre RBER și volumul de lucru ne ajută să înțelegem prevalența diferitelor mecanisme de eroare. Într-un studiu recent, „A large-scale study of flash memory failures in the field” (MEZA, J., WU, Q., KUMAR, S., MUTLU, O. „Un studiu la scară largă al eșecurilor memoriei flash în domeniul.” În Proceedings of the 2015 ACM SIGMETRICS International Conference on Measurement and Modeling of Computer Systems, New York, 2015, SIGMETRICS '15, ACM, pp. 177–190) a concluzionat că erorile de stocare predomină în domeniu, în timp ce erorile de citire sunt destul de minore.

Figura 1 prezintă o relație semnificativă între valoarea RBER într-o anumită lună de viață a discului și numărul de citiri, scrieri și ștergeri în aceeași lună pentru unele modele (de exemplu, coeficientul de corelație este mai mare de 0,2 pentru MLC - B model și mai mare de 0,6 pentru SLC-B). Cu toate acestea, este posibil ca aceasta să fie o corelație falsă, deoarece volumul de muncă lunar poate fi legat de numărul total de cicluri PE.

Am folosit aceeași metodologie descrisă în Secțiunea 4.2.2 pentru a izola efectele sarcinii de lucru de efectele ciclurilor PE prin izolarea lunilor de funcționare a acționării pe baza ciclurilor PE anterioare și apoi determinând coeficienții de corelație separat pentru fiecare container.

Am văzut că corelația dintre numărul de citiri într-o anumită lună de viață a discului și valoarea RBER din acea lună a persistat pentru modelele MLC-B și SLC-B, chiar și atunci când se limitează ciclurile PE. De asemenea, am repetat o analiză similară în care am exclus efectul citirilor asupra numărului de scrieri și ștergeri simultane și am concluzionat că corelația dintre RBER și numărul de citiri este valabilă pentru modelul SLC-B.

Figura 1 arată, de asemenea, corelația dintre RBER și operațiile de scriere și ștergere, așa că am repetat aceeași analiză pentru operațiunile de citire, scriere și ștergere. Concluzionăm că prin limitarea impactului ciclurilor PE și citirilor, nu există nicio relație între valoarea RBER și numărul de scrieri și ștergeri.

Astfel, există modele de discuri în care erorile de încălcare a citirii au un impact semnificativ asupra RBER. Pe de altă parte, nu există dovezi că RBER este afectat de erori de încălcare a scrisului și de erori de ștergere incompletă.

4.2.4 RBER și litografie.

Diferențele în dimensiunea obiectului pot explica parțial diferențele dintre valorile RBER dintre modelele de unități care folosesc aceeași tehnologie, adică MLC sau SLC. (A se vedea tabelul 1 pentru o prezentare generală a litografiei diferitelor modele incluse în acest studiu).

De exemplu, 2 modele SLC cu litografie de 34 nm (modele SLC-A și SLC-D) au un RBER care este cu un ordin de mărime mai mare decât cel a 2 modele cu litografie microelectronică de 50 nm (modele SLC-B și SLC-C). În cazul modelelor MLC, doar modelul de 43 nm (MLC-B) are un RBER median care este cu 50% mai mare decât celelalte 3 modele cu litografie de 50 nm. Mai mult, această diferență în RBER crește cu un factor de 4 pe măsură ce unitățile se uzează, așa cum se arată în Figura 2. În cele din urmă, litografia mai subțire poate explica RBER mai mare a unităților eMLC în comparație cu unitățile MLC. În general, avem dovezi clare că litografia afectează RBER.

4.2.5. Prezența altor erori.

Am investigat relația dintre RBER și alte tipuri de erori, cum ar fi erori necorectabile, erori de timeout etc., în special dacă valoarea RBER devine mai mare după o lună de expunere la alte tipuri de erori.

Figura 1 arată că, în timp ce RBER din luna anterioară este predictiv pentru viitoarele valori RBER (coeficient de corelație mai mare de 0,8), nu există o corelație semnificativă între erorile necorectabile și RBER (grupul cel mai din dreapta de articole din Figura 1). Pentru alte tipuri de erori, coeficientul de corelație este și mai mic (nu este prezentat în figură). Am explorat în continuare relația dintre RBER și erorile necorectabile în secțiunea 5.2 a acestei lucrări.

4.2.6. Influența altor factori.

Am găsit dovezi că există factori care au un impact semnificativ asupra RBER pe care datele noastre nu i-au putut lua în considerare. În special, am observat că RBER pentru un model de disc dat variază în funcție de clusterul în care este implementat discul. Un bun exemplu este Figura 4, care arată RBER ca o funcție a ciclurilor PE pentru unitățile MLC-D în trei grupuri diferite (linii întrerupte) și îl compară cu RBER pentru acest model în raport cu numărul total de unități (linie continuă). Constatăm că aceste diferențe persistă chiar și atunci când limităm influența unor factori precum vârsta discului sau numărul de citiri.

O posibilă explicație pentru aceasta este diferențele de tip de încărcare de lucru între clustere, deoarece observăm că clusterele ale căror sarcini de lucru au cele mai mari rapoarte de citire/scriere au cel mai mare RBER.

Fiabilitatea memoriei flash: așteptată și neașteptată. Partea 2. XIV conferință a asociației USENIX. Tehnologii de stocare a fișierelor
Orez. 4 a), b). Valorile RBER mediane în funcție de ciclurile PE pentru trei clustere diferite și dependența raportului de citire/scriere de numărul de cicluri PE pentru trei clustere diferite.

De exemplu, Figura 4(b) arată rapoartele de citire/scriere ale diferitelor clustere pentru modelul de unitate MLC-D. Cu toate acestea, raportul de citire/scriere nu explică diferențele dintre clustere pentru toate modelele, așa că pot exista și alți factori pe care datele noastre nu iau în considerare, cum ar fi factorii de mediu sau alți parametri externi ai sarcinii de lucru.

4.3. RBER în timpul testării accelerate de durabilitate.

Majoritatea lucrărilor științifice, precum și testele efectuate la achiziționarea de medii la scară industrială, prezic fiabilitatea dispozitivelor din domeniu pe baza rezultatelor testelor accelerate de durabilitate. Am decis să ne dăm seama cât de bine corespund rezultatelor unor astfel de teste cu experiența practică în operarea mediilor de stocare în stare solidă.
Analiza rezultatelor testelor efectuată folosind metodologia generală de testare accelerată pentru echipamentele furnizate centrelor de date Google a arătat că valorile RBER în câmp sunt semnificativ mai mari decât cele prognozate. De exemplu, pentru modelul eMLC-a, RBER median pentru discuri operate în teren (la sfârșitul testării numărul de cicluri PE a ajuns la 600) a fost 1e-05, în timp ce conform rezultatelor testării preliminare accelerate, acest RBER valoarea ar trebui să corespundă cu mai mult de 4000 de cicluri PE. Acest lucru indică faptul că este foarte dificil să se prezică cu exactitate valoarea RBER în teren pe baza estimărilor RBER obținute în urma testelor de laborator.

De asemenea, am observat că unele tipuri de erori sunt destul de dificil de reprodus în timpul testării accelerate. De exemplu, în cazul modelului MLC-B, aproape 60% dintre unitățile de pe teren se confruntă cu erori necorectabile și aproape 80% dintre unități dezvoltă blocuri defectuoase. Cu toate acestea, în timpul testării accelerate de anduranță, niciunul dintre cele șase dispozitive nu a experimentat erori necorectabile până când unitățile au atins mai mult de trei ori limita ciclului PE. Pentru modelele eMLC, erori necorectabile au apărut în mai mult de 80% dintre unitățile de pe teren, în timp ce în timpul testării accelerate astfel de erori au apărut după atingerea a 15000 de cicluri PE.

De asemenea, am analizat RBER raportat în lucrările de cercetare anterioare, care s-au bazat pe experimente într-un mediu controlat, și am ajuns la concluzia că gama de valori a fost extrem de largă. De exemplu, L.M. Grupp și alții, în raportul lor de lucru 2009 -2012, valorile RBER pentru unitățile care sunt aproape de a atinge limitele ciclului PE. De exemplu, pentru dispozitivele SLC și MLC cu dimensiuni de litografie similare cu cele utilizate în munca noastră (25-50nm), valoarea RBER variază de la 1e-08 la 1e-03, majoritatea modelelor de unități testate având o valoare RBER apropiată de 1e- 06.

În studiul nostru, cele trei modele de acționare care au atins limita ciclului PE au avut RBER-uri cuprinse între 3e-08 și 8e-08. Chiar și ținând cont de faptul că numerele noastre sunt limite inferioare și ar putea fi de 16 ori mai mari în cel mai rău caz absolut, sau ținând cont de percentila 95 a RBER, valorile noastre sunt încă semnificativ mai mici.

În general, deși valorile reale RBER de câmp sunt mai mari decât valorile prezise pe baza testelor de durabilitate accelerate, ele sunt încă mai mici decât majoritatea RBER-urilor pentru dispozitive similare raportate în alte lucrări de cercetare și calculate din teste de laborator. Aceasta înseamnă că nu ar trebui să vă bazați pe valorile RBER de câmp prezise care au fost derivate din testarea accelerată a durabilității.

5. Erori neremediabile.

Având în vedere apariția pe scară largă a erorilor necorectabile (UE), care au fost discutate în Secțiunea 3 a acestei lucrări, în această secțiune vom explora caracteristicile lor mai detaliat. Începem prin a discuta ce măsură să folosim pentru a măsura UE, cum se leagă de RBER și modul în care UE este afectată de diverși factori.

5.1. De ce raportul UBER nu are sens.

Metrica standard care caracterizează erorile necorectabile este rata de eroare de biți necorectabili UBER, adică raportul dintre numărul de erori de biți necorectabile și numărul total de biți citiți.

Această măsurătoare presupune implicit că numărul de erori necorectabile este oarecum legat de numărul de biți citiți și, prin urmare, trebuie normalizat cu acest număr.

Această ipoteză este valabilă pentru erorile corectabile, unde se constată că numărul de erori observate într-o anumită lună este foarte corelat cu numărul de citiri în aceeași perioadă de timp (coeficient de corelație Spearman mai mare de 0.9). Motivul unei corelații atât de puternice este că chiar și un bit rău, atâta timp cât este corectabil folosind ECC, va continua să crească numărul de erori cu fiecare operație de citire accesată de acesta, deoarece evaluarea celulei care conține bitul rău este nu se corectează imediat când este detectată o eroare (discurile rescriu doar periodic pagini cu biți deteriorați).

Aceeași presupunere nu se aplică erorilor necorectabile. O eroare necorecabilă împiedică utilizarea ulterioară a blocului deteriorat, astfel încât, odată detectat, un astfel de bloc nu va afecta numărul de erori în viitor.

Pentru a confirma în mod oficial această presupunere, am folosit diverse metrici pentru a măsura relația dintre numărul de citiri într-o anumită lună de viață a discului și numărul de erori necorectabile în aceeași perioadă de timp, inclusiv diferiți coeficienți de corelație (Pearson, Spearman, Kendall) , precum și inspecția vizuală a graficelor . Pe lângă numărul de erori necorectabile, am analizat și frecvența incidentelor de eroare necorectabile (adică probabilitatea ca un disc să aibă cel puțin un astfel de incident într-o anumită perioadă de timp) și relația lor cu operațiunile de citire.
Nu am găsit nicio dovadă a unei corelații între numărul de citiri și numărul de erori necorectabile. Pentru toate modelele de drive, coeficienții de corelație au fost sub 0.02, iar graficele nu au arătat nicio creștere a UE pe măsură ce numărul de citiri a crescut.

În Secțiunea 5.4 a acestei lucrări, discutăm că operațiile de scriere și ștergere nu au nicio legătură cu erorile necorectabile, astfel încât definiția alternativă a UBER, care este normalizată prin operațiuni de scriere sau ștergere în loc de operațiuni de citire, nu are nicio semnificație.

Prin urmare, concluzionăm că UBER nu este o măsură semnificativă, cu excepția, probabil, atunci când este testată în medii controlate în care numărul de citiri este stabilit de experimentator. Dacă UBER este utilizat ca măsurătoare în timpul testării pe teren, va scădea în mod artificial rata de eroare pentru unitățile cu un număr mare de citiri și va umfla artificial rata de eroare pentru unitățile cu un număr scăzut de citiri, deoarece apar erori necorectabile indiferent de numărul de citiri.

5.2. Erori neremediabile și RBER.

Relevanța RBER se explică prin faptul că servește ca măsură de determinare a fiabilității generale a unității, în special pe baza probabilității de erori necorectabile. În munca lor, N. Mielke și colab. în 2008 au fost primii care au propus definirea ratei de eroare necorectabilă așteptată în funcție de RBER. De atunci, mulți dezvoltatori de sisteme au folosit metode similare, cum ar fi estimarea ratei de eroare necorectabilă așteptată în funcție de tipul RBER și ECC.

Scopul acestei secțiuni este de a caracteriza cât de bine prezice RBER erorile necorectabile. Să începem cu Figura 5a, care prezintă RBER median pentru un număr de modele de unități de prima generație în raport cu procentul de zile în care au fost în uz care au experimentat erori UE necorectabile. Trebuie remarcat faptul că unele dintre cele 16 modele prezentate în grafic nu sunt incluse în Tabelul 1 din cauza lipsei de informații analitice.

Fiabilitatea memoriei flash: așteptată și neașteptată. Partea 2. XIV conferință a asociației USENIX. Tehnologii de stocare a fișierelor
Orez. 5a. Relația dintre RBER median și erori necorectabile pentru diferite modele de unități.

Fiabilitatea memoriei flash: așteptată și neașteptată. Partea 2. XIV conferință a asociației USENIX. Tehnologii de stocare a fișierelor
Orez. 5b. Relația dintre RBER median și erori necorectabile pentru diferite unități ale aceluiași model.

Amintiți-vă că toate modelele din aceeași generație folosesc același mecanism ECC, astfel încât diferențele dintre modele sunt independente de diferențele ECC. Nu am văzut nicio corelație între incidentele RBER și UE. Am creat același grafic pentru percentila 95 RBER versus probabilitatea UE și din nou nu am văzut nicio corelație.

Apoi, am repetat analiza la o granularitate a discurilor individuale, adică am încercat să aflăm dacă există discuri în care o valoare RBER mai mare corespunde unei frecvențe UE mai mari. Ca exemplu, Figura 5b reprezintă grafic RBER median pentru fiecare unitate a modelului MLC-c în raport cu numărul de UE (rezultate similare cu cele obținute pentru RBER percentila 95). Din nou, nu am văzut nicio corelație între RBER și UE.

În cele din urmă, am efectuat o analiză de timp mai precisă pentru a examina dacă lunile de funcționare ale unităților cu RBER mai mare ar corespunde lunilor în care au avut loc UE. Figura 1 a indicat deja că coeficientul de corelație dintre erorile necorectabile și RBER este foarte scăzut. De asemenea, am experimentat diferite moduri de a reprezenta grafic probabilitatea UE în funcție de RBER și nu am găsit nicio dovadă de corelare.

Astfel, concluzionăm că RBER este o măsură nesigură pentru prezicerea UE. Acest lucru poate însemna că mecanismele de defecțiune care duc la RBER sunt diferite de mecanismele care duc la erori necorectabile (de exemplu, erori conținute în celule individuale față de probleme mai mari care apar cu întregul dispozitiv).

5.3. Erori neremediabile și uzură.

Deoarece uzura este una dintre principalele probleme ale memoriei flash, Figura 6 arată probabilitatea zilnică a erorilor necorectabile ale unității în funcție de ciclurile PE.

Fiabilitatea memoriei flash: așteptată și neașteptată. Partea 2. XIV conferință a asociației USENIX. Tehnologii de stocare a fișierelor
Figura 6. Probabilitatea zilnică de apariție a erorilor necorectabile ale unității în funcție de ciclurile PE.

Observăm că probabilitatea unui UE crește continuu odată cu vârsta unității. Cu toate acestea, ca și în cazul RBER, creșterea este mai lentă decât se presupune de obicei: graficele arată că UE-urile cresc liniar mai degrabă decât exponențial cu ciclurile PE.

Două concluzii pe care le-am făcut pentru RBER se aplică și UE-urilor: în primul rând, nu există o creștere clară a potențialului de eroare odată ce limita ciclului PE este atinsă, cum ar fi în Figura 6 pentru modelul MLC-D a cărui limită ciclului PE este 3000. În al doilea rând, în al doilea rând , rata de eroare variază între modele diferite, chiar și în cadrul aceleiași clase. Cu toate acestea, aceste diferențe nu sunt la fel de mari ca în cazul RBER.

În cele din urmă, în sprijinul constatărilor noastre din Secțiunea 5.2, am constatat că într-o singură clasă de model (MLC vs. SLC), modelele cu cele mai mici valori RBER pentru un anumit număr de cicluri PE nu sunt neapărat cele cu cele mai scăzute probabilitatea de apariție a UE. De exemplu, peste 3000 de cicluri PE, modelele MLC-D au avut valori RBER de 4 ori mai mici decât modelele MLC-B, dar probabilitatea UE pentru același număr de cicluri PE a fost ușor mai mare pentru modelele MLC-D decât pentru MLC-B modele.

Fiabilitatea memoriei flash: așteptată și neașteptată. Partea 2. XIV conferință a asociației USENIX. Tehnologii de stocare a fișierelor
Figura 7. Probabilitatea lunară de apariție a erorilor de unitate necorectabile în funcție de prezența erorilor anterioare de diferite tipuri.

5.4. Erori neremediabile și volum de muncă.

Din aceleași motive pentru care volumul de muncă poate afecta RBER (a se vedea secțiunea 4.2.3), se poate aștepta să afecteze și UE. De exemplu, deoarece am observat că erorile de încălcare a citirii afectează RBER, operațiunile de citire pot crește, de asemenea, probabilitatea unor erori necorectabile.

Am efectuat un studiu detaliat asupra impactului volumului de muncă asupra UE. Cu toate acestea, după cum sa menționat în Secțiunea 5.1, nu am găsit o relație între UE și numărul de citiri. Am repetat aceeași analiză pentru operațiunile de scriere și ștergere și din nou nu am văzut nicio corelație.
Rețineți că, la prima vedere, acest lucru pare să contrazică observația noastră anterioară conform căreia erorile necorectabile sunt corelate cu ciclurile PE. Prin urmare, ne-am putea aștepta la o corelație cu numărul de operațiuni de scriere și ștergere.

Cu toate acestea, în analiza noastră a impactului ciclurilor PE, am comparat numărul de erori necorectabile într-o anumită lună cu numărul total de cicluri PE pe care unitatea le-a experimentat de-a lungul vieții sale până în prezent, pentru a măsura efectul uzurii. Când am studiat impactul încărcăturii de lucru, am analizat lunile de funcționare a unității care au avut cel mai mare număr de operațiuni de citire/scriere/ștergere într-o anumită lună, care au avut și o șansă mai mare de a provoca erori necorectabile, adică nu am luat în considerare ține cont de numărul total de operațiuni de citire/scriere/ștergere.

Drept urmare, am ajuns la concluzia că erorile de încălcare de citire, erorile de încălcare de scriere și erorile de ștergere incompletă nu sunt principalii factori în dezvoltarea erorilor necorectabile.

Vă mulțumim că ați rămas cu noi. Vă plac articolele noastre? Vrei să vezi mai mult conținut interesant? Susține-ne plasând o comandă sau recomandând prietenilor, Reducere de 30% pentru utilizatorii Habr la un analog unic de servere entry-level, care a fost inventat de noi pentru tine: Întregul adevăr despre VPS (KVM) E5-2650 v4 (6 nuclee) 10GB DDR4 240GB SSD 1Gbps de la 20 USD sau cum să partajezi un server? (disponibil cu RAID1 și RAID10, până la 24 de nuclee și până la 40 GB DDR4).

Dell R730xd de 2 ori mai ieftin? Numai aici 2 x Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 TV de la 199 USD in Olanda! Dell R420 - 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB - de la 99 USD! Citește despre Cum se construiește infrastructura corp. clasa cu folosirea serverelor Dell R730xd E5-2650 v4 in valoare de 9000 euro pentru un ban?

Sursa: www.habr.com

Adauga un comentariu