Affidabilità della memoria flash: prevista e inaspettata. Parte 2. XIV conferenza dell'associazione USENIX. Tecnologie di archiviazione dei file

Affidabilità della memoria flash: prevista e inaspettata. Parte 1. XIV conferenza dell'associazione USENIX. Tecnologie di archiviazione dei file

4.2.2. RBER e età del disco (esclusi i cicli PE).

La Figura 1 mostra una correlazione significativa tra RBER ed età, ovvero il numero di mesi in cui il disco è rimasto sul campo. Tuttavia, questa potrebbe essere una correlazione spuria poiché è probabile che le unità più vecchie abbiano più PE e pertanto l'RBER è maggiormente correlato ai cicli PE.

Per eliminare l'effetto dell'età sull'usura causata dai cicli PE, abbiamo raggruppato tutti i mesi di servizio in contenitori utilizzando i decili della distribuzione del ciclo PE come interruzione tra i contenitori, ad esempio, il primo contenitore contiene tutti i mesi di vita del disco fino al primo decile della distribuzione del ciclo PE e così via. Abbiamo verificato che all'interno di ciascun contenitore la correlazione tra cicli PE e RBER è piuttosto piccola (poiché ciascun contenitore copre solo un piccolo intervallo di cicli PE), quindi abbiamo calcolato il coefficiente di correlazione tra RBER e età del disco separatamente per ciascun contenitore.

Abbiamo eseguito questa analisi separatamente per ciascun modello perché eventuali correlazioni osservate non sono dovute a differenze tra i modelli più giovani e quelli più vecchi, ma esclusivamente all'età delle unità dello stesso modello. Abbiamo osservato che anche dopo aver limitato l'effetto dei cicli PE nel modo sopra descritto, per tutti i modelli di guida esisteva ancora una correlazione significativa tra il numero di mesi di permanenza sul campo e il suo RBER (coefficienti di correlazione compresi tra 0,2 e 0,4 ).

Affidabilità della memoria flash: prevista e inaspettata. Parte 2. XIV conferenza dell'associazione USENIX. Tecnologie di archiviazione dei file
Riso. 3. La relazione tra RBER e il numero di cicli PE per i dischi nuovi e vecchi mostra che l'età del disco influisce sul valore RBER indipendentemente dai cicli PE causati dall'usura.

Abbiamo anche visualizzato graficamente l'effetto dell'età dell'unità dividendo i giorni di utilizzo dell'unità in età "giovane" fino a 1 anno e i giorni di utilizzo dell'unità oltre i 4 anni, e quindi tracciato il RBER di ciascuno gruppo rispetto al numero di cicli PE. La Figura 3 mostra questi risultati per il modello di unità MLC-D. Vediamo una notevole differenza nei valori RBER tra i gruppi di dischi vecchi e nuovi durante tutti i cicli PE.

Da ciò concludiamo che l’età, misurata in giorni di utilizzo del disco sul campo, ha un impatto significativo sull’RBER, indipendentemente dall’usura delle celle di memoria dovuta all’esposizione ai cicli PE. Ciò significa che altri fattori, come l'invecchiamento del silicio, giocano un ruolo importante nell'usura fisica del disco.

4.2.3. RBER e carico di lavoro.

Si ritiene che gli errori di bit siano causati da uno dei quattro meccanismi:

  1. errori di memorizzazione Errori di conservazione, quando una cella di memoria perde dati nel tempo
    Errori di disturbo di lettura, in cui un'operazione di lettura danneggia il contenuto di una cella adiacente;
  2. Errori di disturbo di scrittura, in cui un'operazione di lettura danneggia il contenuto di una cella adiacente;
  3. Errori di cancellazione incompleta, quando l'operazione di cancellazione non elimina completamente il contenuto della cella.

Gli errori degli ultimi tre tipi (disturbo di lettura, disturbo di scrittura, cancellazione incompleta) sono correlati al carico di lavoro, quindi comprendere la correlazione tra RBER e carico di lavoro ci aiuta a comprendere la prevalenza di diversi meccanismi di errore. In uno studio recente, "Uno studio su larga scala dei guasti della memoria flash sul campo" (MEZA, J., WU, Q., KUMAR, S., MUTLU, O. "Uno studio su larga scala dei guasti della memoria flash in sul campo." In Proceedings of the 2015 ACM SIGMETRICS International Conference on Measurement and Modeling of Computer Systems, New York, 2015, SIGMETRICS '15, ACM, pp. 177–190) ha concluso che gli errori di archiviazione predominano sul campo, mentre gli errori di lettura sono piuttosto minori.

La Figura 1 mostra una relazione significativa tra il valore RBER in un dato mese di vita del disco e il numero di letture, scritture e cancellazioni nello stesso mese per alcuni modelli (ad esempio, il coefficiente di correlazione è superiore a 0,2 per MLC - B modello e superiore a 0,6 per il modello SLC-B). Tuttavia, è possibile che si tratti di una correlazione spuria, poiché il carico di lavoro mensile potrebbe essere correlato al numero totale di cicli PE.

Abbiamo utilizzato la stessa metodologia descritta nella Sezione 4.2.2 per isolare gli effetti del carico di lavoro dagli effetti dei cicli PE isolando mesi di funzionamento dell'unità in base ai cicli PE precedenti e quindi determinando i coefficienti di correlazione separatamente per ciascun contenitore.

Abbiamo visto che la correlazione tra il numero di letture in un dato mese di vita del disco e il valore RBER in quel mese persisteva per i modelli MLC-B e SLC-B, anche limitando i cicli PE. Abbiamo anche ripetuto un'analisi simile in cui abbiamo escluso l'effetto delle letture sul numero di scritture e cancellazioni simultanee e abbiamo concluso che la correlazione tra RBER e il numero di letture è vera per il modello SLC-B.

La Figura 1 mostra anche la correlazione tra RBER e le operazioni di scrittura e cancellazione, quindi abbiamo ripetuto la stessa analisi per le operazioni di lettura, scrittura e cancellazione. Concludiamo che limitando l'impatto dei cicli PE e delle letture, non esiste alcuna relazione tra il valore RBER e il numero di scritture e cancellazioni.

Pertanto, esistono modelli di disco in cui gli errori di violazione di lettura hanno un impatto significativo su RBER. D'altra parte, non c'è prova che RBER sia affetto da errori di violazione di scrittura e da errori di cancellazione incompleta.

4.2.4 RBER e litografia.

Le differenze nella dimensione degli oggetti possono spiegare in parte le differenze nei valori RBER tra i modelli di azionamento che utilizzano la stessa tecnologia, ovvero MLC o SLC. (Vedere la Tabella 1 per una panoramica della litografia dei vari modelli inclusi in questo studio).

Ad esempio, 2 modelli SLC con litografia a 34 nm (modelli SLC-A e SLC-D) hanno un RBER che è un ordine di grandezza superiore a quello di 2 modelli con litografia microelettronica a 50 nm (modelli SLC-B e SLC-C). Nel caso dei modelli MLC, solo il modello a 43 nm (MLC-B) ha un RBER medio superiore del 50% rispetto agli altri 3 modelli con litografia a 50 nm. Inoltre, questa differenza nell'RBER aumenta di un fattore 4 man mano che le unità si usurano, come mostrato nella Figura 2. Infine, la litografia più sottile può spiegare l'RBER più elevato delle unità eMLC rispetto alle unità MLC. Nel complesso, abbiamo prove evidenti che la litografia influisce sul RBER.

4.2.5. Presenza di altri errori.

Abbiamo studiato la relazione tra RBER e altri tipi di errori, come errori non correggibili, errori di timeout, ecc., In particolare, se il valore RBER diventa più alto dopo un mese di esposizione ad altri tipi di errori.

La Figura 1 mostra che mentre l'RBER del mese precedente è predittivo dei futuri valori RBER (coefficiente di correlazione maggiore di 0,8), non esiste una correlazione significativa tra errori non correggibili e RBER (gruppo di elementi più a destra nella Figura 1). Per le altre tipologie di errori il coefficiente di correlazione è ancora più basso (non riportato in figura). Abbiamo esplorato ulteriormente la relazione tra RBER ed errori non correggibili nella Sezione 5.2 di questo documento.

4.2.6. Influenza di altri fattori.

Abbiamo trovato prove che esistono fattori che hanno un impatto significativo sul RBER che i nostri dati non possono tenere in considerazione. In particolare, abbiamo notato che l'RBER per un dato modello di disco varia a seconda del cluster in cui viene distribuito il disco. Un buon esempio è la Figura 4, che mostra l'RBER in funzione dei cicli PE per le unità MLC-D in tre diversi cluster (linee tratteggiate) e lo confronta con l'RBER per questo modello rispetto al numero totale di unità (linea continua). Abbiamo riscontrato che queste differenze persistono anche quando limitiamo l'influenza di fattori quali l'età del disco o il numero di letture.

Una possibile spiegazione di ciò sono le differenze nel tipo di carico di lavoro tra i cluster, poiché osserviamo che i cluster i cui carichi di lavoro hanno i rapporti di lettura/scrittura più alti hanno il RBER più alto.

Affidabilità della memoria flash: prevista e inaspettata. Parte 2. XIV conferenza dell'associazione USENIX. Tecnologie di archiviazione dei file
Riso. 4 a), b). Valori RBER mediani in funzione dei cicli PE per tre diversi cluster e dipendenza del rapporto lettura/scrittura dal numero di cicli PE per tre diversi cluster.

Ad esempio, la Figura 4(b) mostra i rapporti di lettura/scrittura di diversi cluster per il modello di unità MLC-D. Tuttavia, il rapporto lettura/scrittura non spiega le differenze tra i cluster per tutti i modelli, quindi potrebbero esserci altri fattori di cui i nostri dati non tengono conto, come fattori ambientali o altri parametri del carico di lavoro esterno.

4.3. RBER durante i test di durabilità accelerati.

La maggior parte del lavoro scientifico, nonché i test condotti al momento dell'acquisto di supporti su scala industriale, prevedono l'affidabilità dei dispositivi sul campo sulla base dei risultati di test di durabilità accelerati. Abbiamo deciso di capire quanto bene i risultati di tali test corrispondano all'esperienza pratica nell'utilizzo di supporti di memorizzazione a stato solido.
L'analisi dei risultati dei test condotti utilizzando la metodologia generale di test accelerato per le apparecchiature fornite ai data center di Google ha mostrato che i valori RBER sul campo sono significativamente più alti del previsto. Ad esempio, per il modello eMLC-a, il RBER mediano per i dischi utilizzati sul campo (al termine del test il numero di cicli PE ha raggiunto 600) era 1e-05, mentre secondo i risultati dei test accelerati preliminari, questo RBER il valore dovrebbe corrispondere a più di 4000 cicli PE. Ciò indica che è molto difficile prevedere con precisione il valore RBER sul campo sulla base delle stime RBER ottenute dai test di laboratorio.

Abbiamo anche notato che alcuni tipi di errori sono piuttosto difficili da riprodurre durante i test accelerati. Ad esempio, nel caso del modello MLC-B, quasi il 60% delle unità sul campo riscontra errori irreversibili e quasi l'80% delle unità sviluppa blocchi danneggiati. Tuttavia, durante i test di resistenza accelerati, nessuno dei sei dispositivi ha riscontrato errori irreversibili finché le unità non hanno raggiunto più di tre volte il limite del ciclo PE. Per i modelli eMLC, si sono verificati errori non correggibili in oltre l'80% delle unità sul campo, mentre durante i test accelerati tali errori si sono verificati dopo aver raggiunto i 15000 cicli PE.

Abbiamo anche esaminato l’RBER riportato in precedenti lavori di ricerca, basati su esperimenti in un ambiente controllato, e abbiamo concluso che l’intervallo di valori era estremamente ampio. Ad esempio, L.M. Grupp e altri nel loro lavoro del 2009-2012 riportano i valori RBER per gli azionamenti che sono vicini al raggiungimento dei limiti del ciclo PE. Ad esempio, per i dispositivi SLC e MLC con dimensioni litografiche simili a quelle utilizzate nel nostro lavoro (25-50 nm), il valore RBER varia da 1e-08 a 1e-03, con la maggior parte dei modelli di unità testati con un valore RBER vicino a 1e- 06.

Nel nostro studio, i tre modelli di azionamento che hanno raggiunto il limite del ciclo PE avevano RBER compresi tra 3e-08 e 8e-08. Anche tenendo conto del fatto che i nostri numeri sono limiti inferiori e potrebbero essere 16 volte maggiori nel caso peggiore in assoluto, o tenendo conto del 95° percentile di RBER, i nostri valori sono ancora significativamente inferiori.

Nel complesso, sebbene i valori RBER effettivi sul campo siano superiori ai valori previsti sulla base di test di durabilità accelerati, sono comunque inferiori alla maggior parte dei RBER per dispositivi simili riportati in altri documenti di ricerca e calcolati da test di laboratorio. Ciò significa che non bisogna fare affidamento sui valori RBER sul campo previsti derivati ​​da test di durabilità accelerati.

5. Errori non correggibili.

Data la diffusione diffusa di errori non correggibili (UE), discussi nella sezione 3 di questo documento, in questa sezione esploriamo le loro caratteristiche in modo più dettagliato. Inizieremo discutendo quale metrica utilizzare per misurare l’UE, come si relaziona all’RBER e come l’UE è influenzata da vari fattori.

5.1. Perché il rapporto UBER non ha senso.

La metrica standard che caratterizza gli errori non correggibili è il tasso di errori di bit non correggibili UBER, ovvero il rapporto tra il numero di errori di bit non correggibili e il numero totale di bit letti.

Questa metrica presuppone implicitamente che il numero di errori non correggibili sia in qualche modo legato al numero di bit letti e pertanto debba essere normalizzato in base a questo numero.

Questa ipotesi è valida per gli errori correggibili, dove il numero di errori osservati in un dato mese risulta essere altamente correlato con il numero di letture nello stesso periodo di tempo (coefficiente di correlazione Spearman maggiore di 0.9). La ragione di una correlazione così forte è che anche un bit difettoso, purché correggibile utilizzando ECC, continuerà ad aumentare il numero di errori con ciascuna operazione di lettura a cui accede, poiché la valutazione della cella contenente il bit difettoso è non corretto immediatamente quando viene rilevato un errore (i dischi riscrivono solo periodicamente le pagine con bit danneggiati).

Lo stesso presupposto non si applica agli errori irreparabili. Un errore non correggibile preclude l'ulteriore utilizzo del blocco danneggiato, pertanto, una volta rilevato, tale blocco non influirà sul numero di errori futuri.

Per confermare formalmente questa ipotesi, abbiamo utilizzato varie metriche per misurare la relazione tra il numero di letture in un dato mese di vita del disco e il numero di errori non correggibili nello stesso periodo di tempo, inclusi vari coefficienti di correlazione (Pearson, Spearman, Kendall) , così come l'ispezione visiva dei grafici. Oltre al numero di errori non correggibili, abbiamo anche esaminato la frequenza degli errori non correggibili (ovvero la probabilità che un disco presenti almeno un incidente di questo tipo durante un determinato periodo di tempo) e la loro relazione con le operazioni di lettura.
Non abbiamo trovato prove di una correlazione tra il numero di letture e il numero di errori non correggibili. Per tutti i modelli di unità, i coefficienti di correlazione erano inferiori a 0.02 e i grafici non hanno mostrato alcun aumento dell'UE all'aumentare del numero di letture.

Nella Sezione 5.4 di questo articolo, discutiamo che anche le operazioni di scrittura e cancellazione non hanno alcuna relazione con errori non correggibili, quindi la definizione alternativa di UBER, che è normalizzata da operazioni di scrittura o cancellazione invece che da operazioni di lettura, non ha significato.

Concludiamo quindi che UBER non è una metrica significativa, tranne forse quando testata in ambienti controllati in cui il numero di letture è impostato dallo sperimentatore. Se UBER viene utilizzato come parametro durante i test sul campo, abbasserà artificialmente il tasso di errore per le unità con un numero di letture elevato e aumenterà artificialmente il tasso di errore per le unità con un numero di letture basso, poiché si verificano errori non correggibili indipendentemente dal numero di letture.

5.2. Errori non correggibili e RBER.

L'importanza dell'RBER è spiegata dal fatto che serve come misura per determinare l'affidabilità complessiva dell'azionamento, in particolare, in base alla probabilità di errori non correggibili. Nel loro lavoro, N. Mielke et al nel 2008 sono stati i primi a proporre di definire il tasso di errore non correggibile atteso in funzione del RBER. Da allora, molti sviluppatori di sistemi hanno utilizzato metodi simili, come la stima del tasso di errori non correggibili previsto in funzione del tipo RBER ed ECC.

Lo scopo di questa sezione è caratterizzare la capacità di RBER di prevedere gli errori non correggibili. Iniziamo con la Figura 5a, che traccia l'RBER mediano per una serie di modelli di unità di prima generazione rispetto alla percentuale di giorni di utilizzo in cui si sono verificati errori UE non correggibili. Va notato che alcuni dei 16 modelli mostrati nel grafico non sono inclusi nella Tabella 1 per mancanza di informazioni analitiche.

Affidabilità della memoria flash: prevista e inaspettata. Parte 2. XIV conferenza dell'associazione USENIX. Tecnologie di archiviazione dei file
Riso. 5a. Relazione tra RBER mediano ed errori non correggibili per vari modelli di azionamento.

Affidabilità della memoria flash: prevista e inaspettata. Parte 2. XIV conferenza dell'associazione USENIX. Tecnologie di archiviazione dei file
Riso. 5b. Relazione tra RBER mediano ed errori non correggibili per diversi azionamenti dello stesso modello.

Ricordiamo che tutti i modelli della stessa generazione utilizzano lo stesso meccanismo ECC, quindi le differenze tra i modelli sono indipendenti dalle differenze ECC. Non abbiamo riscontrato alcuna correlazione tra gli incidenti RBER e UE. Abbiamo creato lo stesso grafico per il 95° percentile RBER rispetto alla probabilità UE e ancora una volta non abbiamo riscontrato alcuna correlazione.

Successivamente, abbiamo ripetuto l'analisi a livello granulare per i singoli azionamenti, ovvero abbiamo cercato di scoprire se esistessero azionamenti in cui un valore RBER più elevato corrisponde a una frequenza UE più elevata. Ad esempio, la Figura 5b traccia l'RBER mediano per ciascuna unità del modello MLC-c rispetto al numero di UE (risultati simili a quelli ottenuti per l'RBER del 95° percentile). Ancora una volta, non abbiamo riscontrato alcuna correlazione tra RBER e UE.

Infine, abbiamo eseguito un'analisi temporale più precisa per esaminare se i mesi operativi delle unità con RBER più elevato corrisponderebbero ai mesi durante i quali si sono verificati gli UE. La Figura 1 ha già indicato che il coefficiente di correlazione tra errori non correggibili e RBER è molto basso. Abbiamo anche sperimentato diversi modi di tracciare la probabilità di UE in funzione di RBER e non abbiamo trovato prove di correlazione.

Pertanto, concludiamo che RBER è una metrica inaffidabile per prevedere l’UE. Ciò può significare che i meccanismi di guasto che portano all'RBER sono diversi dai meccanismi che portano a errori non correggibili (ad esempio, errori contenuti nelle singole celle rispetto a problemi più grandi che si verificano con l'intero dispositivo).

5.3. Errori non correggibili e usura.

Poiché l'usura è uno dei principali problemi della memoria flash, la Figura 6 mostra la probabilità giornaliera di errori irreversibili del drive in funzione dei cicli PE.

Affidabilità della memoria flash: prevista e inaspettata. Parte 2. XIV conferenza dell'associazione USENIX. Tecnologie di archiviazione dei file
Figura 6. Probabilità giornaliera del verificarsi di errori di azionamento irreversibili in base ai cicli PE.

Notiamo che la probabilità di un UE aumenta continuamente con l'età dell'unità. Tuttavia, come per l’RBER, l’aumento è più lento di quanto normalmente ipotizzato: i grafici mostrano che gli UE crescono in modo lineare anziché esponenziale con i cicli PE.

Due conclusioni che abbiamo tratto per RBER si applicano anche agli UE: in primo luogo, non vi è un chiaro aumento del potenziale di errore una volta raggiunto il limite del ciclo PE, come nella Figura 6 per il modello MLC-D il cui limite del ciclo PE è 3000. , il tasso di errore varia tra i diversi modelli, anche all'interno della stessa classe. Tuttavia, queste differenze non sono così grandi come per il RBER.

Infine, a sostegno dei nostri risultati nella Sezione 5.2, abbiamo scoperto che all’interno di una singola classe di modello (MLC vs. SLC), i modelli con i valori RBER più bassi per un dato numero di cicli PE non sono necessariamente quelli con i valori RBER più bassi per un dato numero di cicli PE. probabilità che si verifichi l'UE. Ad esempio, su 3000 cicli PE, i modelli MLC-D avevano valori RBER 4 volte inferiori rispetto ai modelli MLC-B, ma la probabilità UE per lo stesso numero di cicli PE era leggermente superiore per i modelli MLC-D rispetto a MLC-B Modelli.

Affidabilità della memoria flash: prevista e inaspettata. Parte 2. XIV conferenza dell'associazione USENIX. Tecnologie di archiviazione dei file
Figura 7. Probabilità mensile di accadimento di errori di azionamento non correggibili in funzione della presenza di errori pregressi di vario tipo.

5.4. Errori e carico di lavoro non correggibili.

Per gli stessi motivi per cui il carico di lavoro può influenzare l’RBER (vedere Sezione 4.2.3), ci si può aspettare che influenzi anche l’UE. Ad esempio, poiché abbiamo osservato che gli errori di violazione di lettura influiscono su RBER, le operazioni di lettura possono anche aumentare la probabilità di errori non correggibili.

Abbiamo condotto uno studio dettagliato sull’impatto del carico di lavoro sull’UE. Tuttavia, come osservato nella Sezione 5.1, non abbiamo trovato una relazione tra UE e il numero di letture. Abbiamo ripetuto la stessa analisi per le operazioni di scrittura e cancellazione e ancora una volta non abbiamo riscontrato alcuna correlazione.
Si noti che a prima vista, ciò sembra contraddire la nostra precedente osservazione secondo cui gli errori non correggibili sono correlati ai cicli PE. Pertanto, ci si potrebbe aspettare una correlazione con il numero di operazioni di scrittura e cancellazione.

Tuttavia, nella nostra analisi dell'impatto dei cicli PE, abbiamo confrontato il numero di errori non correggibili in un dato mese con il numero totale di cicli PE che l'azionamento ha sperimentato nel corso della sua vita fino ad oggi, per misurare l'effetto dell'usura. Durante lo studio dell'impatto del carico di lavoro, abbiamo esaminato i mesi di funzionamento dell'unità che presentavano il maggior numero di operazioni di lettura/scrittura/cancellazione in un mese particolare, che avevano anche una maggiore probabilità di causare errori irreversibili, ovvero non abbiamo preso in considerazione tenere conto del numero totale di operazioni di lettura/scrittura/cancellazione.

Di conseguenza, siamo giunti alla conclusione che gli errori di violazione di lettura, gli errori di violazione di scrittura e gli errori di cancellazione incompleta non sono i fattori principali nello sviluppo di errori non correggibili.

Grazie per stare con noi. Ti piacciono i nostri articoli? Vuoi vedere contenuti più interessanti? Sostienici effettuando un ordine o raccomandando agli amici, Sconto del 30% per gli utenti Habr su un analogo unico di server entry-level, che è stato inventato da noi per te: Tutta la verità su VPS (KVM) E5-2650 v4 (6 core) 10 GB DDR4 240 GB SSD 1 Gbps da $ 20 o come condividere un server? (disponibile con RAID1 e RAID10, fino a 24 core e fino a 40 GB DDR4).

Dell R730xd 2 volte più economico? Solo qui 2 x Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 TV da $199 In Olanda! Dell R420 - 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB - da $99! Leggi Come costruire Infrastructure Corp. classe con l'utilizzo di server Dell R730xd E5-2650 v4 del valore di 9000 euro per un centesimo?

Fonte: habr.com

Aggiungi un commento