Zuverlässigkeit des Flash-Speichers: erwartet und unerwartet. Teil 2. XIV. Konferenz der USENIX-Vereinigung. Dateispeichertechnologien

Zuverlässigkeit des Flash-Speichers: erwartet und unerwartet. Teil 1. XIV. Konferenz der USENIX-Vereinigung. Dateispeichertechnologien

4.2.2. RBER und Festplattenalter (ohne PE-Zyklen).

Abbildung 1 zeigt eine signifikante Korrelation zwischen RBER und Alter, also der Anzahl der Monate, die die Scheibe im Einsatz war. Dies kann jedoch eine falsche Korrelation sein, da ältere Laufwerke wahrscheinlich mehr PEs haben und RBER daher stärker mit PE-Zyklen korreliert.

Um den Einfluss des Alters auf den durch PE-Zyklen verursachten Verschleiß zu eliminieren, haben wir alle Betriebsmonate in Container gruppiert und dabei die Dezile der PE-Zyklusverteilung als Grenzwert zwischen den Containern verwendet. Der erste Container enthält beispielsweise alle Monate der Scheibenlebensdauer bis zum erstes Dezil der PE-Zyklusverteilung usw. Weiter. Wir haben überprüft, dass innerhalb jedes Containers die Korrelation zwischen PE-Zyklen und RBER recht gering ist (da jeder Container nur einen kleinen Bereich von PE-Zyklen abdeckt), und haben dann den Korrelationskoeffizienten zwischen RBER und Festplattenalter für jeden Container separat berechnet.

Wir haben diese Analyse für jedes Modell separat durchgeführt, da die beobachteten Korrelationen nicht auf Unterschiede zwischen den jüngeren und älteren Modellen zurückzuführen sind, sondern ausschließlich auf das Alter der Laufwerke desselben Modells. Wir haben festgestellt, dass selbst nach der Begrenzung der Auswirkung der PE-Zyklen auf die oben beschriebene Weise für alle Antriebsmodelle immer noch eine signifikante Korrelation zwischen der Anzahl der Monate, die ein Antrieb im Feld war, und seiner RBER bestand (Korrelationskoeffizienten lagen zwischen 0,2 und 0,4). ).

Zuverlässigkeit des Flash-Speichers: erwartet und unerwartet. Teil 2. XIV. Konferenz der USENIX-Vereinigung. Dateispeichertechnologien
Reis. 3. Die Beziehung zwischen RBER und der Anzahl der PE-Zyklen für neue und alte Festplatten zeigt, dass das Alter der Festplatte den RBER-Wert beeinflusst, unabhängig von den PE-Zyklen, die durch Verschleiß verursacht werden.

Wir haben die Auswirkung des Laufwerksalters auch grafisch visualisiert, indem wir die Tage der Nutzung des Laufwerks in einem „jungen“ Alter von bis zu 1 Jahr und die Tage der Nutzung des Laufwerks im Alter von über 4 Jahren dividiert haben und dann jeweils die RBER grafisch dargestellt haben Gruppe gegen die Anzahl der PE-Zyklen. Abbildung 3 zeigt diese Ergebnisse für das MLC-D-Antriebsmodell. Wir sehen über alle PE-Zyklen hinweg einen deutlichen Unterschied in den RBER-Werten zwischen den Gruppen alter und neuer Festplatten.

Daraus schließen wir, dass das Alter, gemessen an den Tagen der Festplattennutzung im Feld, einen erheblichen Einfluss auf die RBER hat, unabhängig vom Verschleiß der Speicherzellen aufgrund der Belastung durch PE-Zyklen. Dies bedeutet, dass andere Faktoren, wie z. B. die Alterung des Siliziums, eine große Rolle bei der physischen Abnutzung der Festplatte spielen.

4.2.3. RBER und Arbeitsbelastung.

Es wird angenommen, dass Bitfehler durch einen von vier Mechanismen verursacht werden:

  1. Speicherfehler Aufbewahrungsfehler, wenn eine Speicherzelle im Laufe der Zeit Daten verliert
    Lesestörungsfehler, bei denen ein Lesevorgang den Inhalt einer benachbarten Zelle beschädigt;
  2. Schreibstörungsfehler, bei denen ein Lesevorgang den Inhalt einer benachbarten Zelle beschädigt;
  3. Fehler beim unvollständigen Löschen, wenn der Löschvorgang den Inhalt der Zelle nicht vollständig löscht.

Fehler der letzten drei Typen (Lesestörung, Schreibstörung, unvollständiges Löschen) hängen mit der Arbeitslast zusammen. Daher hilft uns das Verständnis der Korrelation zwischen RBER und Arbeitslast, die Prävalenz verschiedener Fehlermechanismen zu verstehen. In einer aktuellen Studie „Eine groß angelegte Studie zu Flash-Speicherfehlern in diesem Bereich“ (MEZA, J., WU, Q., KUMAR, S., MUTLU, O. „Eine groß angelegte Studie zu Flash-Speicherfehlern in „In Proceedings of the 2015 ACM SIGMETRICS International Conference on Measurement and Modeling of Computer Systems, New York, 2015, SIGMETRICS '15, ACM, S. 177–190) kam man zu dem Schluss, dass Speicherfehler im Feld vorherrschen, während Lesefehler vorherrschen sind recht gering.

Abbildung 1 zeigt eine signifikante Beziehung zwischen dem RBER-Wert in einem bestimmten Monat der Festplattenlebensdauer und der Anzahl der Lese-, Schreib- und Löschvorgänge im selben Monat für einige Modelle (z. B. ist der Korrelationskoeffizient für MLC - B höher als 0,2). Modell und höher als 0,6 für das SLC-B). Es ist jedoch möglich, dass es sich dabei um einen falschen Zusammenhang handelt, da die monatliche Arbeitsbelastung möglicherweise mit der Gesamtzahl der PE-Zyklen zusammenhängt.

Wir verwendeten dieselbe in Abschnitt 4.2.2 beschriebene Methodik, um die Auswirkungen der Arbeitsbelastung von den Auswirkungen der PE-Zyklen zu isolieren, indem wir Monate des Laufwerksbetriebs auf der Grundlage früherer PE-Zyklen isolierten und dann die Korrelationskoeffizienten für jeden Container separat ermittelten.

Wir haben gesehen, dass die Korrelation zwischen der Anzahl der Lesevorgänge in einem bestimmten Monat der Festplattenlebensdauer und dem RBER-Wert in diesem Monat für die Modelle MLC-B und SLC-B bestehen blieb, selbst wenn die PE-Zyklen begrenzt wurden. Wir haben auch eine ähnliche Analyse wiederholt, bei der wir die Auswirkung von Lesevorgängen auf die Anzahl gleichzeitiger Schreib- und Löschvorgänge ausgeschlossen haben, und sind zu dem Schluss gekommen, dass die Korrelation zwischen RBER und der Anzahl von Lesevorgängen für das SLC-B-Modell gilt.

Abbildung 1 zeigt auch die Korrelation zwischen RBER und Schreib- und Löschvorgängen, daher haben wir dieselbe Analyse für Lese-, Schreib- und Löschvorgänge wiederholt. Wir kommen zu dem Schluss, dass durch die Begrenzung der Auswirkungen von PE-Zyklen und Lesevorgängen kein Zusammenhang zwischen dem RBER-Wert und der Anzahl der Schreib- und Löschvorgänge besteht.

Daher gibt es Festplattenmodelle, bei denen Leseverletzungsfehler einen erheblichen Einfluss auf die RBER haben. Andererseits gibt es keine Hinweise darauf, dass RBER durch Schreibverletzungsfehler und unvollständige Löschfehler beeinträchtigt wird.

4.2.4 RBER und Lithographie.

Unterschiede in der Objektgröße können teilweise die Unterschiede in den RBER-Werten zwischen Antriebsmodellen erklären, die dieselbe Technologie verwenden, d. h. MLC oder SLC. (Siehe Tabelle 1 für einen Überblick über die Lithographie der verschiedenen in dieser Studie berücksichtigten Modelle).

Beispielsweise haben zwei SLC-Modelle mit 2-nm-Lithographie (Modelle SLC-A und SLC-D) eine RBER, die um eine Größenordnung höher ist als die von zwei Modellen mit 34-nm-Mikroelektronik-Lithographie (Modelle SLC-B und SLC-C). Bei den MLC-Modellen weist nur das 2-nm-Modell (MLC-B) eine mittlere RBER auf, die 50 % höher ist als die der anderen drei Modelle mit 43-nm-Lithographie. Darüber hinaus erhöht sich dieser Unterschied in der RBER um den Faktor 50, wenn die Laufwerke verschleißen, wie in Abbildung 3 dargestellt. Schließlich könnte eine dünnere Lithographie die höhere RBER von eMLC-Laufwerken im Vergleich zu MLC-Laufwerken erklären. Insgesamt haben wir klare Beweise dafür, dass die Lithographie die RBER beeinflusst.

4.2.5. Vorhandensein anderer Fehler.

Wir untersuchten den Zusammenhang zwischen RBER und anderen Fehlertypen, wie z. B. nicht korrigierbaren Fehlern, Timeout-Fehlern usw., insbesondere, ob der RBER-Wert nach einem Monat, in dem er anderen Fehlertypen ausgesetzt war, höher wird.

Abbildung 1 zeigt, dass die RBER des Vormonats zwar eine Vorhersage zukünftiger RBER-Werte ist (Korrelationskoeffizient größer als 0,8), es jedoch keine signifikante Korrelation zwischen nicht korrigierbaren Fehlern und der RBER (Elementgruppe ganz rechts in Abbildung 1) gibt. Bei anderen Fehlerarten ist der Korrelationskoeffizient sogar noch niedriger (in der Abbildung nicht dargestellt). Wir haben die Beziehung zwischen RBER und nicht korrigierbaren Fehlern in Abschnitt 5.2 dieses Dokuments weiter untersucht.

4.2.6. Einfluss anderer Faktoren.

Wir haben Hinweise darauf gefunden, dass es Faktoren gibt, die einen erheblichen Einfluss auf die RBER haben, die unsere Daten jedoch nicht berücksichtigen konnten. Insbesondere ist uns aufgefallen, dass die RBER für ein bestimmtes Festplattenmodell je nach Cluster, in dem die Festplatte bereitgestellt wird, variiert. Ein gutes Beispiel ist Abbildung 4, die RBER als Funktion der PE-Zyklen für MLC-D-Laufwerke in drei verschiedenen Clustern zeigt (gestrichelte Linien) und sie mit RBER für dieses Modell im Verhältnis zur Gesamtzahl der Laufwerke vergleicht (durchgezogene Linie). Wir stellen fest, dass diese Unterschiede auch dann bestehen bleiben, wenn wir den Einfluss von Faktoren wie dem Festplattenalter oder der Anzahl der Lesevorgänge begrenzen.

Eine mögliche Erklärung hierfür sind Unterschiede im Workload-Typ zwischen den Clustern, da wir beobachten, dass Cluster, deren Workloads die höchsten Lese-/Schreibverhältnisse aufweisen, die höchste RBER aufweisen.

Zuverlässigkeit des Flash-Speichers: erwartet und unerwartet. Teil 2. XIV. Konferenz der USENIX-Vereinigung. Dateispeichertechnologien
Reis. 4 a), b). Mittlere RBER-Werte als Funktion der PE-Zyklen für drei verschiedene Cluster und Abhängigkeit des Lese-/Schreibverhältnisses von der Anzahl der PE-Zyklen für drei verschiedene Cluster.

Abbildung 4(b) zeigt beispielsweise die Lese-/Schreibverhältnisse verschiedener Cluster für das MLC-D-Laufwerksmodell. Allerdings erklärt das Lese-/Schreibverhältnis nicht die Unterschiede zwischen den Clustern für alle Modelle, sodass es möglicherweise andere Faktoren gibt, die unsere Daten nicht berücksichtigen, wie etwa Umgebungsfaktoren oder andere externe Arbeitslastparameter.

4.3. RBER während der beschleunigten Haltbarkeitsprüfung.

Die meisten wissenschaftlichen Arbeiten sowie Tests, die beim Kauf von Medien im industriellen Maßstab durchgeführt werden, prognostizieren die Zuverlässigkeit von Geräten im Feld auf der Grundlage der Ergebnisse beschleunigter Haltbarkeitstests. Wir haben uns entschlossen herauszufinden, wie gut die Ergebnisse solcher Tests mit den praktischen Erfahrungen im Betrieb von Solid-State-Speichermedien übereinstimmen.
Die Analyse der Testergebnisse, die mit der allgemeinen beschleunigten Testmethode für an Google-Rechenzentren gelieferte Geräte durchgeführt wurden, ergab, dass die Feld-RBER-Werte deutlich höher sind als vorhergesagt. Beispielsweise betrug für das eMLC-a-Modell die mittlere RBER für im Feld betriebene Festplatten (am Ende des Tests erreichte die Anzahl der PE-Zyklen 600) 1e-05, während nach den Ergebnissen vorläufiger beschleunigter Tests diese RBER lag Der Wert sollte mehr als 4000 PE-Zyklen entsprechen. Dies weist darauf hin, dass es sehr schwierig ist, den RBER-Wert im Feld anhand von RBER-Schätzungen aus Labortests genau vorherzusagen.

Wir haben außerdem festgestellt, dass einige Arten von Fehlern bei beschleunigten Tests recht schwer zu reproduzieren sind. Im Fall des MLC-B-Modells treten beispielsweise bei fast 60 % der Laufwerke im Einsatz nicht korrigierbare Fehler auf, und bei fast 80 % der Laufwerke treten fehlerhafte Blöcke auf. Während des beschleunigten Dauertests traten jedoch bei keinem der sechs Geräte unkorrigierbare Fehler auf, bis die Laufwerke mehr als das Dreifache der PE-Zyklusgrenze erreichten. Bei eMLC-Modellen traten bei mehr als 80 % der Laufwerke im Feld nicht korrigierbare Fehler auf, während bei beschleunigten Tests solche Fehler erst nach Erreichen von 15000 PE-Zyklen auftraten.

Wir haben uns auch die in früheren Forschungsarbeiten gemeldete RBER angesehen, die auf Experimenten in einer kontrollierten Umgebung basierte, und kamen zu dem Schluss, dass der Wertebereich extrem groß war. Zum Beispiel L.M. Grupp und andere berichten in ihrer Arbeit von 2009 bis 2012 über RBER-Werte für Antriebe, die kurz vor dem Erreichen der PE-Zyklusgrenzen stehen. Beispielsweise liegt der RBER-Wert für SLC- und MLC-Geräte mit Lithographiegrößen, die denen unserer Arbeit ähneln (25–50 nm), zwischen 1e-08 und 1e-03, wobei die meisten getesteten Laufwerksmodelle einen RBER-Wert nahe 1e-06 aufweisen. XNUMX.

In unserer Studie hatten die drei Antriebsmodelle, die die PE-Zyklusgrenze erreichten, RBERs im Bereich von 3e-08 bis 8e-08. Selbst unter Berücksichtigung der Tatsache, dass es sich bei unseren Zahlen um Untergrenzen handelt und im schlimmsten Fall 16-mal größer sein könnte, oder unter Berücksichtigung des 95. Perzentils der RBER sind unsere Werte immer noch deutlich niedriger.

Obwohl die tatsächlichen Feld-RBER-Werte insgesamt höher sind als die vorhergesagten Werte, die auf beschleunigten Haltbarkeitstests basieren, sind sie immer noch niedriger als die meisten RBERs für ähnliche Geräte, die in anderen Forschungsarbeiten angegeben und aus Labortests berechnet wurden. Das bedeutet, dass Sie sich nicht auf vorhergesagte Feld-RBER-Werte verlassen sollten, die aus beschleunigten Haltbarkeitstests abgeleitet wurden.

5. Nicht korrigierbare Fehler.

Angesichts des weit verbreiteten Auftretens nicht korrigierbarer Fehler (UEs), die in Abschnitt 3 dieses Dokuments besprochen wurden, untersuchen wir in diesem Abschnitt ihre Merkmale detaillierter. Wir beginnen mit der Diskussion, welche Metrik zur Messung von UE verwendet werden soll, wie sie mit RBER zusammenhängt und wie UE von verschiedenen Faktoren beeinflusst wird.

5.1. Warum das UBER-Verhältnis keinen Sinn ergibt.

Die Standardmetrik zur Charakterisierung nicht korrigierbarer Fehler ist die UBER-Rate nicht korrigierbarer Bitfehler, d. h. das Verhältnis der Anzahl nicht korrigierbarer Bitfehler zur Gesamtzahl der gelesenen Bits.

Diese Metrik geht implizit davon aus, dass die Anzahl der nicht korrigierbaren Fehler irgendwie mit der Anzahl der gelesenen Bits zusammenhängt und daher mit dieser Zahl normalisiert werden muss.

Diese Annahme gilt für korrigierbare Fehler, bei denen sich herausstellt, dass die Anzahl der in einem bestimmten Monat beobachteten Fehler stark mit der Anzahl der Lesevorgänge im gleichen Zeitraum korreliert (Spearman-Korrelationskoeffizient größer als 0.9). Der Grund für eine so starke Korrelation liegt darin, dass selbst ein schlechtes Bit, sofern es mit ECC korrigierbar ist, mit jedem Lesevorgang, auf den es zugreift, die Anzahl der Fehler weiter erhöht, da die Auswertung der Zelle, die das schlechte Bit enthält, erfolgt Wird nicht sofort behoben, wenn ein Fehler erkannt wird (Festplatten schreiben Seiten mit beschädigten Bits nur regelmäßig neu).

Die gleiche Annahme gilt nicht für nicht korrigierbare Fehler. Ein nicht korrigierbarer Fehler schließt die weitere Verwendung des beschädigten Blocks aus, sodass ein solcher Block, sobald er erkannt wird, keinen Einfluss auf die Anzahl der Fehler in der Zukunft hat.

Um diese Annahme formal zu bestätigen, haben wir verschiedene Metriken verwendet, um die Beziehung zwischen der Anzahl der Lesevorgänge in einem bestimmten Monat der Festplattenlebensdauer und der Anzahl nicht korrigierbarer Fehler im gleichen Zeitraum zu messen, einschließlich verschiedener Korrelationskoeffizienten (Pearson, Spearman, Kendall). , sowie visuelle Inspektion von Diagrammen . Zusätzlich zur Anzahl nicht korrigierbarer Fehler haben wir uns auch die Häufigkeit nicht korrigierbarer Fehlervorfälle (d. h. die Wahrscheinlichkeit, dass auf einer Festplatte in einem bestimmten Zeitraum mindestens ein solcher Vorfall auftritt) und deren Zusammenhang mit Lesevorgängen angesehen.
Wir haben keine Hinweise auf einen Zusammenhang zwischen der Anzahl der Lesevorgänge und der Anzahl nicht korrigierbarer Fehler gefunden. Bei allen Laufwerksmodellen lagen die Korrelationskoeffizienten unter 0.02 und die Diagramme zeigten keinen Anstieg der UE mit zunehmender Anzahl der Lesevorgänge.

In Abschnitt 5.4 dieses Artikels diskutieren wir, dass Schreib- und Löschvorgänge auch keinen Bezug zu nicht korrigierbaren Fehlern haben, sodass die alternative Definition von UBER, die durch Schreib- oder Löschvorgänge anstelle von Lesevorgängen normalisiert wird, keine Bedeutung hat.

Wir kommen daher zu dem Schluss, dass UBER keine aussagekräftige Metrik ist, außer vielleicht bei Tests in kontrollierten Umgebungen, in denen die Anzahl der Lesevorgänge vom Experimentator festgelegt wird. Wenn UBER während Feldtests als Metrik verwendet wird, wird dadurch die Fehlerrate für Laufwerke mit einer hohen Lesezahl künstlich gesenkt und die Fehlerrate für Laufwerke mit einer niedrigen Lesezahl künstlich erhöht, da unabhängig von der Anzahl der Lesevorgänge nicht korrigierbare Fehler auftreten.

5.2. Nicht korrigierbare Fehler und RBER.

Die Relevanz von RBER erklärt sich aus der Tatsache, dass es als Maß zur Bestimmung der Gesamtzuverlässigkeit des Laufwerks dient, insbesondere basierend auf der Wahrscheinlichkeit nicht korrigierbarer Fehler. In ihrer Arbeit schlugen N. Mielke et al. 2008 erstmals vor, die erwartete nicht korrigierbare Fehlerrate als Funktion der RBER zu definieren. Seitdem haben viele Systementwickler ähnliche Methoden verwendet, beispielsweise die Schätzung der erwarteten nicht korrigierbaren Fehlerrate als Funktion von RBER und ECC-Typ.

Der Zweck dieses Abschnitts besteht darin, zu charakterisieren, wie gut RBER nicht korrigierbare Fehler vorhersagt. Beginnen wir mit Abbildung 5a, in der die mittlere RBER für eine Reihe von Laufwerksmodellen der ersten Generation im Vergleich zum Prozentsatz der Tage, an denen sie verwendet wurden, an denen nicht korrigierbare UE-Fehler auftraten, aufgetragen ist. Es ist zu beachten, dass einige der 16 in der Grafik dargestellten Modelle aufgrund fehlender analytischer Informationen nicht in Tabelle 1 enthalten sind.

Zuverlässigkeit des Flash-Speichers: erwartet und unerwartet. Teil 2. XIV. Konferenz der USENIX-Vereinigung. Dateispeichertechnologien
Reis. 5a. Zusammenhang zwischen mittlerer RBER und nicht korrigierbaren Fehlern für verschiedene Antriebsmodelle.

Zuverlässigkeit des Flash-Speichers: erwartet und unerwartet. Teil 2. XIV. Konferenz der USENIX-Vereinigung. Dateispeichertechnologien
Reis. 5b. Beziehung zwischen mittlerer RBER und nicht korrigierbaren Fehlern für verschiedene Laufwerke desselben Modells.

Denken Sie daran, dass alle Modelle derselben Generation denselben ECC-Mechanismus verwenden, sodass Unterschiede zwischen Modellen unabhängig von ECC-Unterschieden sind. Wir sahen keinen Zusammenhang zwischen RBER- und UE-Vorfällen. Wir haben das gleiche Diagramm für die 95. Perzentil-RBER versus UE-Wahrscheinlichkeit erstellt und erneut keine Korrelation festgestellt.

Als nächstes wiederholten wir die Analyse auf granularer Ebene für einzelne Laufwerke, d. h. wir versuchten herauszufinden, ob es Laufwerke gab, bei denen ein höherer RBER-Wert einer höheren UE-Frequenz entspricht. Als Beispiel zeigt Abbildung 5b die mittlere RBER für jedes Laufwerk des MLC-c-Modells im Vergleich zur Anzahl der UEs (Ergebnisse ähnlich denen für die 95. Perzentil-RBER). Auch hier konnten wir keine Korrelation zwischen RBER und UE feststellen.

Abschließend führten wir eine genauere Zeitanalyse durch, um zu untersuchen, ob die Betriebsmonate von Laufwerken mit höherer RBER den Monaten entsprechen würden, in denen UEs auftraten. Abbildung 1 hat bereits gezeigt, dass der Korrelationskoeffizient zwischen nicht korrigierbaren Fehlern und RBER sehr niedrig ist. Wir haben auch mit verschiedenen Möglichkeiten experimentiert, die Wahrscheinlichkeit eines UE als Funktion der RBER darzustellen, und keine Hinweise auf eine Korrelation gefunden.

Wir kommen daher zu dem Schluss, dass RBER eine unzuverlässige Metrik für die Vorhersage von UE ist. Dies kann bedeuten, dass sich die Fehlermechanismen, die zu RBER führen, von den Mechanismen unterscheiden, die zu nicht korrigierbaren Fehlern führen (z. B. Fehler in einzelnen Zellen im Vergleich zu größeren Problemen, die beim gesamten Gerät auftreten).

5.3. Nicht korrigierbare Fehler und Verschleiß.

Da Verschleiß eines der Hauptprobleme von Flash-Speichern ist, zeigt Abbildung 6 die tägliche Wahrscheinlichkeit nicht korrigierbarer Laufwerksfehler als Funktion der PE-Zyklen.

Zuverlässigkeit des Flash-Speichers: erwartet und unerwartet. Teil 2. XIV. Konferenz der USENIX-Vereinigung. Dateispeichertechnologien
Abbildung 6. Tägliche Eintrittswahrscheinlichkeit nicht korrigierbarer Antriebsfehler in Abhängigkeit von PE-Zyklen.

Wir stellen fest, dass die Wahrscheinlichkeit eines UE mit dem Alter des Laufwerks kontinuierlich zunimmt. Allerdings ist der Anstieg wie bei RBER langsamer als üblicherweise angenommen: Die Grafiken zeigen, dass UEs mit PE-Zyklen linear und nicht exponentiell wachsen.

Zwei Schlussfolgerungen, die wir für RBER gezogen haben, gelten auch für UEs: Erstens gibt es keinen deutlichen Anstieg des Fehlerpotenzials, sobald die PE-Zyklusgrenze erreicht ist, wie in Abbildung 6 für das MLC-D-Modell, dessen PE-Zyklusgrenze 3000 beträgt. Zweitens: Zweitens , variiert die Fehlerquote zwischen verschiedenen Modellen, sogar innerhalb derselben Klasse. Allerdings sind diese Unterschiede nicht so groß wie bei RBER.

Schließlich haben wir zur Unterstützung unserer Erkenntnisse in Abschnitt 5.2 festgestellt, dass innerhalb einer einzelnen Modellklasse (MLC vs. SLC) die Modelle mit den niedrigsten RBER-Werten für eine bestimmte Anzahl von PE-Zyklen nicht unbedingt die Modelle mit den niedrigsten sind Wahrscheinlichkeit des Auftretens von UE. Beispielsweise hatten MLC-D-Modelle über 3000 PE-Zyklen viermal niedrigere RBER-Werte als MLC-B-Modelle, aber die UE-Wahrscheinlichkeit für die gleiche Anzahl von PE-Zyklen war bei MLC-D-Modellen etwas höher als bei MLC-B Modelle.

Zuverlässigkeit des Flash-Speichers: erwartet und unerwartet. Teil 2. XIV. Konferenz der USENIX-Vereinigung. Dateispeichertechnologien
Abbildung 7. Monatliche Eintrittswahrscheinlichkeit nicht korrigierbarer Antriebsfehler als Funktion des Vorliegens früherer Fehler verschiedener Art.

5.4. Nicht korrigierbare Fehler und Arbeitsaufwand.

Aus den gleichen Gründen, aus denen sich die Arbeitslast auf RBER auswirken kann (siehe Abschnitt 4.2.3), ist zu erwarten, dass sie sich auch auf das UE auswirkt. Da wir beispielsweise beobachtet haben, dass Leseverletzungsfehler RBER beeinflussen, können Lesevorgänge auch die Wahrscheinlichkeit nicht korrigierbarer Fehler erhöhen.

Wir haben eine detaillierte Studie über die Auswirkungen der Arbeitsbelastung auf die UE durchgeführt. Wie in Abschnitt 5.1 erwähnt, konnten wir jedoch keinen Zusammenhang zwischen UE und der Anzahl der Lesevorgänge feststellen. Wir haben die gleiche Analyse für Schreib- und Löschvorgänge wiederholt und erneut keine Korrelation festgestellt.
Beachten Sie, dass dies auf den ersten Blick im Widerspruch zu unserer vorherigen Beobachtung zu stehen scheint, dass nicht korrigierbare Fehler mit PE-Zyklen korrelieren. Daher ist durchaus ein Zusammenhang mit der Anzahl der Schreib- und Löschvorgänge zu erwarten.

Bei unserer Analyse der Auswirkungen von PE-Zyklen haben wir jedoch die Anzahl der nicht korrigierbaren Fehler in einem bestimmten Monat mit der Gesamtzahl der PE-Zyklen verglichen, die das Laufwerk im Laufe seiner bisherigen Lebensdauer durchlaufen hat, um die Auswirkungen des Verschleißes zu messen. Bei der Untersuchung der Auswirkung der Arbeitslast haben wir uns die Monate des Laufwerksbetriebs angesehen, in denen es in einem bestimmten Monat die meisten Lese-/Schreib-/Löschvorgänge gab, bei denen auch die Wahrscheinlichkeit höher war, dass nicht korrigierbare Fehler verursacht wurden, d. h. wir haben sie nicht berücksichtigt Berücksichtigen Sie die Gesamtzahl der Lese-/Schreib-/Löschvorgänge.

Als Ergebnis kamen wir zu dem Schluss, dass Leseverletzungsfehler, Schreibverletzungsfehler und unvollständige Löschfehler nicht die Hauptfaktoren für die Entwicklung nicht korrigierbarer Fehler sind.

Vielen Dank, dass Sie bei uns geblieben sind. Gefallen Ihnen unsere Artikel? Möchten Sie weitere interessante Inhalte sehen? Unterstützen Sie uns, indem Sie eine Bestellung aufgeben oder an Freunde weiterempfehlen. 30 % Rabatt für Habr-Benutzer auf ein einzigartiges Analogon von Einstiegsservern, das von uns für Sie erfunden wurde: Die ganze Wahrheit über VPS (KVM) E5-2650 v4 (6 Kerne) 10 GB DDR4 240 GB SSD 1 Gbit/s ab 20 $ oder wie teilt man sich einen Server? (verfügbar mit RAID1 und RAID10, bis zu 24 Kerne und bis zu 40 GB DDR4).

Dell R730xd 2-mal günstiger? Nur hier 2 x Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6 GHz 14C 64 GB DDR4 4 x 960 GB SSD 1 Gbit/s 100 TV ab 199 $ in den Niederlanden! Dell R420 – 2x E5-2430 2.2 GHz 6C 128 GB DDR3 2 x 960 GB SSD 1 Gbit/s 100 TB – ab 99 $! Lesen über Wie baut man ein Infrastrukturunternehmen auf? Klasse mit dem Einsatz von Dell R730xd E5-2650 v4 Servern im Wert von 9000 Euro für einen Cent?

Source: habr.com

Kommentar hinzufügen