闪存可靠性:预期和意外。 第 2 部分:USENIX 协会第十四次会议。 文件存储技术

闪存可靠性:预期和意外。 第 1 部分:USENIX 协会第十四次会议。 文件存储技术

4.2.2. RBER 和磁盘寿命(不包括 PE 周期)。

图 1 显示了 RBER 和寿命(磁盘使用的月数)之间的显着相关性。 然而,这可能是一种虚假的相关性,因为较旧的驱动器可能具有更多的 PE,因此 RBER 与 PE 周期的相关性更强。

为了消除老化对 PE 周期造成的磨损的影响,我们使用 PE 周期分布​​的十分位数作为容器之间的分界线,将所有使用月份分组到容器中,例如,第一个容器包含磁盘寿命的所有月份,直到PE 循环分布的第一个十分位,依此类推。 我们验证了每个容器内PE周期和RBER之间的相关性很小(因为每个容器只覆盖了一小部分PE周期),然后分别计算了每个容器的RBER和磁盘年龄之间的相关系数。

我们对每个型号分别进行了此分析,因为任何观察到的相关性都不是由于新型号和旧型号之间的差异而造成的,而仅仅是由于同一型号的驱动器的寿命所致。 我们观察到,即使以上述方式限制 PE 循环的影响,对于所有驱动器型号,驱动器在现场的月数与其 RBER 之间仍然存在显着相关性(相关系数范围为 0,2 至 0,4) )。

闪存可靠性:预期和意外。 第 2 部分:USENIX 协会第十四次会议。 文件存储技术
米。 3. 新旧磁盘的RBER与PE周期数之间的关系表明,无论磨损导致的PE周期数如何,磁盘的年龄都会影响RBER值。

我们还通过将驱动器“年轻”使用天数(最多 1 年)和驱动器使用天数超过 4 年(超过 3 年)的使用天数进行划分,以图形方式可视化驱动器使用年限的影响,然后绘制每个驱动器的 RBER针对 PE 周期数进行分组。 图 XNUMX 显示了 MLC-D 驱动器模型的这些结果。 我们发现在所有 PE 周期中,新旧磁盘组之间的 RBER 值存在明显差异。

由此,我们得出结论,无论内存单元因暴露于 PE 循环而造成的磨损如何,以现场磁盘使用天数衡量的寿命对 RBER 都有重大影响。 这意味着其他因素,例如硅老化,在磁盘的物理磨损中起着很大的作用。

4.2.3. RBER 和工作负载。

位错误被认为是由以下四种机制之一引起的:

  1. 存储错误 保留错误,当存储单元随着时间的推移丢失数据时
    读取干扰错误,其中读取操作损坏了相邻单元的内容;
  2. 写入干扰错误,其中读取操作损坏了相邻单元的内容;
  3. 不完全擦除错误,当擦除操作没有完全删除单元的内容时。

最后三种类型的错误(读干扰、写干扰、不完全擦除)与工作负载相关,因此了解 RBER 与工作负载之间的相关性有助于我们了解不同错误机制的普遍性。 在最近的一项研究中,“现场闪存故障的大规模研究”(MEZA,J.,WU,Q.,KUMAR,S.,MUTLU,O.“现场闪存故障的大规模研究”在 2015 年 ACM SIGMETRICS 国际计算机系统测量和建模会议记录中,纽约,2015 年,SIGMETRICS '15,ACM,第 177-190 页)得出的结论是,存储错误在该领域占主导地位,而读取错误则占主导地位。都是很小的。

图1显示了某些型号的磁盘寿命给定月份的RBER值与当月读取、写入和擦除次数之间的显着关系(例如,MLC-B的相关系数高于0,2)型号,SLC-B 高于 0,6)。 然而,这可能是一种虚假的相关性,因为每月的工作量可能与 PE 周期的总数有关。

我们使用第 4.2.2 节中描述的相同方法,通过根据先前的 PE 周期隔离驱动器操作的月份,然后分别确定每个容器的相关系数,将工作负载的影响与 PE 周期的影响隔离开来。

我们发现,对于 MLC-B 和 SLC-B 模型,即使在限制 PE 周期的情况下,磁盘寿命给定月份的读取次数与该月的 RBER 值之间的相关性仍然存在。 我们还重复了类似的分析,其中我们排除了读取对并发写入和擦除数量的影响,并得出结论,RBER 与读取数量之间的相关性对于 SLC-B 模型成立。

图1还显示了RBER与写入和擦除操作之间的相关性,因此我们对读取、写入和擦除操作重复了相同的分析。 我们得出的结论是,通过限制 PE 周期和读取的影响,RBER 值与写入和擦除次数之间没有关系。

因此,在某些磁盘模型中,读冲突错误会对 RBER 产生重大影响。 另一方面,没有证据表明 RBER 受到写入违规错误和不完全擦除错误的影响。

4.2.4 RBER 和光刻。

物体大小的差异可以部分解释使用相同技术(即 MLC 或 SLC)的驱动器模型之间 RBER 值的差异。 (有关本研究中包含的各种模型的光刻概述,请参阅表 1)。

例如,采用 2nm 光刻技术的 34 个 SLC 型号(型号 SLC-A 和 SLC-D)的 RBER 比采用 2nm 微电子光刻技术的 50 个型号(型号 SLC-B 和 SLC-C)的 RBER 高一个数量级。 就 MLC 型号而言,只有 43nm 型号 (MLC-B) 的 RBER 中值比其他 50 个采用 3nm 光刻的型号高出 50%。 此外,随着驱动器磨损,RBER 的差异会增加 4 倍,如图 2 所示。最后,较薄的光刻可以解释 eMLC 驱动器与 MLC 驱动器相比具有更高的 RBER。 总体而言,我们有明确的证据表明光刻会影响 RBER。

4.2.5. 存在其他错误。

我们研究了RBER与其他类型错误(例如不可纠正错误、超时错误等)之间的关系,特别是在接触其他类型错误一个月后RBER值是否变得更高。

图 1 显示,虽然上个月的 RBER 可预测未来的 RBER 值(相关系数大于 0,8),但不可纠正的错误与 RBER(图 1 中最右边的一组项目)之间不存在显着相关性。 对于其他类型的误差,相关系数甚至更低(图中未显示)。 我们在本文第 5.2 节中进一步探讨了 RBER 与不可纠正错误之间的关系。

4.2.6. 其他因素的影响。

我们发现有证据表明,有些因素对 RBER 有重大影响,而我们的数据无法解释这些因素。 特别是,我们注意到给定磁盘模型的 RBER 根据部署磁盘的集群而变化。 图 4 就是一个很好的例子,其中显示了三个不同集群中 MLC-D 驱动器的 RBER(虚线)与 PE 周期的函数关系,并将其与该模型相对于驱动器总数的 RBER(实线)进行了比较。 我们发现,即使我们限制磁盘寿命或读取次数等因素的影响,这些差异仍然存在。

对此的一种可能的解释是集群之间工作负载类型的差异,因为我们观察到工作负载具有最高读/写比率的集群具有最高的 RBER。

闪存可靠性:预期和意外。 第 2 部分:USENIX 协会第十四次会议。 文件存储技术
米。 4a)、b)。 中值 RBER 值作为三个不同集群的 PE 周期的函数,以及读/写比率对三个不同集群的 PE 周期数的依赖性。

例如,图4(b)显示了MLC-D驱动器模型的不同集群的读/写比率。 然而,读/写比率并不能解释所有模型的集群之间的差异,因此可能还有我们的数据没有考虑到的其他因素,例如环境因素或其他外部工作负载参数。

4.3. 加速耐久性测试期间的 RBER。

大多数科学工作以及在工业规模上购买介质时进行的测试都是根据加速耐久性测试的结果来预测现场设备的可靠性。 我们决定弄清楚此类测试的结果与操作固态存储介质的实际经验的对应程度如何。
使用通用加速测试方法对 Google 数据中心提供的设备进行的测试结果分析表明,现场 RBER 值明显高于预测。 例如,对于eMLC-a模型,现场运行的磁盘(测试结束时PE循环数达到600次)的RBER中位数为1e-05,而根据初步加速测试的结果,该RBER值应对应超过 4000 个 PE 周期。 这表明根据实验室测试获得的 RBER 估计值很难准确预测现场的 RBER 值。

我们还注意到,某些类型的错误在加速测试期间很难重现。 例如,就 MLC-B 模型而言,现场几乎 60% 的驱动器会遇到无法纠正的错误,并且几乎 80% 的驱动器会出现坏块。 然而,在加速耐久性测试期间,这六台设备均未遇到任何不可纠正的错误,直到驱动器达到 PE 周期限制的三倍以上。 对于 eMLC 模型,现场超过 80% 的驱动器会出现不可纠正的错误,而在加速测试期间,此类错误会在达到 15000 个 PE 周期后出现。

我们还查看了之前研究工作中报告的 RBER,该研究工作基于受控环境中的实验,得出的结论是值的范围极其广泛。 例如,L.M. Grupp 等人在其 2009 年 -2012 年工作报告中驱动器的 RBER 值接近达到 PE 循环极限。 例如,对于光刻尺寸与我们工作中使用的尺寸 (25-50nm) 相似的 SLC 和 MLC 器件,RBER 值范围从 1e-08 到 1e-03,大多数测试的驱动器模型的 RBER 值接近 1e- 06.

在我们的研究中,达到 PE 循环极限的三种驱动器模型的 RBER 范围为 3e-08 到 8e-08。 即使考虑到我们的数字是下限,并且在绝对最坏的情况下可能会大 16 倍,或者考虑到 RBER 的第 95 个百分位数,我们的值仍然明显较低。

总体而言,虽然实际现场 RBER 值高于基于加速耐久性测试的预测值,但仍低于其他研究论文中报告的类似设备的大多数 RBER 以及根据实验室测试计算得出的测试值。 这意味着您不应依赖从加速耐久性测试中得出的预测现场 RBER 值。

5. 无法纠正的错误。

鉴于不可纠正错误 (UE) 的广泛发生(在本文第 3 节中进行了讨论),在本节中我们将更详细地探讨其特征。 我们首先讨论使用哪个指标来衡量 UE、它与 RBER 的关系以及 UE 如何受到各种因素的影响。

5.1. 为什么 UBER 比率没有意义。

表征不可纠正错误的标准指标是UBER不可纠正比特错误率,即不可纠正比特错误的数量与读取的总比特数的比率。

该度量隐含地假设不可纠正错误的数量在某种程度上与读取的位数相关,因此必须通过该数字进行标准化。

此假设对于可纠正错误是有效的,其中给定月份观察到的错误数量与同一时间段内的读取数量高度相关(Spearman 相关系数大于 0.9)。 如此强相关性的原因是,即使是一个坏位,只要可以使用 ECC 进行纠正,随着其访问的每个读操作,错误数量都会继续增加,因为包含坏位的单元的评估是当检测到错误时不会立即纠正(磁盘仅定期重写具有损坏位的页面)。

同样的假设不适用于不可纠正的错误。 不可纠正的错误会阻止进一步使用损坏的块,因此一旦检测到,此类块将不会影响将来的错误数量。

为了正式证实这一假设,我们使用了各种指标来衡量给定磁盘寿命月份内的读取次数与同一时间段内不可纠正的错误数量之间的关系,包括各种相关系数(Pearson、Spearman、Kendall)以及图表的目视检查。 除了不可纠正错误的数量之外,我们还研究了不可纠正错误事件的频率(即磁盘在给定时间段内至少发生一次此类事件的概率)及其与读取操作的关系。
我们没有发现任何证据表明读取次数与不可纠正的错误数量之间存在相关性。 对于所有驱动器模型,相关系数均低于 0.02,并且图表没有显示 UE 随着读取次数的增加而增加。

在本文第 5.4 节中,我们讨论了写入和擦除操作也与不可纠正的错误无关,因此通过写入或擦除操作而不是读取操作来规范化的 UBER 的替代定义没有任何意义。

因此,我们得出结论,UBER 不是一个有意义的指标,除非在受控环境中进行测试,其中读取次数由实验者设置。 如果在现场测试期间使用 UBER 作为衡量标准,它将人为地降低读取计数较高的驱动器的错误率,并人为地提高读取计数较低的驱动器的错误率,因为无论读取次数多少,都会出现无法纠正的错误。

5.2. 不可纠正的错误和 RBER。

RBER 的相关性可以通过以下事实来解释:它可作为确定驱动器整体可靠性的衡量标准,特别是基于不可纠正错误的可能性。 N. Mielke 等人在 2008 年的工作中首先提出将预期不可纠正错误率定义为 RBER 的函数。 从那时起,许多系统开发人员都使用了类似的方法,例如根据 RBER 和 ECC 类型来估计预期的不可纠正错误率。

本节的目的是描述 RBER 预测不可纠正错误的能力。 让我们从图 5a 开始,该图绘制了许多第一代驱动器型号的 RBER 中值与它们在使用中遇到不可纠正的 UE 错误的天数百分比的关系。 值得注意的是,由于缺乏分析信息,图中所示的 16 个模型中的一些模型并未包含在表 1 中。

闪存可靠性:预期和意外。 第 2 部分:USENIX 协会第十四次会议。 文件存储技术
米。 5a. 各种驱动器型号的中值 RBER 与不可纠正错误之间的关系。

闪存可靠性:预期和意外。 第 2 部分:USENIX 协会第十四次会议。 文件存储技术
米。 5b. 同一型号的不同驱动器的中值 RBER 与不可纠正错误之间的关系。

回想一下,同一代中的所有型号都使用相同的 ECC 机制,因此型号之间的差异与 ECC 差异无关。 我们发现 RBER 和 UE 事件之间没有相关性。 我们为第 95 个百分位数的 RBER 与 UE 概率创建了相同的图,并且再次发现没有相关性。

接下来,我们对各个驱动器进行了细粒度的分析,即,我们试图找出是否存在较高 RBER 值对应于较高 UE 频率的驱动器。 作为示例,图 5b 绘制了 MLC-c 模型每个驱动器的中值 RBER 与 UE 数量的关系(结果类似于针对第 95 个百分位 RBER 获得的结果)。 同样,我们没有看到 RBER 和 UE 之间有任何相关性。

最后,我们进行了更精确的时序分析,以检查具有较高 RBER 的驱动器的运行月份是否与发生 UE 的月份相对应。 图1已经表明不可纠正错误与RBER之间的相关系数非常低。 我们还尝试了不同的方法来绘制 UE 概率与 RBER 的函数关系,但没有发现相关性的证据。

因此,我们得出结论,RBER 是预测 UE 的不可靠指标。 这可能意味着导致 RBER 的故障机制与导致不可纠正错误的机制不同(例如,单个单元中包含的错误与整个设备发生的更大问题)。

5.3. 无法纠正的错误和磨损。

由于磨损是闪存的主要问题之一,因此图 6 显示了不可纠正的驱动器错误的每日概率与 PE 周期的函数关系。

闪存可靠性:预期和意外。 第 2 部分:USENIX 协会第十四次会议。 文件存储技术
图 6. 每日发生不可纠正的驱动器错误的概率取决于 PE 周期。

我们注意到,UE 的概率随着驱动器的使用年限而不断增加。 然而,与 RBER 一样,增长速度比通常假设的要慢:图表显示 UE 随 PE 周期呈线性增长,而不是呈指数增长。

我们针对 RBER 得出的两个结论也适用于 UE:首先,一旦达到 PE 周期限制,潜在错误不会明显增加,例如图 6 中的 MLC-D 模型,其 PE 周期限制为 3000。 ,即使在同一类中,不同模型的错误率也有所不同。 然而,这些差异并不像 RBER 那样大。

最后,为了支持我们在第 5.2 节中的发现,我们发现在单个模型类(MLC 与 SLC)中,对于给定数量的 PE 周期具有最低 RBER 值的模型不一定是具有最低 RBER 值的模型。 UE发生的概率。 例如,超过 3000 个 PE 周期,MLC-D 模型的 RBER 值比 MLC-B 模型低 4 倍,但相同数量的 PE 周期的 UE 概率 MLC-D 模型略高于 MLC-B楷模。

闪存可靠性:预期和意外。 第 2 部分:USENIX 协会第十四次会议。 文件存储技术
图 7. 不可纠正的驱动器错误的每月发生概率与先前存在的各种类型错误的函数关系。

5.4. 无法纠正的错误和工作量。

出于同样的原因,工作负载会影响 RBER(参见第 4.2.3 节),预计它也会影响 UE。 例如,由于我们观察到读取违规错误会影响 RBER,因此读取操作也可能会增加出现不可纠正错误的可能性。

我们对工作负载对UE的影响进行了详细的研究。 然而,如5.1节所述,我们没有发现UE和读取次数之间的关系。 我们对写入和擦除操作重复了相同的分析,并再次发现没有相关性。
请注意,乍一看,这似乎与我们之前的观察相矛盾,即不可纠正的错误与 PE 周期相关。 因此,人们很可能期望与写入和擦除操作的数量存在相关性。

然而,在分析 PE 循环的影响时,我们将给定月份内不可纠正的错误数量与驱动器在其整个生命周期中迄今为止经历的 PE 循环总数进行了比较,以衡量磨损的影响。 在研究工作负载的影响时,我们研究了特定月份中读/写/擦除操作次数最多的驱动器操作月份,这些月份也更有可能导致不可纠正的错误,即我们没有考虑计算读/写/擦除操作的总数。擦除。

因此,我们得出的结论是,读违规错误、写违规错误和不完全擦除错误并不是产生不可纠正错误的主要因素。

感谢您与我们在一起。 你喜欢我们的文章吗? 想看更多有趣的内容? 通过下订单或推荐给朋友来支持我们, 在我们为您发明的独特的入门级服务器模拟上,Habr 用户可享受 30% 的折扣: VPS (KVM) E5-2650 v4(6 核)10​​4GB DDR240 1GB SSD 20Gbps XNUMX 美元或如何共享服务器的全部真相? (适用于 RAID1 和 RAID10,最多 24 个内核和最多 40GB DDR4)。

戴尔R730xd便宜2倍? 只有这里 2 x Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 电视低至 199 美元 在荷兰! Dell R420 - 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB - 99 美元起! 阅读 如何建设基础设施公司同级使用价值730欧元的Dell R5xd E2650-4 v9000服务器一分钱?

来源: habr.com

添加评论