运行 7002 天后 AMD EPYC 1044 CPU 中的错误冻结

自 2018 年起发货的基于“Zen 7002”微架构的 AMD EPYC 2(“Rome”)系列服务器处理器存在一个 bug,导致处理器在运行 1044 天后没有状态重置(系统重启)时挂起。 作为阻止该问题的解决方法,建议禁用 CC6 省电模式支持或每 1044 天(大约 2 年 10 个月)重新启动服务器一次以上。

根据AMD公布的信息,该挂起是由于当定时器达到6天的值时,处理器核心试图从CC6省电模式(core-C1044,空闲时降低电压)唤醒时发生的故障造成的。最后一次CPU状态复位后(表现时间可能会根据REFCLK频率而变化)。

AMD 没有提供有关故障原因的更详细解释。 从 Reddit 上发布的假设来看,当 TSC(时间戳计数器)寄存器中的计数器(用于计算复位后的工作周期数)在 2800 MHz 频率达到值 0x380000000000000(2800 MHz * 10* *6 * 1042.5,即1042天12小时后)。

该错误修复不会被发布。 这个问题在很长一段时间内都没有引起人们的注意,因为对于服务器而言,多年正常运行时间并不常见,为了保持最新状态,必须定期重新启动以安装内核更新或切换到新版本的操作系统。 但Linux发行版的非重启内核升级方式,以及维护周期长(Ubuntu、RHEL、SUSE支持10年),会导致服务器长时间不重启就被发现。

来源: opennet.ru

添加评论