AMD EPYC 7002 のバグ 1044 日間の動作後に CPU がフリーズする

2018 年以降に出荷された「Zen 7002」マイクロアーキテクチャをベースとする AMD EPYC 2 (「Rome」) シリーズのサーバー プロセッサには、状態をリセット (システムの再起動) せずに 1044 日間動作させた後にプロセッサがハングするバグがあります。 この問題をブロックする回避策として、CC6 省電力モードのサポートを無効にするか、1044 日 (約 2 年 10 か月) ごとに複数回サーバーを再起動することをお勧めします。

AMDが発表した情報によると、ハングは、タイマーが6日の値に達したときにプロセッサコアがCC6省電力モード(コアC1044、アイドル時に電圧を下げる)から復帰しようとしたときに発生するグリッチによって発生します。最後の CPU 状態リセット後 (反映時間は REFCLK 周波数によって異なる場合があります)。

AMDは、障害の原因についての詳細な説明を提供していません。 Reddit で公開された仮定から判断すると、リセット後の動作サイクル数をカウントする TSC (タイム スタンプ カウンター) レジスターのカウンターが 2800 MHz の周波数で値 0x380000000000000 (2800 MHz * 10*) に達するとハングが発生します。 *6 * 1042.5、つまり 1042 日と 12 時間後)。

バグ修正は公開されない予定です。 サーバーを最新の状態に保つためには、カーネルのアップデートをインストールしたり、オペレーティング システムの新しいリリースに切り替えたりするために定期的に再起動する必要があるため、数年にわたる稼働時間は一般的ではないため、この問題は長い間気づかれませんでした。 ただし、Linux ディストリビューションの非再起動カーネル アップグレード方法と長いメンテナンス サイクル (Ubuntu、RHEL、SUSE は 10 年間サポートされます) により、サーバーが再起動せずに長時間検出される可能性があります。

出所: オープンネット.ru

コメントを追加します