AMDが2018年に発売したサーバー・データセンター向け製品のEPYC Romeは登場から4年が過ぎようとしていますが、どうやら最近になりこのCPUが1042日(約3年)連続稼働するとCPUがスリープ状態へ強制移行しフリーズしてしまう事が明らかになりました。
AMD EPYC Romeを1042日稼働させるとフリーズ。解決策はスリープ設定解除かその前に再起動。
AMD’s EPYC Rome Chips Crash After 1,044 Days of Uptime | Tom’s Hardware (tomshardware.com)
AMDでは2018年に最大64コアを搭載するサーバー・データセンター向け製品のCPUであるEPYC Romeを発売しました。このCPUについては非常に性能が高い事から今でも現役で運用されているケースも多々ありますが、このCPUに存在するエラッタによって、1042日(約3年)の連続稼働を行うとCC6と呼ばれるスリープステートに強制的に移行してしまう事が明らかになりました。
最後のシステムリセットから約1044日後に、コアがCC6から出ることに失敗します。故障の時間は、スプレッドスペクトラムとREFCLK周波数によって異なる場合があります。
AMD
AMDによるとこのエラッタはシステムリセットの1044日後に出現しだすケースがあるとのことですが、この不具合はベースクロックやREFCLK周波数(CPUが時間を計算するのを助ける参照クロック)に依存するとのことです。そのため、実際にはサーバー・データセンターで大量のCPUを運用する際に電波干渉を避けるためベースクロックを若干変更などが行われるため1042日±12時間となる事がRedditのユーザーより明らかにされています。
この不具合の原因としては1042.5日は16進数で0x380000000000000となるようで、ここが起点となりCPUがスリープステートに強制移行してしまうようです。
AMDやRedditのユーザーによるとこの問題の修正に何かしらのパッチなどは用意される見込みはなく、単純に1044日の稼働時間になる前にシステムを再起動するか、CPUタイマーをリセットするか、CC6スリープ設定をオフにするかの3点が有効な対策となるようです。なお、これはEPYC Romeのみならず同じZen 2系CPUを搭載するRyzenと同じアーキテクチャーを搭載しているため、同じ様なトラブルは起きると見られていますがコンシューマー向けCPUという事で約3年も連続稼働するケースは少なく上述のようなトラブルは報告されていません。
また、この問題に関して重大なセキュリティー問題に繋がる事もないと見られているため、サーバー・データセンターでEPYC Romeを約3年連続稼働で動かしているケースでは近い内に対策が必要となるかもしれませんが、それ以外のユーザーであればトリビアとして知っておくだけで問題が無いと言えそうです。
コメント
コメント一覧 (1件)
こんなエラッタがあるなんて想像も出来んだろ