新208.5日問題に当たってしまった時のメモ




投稿日:

物理サーバを再起動したら、サーバの調子が悪くなった。

症状としては、

・時間表示がおかしい
・CPUの使用率の表示がおかしい。
・ハングアップ状態になっている。
・再起動を試みるも、重くてシャットダウンすらしない。

原因はこちらでした。

新208.5日問題 – Systems with Intel® Xeon® Processor E5 hung after upgrade of Red Hat Enterprise Linux 6

新208.5日問題、LinuxカーネルのバグとXeonのバグの合わせで発生 | スラド Linux
> 新たに発見された問題はXeon E5シリーズのCPUのみで発生するもので、「起動後208.5日経過すると勝手に再起動する」ではなく、「最後に電源停止を行ってから208.5日経過後に再起動を行うと再起動時にハングアップする」というもの。

> そもそもの問題(Red Hatのサポートページ)は、駆動クロックに応じてカウントアップされるCPUの「Time Slice Stamp Counter(TSC)」というカウンタに対する処理と、この値を使ったスケジューラのコードにおける処理が不適切だったことで発生していた(この問題を解説したokky氏のブログ;)。

まさか、これだとは。2013年に発生していた問題ですね。カーネルのアップデートなどしていないので当然か。

ブログ曰く、対応としては、cold bootが必要になるそうです。
そうでない場合、カーネルのアップデートが必要になります。