物理サーバを再起動したら、サーバの調子が悪くなった。
症状としては、
・時間表示がおかしい
・CPUの使用率の表示がおかしい。
・ハングアップ状態になっている。
・再起動を試みるも、重くてシャットダウンすらしない。
原因はこちらでした。
新208.5日問題 – Systems with Intel® Xeon® Processor E5 hung after upgrade of Red Hat Enterprise Linux 6
新208.5日問題、LinuxカーネルのバグとXeonのバグの合わせで発生 | スラド Linux
> 新たに発見された問題はXeon E5シリーズのCPUのみで発生するもので、「起動後208.5日経過すると勝手に再起動する」ではなく、「最後に電源停止を行ってから208.5日経過後に再起動を行うと再起動時にハングアップする」というもの。
> そもそもの問題(Red Hatのサポートページ)は、駆動クロックに応じてカウントアップされるCPUの「Time Slice Stamp Counter(TSC)」というカウンタに対する処理と、この値を使ったスケジューラのコードにおける処理が不適切だったことで発生していた(この問題を解説したokky氏のブログ;)。
まさか、これだとは。2013年に発生していた問題ですね。カーネルのアップデートなどしていないので当然か。
ブログ曰く、対応としては、cold bootが必要になるそうです。
そうでない場合、カーネルのアップデートが必要になります。