電腦店訊 最近幾天,一批linux線上的服務器接連宕機,當時以為是硬件問題,重啟機器之後進入系統查看日志,只發現幾條報錯:
dmesg | grep -i error
ERST: Error Record Serialization Table (ERST) support is initialized.
ACPI Error: No handler for Region [IPMI] (ffff88081cd55420) [IPMI] (20090903/evregion-319)
ACPI Error: Region IPMI(7) has no handler (20090903/exfldio-295)
ACPI Error (psparse-0537): Method parse/execution failed [\_SB_.PMI0._GHL] (Node ffff88101c853a38), AE_NOT_EXIST
ACPI Error (psparse-0537): Method parse/execution failed [\_SB_.PMI0._PMC] (Node ffff88101c853a88), AE_NOT_EXIST
上網根據錯誤查了些資料,大多都說是硬件驅動問題,但是根據我的經驗,驅動問題並不會在這種情況下發生,而且日志錯誤也會比較詳細,最重要的一點是多台機器都是在系統運行了213天沒有重啟的情況下發生的。
後來上linux論壇查閱了相關資料,發現Linux Kernel 2.6.28 有一個BUG,自系統運行了208.5天的時候,會出現自行重啟或者其他意外的故障:
https://access.redhat.com/knowledge/solutions/68466
對此,最好的解決方法就是更新系統內核
yum install kernel
然後重啟系統