Столкнулся с проблемой - один из серверов не загружался после аварийного отключения питания. К сожалению, снимки экрана в процессе загрузки не сохранились, поэтому я сейчас не могу сказать, что натолкнуло меня на мысль о том, что причина заключается в RAID-контроллере. Решил сравнить при помощи diff настройки контроллеров на проблемном сервере и на сервере, где такой проблемы не наблюдается. Для этого вывел настройки RAID-контроллеров при помощи такой команды:
# megacli -AdpAllInfo -aALL
Глаз зацепился только за одно различие, которое можно причислить собственно к настройкам контроллеров, а не к их свойствам:
< BIOS Error Handling : Pause on Errors --- > BIOS Error Handling : Stop On Errors
Поискал в интернете и нашёл статью How to disable LSI MegaRAID SAS controller’s suspend boot on error “feature”
Посмотреть текущее значение этой настройки можно следующей командой:
# MegaCli -AdpBIOS -Dsply -aALL
На проблемном сервере эта команда выдавала следующее:
BIOS on Adapter 0 is Enabled. BIOS will Bypass error. Auto select Boot on Adapter 0 is Disabled. Exit Code: 0x00
На сервере без проблем эта команда выдавала следующее:
BIOS on Adapter 0 is Enabled. BIOS will Stop on error. Auto select Boot on Adapter 0 is Disabled. Exit Code: 0x00
Выставить значение Stop on error можно следующей командой:
# MegaCli -AdpBIOS -SOE -aALL
При последующих перезагрузках сервера больше такой проблемы не наблюдалось.