Виснет намертво. Под нагрузкой. КОгда проработает примерно сутки. Приложение - самописный сервис запущенный от имени непревилигированного пользователя. la достигает 7. Раньше сталкивался что сервера висли - дык хоть пинговались при этом. Сам не доступен но пингуется. Тут нет...
Сервер железо
Intel(R) Core(TM) i7 CPU 920 @ 2.67GHz
мать MSI X58 Platinum
.
Стоит Suse 11.1 x64
Памяти 6гб
Виснет ни с того ни с сего. В логах ничего нет подозрительного. Стандартные сообщения от крона и от служб.
dmesg пока не зависла тоже не выдает никаких ошибок.
Певрое что сделал - стал мониторить память - думал заканчивается.... Свап сделал 15 гигов. Мониторил в том числе запустив top и просто раз в секунду cat /proc/meminfo >> /root/meminfo.
Память не заканчивается.
Потом думал что перегрев или по питанию проблемы
стал монитоить
3.3V: +3.36 V
Vcore: +1.06 V (max = +2.04 V)
Vdimm: +0.13 V
Vchip: +0.05 V
+5V: +5.12 V
12V: +14.06 V
5VSB: +0.38 V
3VSB: +3.33 V
Battery: +3.25 V
CPU: 2835 RPM
System: 0 RPM ALARM
Power: 0 RPM ALARM
Aux: 996 RPM
CPU: +29.0°C (high = +255.0°C, hyst = +251.0°C)
(crit = +255.0°C, hyst = +251.0°C) sensor = Intel PECI
System: +60.0°C (high = +255.0°C, hyst = +251.0°C)
(crit = +255.0°C, hyst = +251.0°C) sensor = transistor
В общем температура системы не превышает 65 градусов. Процессор (специально его грел многопоточными вычислениями) греется до72 градусов не больше...
Машинка стоит в ДЦ за 500 км. Приехать туда не могу, КВМ не подключить. Реален только ребут по питанию.
Ошибок ifconfig тоже не выдает никаких.
Обновил ядро до последнео из vanilla - результат тотже. Виснет. Причем один раз было так, я добавил парамметр apci=noirq тогда машина один раз самопроизвольно перезагрузилась. почему - непонятно.. В остальные разы тоже зависала.
Да - когда есть нагрузка мой демон берет данные по сети с NFS хранилища - если это както может пролить свет на проблему. При этом обмен данными очень интенсивный.
Не знаю что предпринять дальше. Как определить проблему?
начинаю отчаиваться