URL: https://www.opennet.me/cgi-bin/openforum/vsluhboard.cgi
Форум: vsluhforumID1
Нить номер: 86784
[ Назад ]

Исходное сообщение
"Виснет сервер. Не могу найти причину. Диагностировал так...."

Отправлено littleadmin , 02-Окт-09 10:40 
Виснет намертво. Под нагрузкой. КОгда проработает примерно сутки. Приложение - самописный сервис запущенный от имени непревилигированного пользователя. la достигает 7. Раньше сталкивался что сервера висли - дык хоть пинговались при этом. Сам не доступен но пингуется. Тут нет...
Сервер железо
Intel(R) Core(TM) i7 CPU         920  @ 2.67GHz
мать     MSI X58 Platinum
.
Стоит Suse 11.1 x64
Памяти 6гб


Виснет ни с того ни с сего. В логах ничего нет подозрительного. Стандартные сообщения от крона и от служб.

dmesg пока не зависла тоже не выдает никаких ошибок.

Певрое что сделал - стал мониторить память - думал заканчивается.... Свап сделал 15 гигов. Мониторил в том числе запустив top и просто раз в секунду cat /proc/meminfo >> /root/meminfo.
Память не заканчивается.

Потом думал что перегрев или по питанию проблемы
стал монитоить
3.3V:        +3.36 V
Vcore:       +1.06 V  (max =  +2.04 V)  
Vdimm:       +0.13 V
Vchip:       +0.05 V
+5V:         +5.12 V
12V:        +14.06 V
5VSB:        +0.38 V
3VSB:        +3.33 V
Battery:     +3.25 V
CPU:        2835 RPM
System:        0 RPM  ALARM
Power:         0 RPM  ALARM
Aux:         996 RPM
CPU:         +29.0°C  (high = +255.0°C, hyst = +251.0°C)  
                      (crit = +255.0°C, hyst = +251.0°C)  sensor = Intel PECI
System:      +60.0°C  (high = +255.0°C, hyst = +251.0°C)  
                      (crit = +255.0°C, hyst = +251.0°C)  sensor = transistor

В общем температура системы не превышает 65 градусов. Процессор (специально его грел многопоточными вычислениями) греется до72 градусов не больше...

Машинка стоит в ДЦ за 500 км. Приехать туда не могу, КВМ не подключить. Реален только ребут по питанию.

Ошибок ifconfig тоже не выдает никаких.

Обновил ядро до последнео из vanilla - результат тотже. Виснет. Причем один раз было так, я добавил парамметр apci=noirq тогда машина один раз самопроизвольно перезагрузилась. почему - непонятно.. В остальные разы тоже зависала.

Да - когда есть нагрузка мой демон берет данные по сети с NFS хранилища - если это както может пролить свет на проблему. При этом обмен данными очень интенсивный.

Не знаю что предпринять дальше. Как определить проблему?
начинаю отчаиваться


Содержание

Сообщения в этом обсуждении
"Виснет сервер. Не могу найти причину. Диагностировал так...."
Отправлено PavelR , 02-Окт-09 12:30 

>Обновил ядро до последнео из vanilla - результат тотже.

ИМХО зря.


Дистрибутив ?


"Виснет сервер. Не могу найти причину. Диагностировал так...."
Отправлено littleadmin , 02-Окт-09 18:31 
>
>>Обновил ядро до последнео из vanilla - результат тотже.
>
>ИМХО зря.
>
>
>Дистрибутив ?

SuSE 11.1


"Виснет сервер. Не могу найти причину. Диагностировал так...."
Отправлено littleadmin , 02-Окт-09 18:32 
>>
>>>Обновил ядро до последнео из vanilla - результат тотже.
>>
>>ИМХО зря.
>>
>>
>>Дистрибутив ?
>
>SuSE 11.1

Зря не зря, но надо было исключить стандартную сборку ядра из комплекта поставки.
Ничего не дало. Проблема зависания не исчезла



"Виснет сервер. Не могу найти причину. Диагностировал так...."
Отправлено sHaggY_caT , 05-Окт-09 01:41 

>Да - когда есть нагрузка мой демон берет данные по сети с
>NFS хранилища - если это както может пролить свет на проблему.
>При этом обмен данными очень интенсивный.
>
>Не знаю что предпринять дальше. Как определить проблему?
>начинаю отчаиваться

У нас была похожая проблема(но на RedHat платформе), решили отказом от NFS (v3).
Какие-либо запощенные баги по этому поводу мне не известны.

Сейчас используем параллельную фс (gpfs), все хорошо