URL: https://www.opennet.me/cgi-bin/openforum/vsluhboard.cgi
Форум: vsluhforumID1
Нить номер: 84038
[ Назад ]

Исходное сообщение
"Проблема с Nagios"

Отправлено Negator , 09-Фев-09 14:36 
Есть
Нагиос 3.0.5
Линукс ядро 2.6.18
До определенного момента все работало отлично
Потом  перестали работать проверки

Сейчас нагиос после запуска работает от 2 часов до примерно суток, потом перестает проверять хосты и писать в логи

Заметил вот что:

ps ax | grep nagios

19871 ? Sl 0:43 /usr/local/nagios/bin/nagios /etc/nagios/nagios.cfg
29330 ? S 0:00 /usr/local/nagios/bin/nagios /etc/nagios/nagios.cfg
22830 ? 0:00 nagios(defunc)

После killall -9 nagios и запуска работает опять пару часов без нареканий.
В логах ничего нет на эту тему.


Содержание

Сообщения в этом обсуждении
"Проблема с Nagios"
Отправлено Negator , 09-Фев-09 15:12 
>Есть
>Нагиос 3.0.5
>Линукс ядро 2.6.18

До определенного момента все работало отлично
Потом  перестали работать проверки

Сейчас нагиос после запуска работает от 2 часов до примерно суток, потом
перестает проверять хосты и писать в логи

Заметил вот что:

ps ax | grep nagios
19871 ?        Sl     0:49 /usr/local/nagios/bin/nagios /etc/nagios/nagios.cfg
7295 ?        S      0:00 /usr/local/nagios/bin/nagios /etc/nagios/nagios.cfg
7296 ?        Z      0:00 [nagios] <defunct>


После killall -9 nagios и запуска работает опять пару часов без нареканий.

В логах ничего нет на эту тему.



"Проблема с Nagios"
Отправлено ronin , 09-Фев-09 18:17 
>До определенного момента все работало отлично
>Потом  перестали работать проверки

Чудес не бывает. Что-то всё-таки поменялось. Апгрейд? Новые плугины прикрутили? Чем больше информации предоставите, тем больше вероятность что найдём причину проблемы.
И желательно показать логи нагиоса в период времени близкий к падению (+/- 15 минут до падения).



"Проблема с Nagios"
Отправлено Negator , 09-Фев-09 18:56 
>>До определенного момента все работало отлично
>>Потом  перестали работать проверки
>
>Чудес не бывает. Что-то всё-таки поменялось. Апгрейд? Новые плугины прикрутили? Чем больше
>информации предоставите, тем больше вероятность что найдём причину проблемы.
>И желательно показать логи нагиоса в период времени близкий к падению (+/-
>15 минут до падения).

Не помню уже. С нагиосом ничего нового не делал,да и с сервером в общем тоже(добавил 2 хоста в мртг мониторинг)
Сначала падал редко - раз в неделю.
регулярно вижу еще вот что в консоли, в логи не кидает
*** glibc detected *** double free or corruption (out): 0x082400c0 ***

Логи нагиоса в момент падения - стандартны. Просто после падения он перестает в них писать. Каждую неделю в нагиос добавляется штук 5 хостов(простой пинг)

После появления проблемы убрал snmp проверки со свичей. Ничего не изменилось.
Всего 540 хостов, машинка не нагружена


"Проблема с Nagios"
Отправлено ronin , 10-Фев-09 10:29 
>[оверквотинг удален]
>Сначала падал редко - раз в неделю.
>регулярно вижу еще вот что в консоли, в логи не кидает
>*** glibc detected *** double free or corruption (out): 0x082400c0 ***
>
>Логи нагиоса в момент падения - стандартны. Просто после падения он перестает
>в них писать. Каждую неделю в нагиос добавляется штук 5 хостов(простой
>пинг)
>
>После появления проблемы убрал snmp проверки со свичей. Ничего не изменилось.
>Всего 540 хостов, машинка не нагружена

Как у нагиоса с памятью? Не выжирает ли его процесс всё что есть на машине (подозрение на memory leak или ограничения по ulimit для юзера, под которым крутится нага)? Что ещё крутится на этой машине кроме самого нагиоса? Всем памяти хватает?
Ещё одна версия (судя по тому что стал валиться только после некоторого момента времени) - проблемы с планками памяти на машине (маловероятно, иначе крашился бы не только нагиос).
Ну, и самое вероятное - просто подвисает один из плугинов (то ли от бага в плугине, то ли от большово количества инстансов этого плугина, запушенных одновременно). Все плугины стандартные? Самописные? Хорошо было бы отследить по истории падений что именно выполнялось в последние минуты жизни наги - может там есть закономерность.


"Проблема с Nagios"
Отправлено Negator1983 , 10-Фев-09 11:57 
>[оверквотинг удален]
>для юзера, под которым крутится нага)? Что ещё крутится на этой
>машине кроме самого нагиоса? Всем памяти хватает?
>Ещё одна версия (судя по тому что стал валиться только после некоторого
>момента времени) - проблемы с планками памяти на машине (маловероятно, иначе
>крашился бы не только нагиос).
>Ну, и самое вероятное - просто подвисает один из плугинов (то ли
>от бага в плугине, то ли от большово количества инстансов этого
>плугина, запушенных одновременно). Все плугины стандартные? Самописные? Хорошо было бы отследить
>по истории падений что именно выполнялось в последние минуты жизни наги
>- может там есть закономерность.

Кроме нагиоса там апач, мускуль с небольшой базой, php. Ну и рисуется несколько мртг графиков со свичей.
Памяти свободной - чуть больше гига всегда. Это постоянно рисуется тем же мртг.
Падает только нагиос
Плугины стандартные, ручками дописаны только notifications(чтобы на смс слало), но в момент падения - эти вещи еще не разу не срабатывали.
Закономерность попробую поискать, но мне кажется ее нет.


"Проблема с Nagios"
Отправлено ronin , 11-Фев-09 10:15 
>Плугины стандартные, ручками дописаны только notifications(чтобы на смс слало), но в момент
>падения - эти вещи еще не разу не срабатывали.
>Закономерность попробую поискать, но мне кажется ее нет.

Ну что ж, поскольку идей больше никаких - остаётся предположить баг в самом нагиосе. Тока непонятно почему он проявился только спустя некоторое время. Может зависит от количества машин, которые мониторятся. Предлагаю проапдейтить нагиос до latest & greatest.


"Проблема с Nagios"
Отправлено pavel4 , 08-Фев-10 13:37 
а что параметры типа notification_options в define service не работают?