Есть
Нагиос 3.0.5
Линукс ядро 2.6.18
До определенного момента все работало отлично
Потом перестали работать проверкиСейчас нагиос после запуска работает от 2 часов до примерно суток, потом перестает проверять хосты и писать в логи
Заметил вот что:
ps ax | grep nagios
19871 ? Sl 0:43 /usr/local/nagios/bin/nagios /etc/nagios/nagios.cfg
29330 ? S 0:00 /usr/local/nagios/bin/nagios /etc/nagios/nagios.cfg
22830 ? 0:00 nagios(defunc)После killall -9 nagios и запуска работает опять пару часов без нареканий.
В логах ничего нет на эту тему.
>Есть
>Нагиос 3.0.5
>Линукс ядро 2.6.18До определенного момента все работало отлично
Потом перестали работать проверкиСейчас нагиос после запуска работает от 2 часов до примерно суток, потом
перестает проверять хосты и писать в логиЗаметил вот что:
ps ax | grep nagios
19871 ? Sl 0:49 /usr/local/nagios/bin/nagios /etc/nagios/nagios.cfg
7295 ? S 0:00 /usr/local/nagios/bin/nagios /etc/nagios/nagios.cfg
7296 ? Z 0:00 [nagios] <defunct>
После killall -9 nagios и запуска работает опять пару часов без нареканий.В логах ничего нет на эту тему.
>До определенного момента все работало отлично
>Потом перестали работать проверкиЧудес не бывает. Что-то всё-таки поменялось. Апгрейд? Новые плугины прикрутили? Чем больше информации предоставите, тем больше вероятность что найдём причину проблемы.
И желательно показать логи нагиоса в период времени близкий к падению (+/- 15 минут до падения).
>>До определенного момента все работало отлично
>>Потом перестали работать проверки
>
>Чудес не бывает. Что-то всё-таки поменялось. Апгрейд? Новые плугины прикрутили? Чем больше
>информации предоставите, тем больше вероятность что найдём причину проблемы.
>И желательно показать логи нагиоса в период времени близкий к падению (+/-
>15 минут до падения).Не помню уже. С нагиосом ничего нового не делал,да и с сервером в общем тоже(добавил 2 хоста в мртг мониторинг)
Сначала падал редко - раз в неделю.
регулярно вижу еще вот что в консоли, в логи не кидает
*** glibc detected *** double free or corruption (out): 0x082400c0 ***Логи нагиоса в момент падения - стандартны. Просто после падения он перестает в них писать. Каждую неделю в нагиос добавляется штук 5 хостов(простой пинг)
После появления проблемы убрал snmp проверки со свичей. Ничего не изменилось.
Всего 540 хостов, машинка не нагружена
>[оверквотинг удален]
>Сначала падал редко - раз в неделю.
>регулярно вижу еще вот что в консоли, в логи не кидает
>*** glibc detected *** double free or corruption (out): 0x082400c0 ***
>
>Логи нагиоса в момент падения - стандартны. Просто после падения он перестает
>в них писать. Каждую неделю в нагиос добавляется штук 5 хостов(простой
>пинг)
>
>После появления проблемы убрал snmp проверки со свичей. Ничего не изменилось.
>Всего 540 хостов, машинка не нагруженаКак у нагиоса с памятью? Не выжирает ли его процесс всё что есть на машине (подозрение на memory leak или ограничения по ulimit для юзера, под которым крутится нага)? Что ещё крутится на этой машине кроме самого нагиоса? Всем памяти хватает?
Ещё одна версия (судя по тому что стал валиться только после некоторого момента времени) - проблемы с планками памяти на машине (маловероятно, иначе крашился бы не только нагиос).
Ну, и самое вероятное - просто подвисает один из плугинов (то ли от бага в плугине, то ли от большово количества инстансов этого плугина, запушенных одновременно). Все плугины стандартные? Самописные? Хорошо было бы отследить по истории падений что именно выполнялось в последние минуты жизни наги - может там есть закономерность.
>[оверквотинг удален]
>для юзера, под которым крутится нага)? Что ещё крутится на этой
>машине кроме самого нагиоса? Всем памяти хватает?
>Ещё одна версия (судя по тому что стал валиться только после некоторого
>момента времени) - проблемы с планками памяти на машине (маловероятно, иначе
>крашился бы не только нагиос).
>Ну, и самое вероятное - просто подвисает один из плугинов (то ли
>от бага в плугине, то ли от большово количества инстансов этого
>плугина, запушенных одновременно). Все плугины стандартные? Самописные? Хорошо было бы отследить
>по истории падений что именно выполнялось в последние минуты жизни наги
>- может там есть закономерность.Кроме нагиоса там апач, мускуль с небольшой базой, php. Ну и рисуется несколько мртг графиков со свичей.
Памяти свободной - чуть больше гига всегда. Это постоянно рисуется тем же мртг.
Падает только нагиос
Плугины стандартные, ручками дописаны только notifications(чтобы на смс слало), но в момент падения - эти вещи еще не разу не срабатывали.
Закономерность попробую поискать, но мне кажется ее нет.
>Плугины стандартные, ручками дописаны только notifications(чтобы на смс слало), но в момент
>падения - эти вещи еще не разу не срабатывали.
>Закономерность попробую поискать, но мне кажется ее нет.Ну что ж, поскольку идей больше никаких - остаётся предположить баг в самом нагиосе. Тока непонятно почему он проявился только спустя некоторое время. Может зависит от количества машин, которые мониторятся. Предлагаю проапдейтить нагиос до latest & greatest.
а что параметры типа notification_options в define service не работают?