Уважаемые коллеги, возникла странная проблема. Большая просьба помочь разобраться.Есть сервер, двухпроцессорный старый Intel(R) Xeon(TM) CPU 2.80GHz. На данную машину остановлен CentOS 5.3. В качестве основного приложения - nagios.
Так вот, начали появляться очень нездоровые вещи в логах нагиоса, а именно:
[05-14-2009 09:26:10] SERVICE ALERT: alpha.xxx.ru;PING - High Availability;OK;SOFT;2;PING OK - Packet loss = 0%, RTA = 0.40 ms
Service Ok[05-14-2009 09:25:50] SERVICE ALERT: mskxx;PING - High Availability;OK;SOFT;3;PING OK - Packet loss = 0%, RTA = 1.81 ms
Service Warning[05-14-2009 09:25:10] SERVICE ALERT: alpha.xxx.ru;PING - High Availability;WARNING;SOFT;1;PING WARNING - DUPLICATES FOUND! Packet loss = 0%, RTA = 0.39 ms
Service Warning[05-14-2009 09:24:50] SERVICE ALERT: mskxx;PING - High Availability;WARNING;SOFT;2;PING WARNING - DUPLICATES FOUND! Packet loss = 0%, RTA = 2.00 ms
Service Warning[05-14-2009 09:23:50] SERVICE ALERT: mskxx;PING - High Availability;WARNING;SOFT;1;PING WARNING - DUPLICATES FOUND! Packet loss = 0%, RTA = 1.91 msЯ озаботился, начал рыться в сети. Думал где-то петля нарисовалась или еще что-то. Но анализ показал, что сетью, суть с коммутаторами - все нормально...
Единственно, что удалось заметить, что большинство таких алертов приходится на время, когда сервер на котором крутится нагиос - находится под нагрузкой, т.е. на нем появляются nx-сессии и т.п.
Просьба помочь разобраться...
>[оверквотинг удален]
>
>Я озаботился, начал рыться в сети. Думал где-то петля нарисовалась или еще
>что-то. Но анализ показал, что сетью, суть с коммутаторами - все
>нормально...
>
>Единственно, что удалось заметить, что большинство таких алертов приходится на время, когда
>сервер на котором крутится нагиос - находится под нагрузкой, т.е. на
>нем появляются nx-сессии и т.п.
>
>Просьба помочь разобраться...Коллеги, подскажите хотя бы куда рыть...
Wi-fi там по пути нигде нет? DUPы очень уж для него характерны.
>Wi-fi там по пути нигде нет? DUPы очень уж для него характерны.
>Нет! Совершенно, чистая L2-сеть. Куда еще можно покопать?
>>Wi-fi там по пути нигде нет? DUPы очень уж для него характерны.
>>
>
>Нет! Совершенно, чистая L2-сеть. Куда еще можно покопать?Здравствуйте,
навскидку могу предположить 2 варианта (бездоказательные догадки, но, думаю, стоят рассмотрения чисто ради перебора всех возможных вариантов):
1. (очень маловероятно) пинг на broadcast-адреса;
2. у Вас в сети несколько машин с одинаковыми адресами; проверить можно по МАС-адресам:
arp -a | grep <ip_address>
respect,
ronin
>>Wi-fi там по пути нигде нет? DUPы очень уж для него характерны.
>>
>
>Нет! Совершенно, чистая L2-сеть. Куда еще можно покопать?Да, кстати, а к чему здесь "High Availability"?
Это "жжж..." неспроста.... (c) Винни-Пух.
Если у Вас в сети реально используется какое-либо High Availability решение на уровне сети, то скорее всего это из-за него дубликаты пингов (тоесть, работают несколько тачек с одинаковым адресом, но только одна из них должна отгавкиваться на любые обращения (та, которая активна); все standby-машины должны молчать и ждать пока активная рухнет).
Тоесть, получается, где-то нахомутали с этим High Availability...respect,
ronin
>[оверквотинг удален]
>
>Если у Вас в сети реально используется какое-либо High Availability решение на
>уровне сети, то скорее всего это из-за него дубликаты пингов (тоесть,
>работают несколько тачек с одинаковым адресом, но только одна из них
>должна отгавкиваться на любые обращения (та, которая активна); все standby-машины должны
>молчать и ждать пока активная рухнет).
>Тоесть, получается, где-то нахомутали с этим High Availability...
>
>respect,
>roninСпасибо за оказанную помощь! Но одинаковых ip - нет. Нет также и машин с одинаковыми маками. Так же в прямом смысле - нет и никаких vrrp, heart-beat`ов.
Просто профиль, который в нагиосе - назван так по причине высоких требований к данной проверке, т.е. он должен начинать ругаться при 3 процентах потерь и rtt=150.
Но он почему-то ругается на dup`ы!
>Спасибо за оказанную помощь! Но одинаковых ip - нет. Нет также и
>машин с одинаковыми маками. Так же в прямом смысле - нет
>и никаких vrrp, heart-beat`ов.
>
>Просто профиль, который в нагиосе - назван так по причине высоких требований
>к данной проверке, т.е. он должен начинать ругаться при 3 процентах
>потерь и rtt=150.
>
>Но он почему-то ругается на dup`ы!Тогда могу предположить только баг в самом нагиос-плугине (check_ping или check_icmp - кстати, можете поменять один на другой - вдруг поможет). Особенно с учётом того, что проявляется такое поведение только при большой нагрузке на Нагиос-машину.
respect,
ronin
>[оверквотинг удален]
>>Но он почему-то ругается на dup`ы!
>
>Тогда могу предположить только баг в самом нагиос-плугине (check_ping или check_icmp -
>кстати, можете поменять один на другой - вдруг поможет). Особенно с
>учётом того, что проявляется такое поведение только при большой нагрузке на
>Нагиос-машину.
>
>
>respect,
>roninДа... спасибо. Попробую. Однако, как-то странно, т.к. нагиос детектит дупы только на определенные дейвайсы, среди них - два каталиста 2924-XL и один dlink DES-3526...
PS Кто бы помог... т.к. вручную, пинг из шела - не детектил ни разу ни одного дупа... Cry!
>[оверквотинг удален]
>>respect,
>>ronin
>
>Да... спасибо. Попробую. Однако, как-то странно, т.к. нагиос детектит дупы только на
>определенные дейвайсы, среди них - два каталиста 2924-XL и один dlink
>DES-3526...
>
>
>PS Кто бы помог... т.к. вручную, пинг из шела - не детектил
>ни разу ни одного дупа... Cry!Была аналогичная проблема. При этом никаких петель не было. С чем она связана неизвестно)
>[оверквотинг удален]
>>Да... спасибо. Попробую. Однако, как-то странно, т.к. нагиос детектит дупы только на
>>определенные дейвайсы, среди них - два каталиста 2924-XL и один dlink
>>DES-3526...
>>
>>
>>PS Кто бы помог... т.к. вручную, пинг из шела - не детектил
>>ни разу ни одного дупа... Cry!
>
>Была аналогичная проблема. При этом никаких петель не было. С чем она
>связана неизвестно)попробуйте пропинговать с *nix машины в режиме суперпользователя ваш проблемный хост такой командой:
ping -c 10000 -f ip.addr.v4у Вас будут дупликаты! (как минимум 1), т.о. могу наверняка сказать что проблема не в скриптах Nagios, в чем именно - тоже определяюсь
>[оверквотинг удален]
>>Была аналогичная проблема. При этом никаких петель не было. С чем она
>>связана неизвестно)
>
>попробуйте пропинговать с *nix машины в режиме суперпользователя ваш проблемный хост такой
>командой:
>ping -c 10000 -f ip.addr.v4
>
>у Вас будут дупликаты! (как минимум 1), т.о. могу наверняка сказать что
>проблема не в скриптах Nagios, в чем именно - тоже определяюсь
>Хмм... спасибо но это простой флуд пинг, что он в таком случае должен выявить? Я слышал, что проблема с дупами наблюдалась в ранних bsd-like системах... вероятно очень голословно заявляю.
Но ничего более путного не могу придумать...
Сегодня столкнулся с такой же проблемой. OS FreeBSD 8.2.
Оказалось все достаточно просто:
pid стал больше 65535, из-за этого начал таким вот образом глючить Nagios.
> Сегодня столкнулся с такой же проблемой. OS FreeBSD 8.2.
> Оказалось все достаточно просто:
> pid стал больше 65535, из-за этого начал таким вот образом глючить Nagios.Хммм... интересно. Спасибо за информацию...