URL: https://www.opennet.me/cgi-bin/openforum/vsluhboard.cgi
Форум: vsluhforumID13
Нить номер: 907
[ Назад ]

Исходное сообщение
"Zabbix, мониторинг нестабильных хостов"

Отправлено prodvi , 06-Июл-15 10:48 
Друзья, приветствую!
В качестве мониторинг-сервера используется Zabbix, но есть хосты, которые часто падают и поднимаются, в нагиосе есть настройка дополнительной проверки данных хостов, чтобы исключить "холостые" письма на почту, в заббиксе же не могу найти подобного.
Подскажите как сделать так, чтобы при падении хоста он не сразу слал письмо, а к примеру после 2-3х проверок через N-сек, либо хотя бы просто после N-ого кол-ва проверок через заданный в шаблоне ping интервал

Содержание

Сообщения в этом обсуждении
"Zabbix, мониторинг нестабильных хостов"
Отправлено alex , 06-Июл-15 18:07 
> Друзья, приветствую!
> В качестве мониторинг-сервера используется Zabbix, но есть хосты, которые часто падают
> и поднимаются, в нагиосе есть настройка дополнительной проверки данных хостов, чтобы
> исключить "холостые" письма на почту, в заббиксе же не могу найти
> подобного.
> Подскажите как сделать так, чтобы при падении хоста он не сразу слал
> письмо, а к примеру после 2-3х проверок через N-сек, либо хотя
> бы просто после N-ого кол-ва проверок через заданный в шаблоне ping
> интервал

http://blog.zabbix.com/no-more-flapping-define-triggers-the-.../


"Zabbix, мониторинг нестабильных хостов"
Отправлено Andrey Mitrofanov , 06-Июл-15 18:52 
>> бы просто после N-ого кол-ва проверок через заданный в шаблоне ping
>> интервал
> blog.zabbix.com/no-more-flapping-define-triggers-the-smart-way/1488/

Там опечатка в
({TRIGGER.VALUE}=1 & {Oracle DB1:system.cpu.load.min(10m)} > 0.5)

, либо
({TRIGGER.VALUE}=1 & {Oracle DB1:system.cpu.load.max(10m)} > 0.5)

, либо [min() не нужен]
({TRIGGER.VALUE}=1 & {Oracle DB1:system.cpu.load.last(0)} > 0.5)

++https://www.zabbix.com/documentation/2.2/manual/config/trigg...


"Zabbix, мониторинг нестабильных хостов"
Отправлено Аноним , 11-Июл-15 05:41 
>> blog.zabbix.com/no-more-flapping-define-triggers-the-smart-way/1488/
> Там опечатка в
> ({TRIGGER.VALUE}=1 & {Oracle DB1:system.cpu.load.min(10m)} > 0.5)

тут всё правильно. Если была проблема и минимальная загрузка всё ещё выше 0.5 - продолжаем считать дела дрянью. Что там в максимуме нам не интересно.
> , либо
> ({TRIGGER.VALUE}=1 & {Oracle DB1:system.cpu.load.max(10m)} > 0.5)

и так можно, но тут как раз интересен максимум ...
> , либо [min() не нужен]
> ({TRIGGER.VALUE}=1 & {Oracle DB1:system.cpu.load.last(0)} > 0.5)

а вот так нельзя, Ыгсперт :)  иначе вся твоя anti-flap техника пойдёт по боку, и тригер будет флапать :)

PS: Превед от тупых BSD-шнегов :)  



"Zabbix, мониторинг нестабильных хостов"
Отправлено Andrey Mitrofanov , 11-Июл-15 09:53 
>> Там опечатка в
>> ({TRIGGER.VALUE}=1 & {Oracle DB1:system.cpu.load.min(10m)} > 0.5)
> тут всё правильно.
>> , либо [min() не нужен]
>> ({TRIGGER.VALUE}=1 & {Oracle DB1:system.cpu.load.last(0)} > 0.5)
> а вот так нельзя, Ыгсперт :)  иначе вся твоя anti-flap техника
> пойдёт по боку, и тригер будет флапать :)

Не будет. Я тебе как профессионал говорю. Обяснять надо?

> PS: Превед от тупых BSD-шнегов :)

Это успех! Популярность моя растёт. Над аудиторией надо работать.


"Zabbix, мониторинг нестабильных хостов"
Отправлено Аноним , 11-Июл-15 18:27 
>>> ({TRIGGER.VALUE}=1 & {Oracle DB1:system.cpu.load.last(0)} > 0.5)
>> а вот так нельзя, Ыгсперт :)  иначе вся твоя anti-flap техника
>> пойдёт по боку, и тригер будет флапать :)
> Не будет. Я тебе как профессионал говорю. Обяснять надо?

Надо!
Только учти - я (гад такой, беесдешнег) заметил что в предыдущих формулах у тебя агрегат на 10 минутах, а тут last(0) ... и > того же самого 0.5 :-)

Теперь начинай объяснять, профессионал :)


>> PS: Превед от тупых BSD-шнегов :)
> Это успех! Популярность моя растёт. Над аудиторией надо работать.

Неее - это судьба. Вот говорят Вилли Токарев хотел в опере петь, а всю жизнь пропел для зеков :) Не ты выбираешь аудиторию, в СССР аудитория выбирает тебя :)


"Zabbix, мониторинг нестабильных хостов"
Отправлено Andrey Mitrofanov , 11-Июл-15 21:28 
>>>> ({TRIGGER.VALUE}=1 & {Oracle DB1:system.cpu.load.last(0)} > 0.5)
>>> а вот так нельзя, Ыгсперт :)  иначе вся твоя anti-flap техника
>>> пойдёт по боку, и тригер будет флапать :)
>> Не будет. Я тебе как профессионал говорю. Обяснять надо?
> Надо!
> Только учти - я (гад такой, беесдешнег) заметил что в предыдущих формулах
> у тебя агрегат на 10 минутах, а тут last(0) ... и
> > того же самого 0.5 :-)
> Теперь начинай объяснять, профессионал :)

Да, на здоровье. Тебе ещё никто не говорил, что меня толкачём в ступе ловить - себе дороже. Ну, ещё скажут, не вечер.

Итак,
исходный триггер (формула оного):

({TRIGGER.VALUE}=0 & {Oracle DB1:system.cpu.load.min(5m)} > 2)
|
({TRIGGER.VALUE}=1 & {Oracle DB1:system.cpu.load.min(10m)} > 0.5)

Предлагаемый мной ваниант (с моим вторым вариантом второй половины):

({TRIGGER.VALUE}=0 & {Oracle DB1:system.cpu.load.min(5m)} > 2)
|
({TRIGGER.VALUE}=1 & {Oracle DB1:system.cpu.load.max(10m)} > 0.5)

Для б3дэшников, вот прямо так на пальцах: исходно триггер в OK ({TRIGGER.VALUE}=0) на последовательности [сверху вниз!] вх.хначений (с опросом, скажем раз в минуту), например,


0 0 0 0 0 0 0.01 0.1 1 2
3 5 5 5 5 5 5 5 5 5
5(*) 5 5 5 5 5 5 4 3 2
1 0.1 0.01 0 0 0 0 0 0 0
0(**) 0 0 0 0 0 0

Мой триггер включится(PROBLEM) после отсчёта с отметкой(*) и выключится(ОК) - после (**). Или как-то около того.

Оставляю в качестве упражнения Вам, коллега, привести состояние и/или последовательность событий, при котором(-ых) триггер с моей формулой будет "флапать", ну, скажем чаще, чем раз в 9 минут. И да, поменять ">0.5" на ">{$NN}", где {$NN} > 2, _не_предлагать_.

Также в качестве упражнения можете убедиться в правильности моего утверждения, что исходный триггер (тот, что с опечатной - в статье) будет вести себя _ровно_ так же, как оне же с .min(10m) заменённым на .last(0).

Успехов!

>>> PS: Превед от тупых BSD-шнегов :)
>> Это успех! Популярность моя растёт. Над аудиторией надо работать.
> Неее - это судьба. Вот говорят Вилли Токарев хотел в опере петь,
> а всю жизнь пропел для зеков :) Не ты выбираешь аудиторию,
> в СССР аудитория выбирает тебя :)

Опера? Петь? Я подумаю!!


"Zabbix, мониторинг нестабильных хостов"
Отправлено karapet.ag , 07-Июл-15 09:51 
> Подскажите как сделать так, чтобы при падении хоста он не сразу слал
> письмо, а к примеру после 2-3х проверок через N-сек, либо хотя
> бы просто после N-ого кол-ва проверок через заданный в шаблоне ping
> интервал

Посмотрите на эскалации https://www.zabbix.com/documentation/2.2/ru/manual/config/no...