The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]



"Раздел полезных советов: Полезные пакеты, которые следует установить на сервер для диагностики сбоев"
Вариант для распечатки  
Пред. тема | След. тема 
Форум Разговоры, обсуждение новостей
Изначальное сообщение [ Отслеживать ]

"Раздел полезных советов: Полезные пакеты, которые следует установить на сервер для диагностики сбоев"  +/
Сообщение от auto_tips (ok), 28-Мрт-24, 13:47 
Минимальный набор пакетов  для диагностики проблем, которые желательно заранее установить на серверы, чтобы не тратить время на установку дополнительных пакетов или поиск специализированных live-дистрибутивов.

Установка диагностических утилит во время сбоя может превратиться в решение отдельной проблемы или потребовать много времени,  учитывая то, что во время сбоя может пропадать сетевое соединение, возникнуть проблемы с DNS, наблюдаться большие потери пакетов или снижение полосы пропускания, возникать большие задержки ввода команд из-за высокой нагрузки на CPU или исчерпания памяти, дисковый раздел может быть переведён в режим только для чтения и т.п.

Список пакетов для предустановки (названия для Ubuntu) и поставляемые в них диагностические утилиты:

** procps - утилиты ps, vmstat, uptime, top
** util-linux -    dmesg, lsblk, lscpu (общая статистика, информация о блочных устройствах и CPU)
** sysstat - iostat, mpstat, pidstat, sar (оценка производительности)
** iproute2 - ip, ss, nstat, tc (настройка сети и управление трафиком)
** numactl - numastat (статистика по NUMA)
** tcpdump - tcpdump (анализ трафика)
** linux-tools-common и linux-tools-$(uname -r) - perf, turbostat (профилировние и мониторинг производительности)
** bpfcc-tools (bcc) - opensnoop, execsnoop, runqlat, softirqs,
hardirqs, ext4slower, ext4dist, biotop, biosnoop, biolatency, tcptop, tcplife, trace, argdist, funccount, profile (диагностика на базе eBPF)
** bpftrace - bpftrace, opensnoop, execsnoop, runqlat, biosnoop  (диагностика на базе eBPF)
** trace-cmd -     trace-cmd (CLI-интерфейс для ftrace)
** nicstat - nicstat (информация о сетевых устройствах)
** ethtool - ethtool (информация о сетевых устройствах)
** tiptop  - tiptop (PMU/PMC top)
** cpuid - cpuid (информация о CPU)
** msr-tools - rdmsr, wrmsr (информация о CPU)

   sudo apt install procps util-linux sysstat iproute2  numactl tcpdump linux-tools-common  linux-tools-$(uname -r) bpfcc-tools  bpftrace trace-cmd nicstat  ethtool tiptop cpuid  msr-tools


URL: https://www.brendangregg.com/blog/2024-03-24/linux-crisis-to...
Обсуждается: http://www.opennet.me/tips/info/3246.shtml

Ответить | Правка | Cообщить модератору

Оглавление

Сообщения [Сортировка по ответам | RSS]

1. Сообщение от Нормальный (ok), 28-Мрт-24, 13:47   +3 +/
Набор пакетов, которые следует установить автору этого топика,и не более того.
> sudo apt install

Ну прям универсальное средство для _ВСЕХ_ серверов.

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #4

2. Сообщение от Аноним (2), 28-Мрт-24, 20:07   +2 +/
Кто помнит Финогенова. Похожая книжка могла бы иметь успех: для юзера обзор всех Busybox, Linuxutil и идеи использования. Смузики потонут в осадок.

И как вишенка - настройка MC со своими персональными модулями на шелл поверх всего...

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #9

3. Сообщение от Аноним (3), 02-Апр-24, 12:01   +/
iproute2: Как вообще сервер без этого обходится?
Ответить | Правка | Наверх | Cообщить модератору
Ответы: #15

4. Сообщение от Николай (??), 04-Апр-24, 11:39   +/
Возможно у ТС все сервера на ubuntu.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #1

6. Сообщение от Аноним (6), 07-Апр-24, 14:50   +/
> Минимальный набор пакетов  для диагностики проблем, которые желательно заранее

установить на серверы, чтобы не тратить время на установку дополнительных
пакетов или поиск специализированных live-дистрибутивов.


Пфф... зачем так сложо?

Ответить | Правка | Наверх | Cообщить модератору

7. Сообщение от Аноним (7), 10-Апр-24, 00:44   +4 +/
Что-ж вы все такие злые!
Молодой админ открыл для себя мощные утилиты линукса и спешит поделиться новым знанием. Что в этом зазорного?
Можно подумать, что комментаторы сразу родились со знанием iproute2 и tcpdump.
Ответить | Правка | Наверх | Cообщить модератору
Ответы: #8

8. Сообщение от Аноним (8), 10-Апр-24, 06:44   +6 +/
Нет, это админ старой закалки открыл для себя, что куча нужных и полезных утилит теперь выпилены по умолчанию из системы и их нужно ставить отдельно.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #7 Ответы: #10

9. Сообщение от Мимосисадмин (?), 11-Апр-24, 19:25   +/
> И как вишенка - настройка MC со своими персональными модулями на шелл поверх всего

Главнее всего, чтоб не "персональными модулями на поверх шелл", остальное можно принять

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #2

10. Сообщение от Аноним (10), 15-Апр-24, 12:59   +/
Выпилены потому что в современном мире на фиг не нужны на большинстве серверов.

Зачем вам в EC2 инстансе cpuid или numastat?

ps/vmstat/top - ок, а теперь возьмите типичный современный стейджинг или подакшен с БД в rds и всем остальным в контейнерах в EKS или другом managed kubernetes, куда/где/как вы получите хоть какие осмысленные результаты этими утилитами?

Я совершенно не против всех этих утилит. Но мир, блин, изменился. 20 лет назад было ок "сервер торомозит, зайди и глянь что там не так". Сегодня это "вчера с 5 до 7 утра по GMT у нас > 5% клиентам отдавалась 500 ошибка, и алерты по метрикам задержек, давайте выясним что это было и как сделать, чтобы больше так не было". И что вы с ps / vmstat будете смотреть вчера? А в реальном времени ни у каких разрабочиков и админов нет времени смотреть туда, есть SRE анализирующий мониторинг и алерты, которые делаются совершенно не этими утилитами. И которые позволяют понять что произошло вчера намного быстрее и точнее, чем медитация над тоннами цифр которые выдаст sar с различными ключиками или срезов atop или что там любит админ старой закалки. Может ему графики нравится смотреть и он вкатил какой-нибудь легкий cacti. Только увы к какому-нибудь pagerduty оно не прикручено, поэтому то, на что смотрит конкретно тот админ, никак не координируется с командой.

А если у нас админ старой закалки у которого локалхост в чулане (NB: я никого не пытаюсь обидеть, у меня самого 3 сервера дома в чулане), то наверное он и так знает, как это все поставить.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #8 Ответы: #11, #14

11. Сообщение от Аноним (11), 16-Апр-24, 11:36   +3 +/
Напиши свою статью, аноним, с изложением своей версии того, как делать мониторинг.

То есть, о том, что "мир изменился" ты прав, но во-первых, у утилит нового мира внутри те же самые top, sysstat, vmstat.

>алерты, которые делаются совершенно не этими утилитами

А чем? Куча этих самых мониторингов -- это же те же самые обвязки над олдовыми утилитами.

>EC2 инстансе, в контейнерах в EKS или другом managed kubernetes

Хм. Я бы, конечно, не против EC2, EKS, и тому подобного, но у нас airgapped система. Как мне быть?

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #10

12. Сообщение от Аноним (12), 23-Апр-24, 09:06   +/
iotop
Ответить | Правка | Наверх | Cообщить модератору

13. Сообщение от Аноним (13), 23-Апр-24, 11:37   +/
Не совсем для сбоев, но рекомендую также ставить vnstat. Иногда очень полезно посмотреть динамику по занятости каналов. Главное ставить его заранее, чтобы статистика по трафику уже была к тому момент, когда она понядобится.
В паре с реалтаймовым мониторингом в bmon получается очень даже хорошо.

И то и другое у меня ставится на все новые сервера даже несмотря на то, что в параллель по сути те же метрики экспортируются ещё и в prometheus. Однако, локально на сервере смотреть числа выходит гораздо удобнее.

Ответить | Правка | Наверх | Cообщить модератору

14. Сообщение от ant2 (?), 24-Апр-24, 10:17   +/
Мир изменился потому что "вчера с 5 до 7 утра по GMT у нас > 5% клиентам отдавалась 500 ошибка, и алерты по метрикам задержек, давайте выясним что это было и как сделать, чтобы больше так не было" теперь как бы норма.
Раньше был бы звонок админу в 5:03 по GMT что Вася из Зарюпинска не может работать и Маша тоже жалуется. И чтобы исправил, иначе за что тебе деньги платят.
А сейчас да, проснувшись и сладко потянувшись можно днём покумекать чего там больше 5% клиентов два часа утром матерились.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #10 Ответы: #16, #17

15. Сообщение от Аноним (15), 28-Апр-24, 02:29   –1 +/
Легко если обработка идет вне сетевой подсистемы Linux
Только время терять на все это ваше
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #3

16. Сообщение от Аноним (15), 28-Апр-24, 02:32   –1 +/
>  Мир изменился потому что "вчера с 5 до 7 утра по
> GMT у нас > 5% клиентам отдавалась 500 ошибка, и алерты
> по метрикам задержек, давайте выясним что это было и как сделать,
> чтобы больше так не было" теперь как бы норма.
>  Раньше был бы звонок админу в 5:03 по GMT что Вася
> из Зарюпинска не может работать и Маша тоже жалуется. И чтобы
> исправил, иначе за что тебе деньги платят.
>  А сейчас да, проснувшись и сладко потянувшись можно днём покумекать чего
> там больше 5% клиентов два часа утром матерились.

Если предприятие работает вне часовой зоны ИТ отдела, то нанимают
дежурных инженеров работающих 24/7 и не долбят мозг главному инженеру,
а решают вопросы с закончившимся местом, отвалившимся коннектом,
ошибкой маршрута самостоятельно, а вот если вопрос серьезный, то
тогда уже оформляют как положено баг репорт и решают в штатном порядке
в рабочее время.


При распределенной команде кстати есть шанс что ошибку отловят и исправят
и вообще в тот же час разработчики из тойже часовой зоны.

Вообще распределенка сэры давно с удаленкой...

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #14 Ответы: #18

17. Сообщение от Tron is Whistling (?), 18-Май-24, 18:41   +/
> А сейчас да, проснувшись и сладко потянувшись можно днём покумекать чего там больше 5% клиентов два часа утром матерились.

И то только покумекать, потому что индусский саппорт какого-нибудь Emc2 будет спать ещё часа 4, и только потом заявку примет.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #14

18. Сообщение от Tron is Whistling (?), 18-Май-24, 18:42   +/
Тут ожидание и реальность.
Ожидание - удалёнка, дежурная смена, whatever.
Реальность - половина нод завалилась, инженегра два на полставки, и те джуны, потому что архитекта задолбало лопатить за десятерых за полторы зарплаты, и он свалил, whatever.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #16


Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема




Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру