URL: https://www.opennet.me/cgi-bin/openforum/vsluhboard.cgi
Форум: vsluhforumID1
Нить номер: 81768
[ Назад ]

Исходное сообщение
"зависание сервера (логи, сбор информации)"

Отправлено demiurg , 31-Авг-08 09:11 
Здравствуйте!

На серверах (7 Штук) работает altlinux master 2.4. Естественно от самого мастера там мало что осталось (большинство пакетов обновлено, ядро собрано 2.4.36).
Несколько недель все работало нормально. Теперь каждую ночь в 4:02 идет зависание двух серверов.
И вот такие чудные логи:

Aug 31 04:02:05 vkufs1_11 pam_tcb[9829]: su: Session opened for cacheman by (uid=0)
Aug 31 04:02:02 vkufs1_11 syslogd: syslogd shutdown succeeded
Aug 31 04:02:03 vkufs1_11 last message repeated 3 times
Aug 31 04:02:05 vkufs1_11 pam_tcb[9829]: su: Session closed for cacheman
Aug 31 04:02:03 vkufs1_11 syslogd: syslogd shutdown succeeded
Aug 31 06:02:22 vkufs1_11 syslogd 1.4.1: restart.
Aug 31 06:02:22 vkufs1_11 syslogd: syslogd startup succeeded
Aug 31 06:02:22 vkufs1_11 kernel: klogd 1.4.1, log source = /proc/kmsg started.
Aug 31 06:02:22 vkufs1_11 klogd: klogd startup succeeded
Aug 31 06:02:22 vkufs1_11 kernel: Inspecting /boot/System.map-2.4.36.arkhangel
Aug 31 06:02:22 vkufs1_11 kernel: Loaded 19891 symbols from


Причем зависание идет на обоих серверах ровно ровно в одно и тоже время.
Начал анализировать проблему. Оказалось в это время выполняются задания anacron (лежат в /etc/cron.daily)
logrotate
cyrus-imapd
makewhatis
stmpclean
sysstat
000anacron
osec
updatedb

Так вот этот пользователь "cacheman" служит для выполнение скрипта makewhatis (индексация man страниц).
Запускал данные задачи самостоятельно - ничего не виснит. Запускал через anacron - все нормально.
Подскажите - может что-нибудь настроить - поставить, чтобы информация о записании стала немного подробнее.
Сомнений в качестве аппаратной части нет. По температуре (процессор, мат. плата) все норма.
Причем стоит заметить,что это происходит только на двух серверах (они отличаются от остальных наличием райд массива 5-ого уровня).

Буду признателен за любую помощь и советы. Как лучше и что настроить, чтобы информация стала более полной (и чтобы лишннего в тоже время не было).
Сейчас на одном из серверов убрал эти задачи и выйду сегодня в ночь - буду ловить зависание. Но сам факт очень странный и непонятный.


Содержание

Сообщения в этом обсуждении
"зависание сервера (логи, сбор информации)"
Отправлено Vaso_Petrovich , 31-Авг-08 13:41 
>Aug 31 04:02:05 vkufs1_11 pam_tcb[9829]: su: Session opened for cacheman by (uid=0)
>
>Aug 31 04:02:02 vkufs1_11 syslogd: syslogd shutdown succeeded
>Aug 31 04:02:03 vkufs1_11 last message repeated 3 times
>Aug 31 04:02:05 vkufs1_11 pam_tcb[9829]: su: Session closed for cacheman
>Aug 31 04:02:03 vkufs1_11 syslogd: syslogd shutdown succeeded

логи побольше запости, нафига постить следствие, когда ищищь причину? или что там написано не понятно? словарь в ноги и переводить до полного понимания...


"зависание сервера (логи, сбор информации)"
Отправлено demiurg , 31-Авг-08 18:14 
Незаархивированная папка /var/log на 12 мегабайт с одного сервера. Какие файлы логов Вы имеете в виду.

Вот еще немного /var/log/kernel/errors

scsi_hostadapter, errno = 2
Aug 30 03:59:42 vkufs1_11 kernel: ipmi_kcs: SPMI table not found.
Aug 30 03:59:46 vkufs1_11 kernel: ldm_validate_partition_table(): Disk read failed.
Aug 30 03:59:46 vkufs1_11 kernel: ldm_validate_partition_table(): Disk read failed.
Aug 30 04:09:15 vkufs1_11 kernel: kmod: failed to exec /sbin/modprobe -s -k scsi_hostadapter, errno = 2
Aug 30 04:09:15 vkufs1_11 kernel: ipmi_kcs: SPMI table not found.
Aug 30 04:09:19 vkufs1_11 kernel: ldm_validate_partition_table(): Disk read failed.
Aug 30 04:09:19 vkufs1_11 kernel: ldm_validate_partition_table(): Disk read failed.
Aug 30 04:45:02 vkufs1_11 kernel: kmod: failed to exec /sbin/modprobe -s -k scsi_hostadapter, errno = 2
Aug 30 04:45:02 vkufs1_11 kernel: ipmi_kcs: SPMI table not found.
Aug 30 04:45:06 vkufs1_11 kernel: ldm_validate_partition_table(): Disk read failed.
Aug 30 04:45:06 vkufs1_11 kernel: ldm_validate_partition_table(): Disk read failed.
Aug 30 09:32:44 vkufs1_11 kernel: kmod: failed to exec /sbin/modprobe -s -k scsi_hostadapter, errno = 2  


И /var/log/syslog/messages

Aug 31 03:54:01 vkufs1_11 crond[9369]: (root) CMD (/usr/bin/diag-time.pl >/dev/null 2>&1)
Aug 31 03:54:01 vkufs1_11 pam_tcb[9367]: crond: Session closed for root
Aug 31 03:56:01 vkufs1_11 pam_tcb[9387]: crond: Session opened for root by (uid=0)
Aug 31 03:56:01 vkufs1_11 crond[9389]: (root) CMD (/usr/bin/diag-time.pl >/dev/null 2>&1)
Aug 31 03:56:01 vkufs1_11 pam_tcb[9387]: crond: Session closed for root
Aug 31 03:58:01 vkufs1_11 pam_tcb[9407]: crond: Session opened for root by (uid=0)
Aug 31 03:58:01 vkufs1_11 crond[9409]: (root) CMD (/usr/bin/diag-time.pl >/dev/null 2>&1)
Aug 31 03:58:01 vkufs1_11 pam_tcb[9407]: crond: Session closed for root
Aug 31 04:00:01 vkufs1_11 pam_tcb[9427]: crond: Session opened for root by (uid=0)
Aug 31 04:00:01 vkufs1_11 crond[9429]: (root) CMD (/usr/bin/diag-time.pl >/dev/null 2>&1)
Aug 31 04:00:01 vkufs1_11 pam_tcb[9427]: crond: Session closed for root
Aug 31 04:01:01 vkufs1_11 pam_tcb[9437]: crond: Session opened for root by (uid=0)
Aug 31 04:01:01 vkufs1_11 crond[9439]: (root) CMD (run-parts /etc/cron.hourly)
Aug 31 04:02:01 vkufs1_11 pam_tcb[9453]: crond: Session opened for root by (uid=0)
Aug 31 04:02:01 vkufs1_11 pam_tcb[9454]: crond: Session opened for root by (uid=0)
Aug 31 04:02:01 vkufs1_11 crond[9457]: (root) CMD (run-parts /etc/cron.daily)
Aug 31 04:02:01 vkufs1_11 crond[9458]: (root) CMD (/usr/bin/diag-time.pl >/dev/null 2>&1)
Aug 31 04:02:01 vkufs1_11 anacron[9461]: Updated timestamp for job `cron.daily' to `2008-08-31 04:02:01'
Aug 31 04:02:01 vkufs1_11 exiting on signal 15
Aug 31 04:02:01 vkufs1_11 syslogd 1.4.1: restart.
Aug 31 04:02:01 vkufs1_11 syslogd: syslogd startup succeeded
Aug 31 04:02:02 vkufs1_11 exiting on signal 15
Aug 31 04:02:02 vkufs1_11 syslogd 1.4.1: restart.
Aug 31 04:02:02 vkufs1_11 syslogd: syslogd startup succeeded
Aug 31 04:02:02 vkufs1_11 exiting on signal 15
Aug 31 04:02:02 vkufs1_11 syslogd 1.4.1: restart.
Aug 31 04:02:02 vkufs1_11 syslogd: syslogd startup succeeded
Aug 31 04:02:02 vkufs1_11 exiting on signal 15
Aug 31 04:02:02 vkufs1_11 syslogd 1.4.1: restart.
Aug 31 04:02:02 vkufs1_11 syslogd: syslogd startup succeeded
Aug 31 04:02:02 vkufs1_11 exiting on signal 15
Aug 31 04:02:03 vkufs1_11 syslogd 1.4.1: restart.
Aug 31 04:02:03 vkufs1_11 syslogd: syslogd startup succeeded
Aug 31 04:02:03 vkufs1_11 exiting on signal 15
Aug 31 04:02:03 vkufs1_11 syslogd 1.4.1: restart.
Aug 31 04:02:03 vkufs1_11 syslogd: syslogd startup succeeded
Aug 31 04:02:03 vkufs1_11 exiting on signal 15
Aug 31 04:02:03 vkufs1_11 syslogd 1.4.1: restart.
Aug 31 04:02:03 vkufs1_11 syslogd: syslogd startup succeeded
Aug 31 04:02:03 vkufs1_11 exiting on signal 15
Aug 31 04:02:03 vkufs1_11 syslogd 1.4.1: restart.
Aug 31 04:02:03 vkufs1_11 syslogd: syslogd startup succeeded
Aug 31 04:02:03 vkufs1_11 exiting on signal 15
Aug 31 04:02:03 vkufs1_11 syslogd 1.4.1: restart.
Aug 31 04:02:03 vkufs1_11 syslogd: syslogd startup succeeded
Aug 31 04:02:04 vkufs1_11 exiting on signal 15
Aug 31 04:02:04 vkufs1_11 syslogd 1.4.1: restart.
Aug 31 04:02:04 vkufs1_11 syslogd: syslogd startup succeeded
Aug 31 04:02:04 vkufs1_11 exiting on signal 15
Aug 31 04:02:04 vkufs1_11 syslogd 1.4.1: restart.
Aug 31 04:02:04 vkufs1_11 syslogd: syslogd startup succeeded
Aug 31 04:02:02 vkufs1_11 syslogd: syslogd shutdown succeeded
Aug 31 04:02:05 vkufs1_11 pam_tcb[9829]: su: Session opened for cacheman by (uid=0)
Aug 31 04:02:02 vkufs1_11 syslogd: syslogd shutdown succeeded
Aug 31 04:02:03 vkufs1_11 last message repeated 3 times
Aug 31 04:02:05 vkufs1_11 pam_tcb[9829]: su: Session closed for cacheman
Aug 31 04:02:03 vkufs1_11 syslogd: syslogd shutdown succeeded
Aug 31 06:02:22 vkufs1_11 syslogd 1.4.1: restart.
Aug 31 06:02:22 vkufs1_11 syslogd: syslogd startup succeeded
Aug 31 06:02:22 vkufs1_11 kernel: klogd 1.4.1, log source = /proc/kmsg started.
Aug 31 06:02:22 vkufs1_11 klogd: klogd startup succeeded
Aug 31 06:02:22 vkufs1_11 kernel: Inspecting /boot/System.map-2.4.36.arkhangel


"зависание сервера (логи, сбор информации)"
Отправлено Vaso_Petrovich , 31-Авг-08 19:50 
>Aug 31 04:02:01 vkufs1_11 anacron[9461]: Updated timestamp for job `cron.daily' to >`2008-08-31 04:02:01'
>Aug 31 04:02:01 vkufs1_11 exiting on signal 15
>Aug 31 04:02:01 vkufs1_11 syslogd 1.4.1: restart.
>Aug 31 04:02:01 vkufs1_11 syslogd: syslogd startup succeeded>

вот на это надо обратить внимание... особенно на
>Aug 31 04:02:01 vkufs1_11 exiting on signal 15


"зависание сервера (логи, сбор информации)"
Отправлено demiurg , 31-Авг-08 20:43 
Обратили внимание... и что?

Как выявить какой это процесс это вызывает? Учитывая что это происходит синхронно на двух несвязанных серверах я вижу что причина задачах anacron.
Сегодня в ночь выйду - посмотрю. Потом на одном сервере запущу iozone для тестирования нжмд. И тест памяти на всякий случай.
Вот кстати вывод sar:

Linux 2.4.36.arkhangel (vkufs1_11)     31.08.2008

00:01:01          CPU     %user     %nice   %system   %iowait     %idle
00:11:01          all      1,21      0,00      0,37      0,00     98,42
00:21:01          all      1,03      0,00      0,24      0,00     98,73
00:31:01          all      1,22      0,00      0,45      0,00     98,34
00:41:01          all      1,10      0,00      0,22      0,00     98,68
00:51:01          all      1,17      0,00      0,34      0,00     98,49
01:01:01          all      1,12      0,00      0,24      0,00     98,64
01:11:01          all      1,10      0,00      0,31      0,00     98,59
01:21:01          all      1,23      0,00      0,36      0,00     98,40
01:31:01          all      1,02      0,00      0,32      0,00     98,66
01:41:01          all      1,23      0,00      0,37      0,00     98,40
01:51:01          all      1,06      0,00      0,24      0,00     98,70
02:01:01          all      1,14      0,00      0,34      0,00     98,52
02:11:01          all      1,14      0,00      0,25      0,00     98,61
02:21:01          all      1,08      0,00      0,31      0,00     98,61
02:31:01          all      1,25      0,00      0,34      0,00     98,41
02:41:01          all      1,06      0,00      0,31      0,00     98,63
02:51:01          all      1,22      0,00      0,33      0,00     98,45
03:01:01          all      1,08      0,00      0,23      0,00     98,69
03:11:01          all      1,14      0,00      0,32      0,00     98,55
03:21:01          all      1,15      0,00      0,26      0,00     98,59
03:31:01          all      1,08      0,00      0,33      0,00     98,59
03:41:01          all      1,23      0,00      0,35      0,00     98,43
03:51:01          all      1,08      0,00      0,29      0,00     98,62
04:01:01          all      1,20      0,00      0,36      0,00     98,45
07:01:01          all    100,35      0,00    100,36      0,00      0,00
07:11:01          all      0,97      0,00      0,31      0,00     98,72
07:21:01          all      0,92      0,00      0,28      0,00     98,80
уТЕДОЕЕ:          all    100,21      0,00    100,21      0,00      0,00


"зависание сервера (логи, сбор информации)"
Отправлено demiurg , 01-Сен-08 06:57 
Вышел в ночь. Все идеально. Ни один сервер не завис. Такое впечатление, что на это появлияли прикладные программы. В пятницу начался большой обмен данными и возможно это привело к падению. Сейчас поставил iozone гоняться. Потом буду память на всякий случай проверять.
За любые идеи - предложения - респект...

"зависание сервера (логи, сбор информации)"
Отправлено demiurg , 06-Сен-08 13:09 
Спасибо всем большое...

Добился определенных результатов.
1. На сервере кроме ОС работает ППО (оно иногда пишет небольшие объемы  информации - в час по 50-100 мб.) Поставил iozone тестироваться вместе с ППО - через 2.5 часа сервер повис. Потом через сутки опять iozone был поставлен но без ППО сервер выдержал.

2. Начал эксперементировать: работает ППО и запускаю скрипт obsec - перезагрузка системы. Работает ППО - и запускаю скрипт updatedb - система зависает.

3. Вчера вообще пипец начался: операторы по sftp копируют файлы с сервера и он стабильно перегружается.

У меня подозрения на дисковую подсистему точнее  драйверы для raid массива (aacraid).

Вот распечатка lsmod:
Module                  Size  Used by    Not tainted
sg                     29468   0  (autoclean)
sr_mod                 14320   0  (autoclean)
cdrom                  27552   0  (autoclean) [sr_mod]
floppy                 48056   0  (autoclean)
usb-storage            26040   0
autofs4                 8532   0  (autoclean)
usb-uhci               21996   0  (unused)
ehci-hcd               16872   0  (unused)
e1000                  97640   4  (autoclean)
ide-scsi                9296   0
ipmi_kcs_drv            8333   1
ipmi_devintf            3592   0  (unused)
w83627hf               14332   0  (unused)
bmcsensors             15937   0  (unused)
i2c-proc                5892   0  [w83627hf bmcsensors]
i2c-ipmi                2028   0  (unused)
ipmi_msghandler        14824   0  [ipmi_kcs_drv ipmi_devintf i2c-ipmi]
i2c-isa                  808   0  (unused)
i2c-i801                4664   0  (unused)
i2c-core               15172   0  [w83627hf bmcsensors i2c-proc i2c-ipmi i2c-isa i2c-i801]
rtc                     6780   0  (autoclean)
aacraid                30212   4
sd_mod                 10832   8

А вот распечатка lspci -v:
00:00.0 Host bridge: Intel Corp.: Unknown device 25d8 (rev b1)
    Subsystem: Super Micro Computer Inc: Unknown device 8080
    Flags: bus master, fast devsel, latency 0, IRQ 16
    Capabilities: [50] Power Management version 2
    Capabilities: [58] Message Signalled Interrupts: 64bit- Queue=0/1 Enable-
    Capabilities: [6c] #10 [0041]

00:02.0 PCI bridge: Intel Corp.: Unknown device 25f7 (rev b1) (prog-if 00 [Normal decode])
    Flags: bus master, fast devsel, latency 0
    Bus: primary=00, secondary=01, subordinate=07, sec-latency=0
    I/O behind bridge: 00002000-00003fff
    Memory behind bridge: d8000000-d86fffff
    Prefetchable memory behind bridge: 00000000c0000000-00000000cff00000
    Capabilities: [50] Power Management version 2
    Capabilities: [58] Message Signalled Interrupts: 64bit- Queue=0/1 Enable-
    Capabilities: [6c] #10 [0041]

00:04.0 PCI bridge: Intel Corp.: Unknown device 25f8 (rev b1) (prog-if 00 [Normal decode])
    Flags: bus master, fast devsel, latency 0
    Bus: primary=00, secondary=08, subordinate=08, sec-latency=0
    Capabilities: [50] Power Management version 2
    Capabilities: [58] Message Signalled Interrupts: 64bit- Queue=0/1 Enable-
    Capabilities: [6c] #10 [0141]

00:06.0 PCI bridge: Intel Corp.: Unknown device 25f9 (rev b1) (prog-if 00 [Normal decode])
    Flags: bus master, fast devsel, latency 0
    Bus: primary=00, secondary=09, subordinate=09, sec-latency=0
    Capabilities: [50] Power Management version 2
    Capabilities: [58] Message Signalled Interrupts: 64bit- Queue=0/1 Enable-
    Capabilities: [6c] #10 [0141]

00:08.0 System peripheral: Intel Corp.: Unknown device 1a38 (rev b1)
    Subsystem: Super Micro Computer Inc: Unknown device 8080
    Flags: bus master, fast devsel, latency 0, IRQ 16
    Memory at fe700000 (64-bit, non-prefetchable) [size=1K]
    Capabilities: [50] Power Management version 2
    Capabilities: [58] Message Signalled Interrupts: 64bit- Queue=0/0 Enable-
    Capabilities: [6c] #10 [0091]

00:10.0 Host bridge: Intel Corp.: Unknown device 25f0 (rev b1)
    Subsystem: Super Micro Computer Inc: Unknown device 8080
    Flags: fast devsel

00:10.1 Host bridge: Intel Corp.: Unknown device 25f0 (rev b1)
    Subsystem: Super Micro Computer Inc: Unknown device 8080
    Flags: fast devsel

00:10.2 Host bridge: Intel Corp.: Unknown device 25f0 (rev b1)
    Subsystem: Super Micro Computer Inc: Unknown device 8080
    Flags: fast devsel

00:11.0 Host bridge: Intel Corp.: Unknown device 25f1 (rev b1)
    Subsystem: Super Micro Computer Inc: Unknown device 8080
    Flags: fast devsel

00:13.0 Host bridge: Intel Corp.: Unknown device 25f3 (rev b1)
    Subsystem: Super Micro Computer Inc: Unknown device 8080
    Flags: fast devsel

00:15.0 Host bridge: Intel Corp.: Unknown device 25f5 (rev b1)
    Subsystem: Super Micro Computer Inc: Unknown device 8080
    Flags: fast devsel

00:16.0 Host bridge: Intel Corp.: Unknown device 25f6 (rev b1)
    Subsystem: Super Micro Computer Inc: Unknown device 8080
    Flags: fast devsel

00:1c.0 PCI bridge: Intel Corp.: Unknown device 2690 (rev 09) (prog-if 00 [Normal decode])
    Flags: bus master, fast devsel, latency 0
    Bus: primary=00, secondary=0a, subordinate=0a, sec-latency=0
    Capabilities: [40] #10 [0141]
    Capabilities: [80] Message Signalled Interrupts: 64bit- Queue=0/0 Enable-
    Capabilities: [90] #0d [0000]
    Capabilities: [a0] Power Management version 2

00:1d.0 USB Controller: Intel Corp.: Unknown device 2688 (rev 09) (prog-if 00 [UHCI])
    Subsystem: Super Micro Computer Inc: Unknown device 8080
    Flags: bus master, medium devsel, latency 0, IRQ 17
    I/O ports at 1800 [size=32]

00:1d.1 USB Controller: Intel Corp.: Unknown device 2689 (rev 09) (prog-if 00 [UHCI])
    Subsystem: Super Micro Computer Inc: Unknown device 8080
    Flags: bus master, medium devsel, latency 0, IRQ 19
    I/O ports at 1820 [size=32]

00:1d.2 USB Controller: Intel Corp.: Unknown device 268a (rev 09) (prog-if 00 [UHCI])
    Subsystem: Super Micro Computer Inc: Unknown device 8080
    Flags: bus master, medium devsel, latency 0, IRQ 18
    I/O ports at 1840 [size=32]

00:1d.7 USB Controller: Intel Corp.: Unknown device 268c (rev 09) (prog-if 20 [EHCI])
    Subsystem: Super Micro Computer Inc: Unknown device 8080
    Flags: bus master, medium devsel, latency 0, IRQ 17
    Memory at d8a00000 (32-bit, non-prefetchable) [size=1K]
    Capabilities: [50] Power Management version 2
    Capabilities: [58] #0a [20a0]

00:1e.0 PCI bridge: Intel Corp. 82801BA/CA/DB/EB/ER Hub interface to PCI Bridge (rev d9) (prog-if 01 [Subtractive decode])
    Flags: bus master, fast devsel, latency 0
    Bus: primary=00, secondary=0b, subordinate=0b, sec-latency=32
    I/O behind bridge: 00004000-00004fff
    Memory behind bridge: d8700000-d87fffff
    Prefetchable memory behind bridge: 00000000d0000000-00000000d7f00000
    Capabilities: [50] #0d [0000]

00:1f.0 ISA bridge: Intel Corp.: Unknown device 2670 (rev 09)
    Subsystem: Super Micro Computer Inc: Unknown device 8080
    Flags: bus master, medium devsel, latency 0

00:1f.1 IDE interface: Intel Corp.: Unknown device 269e (rev 09) (prog-if 8a [Master SecP PriP])
    Subsystem: Super Micro Computer Inc: Unknown device 8080
    Flags: bus master, medium devsel, latency 0, IRQ 18
    I/O ports at <unassigned>
    I/O ports at <unassigned>
    I/O ports at <unassigned>
    I/O ports at <unassigned>
    I/O ports at 1860 [size=16]

00:1f.3 SMBus: Intel Corp.: Unknown device 269b (rev 09)
    Subsystem: Super Micro Computer Inc: Unknown device 8080
    Flags: medium devsel, IRQ 19
    I/O ports at 1100 [size=32]

01:00.0 PCI bridge: Intel Corp.: Unknown device 3500 (rev 01) (prog-if 00 [Normal decode])
    Flags: bus master, fast devsel, latency 0
    Bus: primary=01, secondary=02, subordinate=06, sec-latency=0
    I/O behind bridge: 00002000-00003fff
    Memory behind bridge: d8000000-d85fffff
    Prefetchable memory behind bridge: 00000000c0000000-00000000cff00000
    Capabilities: [44] #10 [0051]
    Capabilities: [70] Power Management version 2
    Capabilities: [80] #0d [0000]

01:00.3 PCI bridge: Intel Corp.: Unknown device 350c (rev 01) (prog-if 00 [Normal decode])
    Flags: bus master, fast devsel, latency 0
    Bus: primary=01, secondary=07, subordinate=07, sec-latency=64
    Capabilities: [44] #10 [0071]
    Capabilities: [6c] Power Management version 2
    Capabilities: [80] #0d [0000]
    Capabilities: [d8]
02:00.0 PCI bridge: Intel Corp.: Unknown device 3510 (rev 01) (prog-if 00 [Normal decode])
    Flags: bus master, fast devsel, latency 0
    Bus: primary=02, secondary=03, subordinate=05, sec-latency=0
    I/O behind bridge: 00002000-00002fff
    Memory behind bridge: d8000000-d84fffff
    Prefetchable memory behind bridge: 00000000c0000000-00000000cff00000
    Capabilities: [44] #10 [0061]
    Capabilities: [60] Message Signalled Interrupts: 64bit+ Queue=0/0 Enable-
    Capabilities: [70] Power Management version 2
    Capabilities: [80] #0d [0000]

02:02.0 PCI bridge: Intel Corp.: Unknown device 3518 (rev 01) (prog-if 00 [Normal decode])
    Flags: bus master, fast devsel, latency 0
    Bus: primary=02, secondary=06, subordinate=06, sec-latency=0
    I/O behind bridge: 00003000-00003fff
    Memory behind bridge: d8500000-d85fffff
    Capabilities: [44] #10 [0061]
    Capabilities: [60] Message Signalled Interrupts: 64bit+ Queue=0/0 Enable-
    Capabilities: [70] Power Management version 2
    Capabilities: [80] #0d [0000]

03:00.0 PCI bridge: Intel Corp. PCI Bridge Hub A (rev 09) (prog-if 00 [Normal decode])
    Flags: bus master, fast devsel, latency 0
    Bus: primary=03, secondary=04, subordinate=04, sec-latency=64
    Memory behind bridge: d8000000-d83fffff
    Prefetchable memory behind bridge: 00000000c0000000-00000000cff00000
    Capabilities: [44] #10 [0071]
    Capabilities: [5c] Message Signalled Interrupts: 64bit+ Queue=0/0 Enable-
    Capabilities: [6c] Power Management version 2
    Capabilities: [d8]
03:00.2 PCI bridge: Intel Corp. PCI Bridge Hub B (rev 09) (prog-if 00 [Normal decode])
    Flags: bus master, fast devsel, latency 0
    Bus: primary=03, secondary=05, subordinate=05, sec-latency=64
    I/O behind bridge: 00002000-00002fff
    Memory behind bridge: d8400000-d84fffff
    Capabilities: [44] #10 [0071]
    Capabilities: [5c] Message Signalled Interrupts: 64bit+ Queue=0/0 Enable-
    Capabilities: [6c] Power Management version 2
    Capabilities: [d8]
04:01.0 RAID bus controller: Adaptec AAC-RAID (rev 02)
    Subsystem: Adaptec ASR-2020S PCI-X ZCR (Skyhawk)
    Flags: bus master, stepping, 66Mhz, medium devsel, latency 32, IRQ 16
    Memory at d8200000 (64-bit, non-prefetchable) [size=2M]
    Memory at d8000000 (32-bit, non-prefetchable) [size=2M]
    Memory at c0000000 (32-bit, prefetchable) [size=256M]
    Expansion ROM at <unassigned> [disabled] [size=32K]
    Capabilities: [c0] Power Management version 2
    Capabilities: [d0] Message Signalled Interrupts: 64bit+ Queue=0/1 Enable-
    Capabilities: [e0] PCI-X non-bridge device.

05:01.0 Ethernet controller: Intel Corp. 82546GB Gigabit Ethernet Controller (rev 03)
    Subsystem: Intel Corp. PRO/1000 MT Dual Port Network Connection
    Flags: bus master, 66Mhz, medium devsel, latency 52, IRQ 16
    Memory at d8480000 (64-bit, non-prefetchable) [size=128K]
    Memory at d8400000 (64-bit, non-prefetchable) [size=256K]
    I/O ports at 2000 [size=64]
    Expansion ROM at <unassigned> [disabled] [size=256K]
    Capabilities: [dc] Power Management version 2
    Capabilities: [e4]     Capabilities: [f0] Message Signalled Interrupts: 64bit+ Queue=0/0 Enable-

05:01.1 Ethernet controller: Intel Corp. 82546GB Gigabit Ethernet Controller (rev 03)
    Subsystem: Intel Corp. PRO/1000 MT Dual Port Network Connection
    Flags: bus master, 66Mhz, medium devsel, latency 52, IRQ 17
    Memory at d84a0000 (64-bit, non-prefetchable) [size=128K]
    Memory at d8440000 (64-bit, non-prefetchable) [size=256K]
    I/O ports at 2040 [size=64]
    Expansion ROM at <unassigned> [disabled] [size=256K]
    Capabilities: [dc] Power Management version 2
    Capabilities: [e4]     Capabilities: [f0] Message Signalled Interrupts: 64bit+ Queue=0/0 Enable-

06:00.0 Ethernet controller: Intel Corp.: Unknown device 1096 (rev 01)
    Subsystem: Super Micro Computer Inc: Unknown device 0000
    Flags: bus master, fast devsel, latency 0, IRQ 18
    Memory at d8500000 (32-bit, non-prefetchable) [size=128K]
    I/O ports at 3000 [size=32]
    Capabilities: [c8] Power Management version 2
    Capabilities: [d0] Message Signalled Interrupts: 64bit+ Queue=0/0 Enable-
    Capabilities: [e0] #10 [0001]

06:00.1 Ethernet controller: Intel Corp.: Unknown device 1096 (rev 01)
    Subsystem: Super Micro Computer Inc: Unknown device 0000
    Flags: bus master, fast devsel, latency 0, IRQ 19
    Memory at d8520000 (32-bit, non-prefetchable) [size=128K]
    I/O ports at 3020 [size=32]
    Capabilities: [c8] Power Management version 2
    Capabilities: [d0] Message Signalled Interrupts: 64bit+ Queue=0/0 Enable-
    Capabilities: [e0] #10 [0001]

0b:01.0 VGA compatible controller: ATI Technologies Inc: Unknown device 515e (rev 02) (prog-if 00 [VGA])
    Subsystem: Super Micro Computer Inc: Unknown device 8080
    Flags: bus master, stepping, fast Back2Back, medium devsel, latency 66, IRQ 18
    Memory at d0000000 (32-bit, prefetchable) [size=128M]
    I/O ports at 4000 [size=256]
    Memory at d8700000 (32-bit, non-prefetchable) [size=64K]
    Expansion ROM at <unassigned> [disabled]  [size=128K]
    Capabilities: [50] Power Management version 2

В свое время на других объектах я собирал с этими железками и  драйверами на ядрах 2.4.32 и 2.4.35 и все работало без проблем.

Очень жду совета. Сейчас ситуация очень критическая. Если будут советы по пересборке ядра либо вывода более подробной диагностической информации в случании падения - буду очень признателен.


"зависание сервера (логи, сбор информации)"
Отправлено Ivniq , 02-Апр-09 13:50 
Здравствуйте! Существует "нечто"))) демон-планировщик задач в UNIX-образных операционных системах, использующийся для периодического выполнения заданий в заданное время. Каждый пользователь системы имеет свой файл заданий crontab, в котором описано, в какое время и какие программы запускать от имени этого пользователя. Для редактирования файла crontab используется специальная одноименная программа crontab, позволяющая не прерывать процесс cron на время редактирования.
Использую Alt Linux 4.1 Desktop, я конечно верю в совпадения, но не до такой же степени. Вот строка из моего журнала: Mar 29 04:02:12 localhost su[8159]: pam_tcb(su:session): Session opened for cacheman by (uid=0).
Так что скорее всего Крон настроен по дефолту.


"зависание сервера (логи, сбор информации)"
Отправлено ej_head , 24-Июл-09 11:50 
У меня возникла точно такая же проблема, в 4:02 сервер под Alt Linux Master 2.4 зависает. Началось это примерно неделю назад, вчера утром обнаружил, что он в 4:02 он перезагрузился.
У меня лог заканчивается строчкой:
pam_tcb[9829]: su: Session closed for cacheman
далее видимо должен перезагрузиться syslogd, но этого не происходит.
Сервак стоит c 2006 года, всегда работал стабильно.

"зависание сервера (логи, сбор информации)"
Отправлено demiurg , 25-Июл-09 04:37 
Короче в свое время (т.е. 2 года назад) мы решили этот вопрос жестко - полной сменой модулей на которых происходило падение. Мнение всех специалистов было что дело в SCSI под-системе. То ли с контроллером что-то не так. То ли с самими хардами. Именно на 4 часа утра поставлены многие задания cron и за котороткий промежуток времени происходит резкое увеличение попыток записи/чтения (или только записи или только чтения - сейчас уже непомню) к хардам (raid массив 5 уровня). В принципе такой ситуации можно добиться и самому, если по самое небалуйся запустить тест iozone. Система может нагнуться и через пару часов и через несколько суток. В понедельник, если интересно - могу выложить полную аппаратную конфигурацию наших серверов.