Здравствуйте!На серверах (7 Штук) работает altlinux master 2.4. Естественно от самого мастера там мало что осталось (большинство пакетов обновлено, ядро собрано 2.4.36).
Несколько недель все работало нормально. Теперь каждую ночь в 4:02 идет зависание двух серверов.
И вот такие чудные логи:Aug 31 04:02:05 vkufs1_11 pam_tcb[9829]: su: Session opened for cacheman by (uid=0)
Aug 31 04:02:02 vkufs1_11 syslogd: syslogd shutdown succeeded
Aug 31 04:02:03 vkufs1_11 last message repeated 3 times
Aug 31 04:02:05 vkufs1_11 pam_tcb[9829]: su: Session closed for cacheman
Aug 31 04:02:03 vkufs1_11 syslogd: syslogd shutdown succeeded
Aug 31 06:02:22 vkufs1_11 syslogd 1.4.1: restart.
Aug 31 06:02:22 vkufs1_11 syslogd: syslogd startup succeeded
Aug 31 06:02:22 vkufs1_11 kernel: klogd 1.4.1, log source = /proc/kmsg started.
Aug 31 06:02:22 vkufs1_11 klogd: klogd startup succeeded
Aug 31 06:02:22 vkufs1_11 kernel: Inspecting /boot/System.map-2.4.36.arkhangel
Aug 31 06:02:22 vkufs1_11 kernel: Loaded 19891 symbols from
Причем зависание идет на обоих серверах ровно ровно в одно и тоже время.
Начал анализировать проблему. Оказалось в это время выполняются задания anacron (лежат в /etc/cron.daily)
logrotate
cyrus-imapd
makewhatis
stmpclean
sysstat
000anacron
osec
updatedbТак вот этот пользователь "cacheman" служит для выполнение скрипта makewhatis (индексация man страниц).
Запускал данные задачи самостоятельно - ничего не виснит. Запускал через anacron - все нормально.
Подскажите - может что-нибудь настроить - поставить, чтобы информация о записании стала немного подробнее.
Сомнений в качестве аппаратной части нет. По температуре (процессор, мат. плата) все норма.
Причем стоит заметить,что это происходит только на двух серверах (они отличаются от остальных наличием райд массива 5-ого уровня).Буду признателен за любую помощь и советы. Как лучше и что настроить, чтобы информация стала более полной (и чтобы лишннего в тоже время не было).
Сейчас на одном из серверов убрал эти задачи и выйду сегодня в ночь - буду ловить зависание. Но сам факт очень странный и непонятный.
>Aug 31 04:02:05 vkufs1_11 pam_tcb[9829]: su: Session opened for cacheman by (uid=0)
>
>Aug 31 04:02:02 vkufs1_11 syslogd: syslogd shutdown succeeded
>Aug 31 04:02:03 vkufs1_11 last message repeated 3 times
>Aug 31 04:02:05 vkufs1_11 pam_tcb[9829]: su: Session closed for cacheman
>Aug 31 04:02:03 vkufs1_11 syslogd: syslogd shutdown succeededлоги побольше запости, нафига постить следствие, когда ищищь причину? или что там написано не понятно? словарь в ноги и переводить до полного понимания...
Незаархивированная папка /var/log на 12 мегабайт с одного сервера. Какие файлы логов Вы имеете в виду.Вот еще немного /var/log/kernel/errors
scsi_hostadapter, errno = 2
Aug 30 03:59:42 vkufs1_11 kernel: ipmi_kcs: SPMI table not found.
Aug 30 03:59:46 vkufs1_11 kernel: ldm_validate_partition_table(): Disk read failed.
Aug 30 03:59:46 vkufs1_11 kernel: ldm_validate_partition_table(): Disk read failed.
Aug 30 04:09:15 vkufs1_11 kernel: kmod: failed to exec /sbin/modprobe -s -k scsi_hostadapter, errno = 2
Aug 30 04:09:15 vkufs1_11 kernel: ipmi_kcs: SPMI table not found.
Aug 30 04:09:19 vkufs1_11 kernel: ldm_validate_partition_table(): Disk read failed.
Aug 30 04:09:19 vkufs1_11 kernel: ldm_validate_partition_table(): Disk read failed.
Aug 30 04:45:02 vkufs1_11 kernel: kmod: failed to exec /sbin/modprobe -s -k scsi_hostadapter, errno = 2
Aug 30 04:45:02 vkufs1_11 kernel: ipmi_kcs: SPMI table not found.
Aug 30 04:45:06 vkufs1_11 kernel: ldm_validate_partition_table(): Disk read failed.
Aug 30 04:45:06 vkufs1_11 kernel: ldm_validate_partition_table(): Disk read failed.
Aug 30 09:32:44 vkufs1_11 kernel: kmod: failed to exec /sbin/modprobe -s -k scsi_hostadapter, errno = 2
И /var/log/syslog/messagesAug 31 03:54:01 vkufs1_11 crond[9369]: (root) CMD (/usr/bin/diag-time.pl >/dev/null 2>&1)
Aug 31 03:54:01 vkufs1_11 pam_tcb[9367]: crond: Session closed for root
Aug 31 03:56:01 vkufs1_11 pam_tcb[9387]: crond: Session opened for root by (uid=0)
Aug 31 03:56:01 vkufs1_11 crond[9389]: (root) CMD (/usr/bin/diag-time.pl >/dev/null 2>&1)
Aug 31 03:56:01 vkufs1_11 pam_tcb[9387]: crond: Session closed for root
Aug 31 03:58:01 vkufs1_11 pam_tcb[9407]: crond: Session opened for root by (uid=0)
Aug 31 03:58:01 vkufs1_11 crond[9409]: (root) CMD (/usr/bin/diag-time.pl >/dev/null 2>&1)
Aug 31 03:58:01 vkufs1_11 pam_tcb[9407]: crond: Session closed for root
Aug 31 04:00:01 vkufs1_11 pam_tcb[9427]: crond: Session opened for root by (uid=0)
Aug 31 04:00:01 vkufs1_11 crond[9429]: (root) CMD (/usr/bin/diag-time.pl >/dev/null 2>&1)
Aug 31 04:00:01 vkufs1_11 pam_tcb[9427]: crond: Session closed for root
Aug 31 04:01:01 vkufs1_11 pam_tcb[9437]: crond: Session opened for root by (uid=0)
Aug 31 04:01:01 vkufs1_11 crond[9439]: (root) CMD (run-parts /etc/cron.hourly)
Aug 31 04:02:01 vkufs1_11 pam_tcb[9453]: crond: Session opened for root by (uid=0)
Aug 31 04:02:01 vkufs1_11 pam_tcb[9454]: crond: Session opened for root by (uid=0)
Aug 31 04:02:01 vkufs1_11 crond[9457]: (root) CMD (run-parts /etc/cron.daily)
Aug 31 04:02:01 vkufs1_11 crond[9458]: (root) CMD (/usr/bin/diag-time.pl >/dev/null 2>&1)
Aug 31 04:02:01 vkufs1_11 anacron[9461]: Updated timestamp for job `cron.daily' to `2008-08-31 04:02:01'
Aug 31 04:02:01 vkufs1_11 exiting on signal 15
Aug 31 04:02:01 vkufs1_11 syslogd 1.4.1: restart.
Aug 31 04:02:01 vkufs1_11 syslogd: syslogd startup succeeded
Aug 31 04:02:02 vkufs1_11 exiting on signal 15
Aug 31 04:02:02 vkufs1_11 syslogd 1.4.1: restart.
Aug 31 04:02:02 vkufs1_11 syslogd: syslogd startup succeeded
Aug 31 04:02:02 vkufs1_11 exiting on signal 15
Aug 31 04:02:02 vkufs1_11 syslogd 1.4.1: restart.
Aug 31 04:02:02 vkufs1_11 syslogd: syslogd startup succeeded
Aug 31 04:02:02 vkufs1_11 exiting on signal 15
Aug 31 04:02:02 vkufs1_11 syslogd 1.4.1: restart.
Aug 31 04:02:02 vkufs1_11 syslogd: syslogd startup succeeded
Aug 31 04:02:02 vkufs1_11 exiting on signal 15
Aug 31 04:02:03 vkufs1_11 syslogd 1.4.1: restart.
Aug 31 04:02:03 vkufs1_11 syslogd: syslogd startup succeeded
Aug 31 04:02:03 vkufs1_11 exiting on signal 15
Aug 31 04:02:03 vkufs1_11 syslogd 1.4.1: restart.
Aug 31 04:02:03 vkufs1_11 syslogd: syslogd startup succeeded
Aug 31 04:02:03 vkufs1_11 exiting on signal 15
Aug 31 04:02:03 vkufs1_11 syslogd 1.4.1: restart.
Aug 31 04:02:03 vkufs1_11 syslogd: syslogd startup succeeded
Aug 31 04:02:03 vkufs1_11 exiting on signal 15
Aug 31 04:02:03 vkufs1_11 syslogd 1.4.1: restart.
Aug 31 04:02:03 vkufs1_11 syslogd: syslogd startup succeeded
Aug 31 04:02:03 vkufs1_11 exiting on signal 15
Aug 31 04:02:03 vkufs1_11 syslogd 1.4.1: restart.
Aug 31 04:02:03 vkufs1_11 syslogd: syslogd startup succeeded
Aug 31 04:02:04 vkufs1_11 exiting on signal 15
Aug 31 04:02:04 vkufs1_11 syslogd 1.4.1: restart.
Aug 31 04:02:04 vkufs1_11 syslogd: syslogd startup succeeded
Aug 31 04:02:04 vkufs1_11 exiting on signal 15
Aug 31 04:02:04 vkufs1_11 syslogd 1.4.1: restart.
Aug 31 04:02:04 vkufs1_11 syslogd: syslogd startup succeeded
Aug 31 04:02:02 vkufs1_11 syslogd: syslogd shutdown succeeded
Aug 31 04:02:05 vkufs1_11 pam_tcb[9829]: su: Session opened for cacheman by (uid=0)
Aug 31 04:02:02 vkufs1_11 syslogd: syslogd shutdown succeeded
Aug 31 04:02:03 vkufs1_11 last message repeated 3 times
Aug 31 04:02:05 vkufs1_11 pam_tcb[9829]: su: Session closed for cacheman
Aug 31 04:02:03 vkufs1_11 syslogd: syslogd shutdown succeeded
Aug 31 06:02:22 vkufs1_11 syslogd 1.4.1: restart.
Aug 31 06:02:22 vkufs1_11 syslogd: syslogd startup succeeded
Aug 31 06:02:22 vkufs1_11 kernel: klogd 1.4.1, log source = /proc/kmsg started.
Aug 31 06:02:22 vkufs1_11 klogd: klogd startup succeeded
Aug 31 06:02:22 vkufs1_11 kernel: Inspecting /boot/System.map-2.4.36.arkhangel
>Aug 31 04:02:01 vkufs1_11 anacron[9461]: Updated timestamp for job `cron.daily' to >`2008-08-31 04:02:01'
>Aug 31 04:02:01 vkufs1_11 exiting on signal 15
>Aug 31 04:02:01 vkufs1_11 syslogd 1.4.1: restart.
>Aug 31 04:02:01 vkufs1_11 syslogd: syslogd startup succeeded>вот на это надо обратить внимание... особенно на
>Aug 31 04:02:01 vkufs1_11 exiting on signal 15
Обратили внимание... и что?Как выявить какой это процесс это вызывает? Учитывая что это происходит синхронно на двух несвязанных серверах я вижу что причина задачах anacron.
Сегодня в ночь выйду - посмотрю. Потом на одном сервере запущу iozone для тестирования нжмд. И тест памяти на всякий случай.
Вот кстати вывод sar:Linux 2.4.36.arkhangel (vkufs1_11) 31.08.2008
00:01:01 CPU %user %nice %system %iowait %idle
00:11:01 all 1,21 0,00 0,37 0,00 98,42
00:21:01 all 1,03 0,00 0,24 0,00 98,73
00:31:01 all 1,22 0,00 0,45 0,00 98,34
00:41:01 all 1,10 0,00 0,22 0,00 98,68
00:51:01 all 1,17 0,00 0,34 0,00 98,49
01:01:01 all 1,12 0,00 0,24 0,00 98,64
01:11:01 all 1,10 0,00 0,31 0,00 98,59
01:21:01 all 1,23 0,00 0,36 0,00 98,40
01:31:01 all 1,02 0,00 0,32 0,00 98,66
01:41:01 all 1,23 0,00 0,37 0,00 98,40
01:51:01 all 1,06 0,00 0,24 0,00 98,70
02:01:01 all 1,14 0,00 0,34 0,00 98,52
02:11:01 all 1,14 0,00 0,25 0,00 98,61
02:21:01 all 1,08 0,00 0,31 0,00 98,61
02:31:01 all 1,25 0,00 0,34 0,00 98,41
02:41:01 all 1,06 0,00 0,31 0,00 98,63
02:51:01 all 1,22 0,00 0,33 0,00 98,45
03:01:01 all 1,08 0,00 0,23 0,00 98,69
03:11:01 all 1,14 0,00 0,32 0,00 98,55
03:21:01 all 1,15 0,00 0,26 0,00 98,59
03:31:01 all 1,08 0,00 0,33 0,00 98,59
03:41:01 all 1,23 0,00 0,35 0,00 98,43
03:51:01 all 1,08 0,00 0,29 0,00 98,62
04:01:01 all 1,20 0,00 0,36 0,00 98,45
07:01:01 all 100,35 0,00 100,36 0,00 0,00
07:11:01 all 0,97 0,00 0,31 0,00 98,72
07:21:01 all 0,92 0,00 0,28 0,00 98,80
уТЕДОЕЕ: all 100,21 0,00 100,21 0,00 0,00
Вышел в ночь. Все идеально. Ни один сервер не завис. Такое впечатление, что на это появлияли прикладные программы. В пятницу начался большой обмен данными и возможно это привело к падению. Сейчас поставил iozone гоняться. Потом буду память на всякий случай проверять.
За любые идеи - предложения - респект...
Спасибо всем большое...Добился определенных результатов.
1. На сервере кроме ОС работает ППО (оно иногда пишет небольшие объемы информации - в час по 50-100 мб.) Поставил iozone тестироваться вместе с ППО - через 2.5 часа сервер повис. Потом через сутки опять iozone был поставлен но без ППО сервер выдержал.2. Начал эксперементировать: работает ППО и запускаю скрипт obsec - перезагрузка системы. Работает ППО - и запускаю скрипт updatedb - система зависает.
3. Вчера вообще пипец начался: операторы по sftp копируют файлы с сервера и он стабильно перегружается.
У меня подозрения на дисковую подсистему точнее драйверы для raid массива (aacraid).
Вот распечатка lsmod:
Module Size Used by Not tainted
sg 29468 0 (autoclean)
sr_mod 14320 0 (autoclean)
cdrom 27552 0 (autoclean) [sr_mod]
floppy 48056 0 (autoclean)
usb-storage 26040 0
autofs4 8532 0 (autoclean)
usb-uhci 21996 0 (unused)
ehci-hcd 16872 0 (unused)
e1000 97640 4 (autoclean)
ide-scsi 9296 0
ipmi_kcs_drv 8333 1
ipmi_devintf 3592 0 (unused)
w83627hf 14332 0 (unused)
bmcsensors 15937 0 (unused)
i2c-proc 5892 0 [w83627hf bmcsensors]
i2c-ipmi 2028 0 (unused)
ipmi_msghandler 14824 0 [ipmi_kcs_drv ipmi_devintf i2c-ipmi]
i2c-isa 808 0 (unused)
i2c-i801 4664 0 (unused)
i2c-core 15172 0 [w83627hf bmcsensors i2c-proc i2c-ipmi i2c-isa i2c-i801]
rtc 6780 0 (autoclean)
aacraid 30212 4
sd_mod 10832 8А вот распечатка lspci -v:
00:00.0 Host bridge: Intel Corp.: Unknown device 25d8 (rev b1)
Subsystem: Super Micro Computer Inc: Unknown device 8080
Flags: bus master, fast devsel, latency 0, IRQ 16
Capabilities: [50] Power Management version 2
Capabilities: [58] Message Signalled Interrupts: 64bit- Queue=0/1 Enable-
Capabilities: [6c] #10 [0041]00:02.0 PCI bridge: Intel Corp.: Unknown device 25f7 (rev b1) (prog-if 00 [Normal decode])
Flags: bus master, fast devsel, latency 0
Bus: primary=00, secondary=01, subordinate=07, sec-latency=0
I/O behind bridge: 00002000-00003fff
Memory behind bridge: d8000000-d86fffff
Prefetchable memory behind bridge: 00000000c0000000-00000000cff00000
Capabilities: [50] Power Management version 2
Capabilities: [58] Message Signalled Interrupts: 64bit- Queue=0/1 Enable-
Capabilities: [6c] #10 [0041]00:04.0 PCI bridge: Intel Corp.: Unknown device 25f8 (rev b1) (prog-if 00 [Normal decode])
Flags: bus master, fast devsel, latency 0
Bus: primary=00, secondary=08, subordinate=08, sec-latency=0
Capabilities: [50] Power Management version 2
Capabilities: [58] Message Signalled Interrupts: 64bit- Queue=0/1 Enable-
Capabilities: [6c] #10 [0141]00:06.0 PCI bridge: Intel Corp.: Unknown device 25f9 (rev b1) (prog-if 00 [Normal decode])
Flags: bus master, fast devsel, latency 0
Bus: primary=00, secondary=09, subordinate=09, sec-latency=0
Capabilities: [50] Power Management version 2
Capabilities: [58] Message Signalled Interrupts: 64bit- Queue=0/1 Enable-
Capabilities: [6c] #10 [0141]00:08.0 System peripheral: Intel Corp.: Unknown device 1a38 (rev b1)
Subsystem: Super Micro Computer Inc: Unknown device 8080
Flags: bus master, fast devsel, latency 0, IRQ 16
Memory at fe700000 (64-bit, non-prefetchable) [size=1K]
Capabilities: [50] Power Management version 2
Capabilities: [58] Message Signalled Interrupts: 64bit- Queue=0/0 Enable-
Capabilities: [6c] #10 [0091]00:10.0 Host bridge: Intel Corp.: Unknown device 25f0 (rev b1)
Subsystem: Super Micro Computer Inc: Unknown device 8080
Flags: fast devsel00:10.1 Host bridge: Intel Corp.: Unknown device 25f0 (rev b1)
Subsystem: Super Micro Computer Inc: Unknown device 8080
Flags: fast devsel00:10.2 Host bridge: Intel Corp.: Unknown device 25f0 (rev b1)
Subsystem: Super Micro Computer Inc: Unknown device 8080
Flags: fast devsel00:11.0 Host bridge: Intel Corp.: Unknown device 25f1 (rev b1)
Subsystem: Super Micro Computer Inc: Unknown device 8080
Flags: fast devsel00:13.0 Host bridge: Intel Corp.: Unknown device 25f3 (rev b1)
Subsystem: Super Micro Computer Inc: Unknown device 8080
Flags: fast devsel00:15.0 Host bridge: Intel Corp.: Unknown device 25f5 (rev b1)
Subsystem: Super Micro Computer Inc: Unknown device 8080
Flags: fast devsel00:16.0 Host bridge: Intel Corp.: Unknown device 25f6 (rev b1)
Subsystem: Super Micro Computer Inc: Unknown device 8080
Flags: fast devsel00:1c.0 PCI bridge: Intel Corp.: Unknown device 2690 (rev 09) (prog-if 00 [Normal decode])
Flags: bus master, fast devsel, latency 0
Bus: primary=00, secondary=0a, subordinate=0a, sec-latency=0
Capabilities: [40] #10 [0141]
Capabilities: [80] Message Signalled Interrupts: 64bit- Queue=0/0 Enable-
Capabilities: [90] #0d [0000]
Capabilities: [a0] Power Management version 200:1d.0 USB Controller: Intel Corp.: Unknown device 2688 (rev 09) (prog-if 00 [UHCI])
Subsystem: Super Micro Computer Inc: Unknown device 8080
Flags: bus master, medium devsel, latency 0, IRQ 17
I/O ports at 1800 [size=32]00:1d.1 USB Controller: Intel Corp.: Unknown device 2689 (rev 09) (prog-if 00 [UHCI])
Subsystem: Super Micro Computer Inc: Unknown device 8080
Flags: bus master, medium devsel, latency 0, IRQ 19
I/O ports at 1820 [size=32]00:1d.2 USB Controller: Intel Corp.: Unknown device 268a (rev 09) (prog-if 00 [UHCI])
Subsystem: Super Micro Computer Inc: Unknown device 8080
Flags: bus master, medium devsel, latency 0, IRQ 18
I/O ports at 1840 [size=32]00:1d.7 USB Controller: Intel Corp.: Unknown device 268c (rev 09) (prog-if 20 [EHCI])
Subsystem: Super Micro Computer Inc: Unknown device 8080
Flags: bus master, medium devsel, latency 0, IRQ 17
Memory at d8a00000 (32-bit, non-prefetchable) [size=1K]
Capabilities: [50] Power Management version 2
Capabilities: [58] #0a [20a0]00:1e.0 PCI bridge: Intel Corp. 82801BA/CA/DB/EB/ER Hub interface to PCI Bridge (rev d9) (prog-if 01 [Subtractive decode])
Flags: bus master, fast devsel, latency 0
Bus: primary=00, secondary=0b, subordinate=0b, sec-latency=32
I/O behind bridge: 00004000-00004fff
Memory behind bridge: d8700000-d87fffff
Prefetchable memory behind bridge: 00000000d0000000-00000000d7f00000
Capabilities: [50] #0d [0000]00:1f.0 ISA bridge: Intel Corp.: Unknown device 2670 (rev 09)
Subsystem: Super Micro Computer Inc: Unknown device 8080
Flags: bus master, medium devsel, latency 000:1f.1 IDE interface: Intel Corp.: Unknown device 269e (rev 09) (prog-if 8a [Master SecP PriP])
Subsystem: Super Micro Computer Inc: Unknown device 8080
Flags: bus master, medium devsel, latency 0, IRQ 18
I/O ports at <unassigned>
I/O ports at <unassigned>
I/O ports at <unassigned>
I/O ports at <unassigned>
I/O ports at 1860 [size=16]00:1f.3 SMBus: Intel Corp.: Unknown device 269b (rev 09)
Subsystem: Super Micro Computer Inc: Unknown device 8080
Flags: medium devsel, IRQ 19
I/O ports at 1100 [size=32]01:00.0 PCI bridge: Intel Corp.: Unknown device 3500 (rev 01) (prog-if 00 [Normal decode])
Flags: bus master, fast devsel, latency 0
Bus: primary=01, secondary=02, subordinate=06, sec-latency=0
I/O behind bridge: 00002000-00003fff
Memory behind bridge: d8000000-d85fffff
Prefetchable memory behind bridge: 00000000c0000000-00000000cff00000
Capabilities: [44] #10 [0051]
Capabilities: [70] Power Management version 2
Capabilities: [80] #0d [0000]01:00.3 PCI bridge: Intel Corp.: Unknown device 350c (rev 01) (prog-if 00 [Normal decode])
Flags: bus master, fast devsel, latency 0
Bus: primary=01, secondary=07, subordinate=07, sec-latency=64
Capabilities: [44] #10 [0071]
Capabilities: [6c] Power Management version 2
Capabilities: [80] #0d [0000]
Capabilities: [d8]
02:00.0 PCI bridge: Intel Corp.: Unknown device 3510 (rev 01) (prog-if 00 [Normal decode])
Flags: bus master, fast devsel, latency 0
Bus: primary=02, secondary=03, subordinate=05, sec-latency=0
I/O behind bridge: 00002000-00002fff
Memory behind bridge: d8000000-d84fffff
Prefetchable memory behind bridge: 00000000c0000000-00000000cff00000
Capabilities: [44] #10 [0061]
Capabilities: [60] Message Signalled Interrupts: 64bit+ Queue=0/0 Enable-
Capabilities: [70] Power Management version 2
Capabilities: [80] #0d [0000]02:02.0 PCI bridge: Intel Corp.: Unknown device 3518 (rev 01) (prog-if 00 [Normal decode])
Flags: bus master, fast devsel, latency 0
Bus: primary=02, secondary=06, subordinate=06, sec-latency=0
I/O behind bridge: 00003000-00003fff
Memory behind bridge: d8500000-d85fffff
Capabilities: [44] #10 [0061]
Capabilities: [60] Message Signalled Interrupts: 64bit+ Queue=0/0 Enable-
Capabilities: [70] Power Management version 2
Capabilities: [80] #0d [0000]03:00.0 PCI bridge: Intel Corp. PCI Bridge Hub A (rev 09) (prog-if 00 [Normal decode])
Flags: bus master, fast devsel, latency 0
Bus: primary=03, secondary=04, subordinate=04, sec-latency=64
Memory behind bridge: d8000000-d83fffff
Prefetchable memory behind bridge: 00000000c0000000-00000000cff00000
Capabilities: [44] #10 [0071]
Capabilities: [5c] Message Signalled Interrupts: 64bit+ Queue=0/0 Enable-
Capabilities: [6c] Power Management version 2
Capabilities: [d8]
03:00.2 PCI bridge: Intel Corp. PCI Bridge Hub B (rev 09) (prog-if 00 [Normal decode])
Flags: bus master, fast devsel, latency 0
Bus: primary=03, secondary=05, subordinate=05, sec-latency=64
I/O behind bridge: 00002000-00002fff
Memory behind bridge: d8400000-d84fffff
Capabilities: [44] #10 [0071]
Capabilities: [5c] Message Signalled Interrupts: 64bit+ Queue=0/0 Enable-
Capabilities: [6c] Power Management version 2
Capabilities: [d8]
04:01.0 RAID bus controller: Adaptec AAC-RAID (rev 02)
Subsystem: Adaptec ASR-2020S PCI-X ZCR (Skyhawk)
Flags: bus master, stepping, 66Mhz, medium devsel, latency 32, IRQ 16
Memory at d8200000 (64-bit, non-prefetchable) [size=2M]
Memory at d8000000 (32-bit, non-prefetchable) [size=2M]
Memory at c0000000 (32-bit, prefetchable) [size=256M]
Expansion ROM at <unassigned> [disabled] [size=32K]
Capabilities: [c0] Power Management version 2
Capabilities: [d0] Message Signalled Interrupts: 64bit+ Queue=0/1 Enable-
Capabilities: [e0] PCI-X non-bridge device.05:01.0 Ethernet controller: Intel Corp. 82546GB Gigabit Ethernet Controller (rev 03)
Subsystem: Intel Corp. PRO/1000 MT Dual Port Network Connection
Flags: bus master, 66Mhz, medium devsel, latency 52, IRQ 16
Memory at d8480000 (64-bit, non-prefetchable) [size=128K]
Memory at d8400000 (64-bit, non-prefetchable) [size=256K]
I/O ports at 2000 [size=64]
Expansion ROM at <unassigned> [disabled] [size=256K]
Capabilities: [dc] Power Management version 2
Capabilities: [e4] Capabilities: [f0] Message Signalled Interrupts: 64bit+ Queue=0/0 Enable-05:01.1 Ethernet controller: Intel Corp. 82546GB Gigabit Ethernet Controller (rev 03)
Subsystem: Intel Corp. PRO/1000 MT Dual Port Network Connection
Flags: bus master, 66Mhz, medium devsel, latency 52, IRQ 17
Memory at d84a0000 (64-bit, non-prefetchable) [size=128K]
Memory at d8440000 (64-bit, non-prefetchable) [size=256K]
I/O ports at 2040 [size=64]
Expansion ROM at <unassigned> [disabled] [size=256K]
Capabilities: [dc] Power Management version 2
Capabilities: [e4] Capabilities: [f0] Message Signalled Interrupts: 64bit+ Queue=0/0 Enable-06:00.0 Ethernet controller: Intel Corp.: Unknown device 1096 (rev 01)
Subsystem: Super Micro Computer Inc: Unknown device 0000
Flags: bus master, fast devsel, latency 0, IRQ 18
Memory at d8500000 (32-bit, non-prefetchable) [size=128K]
I/O ports at 3000 [size=32]
Capabilities: [c8] Power Management version 2
Capabilities: [d0] Message Signalled Interrupts: 64bit+ Queue=0/0 Enable-
Capabilities: [e0] #10 [0001]06:00.1 Ethernet controller: Intel Corp.: Unknown device 1096 (rev 01)
Subsystem: Super Micro Computer Inc: Unknown device 0000
Flags: bus master, fast devsel, latency 0, IRQ 19
Memory at d8520000 (32-bit, non-prefetchable) [size=128K]
I/O ports at 3020 [size=32]
Capabilities: [c8] Power Management version 2
Capabilities: [d0] Message Signalled Interrupts: 64bit+ Queue=0/0 Enable-
Capabilities: [e0] #10 [0001]0b:01.0 VGA compatible controller: ATI Technologies Inc: Unknown device 515e (rev 02) (prog-if 00 [VGA])
Subsystem: Super Micro Computer Inc: Unknown device 8080
Flags: bus master, stepping, fast Back2Back, medium devsel, latency 66, IRQ 18
Memory at d0000000 (32-bit, prefetchable) [size=128M]
I/O ports at 4000 [size=256]
Memory at d8700000 (32-bit, non-prefetchable) [size=64K]
Expansion ROM at <unassigned> [disabled] [size=128K]
Capabilities: [50] Power Management version 2В свое время на других объектах я собирал с этими железками и драйверами на ядрах 2.4.32 и 2.4.35 и все работало без проблем.
Очень жду совета. Сейчас ситуация очень критическая. Если будут советы по пересборке ядра либо вывода более подробной диагностической информации в случании падения - буду очень признателен.
Здравствуйте! Существует "нечто"))) демон-планировщик задач в UNIX-образных операционных системах, использующийся для периодического выполнения заданий в заданное время. Каждый пользователь системы имеет свой файл заданий crontab, в котором описано, в какое время и какие программы запускать от имени этого пользователя. Для редактирования файла crontab используется специальная одноименная программа crontab, позволяющая не прерывать процесс cron на время редактирования.
Использую Alt Linux 4.1 Desktop, я конечно верю в совпадения, но не до такой же степени. Вот строка из моего журнала: Mar 29 04:02:12 localhost su[8159]: pam_tcb(su:session): Session opened for cacheman by (uid=0).
Так что скорее всего Крон настроен по дефолту.
У меня возникла точно такая же проблема, в 4:02 сервер под Alt Linux Master 2.4 зависает. Началось это примерно неделю назад, вчера утром обнаружил, что он в 4:02 он перезагрузился.
У меня лог заканчивается строчкой:
pam_tcb[9829]: su: Session closed for cacheman
далее видимо должен перезагрузиться syslogd, но этого не происходит.
Сервак стоит c 2006 года, всегда работал стабильно.
Короче в свое время (т.е. 2 года назад) мы решили этот вопрос жестко - полной сменой модулей на которых происходило падение. Мнение всех специалистов было что дело в SCSI под-системе. То ли с контроллером что-то не так. То ли с самими хардами. Именно на 4 часа утра поставлены многие задания cron и за котороткий промежуток времени происходит резкое увеличение попыток записи/чтения (или только записи или только чтения - сейчас уже непомню) к хардам (raid массив 5 уровня). В принципе такой ситуации можно добиться и самому, если по самое небалуйся запустить тест iozone. Система может нагнуться и через пару часов и через несколько суток. В понедельник, если интересно - могу выложить полную аппаратную конфигурацию наших серверов.