После трапа "Fatal trap 12: page fault while in kernel mode" и ребута
Нет дампа ядра...# uname -a
... FreeBSD 5.3-RELEASE ...i386# cat /etc/rc.conf
...
dumpdev="/dev/ar0s1b" # Device name to crashdump to (or NO).
dumpdir="/usr/local/var/crash" # Directory where crash dumps are to be stored
savecore_flags="-z" # Used if dumpdev is enabled above, and present.
...# cat /sys/i386/conf/MINE_KERNEL
...
# DEBUGGING
makeoptions DEBUG=-g
options KDB
options GDB
options DDB
options KDB_UNATTENDED
...# cat /var/log/console.log
...
Sep 7 03:40:53 ns kernel: kickstart
Sep 7 03:40:53 ns kernel: .
Sep 7 03:40:53 ns kernel: kernel dumps on /dev/ar0s1b
Sep 7 03:40:53 ns kernel: swapon: adding /dev/ar0s1b as swap device
...
...
...
Sep 7 03:40:53 ns kernel: Sep 7 03:40:53 ns syslogd: kernel boot file is /boot
/kernel/kernel
Sep 7 03:40:53 ns kernel: Checking for core dump on /dev/ar0s1b ...
Sep 7 03:40:53 ns kernel: savecore: no dumps found
...Потом еще ядро собрано с опцией:
options PANIC_REBOOT_WAIT_TIME=30А автоматического ребута не происходит..
Ничего не понимаю... Или я что-то не так делаю?
Почему не ребутится серв при трапе?
>[оверквотинг удален]
>...
>
>Потом еще ядро собрано с опцией:
>options PANIC_REBOOT_WAIT_TIME=30
>
>А автоматического ребута не происходит..
>
>
>Ничего не понимаю... Или я что-то не так делаю?
>Почему не ребутится серв при трапе?Поглядите в папке /var/crash
>Поглядите в папке /var/crash
>>dumpdir="/usr/local/var/crash" # Directory where crash dumps are to be storedПодозреваю, что отваливается контроллер.
Подсоедините напрямую пустой винт, создайте на нем раздел и укажите туда дампы скидывать.
Если не так принципиально иметь отладчик в ядре, попрубуйте убрать эти опции.
>Если не так принципиально иметь отладчик в ядре, попрубуйте убрать эти опции.
>Хм.. Пострипало.. Вот эти:
options KDB
options GDB
options DDB
options KDB_UNATTENDED
>А автоматического ребута не происходит..При панике система должна сделать дамп и ребутнуться, а у Вас этого не происходит, видимо зависает. Железо какое?
>
>При панике система должна сделать дамп и ребутнуться, а у Вас этого
>не происходит, видимо зависает. Железо какое?
>Железо от сервера HP ProLiant DL360 Generation 4p (G4p):
(из логов сервера, что там именно не помню... вроде все дефолтное)
...
CPU: Intel(R) Xeon(TM) CPU 3.00GHz (3000.12-MHz 686-class CPU)
Hyperthreading: 2 logical CPUs
Память: 1023 MB
vga0: <Generic ISA VGA> at port 0x3c0-0x3df iomem 0xa0000-0xbffff on isa0
Broadcom BCM5704C Dual Gigabit Ethernet, ASIC
ad4: 76319MB <Maxtor 6Y080M0/YAR511W0> [155061/16/63] at ata2-master SATA150
ad6: 76319MB <Maxtor 6L080M0/BACE1G10> [155061/16/63] at ata3-master SATA150
ar0: 76293MB <ATA RAID1 array> [9726/255/63] status: READY subdisks:
...Диски ad4 и ad6
...
ATA channel 2:
Master: ad4 <Maxtor 6Y080M0/YAR511W0> Serial ATA v1.0
Slave: no device present
ATA channel 3:
Master: ad6 <Maxtor 6L080M0/BACE1G10> Serial ATA v1.0
Slave: no device present
...сидят на контролере:
...
atapci0: <Promise PDC20318 SATA150 controller> port 0x4080-0x40ff,0x4040-0x404f
,0x4000-0x403f mem 0xfdfc0000-0xfdfdffff,0xfdff0000-0xfdff0fff irq 48 at device 1.0 on pci7
Sep 7 03:40:53 ns kernel: atapci0: failed: rid 0x20 is memory, requested 4
Sep 7 03:40:53 ns kernel: ata2: channel #0 on atapci0
Sep 7 03:40:53 ns kernel: ata3: channel #1 on atapci0
Sep 7 03:40:53 ns kernel: ata4: channel #2 on atapci0
Sep 7 03:40:53 ns kernel: ata5: channel #3 on atapci0
...
...
Сейчас заметил:
atapci0: failed: rid 0x20 is memory, requested 4На сколько это критично? И может быть это причиной такого поведения?
По поводу: atapci0: failed: rid 0x20 is memory, requested 4
Вроде нашел http://lists.freebsd.org/pipermail/freebsd-current/2004-Dece...
>Железо от сервера HP ProLiant DL360 Generation 4p (G4p):
>Такая-же история, dl320 и dl380, при панике зависают. Проверял с помощью искусственной паники, на старом железе всё ок, а на новом затык, увы.
>>Железо от сервера HP ProLiant DL360 Generation 4p (G4p):
>>
>
>Такая-же история, dl320 и dl380, при панике зависают. Проверял с помощью искусственной
>паники, на старом железе всё ок, а на новом затык, увы.
>А ОСь какая? FreeBSD? Какая версия?
Раньше (год-два назад) такого не было.
Трапы стали появляться сравнительно недавно с различной периодичностью.
Как будто от перегрева, но не факт.Может обновления до 6.1 или 6.2 поможет решить задачу?
>>>Железо от сервера HP ProLiant DL360 Generation 4p (G4p):
>>>
>>
>>Такая-же история, dl320 и dl380, при панике зависают. Проверял с помощью искусственной
>>паники, на старом железе всё ок, а на новом затык, увы.
>>
>
>А ОСь какая? FreeBSD? Какая версия?6.2-RELEASE-p6
>>Железо от сервера HP ProLiant DL360 Generation 4p (G4p):
>>
>
>Такая-же история, dl320 и dl380, при панике зависают. Проверял с помощью искусственной
>паники, на старом железе всё ок, а на новом затык, увы.
>Подозрение на некорректную работу ACPI.
>>>Железо от сервера HP ProLiant DL360 Generation 4p (G4p):
>>>
>>
>>Такая-же история, dl320 и dl380, при панике зависают. Проверял с помощью искусственной
>>паники, на старом железе всё ок, а на новом затык, увы.
>>
>
>Подозрение на некорректную работу ACPI.Стопроцентное попадание, отключение acpi помогло.
Спасибо universite.
>>Подозрение на некорректную работу ACPI.
>
>Стопроцентное попадание, отключение acpi помогло.
>Спасибо universite.Подскажите, как его отключить?
И надо ли при этом включать APM, как написано на странице http://phobos.cs.msu.su/HTML/_usr_share_doc_ru_RU.KOI8-R_boo... ?
>Подскажите, как его отключить?
>И надо ли при этом включать APM, как написано на странице http://phobos.cs.msu.su/HTML/_usr_share_doc_ru_RU.KOI8-R_boo...
>?вроде нашел:
hint.acpi.1.disabled
в /boot/loader.conf
>
>Подозрение на некорректную работу ACPI.Вроде прописал в /boot/loader.conf опцию hint.acpi.0.disabled="1"
А вот сегодня опять завис на ошибке Fatal Trap 12# sysctl hw.acpi
sysctl: unknown oid 'hw.acpi'В чем может быть еще причина? Или я что-то не то сделал?
Тут вот, что еше обнаружили:Sep 25 15:39:08 ns kernel: Interrupt storm detected on "irq16: uhci0"; throttling interrupt source
Sep 25 18:53:55 ns kernel: Interrupt storm detected on "irq16: uhci0"; throttling interrupt source
из логов еще:Sep 25 15:39:08 ns kernel: uhci0: <UHCI (generic) USB controller> port 0x2000-0x201f irq 16 at device 29.0 on pci0
Sep 25 15:39:08 ns kernel: uhci0: [GIANT-LOCKED]
Sep 25 15:39:08 ns kernel: usb0: <UHCI (generic) USB controller> on uhci0
Sep 25 15:39:08 ns kernel: Interrupt storm detected on "irq16: uhci0"; throttling interrupt source
Sep 25 18:53:55 ns kernel: uhci0: <UHCI (generic) USB controller> port 0x2000-0x201f irq 16 at device 29.0 on pci0
Sep 25 18:53:55 ns kernel: uhci0: [GIANT-LOCKED]
Sep 25 18:53:55 ns kernel: usb0: <UHCI (generic) USB controller> on uhci0
Sep 25 18:53:55 ns kernel: Interrupt storm detected on "irq16: uhci0"; throttling interrupt sourceПроблемы в USB контроллере? Из-за него сервер трапится? Так USB у нас не используется...
>Проблемы в USB контроллере? Из-за него сервер трапится? Так USB у нас
>не используется...а прерывания (uhc) считаются...
# systat -v
Mem:KB REAL VIRTUAL VN PAGER SWAP PAGER
Tot Share Tot Share Free in out in out
Act 601104 16404 1866148 59068 188688 count 3
All 854328 79664 1419348 300624 pages 10
Interrupts
Proc:r p d s w Csw Trp Sys Int Sof Flt 160 cow 431 total
1 1171 886 660 3890 599 74 638 188564 wire 1: atkb
567044 act 128 8: rtc
3.7%Sys 0.2%Intr 4.0%User 0.0%Nice 92.1%Idl 76316 inact 13: npx
| | | | | | | | | | 28888 cache 59 16: uhc
>Проблемы в USB контроллере? Из-за него сервер трапится? Так USB у нас
>не используется...Если не используется, уберите его из ядра или в биосе отключите.
>>Проблемы в USB контроллере? Из-за него сервер трапится? Так USB у нас
>>не используется...
>
>Если не используется, уберите его из ядра или в биосе отключите.Отключил.. сегодня вот заново (почти с месячным аптаймом)...
В логах:Oct 25 11:09:08 ns kernel: pnpbios: error 1/82 getting device count/size limit
Oct 25 11:48:12 ns kernel: pnpbios: error 1/82 getting device count/size limit
Oct 25 17:01:00 ns kernel: pnpbios: error 1/82 getting device count/size limitЧто это такое???
Несколько раз отрубали электричество. Упс под конец не выдержал. На файлсервере слетел винт с логическим бедом, а на роутере начало вылетать такое. mhdd сказал что проблем нет. Переставил систему. жду.вроде попустило.Кстати, как раз перед Фатал трап 12 вылетало
discard frame w/o packet header