Добрый день всем!Я работаю с unix не так давно, поэтому прошу сильно не пинать, но помощь очень нужна.
Итак, есть шлюз, выполняющий функции DNSa, PF, FIREWALLa, обеспечивающий инетом сразу на два канала. Сдохнет шлюз - сдохнет инет, поэтому мне очень хочется решить проблему.
В последнее время ни с того ни с сего он начал зависать просто так. Т.е. работает часа три себе, потом зависнет. На консоль не отзывается, - спасает только кнопка reset.
После reset'a я внимательно изучил все, что пишет FreeBSD при загрузке и меня смутили следующие строки:
+++++++++++++++++++++
....
Module_register_init: MOD_LOAD (splash_pcx, 0xc0bc878c)
....
acpi0: reservation of fee00000, 10000 failed
acpi0: reservation of ffb80000, 80000 failed
acpi0: reservation of fff80000, 80000 failed
....
ACPI HPEI table warning: sequence is non zero
....
sio0: configured irq 4 not bitmap of probed irq0
sio1: configured irq 3 not bitmap of probed irq0
.....
Warning: / was not properly dismounted
....
Starting file system checks:
/dev/mirror/gm0s1a: UNREF FILE I=4828448 OWNER=root Mode=140666
/dev/mirror/gm0s1a: SIZE=0 MTIME= Jan 4 20:09 (CLEANED)
/dev/mirror/gm0s1a: Free BLK count(s) wrong in superblk (SALVAGED)
/dev/mirror/gm0s1a: Summary information bad (SALVAGED)
/dev/mirror/gm0s1a: BLK(s) missing in bit maps (SALVAGED)
.....
+++++++++++++++++++++Больше всего смущают, конечно, последние строки, потому что внутри стоят диски в рейде.
Настраивал это все дело не я, я умею только почту собирать, да веб серверы, а вот ДНСы/шлюзы поднимать пока не научился. Поэтому надо постараться решить проблему без сноса и переустановки системы.
С сервером ничего не делалось, вообще. В нем ничего не менялось, не переставлялось.
Оперативку проверил memtest'om - не битая. Разъем оперативки менял, сами планки менял на другие тоже - из всего этого делаю вывод, что дело не в оперативке.Кулер на процессоре прочистил, сервер стоит в хорошо охлаждаемом месте, т.е. не перегревается.
Не знаю, посоветуйте, пожалуйста, что мне сделать/проверить?
Надеюсь на скорейшие ответы... Спасибо!
Прогоняй диски смартом
http://hotfreebsd.ru/monitoring-smart-hdd-vo-freebsd-pri-pom.../
Нужно чтобы было динамики увеличения Reallocated_Sectors и отсутствовали ошибки на дисках.>[оверквотинг удален]
> постараться решить проблему без сноса и переустановки системы.
> С сервером ничего не делалось, вообще. В нем ничего не менялось, не
> переставлялось.
> Оперативку проверил memtest'om - не битая. Разъем оперативки менял, сами планки менял
> на другие тоже - из всего этого делаю вывод, что дело
> не в оперативке.
> Кулер на процессоре прочистил, сервер стоит в хорошо охлаждаемом месте, т.е. не
> перегревается.
> Не знаю, посоветуйте, пожалуйста, что мне сделать/проверить?
> Надеюсь на скорейшие ответы... Спасибо!
> В последнее время ни с того ни с сего он начал зависать
> просто так. Т.е. работает часа три себе, потом зависнет. На консоль
> не отзывается, - спасает только кнопка reset.Машинке уже лет шесть-семь, я полагаю?
Судя по симптомам (глюкам ацпи), у вас брыкается южный мост материнки. Брыкаться он может как по причине отлипания чипа от платы, так и по причине проблем с питанием из-за высохших конденсаторов и/или дешевого БП. С винчестерами проблемы вызваны лишь остановкой системы на всем скаку и отсутствием журнализации ФС, аппаратно они, скорей всего, в порядке.
> Машинке уже лет шесть-семь, я полагаю?Машинке 4 года...
> Судя по симптомам (глюкам ацпи), у вас брыкается южный мост материнки. Брыкаться
> он может как по причине отлипания чипа от платы, так и
> по причине проблем с питанием из-за высохших конденсаторов и/или дешевого БП.
> С винчестерами проблемы вызваны лишь остановкой системы на всем скаку и
> отсутствием журнализации ФС, аппаратно они, скорей всего, в порядке.Свет у нас в конторе действительно отключается часто. Конечно, серваки подключены к ИБП, но, если отключение более продолжительно, чем ИБП может держать, то тут уж ничего не поделаешь...
Хотя, где то читал, что как то можно заставить ИБП слать команду на шатдаун, если, например, эл-во отсутствует более 30 секунд...
Ну допустим, поменяю БП.
Но если не поможет, то меня спасет только ремонт? Или есть какие-нибудь моменты, которые можно сделать?
Выполнил:
++++++++++++++++
gmirror list
gmirror status
++++++++++++++++Получил:
++++++++++++++++
[root@corbina /home/lamerionok]# gmirror list
Geom name: gm0
State: DEGRADED
Components: 2
Balance: round-robin
Slice: 4096
Flags: NONE
GenID: 1
SyncID: 1
ID: 1933856141
Providers:
1. Name: mirror/gm0
Mediasize: 120034123264 (112G)
Sectorsize: 512
Mode: r2w2e3
Consumers:
1. Name: ad4
Mediasize: 120034123776 (112G)
Sectorsize: 512
Mode: r1w1e1
State: ACTIVE
Priority: 0
Flags: DIRTY
GenID: 1
SyncID: 1
ID: 2704183911[root@corbina /home/lamerionok]# gmirror status
Name Status Components
mirror/gm0 DEGRADED ad4
++++++++++++++++
> Выполнил:
> ++++++++++++++++
> gmirror list
> gmirror status
> ++++++++++++++++
> Получил:
> ++++++++++++++++
> [root@corbina /home/lamerionok]# gmirror list
> Geom name: gm0
> State: DEGRADEDразвалился gmirror
пересобирайте
и еще, если машине 4 года - просмотрите все конденсаторы на предмет вздутия
Посмтрел, какие диски есть в системе[root@corbina /usr/home/lamerionok]# dmesg | grep ad
FreeBSD is a registered trademark of The FreeBSD Foundation.
re0: Ethernet address: 00:19:db:71:17:e2
uhub0: ATI OHCI root hub, class 9/0, rev 1.00/1.00, addr 1
uhub1: ATI OHCI root hub, class 9/0, rev 1.00/1.00, addr 1
uhub2: ATI OHCI root hub, class 9/0, rev 1.00/1.00, addr 1
uhub3: ATI OHCI root hub, class 9/0, rev 1.00/1.00, addr 1
uhub4: ATI OHCI root hub, class 9/0, rev 1.00/1.00, addr 1
uhub5: ATI EHCI root hub, class 9/0, rev 2.00/1.00, addr 1
fxp0: Ethernet address: 00:03:47:73:b2:2c
fxp1: Ethernet address: 00:03:47:73:b2:2d
fxp2: Ethernet address: 00:03:47:73:b9:5c
fxp3: Ethernet address: 00:03:47:73:b9:5d
ad4: 114473MB <SAMSUNG HD120IJ ZL100-47> at ata2-master SATA300
ad6: 114473MB <SAMSUNG HD120IJ ZL100-47> at ata3-master SATA300
GEOM_MIRROR: Device gm0: provider ad4 detected.
GEOM_MIRROR: Device gm0: provider ad6 detected.
GEOM_MIRROR: Component ad6 (device gm0) broken, skipping.
GEOM_MIRROR: Device gm0: provider ad4 activated.Затем подсунул нерабочий диск гмиррору
[root@corbina /usr/home/lamerionok]# gmirror forget gm0
[root@corbina /usr/home/lamerionok]# gmirror insert gm0 ad6И еще раз посмотрел, что у меня в итоге получилось с софтовым рейдом:
[root@corbina /usr/home/lamerionok]# gmirror list
Geom name: gm0
State: DEGRADED
Components: 2
Balance: round-robin
Slice: 4096
Flags: NONE
GenID: 1
SyncID: 1
ID: 1933856141
Providers:
1. Name: mirror/gm0
Mediasize: 120034123264 (112G)
Sectorsize: 512
Mode: r3w2e3
Consumers:
1. Name: ad4
Mediasize: 120034123776 (112G)
Sectorsize: 512
Mode: r1w1e1
State: ACTIVE
Priority: 0
Flags: NONE
GenID: 1
SyncID: 1
ID: 2704183911
2. Name: ad6
Mediasize: 120034123776 (112G)
Sectorsize: 512
Mode: r1w1e1
State: SYNCHRONIZING
Priority: 0
Flags: DIRTY, SYNCHRONIZING
GenID: 1
SyncID: 1
Synchronized: 2%
ID: 857470208Проверить диск smartmontools не получилось, потому что система не могла попасть в директорию с портом:
cd: can't cd to ....
Жду окончания синхронизации, посмотрим, что будет дальше.
Подскажите, пожалуйста, что мне надо будет делать со строкой:
Flags: DIRTY, SYNCHRONIZING
Вероятно, ответ будет "кури маны"? =)
> Посмтрел, какие диски есть в системе
> [root@corbina /usr/home/lamerionok]# dmesg | grep ad[skip]
>[оверквотинг удален]
> SyncID: 1
> Synchronized: 2%
> ID: 857470208
> Проверить диск smartmontools не получилось, потому что система не могла попасть в
> директорию с портом:
> cd: can't cd to ....
> Жду окончания синхронизации, посмотрим, что будет дальше.
> Подскажите, пожалуйста, что мне надо будет делать со строкой:
> Flags: DIRTY, SYNCHRONIZING
> Вероятно, ответ будет "кури маны"? =)ничего,
когда Synchronized дойдет до 100%, Flags изменится на DIRTY, State на ACTIVE
и все...
это если конечно нет проблемы с диском на уровне физики
если есть проблемы - тогда физически менять диск и обратно синхронизировать...
> когда Synchronized дойдет до 100%, Flags изменится на DIRTY, State на ACTIVEСтранно, но у меня FLAGS изменились на NONE
Это не есть гут?
vertigo# gmirror list
Geom name: gm0
State: COMPLETE
Components: 2
Balance: round-robin
Slice: 4096
Flags: NONE
GenID: 1
SyncID: 1
ID: 1933856141
Providers:
1. Name: mirror/gm0
Mediasize: 120034123264 (112G)
Sectorsize: 512
Mode: r2w2e3
Consumers:
1. Name: ad4
Mediasize: 120034123776 (112G)
Sectorsize: 512
Mode: r1w1e1
State: ACTIVE
Priority: 0
Flags: NONE
GenID: 1
SyncID: 1
ID: 2704183911
2. Name: ad6
Mediasize: 120034123776 (112G)
Sectorsize: 512
Mode: r1w1e1
State: ACTIVE
Priority: 0
Flags: NONE
GenID: 1
SyncID: 1
ID: 857470208
>> когда Synchronized дойдет до 100%, Flags изменится на DIRTY, State на ACTIVE
> Странно, но у меня FLAGS изменились на NONE
> Это не есть гут?нормально
> Странно, но у меня FLAGS изменились на NONEСейчас вы склеили разбитое зеркало, но причину зависаний не устранили. Поэтому готовьтесь к очередному слету.
Проблема на 99% "железная".
> Сейчас вы склеили разбитое зеркало, но причину зависаний не устранили. Поэтому готовьтесь
> к очередному слету.Вы правы. На выходных, когда сервак никем юзаться не будет, сниму харды и проверю сторонними утилитами диски, посмотрю на коденсаторы, проверю оперативку...
> Вы правы. На выходных, когда сервак никем юзаться не будет, сниму харды
> и проверю сторонними утилитами диски, посмотрю на коденсаторы, проверю оперативку...Винты можете не проверять, если б они были битые, зеркало не отребилдилось бы. Лучше всего погонять на машине стресс-тесты, которые хорошо грузят проц, память, ввод-вывод.
По моему опыту, подобные зависания случаются, когда нарушается пайка BGA-корпуса чипсета. Теоретически эта болячка лечится прогреванием чипа специальным феном, но материнке, которая требует подобного лечения, на сервере не место. Скорей всего, ее придется менять.