Сегодня сервер на консольку написал:dev=ad4s1f, block=1, fs=/usr
panic: ffs_blkfree: freeing free block
Uptime: столько то часов.А потом залип и больше ни на что не реагировал.
До этого выводил просто нескончаемым потоком в логи:Nov 10 17:00:43 *** kernel: ad4: FAILURE - WRITE_DMA timed out
Nov 10 17:01:00 *** kernel: ad4: TIMEOUT - WRITE_DMA retrying (2 retries left) LBA=314336735
Nov 10 17:01:01 *** kernel: ad4: FAILURE - WRITE_DMA timed out
Nov 10 17:01:19 *** kernel: ad4: TIMEOUT - WRITE_DMA retrying (2 retries left) LBA=53524831
Nov 10 17:01:21 *** kernel: ad4: FAILURE - WRITE_DMA timed out
Nov 10 17:01:32 *** kernel: ad4: TIMEOUT - WRITE_DMA retrying (2 retries left) LBA=111483135Что делать? Очень сильно надеюсь на Вашу помощь.
OS FreeBSD 5.3
MB: ASUS A7N8X-E
HDD: SATA 190781MB <ST3200826AS/3.01> [387618/16/63] at ata2-master SATA150 ( т.е. Жесткий диск SATA HDD 200Gb 7200rpm Seagate ST3200826AS 8Mb cache )
>Сегодня сервер на консольку написал:
>
>dev=ad4s1f, block=1, fs=/usr
>panic: ffs_blkfree: freeing free block
>Uptime: столько то часов.
>
>А потом залип и больше ни на что не реагировал.
>До этого выводил просто нескончаемым потоком в логи:
>
>Nov 10 17:00:43 *** kernel: ad4: FAILURE - WRITE_DMA timed out
>Nov 10 17:01:00 *** kernel: ad4: TIMEOUT - WRITE_DMA retrying (2 retries
>left) LBA=314336735
>Nov 10 17:01:01 *** kernel: ad4: FAILURE - WRITE_DMA timed out
>Nov 10 17:01:19 *** kernel: ad4: TIMEOUT - WRITE_DMA retrying (2 retries
>left) LBA=53524831
>Nov 10 17:01:21 *** kernel: ad4: FAILURE - WRITE_DMA timed out
>Nov 10 17:01:32 *** kernel: ad4: TIMEOUT - WRITE_DMA retrying (2 retries
>left) LBA=111483135
>
>Что делать? Очень сильно надеюсь на Вашу помощь.
>
>OS FreeBSD 5.3
>MB: ASUS A7N8X-E
>HDD: SATA 190781MB <ST3200826AS/3.01> [387618/16/63] at ata2-master SATA150 ( т.е. Жесткий диск SATA HDD 200Gb 7200rpm Seagate ST3200826AS 8Mb cache )Сие значит, что винт отвалился и ядро не может на него ничего записать, а хочет. В логах что ну не можем по LBA-адресу на винт записать - винт не вменяем и нас Егноририет.
Перегружать машинку пробывал?
Похожее у меня было когда поднагрузкой сервак обесточили. Головы таки черканули. После старта в сингле и долгого и очень нерадостного fsck последовательно по всем fs все "вылечилось" и сервак даже загрузился как нивчем не бывало.
>Перегружать машинку пробывал?Да, не помогает. Все повторяется как по сценарию.
>Похожее у меня было когда поднагрузкой сервак обесточили. Головы таки черканули. После
>старта в сингле и долгого и очень нерадостного fsck последовательно по
>всем fs все "вылечилось" и сервак даже загрузился как нивчем не
>бывало.fsck запускал, но вроде он там ничего не нашел, не уверен правда я
До этого сервак постоянно зависал, приходилось постоянно перегружать.
На сервере apache, mysql, php и прочееСообщения в логах начали появляться, сразу после смены материнской карты.
Может от этих перегрузов постоянных он и спекся?
Вот, что выдает smartctl:smartctl version 5.33 [i386-portbld-freebsd5.3] Copyright (C) 2002-4 Bruce Allen
Home page is http://smartmontools.sourceforge.net/=== START OF INFORMATION SECTION ===
Device Model: ST3200826AS
Serial Number: 3ND0496D
Firmware Version: 3.01
User Capacity: 200,048,565,760 bytes
Device is: Not in smartctl database [for details use: -P showall]
ATA Version is: 7
ATA Standard is: Exact ATA specification draft version not indicated
Local Time is: Thu Nov 10 23:34:06 2005 GMT
SMART support is: Available - device has SMART capability.
SMART support is: Enabled=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSEDGeneral SMART Values:
Offline data collection status: (0x82) Offline data collection activity
was completed without error.
Auto Offline Data Collection: Enabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: ( 430) seconds.
Offline data collection
capabilities: (0x5b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
No Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 1) minutes.
Extended self-test routine
recommended polling time: ( 67) minutes.SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000f 049 045 006 Pre-fail Always - 118057855
3 Spin_Up_Time 0x0003 098 098 000 Pre-fail Always - 0
4 Start_Stop_Count 0x0032 100 100 020 Old_age Always - 64
5 Reallocated_Sector_Ct 0x0033 100 100 036 Pre-fail Always - 0
7 Seek_Error_Rate 0x000f 081 060 030 Pre-fail Always - 136661343
9 Power_On_Hours 0x0032 097 097 000 Old_age Always - 3223
10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always - 0
12 Power_Cycle_Count 0x0032 100 100 020 Old_age Always - 79
194 Temperature_Celsius 0x0022 041 057 000 Old_age Always - 41 (Lifetime Min/Max 0/18)
195 Hardware_ECC_Recovered 0x001a 049 045 000 Old_age Always - 118057855
197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0000 100 253 000 Old_age Offline - 0
202 TA_Increase_Count 0x0032 100 253 000 Old_age Always - 0SMART Error Log Version: 1
ATA Error Count: 203 (device log contains only the most recent five errors)
CR = Command Register [HEX]
FR = Features Register [HEX]
SC = Sector Count Register [HEX]
SN = Sector Number Register [HEX]
CL = Cylinder Low Register [HEX]
CH = Cylinder High Register [HEX]
DH = Device/Head Register [HEX]
DC = Device Command Register [HEX]
ER = Error register [HEX]
ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.Error 203 occurred at disk power-on lifetime: 3182 hours (132 days + 14 hours)
When the command that caused the error occurred, the device was active or idle.After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
10 51 01 6e e9 49 e7Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
37 00 01 6e e9 49 e7 00 00:10:49.239 SET MAX ADDRESS EXT
27 00 01 af f1 49 e0 00 00:10:49.239 READ NATIVE MAX ADDRESS EXT
29 00 01 af f1 49 e0 00 00:10:49.239 READ MULTIPLE EXT
37 00 00 af f1 49 e7 00 00:10:49.176 SET MAX ADDRESS EXT
27 00 00 00 00 00 e0 00 00:10:49.095 READ NATIVE MAX ADDRESS EXTError 202 occurred at disk power-on lifetime: 3121 hours (130 days + 1 hours)
When the command that caused the error occurred, the device was active or idle.After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
10 51 01 6e e9 49 e7Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
37 00 01 6e e9 49 e7 00 00:12:11.257 SET MAX ADDRESS EXT
27 00 01 af f1 49 e0 00 00:12:11.114 READ NATIVE MAX ADDRESS EXT
29 00 01 af f1 49 e0 00 00:12:11.114 READ MULTIPLE EXT
37 00 00 af f1 49 e7 00 00:12:11.114 SET MAX ADDRESS EXT
27 00 00 00 00 00 e0 00 00:12:09.642 READ NATIVE MAX ADDRESS EXTError 201 occurred at disk power-on lifetime: 3103 hours (129 days + 7 hours)
When the command that caused the error occurred, the device was active or idle.After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
10 51 01 6e e9 49 e7Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
37 00 01 6e e9 49 e7 00 03:39:05.410 SET MAX ADDRESS EXT
27 00 01 af f1 49 e0 00 03:39:05.410 READ NATIVE MAX ADDRESS EXT
29 00 01 af f1 49 e0 00 03:39:05.410 READ MULTIPLE EXT
37 00 00 af f1 49 e7 00 03:39:05.410 SET MAX ADDRESS EXT
27 00 00 00 00 00 e0 00 03:39:05.409 READ NATIVE MAX ADDRESS EXTError 200 occurred at disk power-on lifetime: 3103 hours (129 days + 7 hours)
When the command that caused the error occurred, the device was active or idle.After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
10 51 01 6e e9 49 e7Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
37 00 01 6e e9 49 e7 00 03:22:51.799 SET MAX ADDRESS EXT
27 00 01 af f1 49 e0 00 03:22:51.718 READ NATIVE MAX ADDRESS EXT
29 00 01 af f1 49 e0 00 03:22:53.551 READ MULTIPLE EXT
37 00 00 af f1 49 e7 00 03:22:53.551 SET MAX ADDRESS EXT
27 00 00 00 00 00 e0 00 03:22:53.404 READ NATIVE MAX ADDRESS EXTError 199 occurred at disk power-on lifetime: 3101 hours (129 days + 5 hours)
When the command that caused the error occurred, the device was active or idle.After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
10 51 01 6e e9 49 e7Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
37 00 01 6e e9 49 e7 00 01:14:50.521 SET MAX ADDRESS EXT
27 00 01 af f1 49 e0 00 01:14:50.521 READ NATIVE MAX ADDRESS EXT
29 00 01 af f1 49 e0 00 01:14:50.520 READ MULTIPLE EXT
37 00 00 af f1 49 e7 00 01:14:50.520 SET MAX ADDRESS EXT
27 00 00 00 00 00 e0 00 01:14:50.462 READ NATIVE MAX ADDRESS EXTSMART Self-test log structure revision number 1
No self-tests have been logged. [To run self-tests, use: smartctl -t]
SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
возможные пути (приоритеты):
1) другая мать (перешивка биоса врядли помощет) (или контроллер)
2) принудительно скорость на канале (биос, система)
3) иногда (реденько и ненадолго) - помогает отключение смарта (токо не спра, каким образом - сам пару раз делал)
>1) другая мать (перешивка биоса врядли помощет) (или контроллер)Будем пробовать :)
>2) принудительно скорость на канале (биос, система)
Это DMA? Стояла 3, поменял на единственную другую опцию 1. Не помогло. :\
>3) иногда (реденько и ненадолго) - помогает отключение смарта (токо не спра,
Если не надолго?! Тогда отпадает, как вариант :(
Вот только что узнал, что у нас там стоит: Silicon Image SATA controllers
А там и тему нашел: http://www.freebsd.org/cgi/query-pr.cgi?pr=kern/72451
Посмотрел специфивации матери. Если винт подключен к Silicon Image Sil 3112A RAID Controller, то я и не удевляюсь. На него все плюются. Поставь дрегой контроллер или замени мать. Сам же писал, что глюки после смены материнки начались. Если нужен SATA-RAID и нет денег на апаратный, то IMHO только Promise, т.к. у меня с ним еще ниразу небыло проблем и он поддерживантся полностью во фре (ребилд и т.д.)
>Посмотрел специфивации матери. Если винт подключен к Silicon Image Sil 3112A RAID
>Controller, то я и не удевляюсь. На него все плюются. Поставь
>дрегой контроллер или замени мать. Сам же писал, что глюки после
>смены материнки начались. Если нужен SATA-RAID и нет денег на апаратный,
>то IMHO только Promise, т.к. у меня с ним еще ниразу
>небыло проблем и он поддерживантся полностью во фре (ребилд и т.д.)
>Блин, всего и не предусмотреть, раньше думать нужно было батюшка.
Просто сменил GIGABYTE на ASUS, т.к. первое работало не стабильно. Но вот никак не думал, что будут проблемы с контроллером SATA :(
А есть мамки уже с Promise? Ведь если стапить котроллер в слоть PCI скорость доступа к диску значительно снизится (по данным http://www.computerra.ru/gid/hard/36705/ )
Поставил PROMISE SATA II 150 TX2 PlusА система не хочет грузиться.
Пишет:
Mounting root from ufs:/dev/ad4s1a
setrootbyname failed
ffs_mountroot: can't find rootvp
Root mount failed: 5
Как я выяснил, ОС вообще не видит диск (контроллер)