URL: https://www.opennet.me/cgi-bin/openforum/vsluhboard.cgi
Форум: vsluhforumID1
Нить номер: 61699
[ Назад ]

Исходное сообщение
"panic: ffs_blkfree: freeing free block "

Отправлено zeiter , 10-Ноя-05 20:21 
Сегодня сервер на консольку написал:

dev=ad4s1f, block=1, fs=/usr
panic: ffs_blkfree: freeing free block
Uptime: столько то часов.

А потом залип и больше ни на что не реагировал.
До этого выводил просто нескончаемым потоком в логи:

Nov 10 17:00:43 *** kernel: ad4: FAILURE - WRITE_DMA timed out
Nov 10 17:01:00 *** kernel: ad4: TIMEOUT - WRITE_DMA retrying (2 retries left) LBA=314336735
Nov 10 17:01:01 *** kernel: ad4: FAILURE - WRITE_DMA timed out
Nov 10 17:01:19 *** kernel: ad4: TIMEOUT - WRITE_DMA retrying (2 retries left) LBA=53524831
Nov 10 17:01:21 *** kernel: ad4: FAILURE - WRITE_DMA timed out
Nov 10 17:01:32 *** kernel: ad4: TIMEOUT - WRITE_DMA retrying (2 retries left) LBA=111483135

Что делать? Очень сильно надеюсь на Вашу помощь.

OS FreeBSD 5.3
MB: ASUS A7N8X-E
HDD: SATA 190781MB <ST3200826AS/3.01> [387618/16/63] at ata2-master SATA150 ( т.е. Жесткий диск SATA HDD 200Gb 7200rpm Seagate ST3200826AS 8Mb cache )


Содержание

Сообщения в этом обсуждении
"panic: ffs_blkfree: freeing free block "
Отправлено lenin , 10-Ноя-05 23:42 
>Сегодня сервер на консольку написал:
>
>dev=ad4s1f, block=1, fs=/usr
>panic: ffs_blkfree: freeing free block
>Uptime: столько то часов.
>
>А потом залип и больше ни на что не реагировал.
>До этого выводил просто нескончаемым потоком в логи:
>
>Nov 10 17:00:43 *** kernel: ad4: FAILURE - WRITE_DMA timed out
>Nov 10 17:01:00 *** kernel: ad4: TIMEOUT - WRITE_DMA retrying (2 retries
>left) LBA=314336735
>Nov 10 17:01:01 *** kernel: ad4: FAILURE - WRITE_DMA timed out
>Nov 10 17:01:19 *** kernel: ad4: TIMEOUT - WRITE_DMA retrying (2 retries
>left) LBA=53524831
>Nov 10 17:01:21 *** kernel: ad4: FAILURE - WRITE_DMA timed out
>Nov 10 17:01:32 *** kernel: ad4: TIMEOUT - WRITE_DMA retrying (2 retries
>left) LBA=111483135
>
>Что делать? Очень сильно надеюсь на Вашу помощь.
>
>OS FreeBSD 5.3
>MB: ASUS A7N8X-E
>HDD: SATA 190781MB <ST3200826AS/3.01> [387618/16/63] at ata2-master SATA150 ( т.е. Жесткий диск SATA HDD 200Gb 7200rpm Seagate ST3200826AS 8Mb cache )

Сие значит, что винт отвалился и ядро не может на него ничего записать, а хочет. В логах что ну не можем по LBA-адресу на винт записать - винт не вменяем и нас Егноририет.

Перегружать машинку пробывал?
Похожее у меня было когда поднагрузкой сервак обесточили. Головы таки черканули. После старта в сингле и долгого и очень нерадостного fsck последовательно по всем fs все "вылечилось" и сервак даже загрузился как нивчем не бывало.


"panic: ffs_blkfree: freeing free block "
Отправлено zeiter , 11-Ноя-05 06:13 
>Перегружать машинку пробывал?

Да, не помогает. Все повторяется как по сценарию.

>Похожее у меня было когда поднагрузкой сервак обесточили. Головы таки черканули. После
>старта в сингле и долгого и очень нерадостного fsck последовательно по
>всем fs все "вылечилось" и сервак даже загрузился как нивчем не
>бывало.

fsck запускал, но вроде он там ничего не нашел, не уверен правда я


"panic: ffs_blkfree: freeing free block "
Отправлено zeiter , 11-Ноя-05 06:20 
До этого сервак постоянно зависал, приходилось постоянно перегружать.
На сервере apache, mysql, php и прочее

Сообщения в логах начали появляться, сразу после смены материнской карты.

Может от этих перегрузов постоянных он и спекся?


"panic: ffs_blkfree: freeing free block "
Отправлено zeiter , 11-Ноя-05 06:42 
Вот, что выдает smartctl:

smartctl version 5.33 [i386-portbld-freebsd5.3] Copyright (C) 2002-4 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF INFORMATION SECTION ===
Device Model:     ST3200826AS
Serial Number:    3ND0496D
Firmware Version: 3.01
User Capacity:    200,048,565,760 bytes
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   7
ATA Standard is:  Exact ATA specification draft version not indicated
Local Time is:    Thu Nov 10 23:34:06 2005 GMT
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x82)    Offline data collection activity
                    was completed without error.
                    Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0)    The previous self-test routine completed
                    without error or no self-test has ever
                    been run.
Total time to complete Offline
data collection:          ( 430) seconds.
Offline data collection
capabilities:              (0x5b) SMART execute Offline immediate.
                    Auto Offline data collection on/off support.
                    Suspend Offline collection upon new
                    command.
                    Offline surface scan supported.
                    Self-test supported.
                    No Conveyance Self-test supported.
                    Selective Self-test supported.
SMART capabilities:            (0x0003)    Saves SMART data before entering
                    power-saving mode.
                    Supports SMART auto save timer.
Error logging capability:        (0x01)    Error logging supported.
                    General Purpose Logging supported.
Short self-test routine
recommended polling time:      (   1) minutes.
Extended self-test routine
recommended polling time:      (  67) minutes.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   049   045   006    Pre-fail  Always       -       118057855
  3 Spin_Up_Time            0x0003   098   098   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       64
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   081   060   030    Pre-fail  Always       -       136661343
  9 Power_On_Hours          0x0032   097   097   000    Old_age   Always       -       3223
10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       79
194 Temperature_Celsius     0x0022   041   057   000    Old_age   Always       -       41 (Lifetime Min/Max 0/18)
195 Hardware_ECC_Recovered  0x001a   049   045   000    Old_age   Always       -       118057855
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0000   100   253   000    Old_age   Offline      -       0
202 TA_Increase_Count       0x0032   100   253   000    Old_age   Always       -       0

SMART Error Log Version: 1
ATA Error Count: 203 (device log contains only the most recent five errors)
    CR = Command Register [HEX]
    FR = Features Register [HEX]
    SC = Sector Count Register [HEX]
    SN = Sector Number Register [HEX]
    CL = Cylinder Low Register [HEX]
    CH = Cylinder High Register [HEX]
    DH = Device/Head Register [HEX]
    DC = Device Command Register [HEX]
    ER = Error register [HEX]
    ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 203 occurred at disk power-on lifetime: 3182 hours (132 days + 14 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  10 51 01 6e e9 49 e7

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  37 00 01 6e e9 49 e7 00      00:10:49.239  SET MAX ADDRESS EXT
  27 00 01 af f1 49 e0 00      00:10:49.239  READ NATIVE MAX ADDRESS EXT
  29 00 01 af f1 49 e0 00      00:10:49.239  READ MULTIPLE EXT
  37 00 00 af f1 49 e7 00      00:10:49.176  SET MAX ADDRESS EXT
  27 00 00 00 00 00 e0 00      00:10:49.095  READ NATIVE MAX ADDRESS EXT

Error 202 occurred at disk power-on lifetime: 3121 hours (130 days + 1 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  10 51 01 6e e9 49 e7

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  37 00 01 6e e9 49 e7 00      00:12:11.257  SET MAX ADDRESS EXT
  27 00 01 af f1 49 e0 00      00:12:11.114  READ NATIVE MAX ADDRESS EXT
  29 00 01 af f1 49 e0 00      00:12:11.114  READ MULTIPLE EXT
  37 00 00 af f1 49 e7 00      00:12:11.114  SET MAX ADDRESS EXT
  27 00 00 00 00 00 e0 00      00:12:09.642  READ NATIVE MAX ADDRESS EXT

Error 201 occurred at disk power-on lifetime: 3103 hours (129 days + 7 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  10 51 01 6e e9 49 e7

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  37 00 01 6e e9 49 e7 00      03:39:05.410  SET MAX ADDRESS EXT
  27 00 01 af f1 49 e0 00      03:39:05.410  READ NATIVE MAX ADDRESS EXT
  29 00 01 af f1 49 e0 00      03:39:05.410  READ MULTIPLE EXT
  37 00 00 af f1 49 e7 00      03:39:05.410  SET MAX ADDRESS EXT
  27 00 00 00 00 00 e0 00      03:39:05.409  READ NATIVE MAX ADDRESS EXT

Error 200 occurred at disk power-on lifetime: 3103 hours (129 days + 7 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  10 51 01 6e e9 49 e7

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  37 00 01 6e e9 49 e7 00      03:22:51.799  SET MAX ADDRESS EXT
  27 00 01 af f1 49 e0 00      03:22:51.718  READ NATIVE MAX ADDRESS EXT
  29 00 01 af f1 49 e0 00      03:22:53.551  READ MULTIPLE EXT
  37 00 00 af f1 49 e7 00      03:22:53.551  SET MAX ADDRESS EXT
  27 00 00 00 00 00 e0 00      03:22:53.404  READ NATIVE MAX ADDRESS EXT

Error 199 occurred at disk power-on lifetime: 3101 hours (129 days + 5 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  10 51 01 6e e9 49 e7

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  37 00 01 6e e9 49 e7 00      01:14:50.521  SET MAX ADDRESS EXT
  27 00 01 af f1 49 e0 00      01:14:50.521  READ NATIVE MAX ADDRESS EXT
  29 00 01 af f1 49 e0 00      01:14:50.520  READ MULTIPLE EXT
  37 00 00 af f1 49 e7 00      01:14:50.520  SET MAX ADDRESS EXT
  27 00 00 00 00 00 e0 00      01:14:50.462  READ NATIVE MAX ADDRESS EXT

SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]


SMART Selective self-test log data structure revision number 1
SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.


"panic: ffs_blkfree: freeing free block "
Отправлено tty , 11-Ноя-05 07:12 
возможные пути (приоритеты):
1) другая мать (перешивка биоса врядли помощет) (или контроллер)
2) принудительно скорость на канале (биос, система)
3) иногда (реденько и ненадолго) - помогает отключение смарта (токо не спра, каким образом - сам пару раз делал)

"panic: ffs_blkfree: freeing free block "
Отправлено zeiter , 11-Ноя-05 10:18 
>1) другая мать (перешивка биоса врядли помощет) (или контроллер)

Будем пробовать :)

>2) принудительно скорость на канале (биос, система)

Это DMA? Стояла 3, поменял на единственную другую опцию 1. Не помогло. :\

>3) иногда (реденько и ненадолго) - помогает отключение смарта (токо не спра,

Если не надолго?! Тогда отпадает, как вариант :(


Вот только что узнал, что у нас там стоит: Silicon Image SATA controllers
А там и тему нашел: http://www.freebsd.org/cgi/query-pr.cgi?pr=kern/72451


"panic: ffs_blkfree: freeing free block "
Отправлено Lenin , 11-Ноя-05 10:41 
Посмотрел специфивации матери. Если винт подключен к Silicon Image Sil 3112A RAID Controller, то я и не удевляюсь. На него все плюются. Поставь дрегой контроллер или замени мать. Сам же писал, что глюки после смены материнки начались. Если нужен SATA-RAID и нет денег на апаратный, то IMHO только Promise, т.к. у меня с ним еще ниразу небыло проблем и он поддерживантся полностью во фре (ребилд и т.д.)

"panic: ffs_blkfree: freeing free block "
Отправлено zeiter , 11-Ноя-05 10:52 
>Посмотрел специфивации матери. Если винт подключен к Silicon Image Sil 3112A RAID
>Controller, то я и не удевляюсь. На него все плюются. Поставь
>дрегой контроллер или замени мать. Сам же писал, что глюки после
>смены материнки начались. Если нужен SATA-RAID и нет денег на апаратный,
>то IMHO только Promise, т.к. у меня с ним еще ниразу
>небыло проблем и он поддерживантся полностью во фре (ребилд и т.д.)
>

Блин, всего и не предусмотреть, раньше думать нужно было батюшка.

Просто сменил GIGABYTE на ASUS, т.к. первое работало не стабильно. Но вот никак не думал, что будут проблемы с контроллером SATA :(

А есть мамки уже с Promise? Ведь если стапить котроллер в слоть PCI скорость доступа к диску значительно снизится (по данным http://www.computerra.ru/gid/hard/36705/ )



"panic: ffs_blkfree: freeing free block "
Отправлено zeiter , 11-Ноя-05 14:06 
Поставил PROMISE SATA II 150 TX2 Plus

А система не хочет грузиться.

Пишет:

Mounting root from ufs:/dev/ad4s1a
setrootbyname failed
ffs_mountroot: can't find rootvp
Root mount failed: 5


"panic: ffs_blkfree: freeing free block "
Отправлено zeiter , 11-Ноя-05 17:54 
Как я выяснил, ОС вообще не видит диск (контроллер)