Имеется:
FreeBSD 8.0-RELEASE# zpool status -v
pool: storage
state: ONLINE
scrub: scrub completed after 1h11m with 0 errors on Sat Feb 13 17:23:52 2010
config:NAME STATE READ WRITE CKSUM
storage ONLINE 0 0 0
mirror ONLINE 0 0 0
ad6 ONLINE 0 0 0
ad4 ONLINE 0 0 0errors: No known data errors
# zfs list
NAME USED AVAIL REFER MOUNTPOINT
storage 138G 778G 22K /mnt/storage/
storage/fs1 138G 778G 138G /mnt/storage//fs1
storage/fs2 18K 778G 18K /mnt/storage//fs2
storage/fs3 18K 778G 18K /mnt/storage//fs3# zfs get all storage
NAME PROPERTY VALUE SOURCE
storage type filesystem -
storage creation пт фев 12 20:46 2010 -
storage used 138G -
storage available 778G -
storage referenced 22K -
storage compressratio 1.00x -
storage mounted yes -
storage quota none default
storage reservation none default
storage recordsize 128K default
storage mountpoint /mnt/storage/ local
storage sharenfs off default
storage checksum on default
storage compression off default
storage atime on default
storage devices on default
storage exec on default
storage setuid on default
storage readonly off default
storage jailed off default
storage snapdir hidden default
storage aclmode groupmask default
storage aclinherit restricted default
storage canmount on default
storage shareiscsi off default
storage xattr off temporary
storage copies 1 default
storage version 3 -
storage utf8only off -
storage normalization none -
storage casesensitivity sensitive -
storage vscan off default
storage nbmand off default
storage sharesmb off default
storage refquota none default
storage refreservation none default
storage primarycache all default
storage secondarycache all default
storage usedbysnapshots 0 -
storage usedbydataset 22K -
storage usedbychildren 138G -
storage usedbyrefreservation 0 -При копировании данных на этот пул один из дисков ссамопроизвольно отключается в произвольный момент времени, в /var/log/messages появляется:
379 Feb 13 07:42:29 srv kernel: ad6: FAILURE - device detached
380 Feb 13 07:42:30 srv root: ZFS: vdev I/O failure, zpool=storage path=/dev/ad6 offset=262144 size=8192 error=6
381 Feb 13 07:42:30 srv root: ZFS: vdev I/O failure, zpool=storage path=/dev/ad6 offset=1000204140544 size=8192 error=6
382 Feb 13 07:42:30 srv root: ZFS: vdev I/O failure, zpool=storage path=/dev/ad6 offset=1000204402688 size=8192 error=6
383 Feb 13 07:42:30 srv root: ZFS: zpool I/O failure, zpool=storage error=6
384 Feb 13 07:42:30 srv last message repeated 7 times
385 Feb 13 07:42:30 srv root: ZFS: zpool I/O failure, zpool=storage error=28
386 Feb 13 07:42:30 srv last message repeated 7 times
387 Feb 13 07:42:30 srv root: ZFS: vdev I/O failure, zpool=storage path= offset= size= error=
388 Feb 13 07:42:33 srv root: ZFS: zpool I/O failure, zpool=storage error=6Диск выбирается в случайном порядке, замена проводов или портов ничего не дает. Диски(ad6: 953869MB <WDC WD1001FALS-00E8B0 05.00K05) висят на встроенном контроллере (SiI 3512 SATA150 controller). Для эксперимента был установлен внешний контроллер (adaptec 1210sa), но ничего не поменялось.
Материнскуй плату нести на помойку? Или проблема в ZFS?
Обновись до 8-STABLE и все будет хорошо.
>
>
> Обновись до 8-STABLE и все будет хорошо.А разьве 8.0-RELEASE - это не то же самое, что 8.0-STABLE?
на всякий слкчай попробовал обновиться:# freebsd-update upgrade -r 8.0-STABLE
Looking up update.FreeBSD.org mirrors... 3 mirrors found.
Fetching public key from update5.FreeBSD.org... done.
Fetching metadata signature for 8.0-RELEASE from update5.FreeBSD.org... done.
Fetching metadata index... done.
Fetching 2 metadata files... done.
Inspecting system... done.The following components of FreeBSD seem to be installed:
kernel/generic src/base src/include world/base world/dict world/doc
world/info world/manpages world/proflibsThe following components of FreeBSD do not seem to be installed:
src/bin src/cddl src/contrib src/crypto src/etc src/games src/gnu
src/krb5 src/lib src/libexec src/release src/rescue src/sbin src/secure
src/share src/sys src/tools src/ubin src/usbin world/catpages
world/gamesDoes this look reasonable (y/n)? y
Fetching metadata signature for 8.0-STABLE from update5.FreeBSD.org... failed.
Fetching metadata signature for 8.0-STABLE from update4.FreeBSD.org... failed.
Fetching metadata signature for 8.0-STABLE from update2.FreeBSD.org... failed.
No mirrors remaining, giving up.
> А разьве 8.0-RELEASE - это не то же самое, что 8.0-STABLE?нет, не тоже самое
>> А разьве 8.0-RELEASE - это не то же самое, что 8.0-STABLE?
>
>нет, не тоже самоеОбновился.
># uname -r
>8.0-STABLEНичего не изменилось кроме того, что теперь
>ZFS filesystem version 3вместо 13 и
>ZFS storage pool version 14тоже вместо 13
И зеркало продолжает падать.
>[оверквотинг удален]
>>8.0-STABLE
>
>Ничего не изменилось кроме того, что теперь
>>ZFS filesystem version 3
>
>вместо 13 и
>>ZFS storage pool version 14
>
>тоже вместо 13
>И зеркало продолжает падать.Покажи вывод # zpool status -v
>Покажи вывод # zpool status -vupgrade пула после обновления я сделал.
zpool status -v
pool: storage
state: ONLINE
scrub: none requested
config:NAME STATE READ WRITE CKSUM
storage ONLINE 0 0 0
mirror ONLINE 0 0 0
ad8 ONLINE 0 0 0
ad10 ONLINE 0 0 0errors: No known data errors
>Диск выбирается в случайном порядке, замена проводов или портов ничего не дает.
>Диски(ad6: 953869MB <WDC WD1001FALS-00E8B0 05.00K05) висят на встроенном контроллере (SiI 3512
>SATA150 controller). Для эксперимента был установлен внешний контроллер (adaptec 1210sa), но
>ничего не поменялось.
>Материнскуй плату нести на помойку? Или проблема в ZFS?Проблема скорее в поддержке данного контроллера. adaptec 1210 основан на чипе SiI 3112, так что разницы как вы заметили нет. Обновиться до STABLE конечно можно, но не помню, чтобы там были какие-то значительные исправления относительно поддержки этих контроллеров.
У меня возникла одна догадка на счет контроллеров, они ведь рейдовые и он наверное
диски зацепил в рейд, а потом "сверху" положил ZFS. Это распространенная ошибка. С ZFS ВСЕГДА нужно использовать JBOD!
>
> У меня возникла одна догадка на счет контроллеров, они ведь
>рейдовые и он наверное
>диски зацепил в рейд, а потом "сверху" положил ZFS. Это распространенная ошибка.
>С ZFS ВСЕГДА нужно использовать JBOD!
>
>Нет. Иначе я бы видел одно устройство, а не два (ad4 ad6).
>>Диск выбирается в случайном порядке, замена проводов или портов ничего не дает.
>>Диски(ad6: 953869MB <WDC WD1001FALS-00E8B0 05.00K05) висят на встроенном контроллере (SiI 3512
>>SATA150 controller). Для эксперимента был установлен внешний контроллер (adaptec 1210sa), но
>>ничего не поменялось.
>>Материнскуй плату нести на помойку? Или проблема в ZFS?
>
>Проблема скорее в поддержке данного контроллера. adaptec 1210 основан на чипе SiI
>3112, так что разницы как вы заметили нет. Обновиться до STABLE
>конечно можно, но не помню, чтобы там были какие-то значительные исправления
>относительно поддержки этих контроллеров.Еще вот что иногда выдает на косоль:
ad6: FAILURE - device detachedFatal trap 12: page fault while in kernel mode
cpuid = 0; apic id = 00
fault virtual address = 0x2c
fault code = supervisor write, page not present
instruction pointer = 0x20:0xc0879b55
stack pointer = 0x28:0xc2e60c58
frame pointer = 0x28:0xc2e60c6c
code segment = base 0x0, limit 0xfffff, type 0x1b
= DPL 0, pres 1, def32 1, gran 1
processor eflags = interrupt enabled, resume IOPL = 0
current process = 3 (g_up)
trap number = 12
panic: page fault
cpuid = 0
uptime: 22m42s
Cannot dump. Device not defined or unavailable.
Automatic reboot in 15 seconds - press a key on the console to abort
>Еще вот что иногда выдает на косоль:
>ad6: FAILURE - device detachedad6 наверное уже заждались на кладбище. Выбрасывай. Создай пулл на одном ad4 и погоняй, если падать не будет неси ad6 на помойку.
>
>>Еще вот что иногда выдает на косоль:
>>ad6: FAILURE - device detached
>
> ad6 наверное уже заждались на кладбище. Выбрасывай. Создай пулл на
>одном ad4 и погоняй, если падать не будет неси ad6 на
>помойку.диск выбирается произвольно. Создавал пул с одним диском, тоже самое. Причем синхронизация (rebuild) при добавлении второго происходит без проблем.
>[оверквотинг удален]
>IOPL = 0
>current process = 3 (g_up)
>
>trap number = 12
>panic: page fault
>cpuid = 0
>uptime: 22m42s
>Cannot dump. Device not defined or unavailable.
>Automatic reboot in 15 seconds - press a key on the console
>to abortПокажите smart по этому диску (есть в портах).
Кстати, иногда проблема бывает в битом шлейфе и в контроллере
>[оверквотинг удален]
>>panic: page fault
>>cpuid = 0
>>uptime: 22m42s
>>Cannot dump. Device not defined or unavailable.
>>Automatic reboot in 15 seconds - press a key on the console
>>to abort
>
>Покажите smart по этому диску (есть в портах).
>
>Кстати, иногда проблема бывает в битом шлейфе и в контроллерешлейфы менял, контроллер другой ставил. вылетающий диск выбирается произвольно(см. выше)
#smartctl -a /dev/ad8
smartctl version 5.38 [i386-portbld-freebsd8.0] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/=== START OF INFORMATION SECTION ===
Device Model: WDC WD1001FALS-00E8B0
Serial Number: WD-WMATV4276860
Firmware Version: 05.00K05
User Capacity: 1,000,204,886,016 bytes
Device is: Not in smartctl database [for details use: -P showall]
ATA Version is: 8
ATA Standard is: Exact ATA specification draft version not indicated
Local Time is: Thu Feb 18 12:19:27 2010 MSK
SMART support is: Available - device has SMART capability.
SMART support is: Enabled=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSEDGeneral SMART Values:
Offline data collection status: (0x82) Offline data collection activity
was completed without error.
Auto Offline Data Collection: Enabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: (18000) seconds.
Offline data collection
capabilities: (0x7b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 2) minutes.
Extended self-test routine
recommended polling time: ( 208) minutes.
Conveyance self-test routine
recommended polling time: ( 5) minutes.
SCT capabilities: (0x3037) SCT Status supported.
SCT Feature Control supported.
SCT Data Table supported.SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0027 253 253 021 Pre-fail Always - 1100
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 42
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0
9 Power_On_Hours 0x0032 100 100 000 Old_age Always - 148
10 Spin_Retry_Count 0x0032 100 253 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 253 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 40
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 39
193 Load_Cycle_Count 0x0032 200 200 000 Old_age Always - 2
194 Temperature_Celsius 0x0022 103 096 000 Old_age Always - 47
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 0SMART Error Log Version: 1
No Errors LoggedSMART Self-test log structure revision number 1
No self-tests have been logged. [To run self-tests, use: smartctl -t]
SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.===================================================
#smartctl -a /dev/ad10
smartctl version 5.38 [i386-portbld-freebsd8.0] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/=== START OF INFORMATION SECTION ===
Device Model: WDC WD1001FALS-00E8B0
Serial Number: WD-WMATV3780036
Firmware Version: 05.00K05
User Capacity: 1,000,204,886,016 bytes
Device is: Not in smartctl database [for details use: -P showall]
ATA Version is: 8
ATA Standard is: Exact ATA specification draft version not indicated
Local Time is: Thu Feb 18 12:21:06 2010 MSK
SMART support is: Available - device has SMART capability.
SMART support is: Enabled=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSEDGeneral SMART Values:
Offline data collection status: (0x82) Offline data collection activity
was completed without error.
Auto Offline Data Collection: Enabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: (18600) seconds.
Offline data collection
capabilities: (0x7b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 2) minutes.
Extended self-test routine
recommended polling time: ( 214) minutes.
Conveyance self-test routine
recommended polling time: ( 5) minutes.
SCT capabilities: (0x303f) SCT Status supported.
SCT Feature Control supported.
SCT Data Table supported.SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0027 253 253 021 Pre-fail Always - 1075
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 38
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0
9 Power_On_Hours 0x0032 100 100 000 Old_age Always - 155
10 Spin_Retry_Count 0x0032 100 253 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 253 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 36
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 35
193 Load_Cycle_Count 0x0032 200 200 000 Old_age Always - 38
194 Temperature_Celsius 0x0022 101 094 000 Old_age Always - 49
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 0SMART Error Log Version: 1
No Errors LoggedSMART Self-test log structure revision number 1
No self-tests have been logged. [To run self-tests, use: smartctl -t]
SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
Попробуйте прогнать тесты через SMART, и, таки, на всякий случай, с другой машины позабивать диски нулями (лучше не dd, а утилитой badblocks)
>ad6: FAILURE - device detached
>
>Fatal trap 12: page fault while in kernel modeРебята вы че гоните?
Это известная проблема контролеров на базе чипов Sil3112, Sil3114, Sil3512, Sil3514, ..
Тут на форуме об этом уже не раз говорилось.Можете смело их в кидать в топку и купить себе че нить из Promise
Выкидывайе контроллер, однозначно.
Вобщем проблема никак не связана с ZFS. Дело в поддержке дисков => 1Tb контроллерами SiI 3512 и SiI 3112. Изначально на встроенном контроллере SiI 3512 получилось зацепить 1Тб диски лишь модифицировав bios мат платы(GA-7N400 pro2), диски стали видны, но работать стали криво. Диски отваливаются как с ZFS, так и с любой другой ФС. Внешний контроллер SiI 3112 увидел диски сразу, но работал так же криво. Контроллер SiI 3114 вобще не заработал, т. к. вешал систему еще до загрузки ОС. Однако собрав новый пул на дисках 80 Gb проблема не проявилась. В итоге на новой материнской плате все заработало штатно. На всяки случай еще протестировал контроллер на чипе SiI 3114 на новой материнской плате. Проблема не проявилась.
Вывод прост: Silicon Image - глючный мусор. Судя по всему использовать его больше не буду. Всем спасибо за помощь.
P. S. Пока искал проблему, долго читал факен мануал по ZFS и много думал. Для стабильной работы ZFS Sun рекомендует использовать не менее 1Gb оперативной памяти, что в моем случае никак не помогло.
>Вобщем проблема никак не связана с ZFS. Дело в поддержке дисков => 1Tb контроллерами SiI 3512 и SiI 3112. Изначально на встроенном контроллере SiI 3512 получилось зацепить 1Тб диски лишь модифицировав bios мат платы(GA-7N400 pro2), диски стали видны, но работать стали криво. Диски отваливаются как с ZFS, так и с любой другой ФС. Внешний контроллер SiI 3112 увидел диски сразу, но работал так же криво. Контроллер SiI 3114 вобще не заработал, т. к. вешал систему еще до загрузки ОС. Однако собрав новый пул на дисках 80 Gb проблема не проявилась. В итоге на новой материнской плате все заработало штатно. На всяки случай еще протестировал контроллер на чипе SiI 3114 на новой материнской плате. Проблема не проявилась.
>Вывод прост: Silicon Image - глючный мусор. Судя по всему использовать его
>больше не буду. Всем спасибо за помощь.
>P. S. Пока искал проблему, долго читал факен мануал по ZFS и
>много думал. Для стабильной работы ZFS Sun рекомендует использовать не менее
>1Gb оперативной памяти, что в моем случае никак не помогло.я бы сказал не менее 4х, но все зависит от нагрузки и объемов.
я вот на 2 Гб под файл сервер не рискнул, ибо тормозу были бы жуткие. Возможно в самой солярке дела обстоят по лучше.
У кого то есть опыт использования zfs в солярис/opensolaris? Как она к памяти, такая же прожорливая, как и на freebsd?
>я бы сказал не менее 4х, но все зависит от нагрузки и
>объемов.
>
>я вот на 2 Гб под файл сервер не рискнул, ибо тормозу
>были бы жуткие. Возможно в самой солярке дела обстоят по лучше.
>
>
>У кого то есть опыт использования zfs в солярис/opensolaris? Как она к
>памяти, такая же прожорливая, как и на freebsd?Тормоза в системе могут проявится если использовать
# zpool scrub [-s] <pool> ...
При этом на скорости чтение/записи файловой системы это почти не сказыватся, что подтверждает цитата из "Руководство по администрированию файловых систем ZFS Solaris":
http://docs.sun.com/app/docs/doc/820-0836/gbbwa?l=ru&a=view
"Эта операция может негативно повлиять на производительность, несмотря на то, что файловая система остается доступной и обеспечивает в процессе очистки почти такой же отклик."