Приветствую!Долгое время стояли два диска семейства Seagate Barracuda ES.2 по 250Гб в программном RAID-1 и в принципе не знали проблем. Решили увеличить емкость дисков, взяли 1 (Диск#1) Seagate Constellation ES 500Гб (ST3500514NS) + 1 (Диск#2) Seagate Barracuda ES.2 500Гб (ST3500320NS). Не успели запустить в продакшн, как начались проблемы с этими дисками (на пустом сервере без рабочей нагрузки):
Декабрь 2010: То gmirror не собирался под FreeBSD, то еще чего. А когда собрался то вскоре благополучно развалился. На дисках стремительно начало расти количество reallocated sector по SMART.
Январь-Февраль 2011: Замена указанных дисков на новые 2 диска: Диск#3 и Диск#4 Constellation ES 500Гб (ST3500514NS). Ошибки записи:
....
ad0: TIMEOUT - WRITE_DMA retrying....
....Март 2011: Перестановка OS, миграция на CentOS 5. Программный рейд 1.
Апрель 2011: Умирает диск (?):
...
end_request: I/O error, dev sda, sector 757879
end_request: I/O error, dev sda, sector 757879
end_request: I/O error, dev sda, sector 757879
...Май 2011: Демонтаж сервера. Проверка дисков SeaTools Windows. Короткий+длительные тесты пройдены усешно. По SMARTу:
Диск #3
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000f 084 064 044 Pre-fail Always - 243397615
3 Spin_Up_Time 0x0003 100 100 000 Pre-fail Always - 0
4 Start_Stop_Count 0x0032 100 100 020 Old_age Always - 8
5 Reallocated_Sector_Ct 0x0033 066 066 036 Pre-fail Always - 1418
7 Seek_Error_Rate 0x000f 066 060 030 Pre-fail Always - 4755547
9 Power_On_Hours 0x0032 099 099 000 Old_age Always - 1228
10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always - 0
12 Power_Cycle_Count 0x0032 100 100 020 Old_age Always - 8
184 Unknown_Attribute 0x0032 100 100 099 Old_age Always - 0
187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always - 0
188 Unknown_Attribute 0x0032 100 097 000 Old_age Always - 197571510321
189 High_Fly_Writes 0x003a 100 100 000 Old_age Always - 0
190 Airflow_Temperature_Cel 0x0022 071 062 045 Old_age Always - 29 (Lifetime Min/Max 26/31)
191 G-Sense_Error_Rate 0x0032 100 100 000 Old_age Always - 0
192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always - 7
193 Load_Cycle_Count 0x0032 100 100 000 Old_age Always - 8
194 Temperature_Celsius 0x0022 029 040 000 Old_age Always - 29 (0 19 0 0)
195 Hardware_ECC_Recovered 0x001a 038 014 000 Old_age Always - 243397615
197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0Диск #4
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000f 081 063 044 Pre-fail Always - 149799206
3 Spin_Up_Time 0x0003 100 100 000 Pre-fail Always - 0
4 Start_Stop_Count 0x0032 100 100 020 Old_age Always - 4
5 Reallocated_Sector_Ct 0x0033 095 095 036 Pre-fail Always - 236
7 Seek_Error_Rate 0x000f 066 060 030 Pre-fail Always - 3756969
9 Power_On_Hours 0x0032 099 099 000 Old_age Always - 1132
10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always - 0
12 Power_Cycle_Count 0x0032 100 100 020 Old_age Always - 4
184 Unknown_Attribute 0x0032 100 100 099 Old_age Always - 0
187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always - 0
188 Unknown_Attribute 0x0032 100 099 000 Old_age Always - 4295032833
189 High_Fly_Writes 0x003a 100 100 000 Old_age Always - 0
190 Airflow_Temperature_Cel 0x0022 075 068 045 Old_age Always - 25 (Lifetime Min/Max 21/26)
191 G-Sense_Error_Rate 0x0032 100 100 000 Old_age Always - 0
192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always - 3
193 Load_Cycle_Count 0x0032 100 100 000 Old_age Always - 4
194 Temperature_Celsius 0x0022 025 040 000 Old_age Always - 25 (0 13 0 0)
195 Hardware_ECC_Recovered 0x001a 033 015 000 Old_age Always - 149799206
197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0Сервер на платформе Intel SR1530AH со втроенным Intel ICH7 SATA 300 controller.
Все-таки диски попались бракованные али ICH7 побил диски?
наверно диски бракованные... Reallocated_Sector_Ct этим вроде бы сам диск занимается, а не контроллер?
3 года использовал в 5 рейде Seagate Barracuda ES ST3500630NS, только на 1 из 5 дисков появился 1 Reallocated_Sector
Стало мало места, заменил все 5шт на терабайтные ST31000340NS, работают уже 2 года, проблем тоже не возникло.
md0 : active raid5 sdc[3] sda[4] sde[2] sdd[1] sdb[0]
3907045376 blocks level 5, 128k chunk, algorithm 2 [5/5] [UUUUU]
bitmap: 4/233 pages [16KB], 2048KB chunk>Все-таки диски попались бракованные али ICH7 побил диски?
> наверно диски бракованные...С трудом в это верится... Неужели 4 диска, по парно купленные в разных магазинах одинаково могли быть бракованными?
> Reallocated_Sector_Ct этим вроде бы сам диск занимается,
> а не контроллер?Котроллер на мамке? Или контроллер диска? В любом случае S.M.A.R.T — Self-Monitoring, Analysis and Reporting Technology. А стало быть мониторинг осуществляет и сообщает электроника на диске (поправьте меня если ошибаюсь).
Ну а такой возможен вариант, что из-за неисправности мамки в целом или ICH7 в частности начали плодится reallocated сектора по причине того, что сам контроллер ICH7 выдавал некорректные директивы или как-то еще способствовал этому?
>> наверно диски бракованные...А какая-нибудь повышенная вибрация в стойке ?
> С трудом в это верится... Неужели 4 диска, по парно купленные в
> разных магазинах одинаково могли быть бракованными?Да, потому что фирма у них - одинаковая.
> А какая-нибудь повышенная вибрация в стойке ?Ничего такого замечено не было. Кроме этого сервера стоит еще несколько похожих платформ с схожих или аналогичных корпусах. Такого как на этом ничего не замечали.
> Да, потому что фирма у них - одинаковая.
Опять же сигейтами пользуемся не первый год, но чтобы так сразу 4 диска меньше, чем за полгода — не было ни разу.
> С трудом в это верится... Неужели 4 диска, по парно купленные в
> разных магазинах одинаково могли быть бракованными?Как-то давно купил два диска этой же фирмы, сделал RAID0 и через пол года оба умерли, один поменяли, другой отремонтировали (драйвер головы/мотора сдох), с тех пор обхожу их стороной.
Думаю они одинаково перегрелись и навернулись, бо ставят г...о чипы подешевле, а грузят их на максимум.
>[оверквотинг удален]
> - 0
> 198 Offline_Uncorrectable 0x0010 100 100
> 000 Old_age Offline
> - 0
> 199 UDMA_CRC_Error_Count 0x003e 200 200
> 000 Old_age Always
> -
> 0
Может блок питания виноват?
К чему все-это я спрашиваю. Диски на гарантии — нужно решить ехать в СЦ и настаивать на замене или не ехать. Если проблема в дисках, то в СЦ обычно ссылаются на тесты производителя SeaTools, которые были успешно пройдены последними дисками #3 и #4. При этом диск #3 намертво отвалился с ошибкой:
end_request: I/O error, dev sda, sector 757879
end_request: I/O error, dev sda, sector 757879
end_request: I/O error, dev sda, sector 757879Количество reallocated секторов с последного отчета по SMART увеличилось (в первом посте на недельку устаревшие данные по сравнению со временем демонтажа и ошибки I/O error).
Так вот по опыту могу сказать, что данные SMART (в частности Reallocated_Sector_Ct) в СЦ в качестве основания для гарантийного ремонта или замены дисков не принимают как правило.
Мне же нужно 100% уверенность, что проблема в дисках, чтобы гнуть свою линию и потребовать замену.
> Может блок питания виноват?
Версия с блоком питания, как и версия с материнкой требуют дополнительной проверки. И в домашних условиях или на коленке в офисе сложно подтвердить или опровергнуть. Руководство же вряд ли выделит средства для проверки железа в СЦ. Вот и хочу понять природу и причины возникновения этих reallocated секторов. Кто же виноват?
Забыл сказать, что эта ошибка возникла все-таки под нагрузкой. Но нагрузка была тестовая, запустили тесты bonniee++. Где-то с недельку гонялись они без перерыва до самого момента возникновения ошибки:
end_request: I/O error, dev sda, sector 757879
end_request: I/O error, dev sda, sector 757879
end_request: I/O error, dev sda, sector 757879Когда сервер наглухо встал и только горячий ребут мог привести его в чувства.
Остается только опытным путем проверять? Диски или железо? Воткнуть диски и запустить на выходные bonnie++ еще разок)))
> Забыл сказать, что эта ошибка возникла все-таки под нагрузкой. Но нагрузка была
> тестовая, запустили тесты bonniee++. Где-то с недельку гонялись они без перерыва
> до самого момента возникновения ошибки:
>end_request: I/O error, dev sda, sector 757879
> end_request: I/O error, dev sda, sector 757879
> end_request: I/O error, dev sda, sector 757879
> Когда сервер наглухо встал и только горячий ребут мог привести его в
> чувства.
> Остается только опытным путем проверять? Диски или железо? Воткнуть диски и запустить
> на выходные bonnie++ еще разок)))1) посмотрите реально ли у вас SATA контроллер поддерживает SATA-300
2) диски Seagate ES.2 как впрочем и ES ненадежные и вероятно это зависит от партииесли контроллер в SR1530 - SATA150, переводите диски в SATA150, если SATA300,
то переводите FreeBSD на ahci и тестируйте под нагрузкой.Совет, под рейды используйте либо Hitachi Ultrastar линейку, либо WD RE3, в крайнем
случае WD RE4. (первая линейка лучшая из перечисленных, затем вторая)прим: Seagate ES.2 в RAID5 приходится менять по диску раз в неделю-две, суммарно
в рейдах 5'ого уровня ~750 дисков, выводы из этой статистики можете сделать сами
Возможно проблема со связкой: контроллер <-> firmware Seagate'овИ последнее, попробуйте диски на самом обычном desktop'е но с ICH9, лучше с ICH10,
если все Ok (включая под нагрузкой), значит дело в backplane сервера, такое бывает,
вот почему совет проверить на desktop'е с прямым подключением к контроллеру, без
переходников и backplane'ов.
> 1) посмотрите реально ли у вас SATA контроллер поддерживает SATA-300Судя по спецификации — поддерживает
http://www.intel.com/cd/channel/reseller/asmo-na/eng/product...
http://www.nix.ru/autocatalog/server_systems_intel/Intel_1U_...
> 2) диски Seagate ES.2 как впрочем и ES ненадежные и вероятно это
> зависит от партии
> если контроллер в SR1530 - SATA150, переводите диски в SATA150, если SATA300,
> то переводите FreeBSD на ahci и тестируйте под нагрузкой.Перед миграцией на CentOS оба режима проверяли. Изначально на FreeBSD использовался Lecacy режим (IDE). Были проблемы с обнаружением дисков в режиме AHCI когда-то давно, когда устанавливалась ОС. CentOS уже ставился на AHCI. Непосредственно перед миграцией на CentOS был ре-сетап FreeBSD 7 на диски с контроллером в режиме AHCI. Т.е. можно сказать, что перепробовали все доступные варианты режимов.
> Совет, под рейды используйте либо Hitachi Ultrastar линейку, либо WD RE3, в
> крайнем
> случае WD RE4. (первая линейка лучшая из перечисленных, затем вторая)Благодарю за рекомендацию.
> Возможно проблема со связкой: контроллер <-> firmware Seagate'ов
Подобная мысль меня посещала. Думаю, что эта версия имеет основания быть заявленной.
> И последнее, попробуйте диски на самом обычном desktop'е но с ICH9, лучше
> с ICH10,Эти мероприятий запланированы. Только под рукой пока имеется только контроллер Promise SATA.
> если все Ok (включая под нагрузкой), значит дело в backplane сервера, такое
> бывает,
> вот почему совет проверить на desktop'е с прямым подключением к контроллеру, без
> переходников и backplane'ов.Печально или нет то, что данная модель платформы не имеет никаких backplane'ов. И диски были подключены напрямую через шлейфы. SATA шлейф менял, порты тоже менял.
>> если все Ok (включая под нагрузкой), значит дело в backplane сервера, такое
>> бывает,
>> вот почему совет проверить на desktop'е с прямым подключением к контроллеру, без
>> переходников и backplane'ов.
> Печально или нет то, что данная модель платформы не имеет никаких backplane'ов.
> И диски были подключены напрямую через шлейфы. SATA шлейф менял, порты
> тоже менял.замечательно, одно исключение уже есть.
Еще одно примечание, опыт использования показал что временной предел использования
дисков в рейд массивах 3года, после этого срока как правило начинаются проблемы с дисками
любых производителей. Те при условии что у нас в рейде надежные диски, можно с уверенностью
сказать что проблемы начнутся по истечении 3лет работы, далее обычно все сыпется.
Да, бывают исключения - 4года, иногда больше, но в целом, ждать проблем после 3лет.