URL: https://www.opennet.me/cgi-bin/openforum/vsluhboard.cgi
Форум: vsluhforumID10
Нить номер: 4587
[ Назад ]

Исходное сообщение
"Вопрос по RAID1 с контроллером Intel SRCS14L"

Отправлено Hitchman , 30-Апр-10 12:26 
Привет всем!
Большая просьба помочь с непростой сложившейся ситуацией.
По наследству досталась машина с Gentoo ядро 2.6 RAID 1 на контроллере Intel SRCS14L.

Машина дважды в день просто подвисала и решилось проверить харды для начала.
После проверки HDD c "fsck -fy" 90% информации оказалось в директории lost+found (#242343, #242242, #33446, ..., ...).
После этого было kernel panic за отсутствием системы как таковой.....

Вопроса 3.
1. Из-за чего после fsck -fy все данные оказались в lost+found? Битые сектора на харде?
2. При поочередном подключении 2-х хардов в отдельности на другой машине - не находится MBR запись, с чем это связано? Ведь зеркало подразумевает абсолютную копию данных на 2-х HDD. Есть предположение, что MBR записывается на самом RAID контроллере.
3. Как в дальнейшем, при схожей ситуации, вычислить, что один из HDD сыпится? Насколько я знаю в логах RAID контроллер записывает в основном проблемы отказа HDD, а не информацию о целостности HDD и задержках записи. И как узнать вообще какой из 2-х HDD сыпиться?

Заранее большое спасибо.  


Содержание

Сообщения в этом обсуждении
"Вопрос по RAID1 с контроллером Intel SRCS14L"
Отправлено sHaggY_caT , 01-Май-10 04:30 
>Привет всем!
>Большая просьба помочь с непростой сложившейся ситуацией.
>По наследству досталась машина с Gentoo ядро 2.6 RAID 1 на контроллере
>Intel SRCS14L.

Выкиньте это УГ, на нем только память под кэш без батарейки, используйте обычный mdraid

>Машина дважды в день просто подвисала и решилось проверить харды для начала.
>
>После проверки HDD c "fsck -fy" 90% информации оказалось в директории lost+found
>(#242343, #242242, #33446, ..., ...).
>После этого было kernel panic за отсутствием системы как таковой.....
>Вопроса 3.
>1. Из-за чего после fsck -fy все данные оказались в lost+found? Битые
>сектора на харде?

Из-за того, что нельзя делать fsck на смонтированной на запись файловой системе (прошу не обижаться, но на моем прошлом месте работы за такое бы уволили за проф. некомпетентность)

>2. При поочередном подключении 2-х хардов в отдельности на другой машине -
>не находится MBR запись, с чем это связано? Ведь зеркало подразумевает
>абсолютную копию данных на 2-х HDD. Есть предположение, что MBR записывается
>на самом RAID контроллере.

Вы уничтожили файловую систему сверху контроллера, и на обоих половинках дисков битые данные

>3. Как в дальнейшем, при схожей ситуации, вычислить, что один из HDD
>сыпится? Насколько я знаю в логах RAID контроллер записывает в основном
>проблемы отказа HDD, а не информацию о целостности HDD и задержках
>записи. И как узнать вообще какой из 2-х HDD сыпиться?

1. Делать бэкапы
2. Не использовать "недоконтроллеры" и фейк-рейды без bbu, бюджетный вариант, запомните навсегда, это mdraid на Linux, других нет!
3. Читать документацию перед тем, как что-то делать. В частности, man fsck


"Вопрос по RAID1 с контроллером Intel SRCS14L"
Отправлено Hitchman , 04-Май-10 19:33 
Большое спасибо за ответ, но очень хотелось бы получить ответы по конкретно заданным вопросам.
В частности по этим:
2. При поочередном подключении 2-х хардов в отдельности на другой машине -
не находится MBR запись, с чем это связано? Ведь зеркало подразумевает
абсолютную копию данных на 2-х HDD.

3. Как в дальнейшем, при схожей ситуации, вычислить, что один из HDD
сыпится? Насколько я знаю в логах RAID контроллер записывает в основном
проблемы отказа HDD, а не информацию о целостности HDD и задержках
записи. И как узнать вообще какой из 2-х HDD сыпиться?

Спасибо.


"Вопрос по RAID1 с контроллером Intel SRCS14L"
Отправлено sHaggY_caT , 04-Май-10 21:41 
>Большое спасибо за ответ, но очень хотелось бы получить ответы по конкретно
>заданным вопросам.

Вы задаете неправильные вопросы, которые в Вашей ситуации лишены смысла, но, конечно, я отвечу.

>В частности по этим:
>2. При поочередном подключении 2-х хардов в отдельности на другой машине -
>
>не находится MBR запись, с чем это связано?

В контроллер, например, мог быть добавлен не диск, а партиция на нем, если это поддерживает контроллер (и это достаточно часто, особенно в low-end сегменте без большого набора ЗИП частей на полочке под серверы, практикующийся вариант, так как у дисков номинально одного и того же размера разная геометрия даже у одного вендора, и через несколько лет, когда вылетит один диск из зеркала, Вы уже можете не найти диск точно такого же размера)

>Ведь зеркало подразумевает
>абсолютную копию данных на 2-х HDD.

У Вас не контроллер, а, извините, хлам без батарейки. Такое использовать нельзя! Если батарейки нет, хост-рейды, софтовые рейды, и, Ваш случай, редкие контроллеры-черные дыры без батарейки, после жесткого ребута, синкают, для сохранения консистентности один диск о другой. mdraid, например, синкает первый в BIOS диск.
Как же это будут делать хострейды зависит от степени идусскости кода драйвера(который и есть, на самом деле реализация "контроллера" в случае хост-рейда): может быть и рандомно, так что после второго жесткого ребута по питанию начинают синк с фактически пустого зеркала.
В Вашем случае ситуация усугубляется тем, что при наличии достаточно большого кэша, отключение питания приведет к тому, что те данные, которые по журналу ФС уже записаны, на самом деле были в кэше (это запросто может привести к разрушению ФС).
By design, если Вы хотите надежности, используйте mdraid на Linux, или аппаратный контроллер с батарейкой на той же Windows (где редко используют софтовое зеркало).

Если Вам надежность системы без разницы, а Важна скорость (и минимум вложений) можете продолжать использовать аппаратный контроллер без батарейки но с активированным кэшем.
В Ваш контроллер поставить батарейку нельзя (вообще непонятно, зачем выпустили эту модель!)

Могу сказать совершенно определенно, что ей место только на помойке или в руках оверлокера, так как в production, на который завязаны деньги, ее использование просто преступно!

>3. Как в дальнейшем, при схожей ситуации, вычислить, что один из HDD
>
>сыпится? Насколько я знаю в логах RAID контроллер записывает в основном
>проблемы отказа HDD, а не информацию о целостности HDD и задержках
>записи. И как узнать вообще какой из 2-х HDD сыпиться?

Зависит от типа контроллера, некоторые позволяют даже SMART посмотреть.
Кроме того, серверные диски(в т.ч. SATA) сами не делают ремапы, а позволяют за себя это сделать контроллеру (поэтому вендоры берут за них большие деньги), а контроллер такой диск просто выкинет, и пометит как fail

Мы на большинстве серверов используем mdraid, только вот сегодня на одном сервере сдох винт, ночью будем менять :)
mdraid'ы наших клиентов мы мониторим Zabbix.
Многие контроллеры позволяют снимать с себя информацию по snmp, и многие поддерживают сами, через утилиты производителя, отправку информации по почте.

Если хотите, мы можем помочь решить вопрос с мониторингом состояния raid-массива.


"Вопрос по RAID1 с контроллером Intel SRCS14L"
Отправлено sHaggY_caT , 05-Май-10 02:03 
Кстати:

>2. При поочередном подключении 2-х хардов в отдельности на другой машине - не находится >MBR запись, с чем это связано? Ведь зеркало подразумевает абсолютную копию данных на 2-х >HDD. Есть предположение, что MBR записывается на самом RAID контроллере.

Не через контроллер(и именно этот или такой же модели!) пытаться прочитать эти диски бесполезно!


"Вопрос по RAID1 с контроллером Intel SRCS14L"
Отправлено anonymous , 07-Май-10 00:36 
>Кстати:
>
>>2. При поочередном подключении 2-х хардов в отдельности на другой машине - не находится >MBR запись, с чем это связано? Ведь зеркало подразумевает абсолютную копию данных на 2-х >HDD. Есть предположение, что MBR записывается на самом RAID контроллере.
>
>Не через контроллер(и именно этот или такой же модели!) пытаться прочитать эти
>диски бесполезно!

Уважаемая shaggy_cat говорит вам, что на диск, подключенный к RAID-контроллеру, записываются некоторые метаданные -- иногда в начале диска, иногда в конце.  Метаданные -- служебная информация для этого контроллера, описывает принадлежность диска к массиву.

В вашем случае метаданные находятся в начале диска, и на месте MBR, понятное дело, находится что-то другое.


"Вопрос по RAID1 с контроллером Intel SRCS14L"
Отправлено Hitchman , 09-Июн-10 20:17 
>[оверквотинг удален]
>>Не через контроллер(и именно этот или такой же модели!) пытаться прочитать эти
>>диски бесполезно!
>
>Уважаемая shaggy_cat говорит вам, что на диск, подключенный к RAID-контроллеру, записываются некоторые
>метаданные -- иногда в начале диска, иногда в конце.  Метаданные
>-- служебная информация для этого контроллера, описывает принадлежность диска к массиву.
>
>
>В вашем случае метаданные находятся в начале диска, и на месте MBR,
>понятное дело, находится что-то другое

Ребят,большое Вам спасибо за подробные ответы. Извините за задержку,на работе в связи с сабжем был полный завал.
Спасибо!