The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]

форумы  помощь  поиск  регистрация  майллист  вход/выход  слежка  RSS
"Логи raid 0+1"
Вариант для распечатки  
Пред. тема | След. тема 
Форум Открытые системы на сервере (Мониторинг, логи)
Изначальное сообщение [ Отслеживать ]

"Логи raid 0+1"  +/
Сообщение от tazman_555 (ok) on 05-Май-13, 15:20 
Привет всем. Помогите выяснить что именно происходит на сервере
в syslog валит такими сообщениями
May  5 14:02:05 server kernel: [2598945.472048] mptbase: ioc0: LogInfo(0x31110e00): Originator={PL}, Code={Reset}, SubCode(0x0e00) cb_idx mptbase_reply
May  5 14:02:07 server kernel: [2598946.929472] mptbase: ioc0: LogInfo(0x31110e00): Originator={PL}, Code={Reset}, SubCode(0x0e00) cb_idx mptscsih_io_done
May  5 14:02:11 server kernel: [2598951.471260] mptbase: ioc0: LogInfo(0x31110e00): Originator={PL}, Code={Reset}, SubCode(0x0e00) cb_idx mptbase_reply
May  5 14:02:13 server kernel: [2598952.928101] mptbase: ioc0: LogInfo(0x31110e00): Originator={PL}, Code={Reset}, SubCode(0x0e00) cb_idx mptscsih_io_done
May  5 14:02:15 server kernel: [2598955.471073] mptbase: ioc0: LogInfo(0x31110e00): Originator={PL}, Code={Reset}, SubCode(0x0e00) cb_idx mptbase_reply
May  5 14:02:17 server kernel: [2598956.927336] mptbase: ioc0: LogInfo(0x31110e00): Originator={PL}, Code={Reset}, SubCode(0x0e00) cb_idx mptscsih_io_done
May  5 14:02:19 server kernel: [2598958.715587] mptbase: ioc0: LogInfo(0x31110e00): Originator={PL}, Code={Reset}, SubCode(0x0e00) cb_idx mptbase_reply
May  5 14:02:20 server kernel: [2598960.176547] mptbase: ioc0: LogInfo(0x31110e00): Originator={PL}, Code={Reset}, SubCode(0x0e00) cb_idx mptscsih_io_done
May  5 14:02:24 server kernel: [2598963.731039] mptbase: ioc0: LogInfo(0x31110e00): Originator={PL}, Code={Reset}, SubCode(0x0e00) cb_idx mptbase_reply
May  5 14:02:25 server kernel: [2598965.175551] mptbase: ioc0: LogInfo(0x31110e00): Originator={PL}, Code={Reset}, SubCode(0x0e00) cb_idx mptscsih_io_done

таких строк сотни и даже тысячи. Натыкался на разные сообщения на багтрекерах, но все не то.
Система:
Debian 7.0.3.2.0-4-amd64
Контроллер Intel RES2SV240 (SCOTCH VALLEY) RAID Expander
Диски HDD 3 Tb SATA 6Gb / s Western Digital Caviar Green < WD30EZRX> 3.5" 64Mb

Ответить | Правка | Cообщить модератору

Оглавление

Сообщения по теме [Сортировка по времени | RSS]


1. "Логи raid 0+1"  +/
Сообщение от lavr email on 05-Май-13, 17:27 
> Привет всем. Помогите выяснить что именно происходит на сервере
> в syslog валит такими сообщениями
> May  5 14:02:05 server kernel: [2598945.472048] mptbase: ioc0: LogInfo(0x31110e00): Originator={PL},
> Code={Reset}, SubCode(0x0e00) cb_idx mptbase_reply
> May  5 14:02:07 server kernel: [2598946.929472] mptbase: ioc0: LogInfo(0x31110e00): Originator={PL},
> Code={Reset}, SubCode(0x0e00) cb_idx mptscsih_io_done

<skipped>

> таких строк сотни и даже тысячи. Натыкался на разные сообщения на багтрекерах,
> но все не то.
> Система:
> Debian 7.0.3.2.0-4-amd64
> Контроллер Intel RES2SV240 (SCOTCH VALLEY) RAID Expander
> Диски HDD 3 Tb SATA 6Gb / s Western Digital Caviar Green
> < WD30EZRX> 3.5" 64Mb

1) контроллер у Вас LSI и драйвер MPT, а Intel RES2SV240 - это SAS expander на backplane
через который диски подключаюся (кстати, он наверняка тоже LSI'евский)

по контроллеру Вы никакой информации не дали, посему:

- вероятно имеет смысл обновить firmware LSI MPT
- вероятно имеет смысл посмотреть версию MPT драйвера или попробовать драйвер продавца...

2) диск у Вас десктопный: WD Caviar Green у которого наверняка TLER в disable выставлен,
от чего Ваш RAID не получив ответа по достижению timeout'а должен выполнять reset, init
и получив ok, продолжать работу. Вот Вам TLER и портит всю работу своим до-о-о-лгим
таймаутом и попыткой контроллера на самом диске исправить возможные проблемы.
Несколько лет наблюдаю подобное при использовании десктопных HDD от WD в рейдах как
софтверных, так и железных.

http://en.wikipedia.org/wiki/Error_recovery_control

утилиты WDTLER сейчас Вы так просто не найдете, вот по этой ссылке можно почитать
и скачать:
https://jackkb.net/hacks-and-fixes-hub/western-digital-raid-.../

в качестве ликбеза поиск TLER / ERC / CCTL
google.com: western digital wdtler

Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

2. "Логи raid 0+1"  +/
Сообщение от Дядя_Федор on 06-Май-13, 09:20 
Лавр! Огромное спасибо за информацию. Мне она тоже оказалась полезна. Контроллер, правда, железячный 3ware. Но на некоторых серверах наблюдал отваливание винтов (как раз WD) иногда. Будем разбираться, а то все руки не доходили (серваки некритичные).
Ответить | Правка | ^ к родителю #1 | Наверх | Cообщить модератору

3. "Логи raid 0+1"  +/
Сообщение от tazman_555 (ok) on 06-Май-13, 09:30 
> Лавр! Огромное спасибо за информацию. Мне она тоже оказалась полезна. Контроллер, правда,
> железячный 3ware. Но на некоторых серверах наблюдал отваливание винтов (как раз
> WD) иногда. Будем разбираться, а то все руки не доходили (серваки
> некритичные).

Так то оно все хорошо, вот только стоит ли менять TLER на боевом серваке, не понятно чем кончится. Так может оставить, пусть валит в логи

Ответить | Правка | ^ к родителю #2 | Наверх | Cообщить модератору

4. "Логи raid 0+1"  +/
Сообщение от Дядя_Федор on 06-Май-13, 10:55 
> Так то оно все хорошо, вот только стоит ли менять TLER на
> боевом серваке, не понятно чем кончится. Так может оставить, пусть валит
> в логи

Логи-то ладно. У меня, помнится, было, что файловая система переходила в RO. И помогала только перезагрузка. А вот это уже сурьезнее. И печальнее. Товарищ из фирмы, которая занимается сбором железа для нас убеждал меня, что это "несогласованность" между материнкой-котроллером-хардами. И он мне действительно давал ссылки на сайте 3Ware, где приводится таблица совместимости конкретной модели Рейд-контроллера с моделями хардов.


Ответить | Правка | ^ к родителю #3 | Наверх | Cообщить модератору

5. "Логи raid 0+1"  +/
Сообщение от tazman_555 (ok) on 06-Май-13, 10:59 
>> Так то оно все хорошо, вот только стоит ли менять TLER на
>> боевом серваке, не понятно чем кончится. Так может оставить, пусть валит
>> в логи
>  Логи-то ладно. У меня, помнится, было, что файловая система переходила в
> RO. И помогала только перезагрузка. А вот это уже сурьезнее. И
> печальнее. Товарищ из фирмы, которая занимается сбором железа для нас убеждал
> меня, что это "несогласованность" между материнкой-котроллером-хардами. И он мне действительно
> давал ссылки на сайте 3Ware, где приводится таблица совместимости конкретной модели
> Рейд-контроллера с моделями хардов.

у тебя случаем ссылочки этой не осталось?

Ответить | Правка | ^ к родителю #4 | Наверх | Cообщить модератору

6. "Логи raid 0+1"  +/
Сообщение от lavr email on 06-Май-13, 11:37 
>>> Так то оно все хорошо, вот только стоит ли менять TLER на
>>> боевом серваке, не понятно чем кончится. Так может оставить, пусть валит
>>> в логи
>>  Логи-то ладно. У меня, помнится, было, что файловая система переходила в
>> RO. И помогала только перезагрузка. А вот это уже сурьезнее. И
>> печальнее. Товарищ из фирмы, которая занимается сбором железа для нас убеждал
>> меня, что это "несогласованность" между материнкой-котроллером-хардами. И он мне действительно
>> давал ссылки на сайте 3Ware, где приводится таблица совместимости конкретной модели
>> Рейд-контроллера с моделями хардов.
> у тебя случаем ссылочки этой не осталось?

у всех серьезных производителей дисков есть таблицы совместимости и проверенных
дисков.

Они нафик не нужны, свежих моделей Вы там не найдете, но точно известно одно:

- проблем с дисками из линейки RAID/Enterprise - не будет

какие обычно бывают проблемы:

- у конкретных моделей контроллеров с конкретными моделями HDD отдельных производителей,
обычно перепрошивка firmware у HDD в таких случаях помогает (это редкость и не страшно)

- проблема контроллеров с поддержкой HDD больше 1TB или 2TB

На предмет оставить TLER как есть и получать логи... :

1) TLER - это только одно из предположений, ибо информации Вы не дали, мб это и не
TLER, а старое firmware у MPT RAID'а, старый драйвер или проблемы драйвера...
- которые вылезли при увеличении нагрузки

2) перезагрузить сервер во FreeDOS и выполнить пару скриптов .bat - занимает не
много времени:
- посмотреть наличие у моделей HDD TLER
- если есть и disable - запустить второй скрипт

Что грозит в ином случае, если TLER:
- регулярные сбои и развалы RAID'а
- убивание SMART у хорошего диска (получаем хороший диск с убитым SMART - жалко до соплей)

Ну и помнить что TLER у WD, у остальных, Seagate или Samsung свои CCTL или что-то еще...

Ответить | Правка | ^ к родителю #5 | Наверх | Cообщить модератору

7. "Логи raid 0+1"  +/
Сообщение от lavr email on 06-Май-13, 11:52 
> Лавр! Огромное спасибо за информацию. Мне она тоже оказалась полезна. Контроллер, правда,
> железячный 3ware. Но на некоторых серверах наблюдал отваливание винтов (как раз
> WD) иногда. Будем разбираться, а то все руки не доходили (серваки
> некритичные).

все равно какой контроллер при наличии TLER/CCTL и все равно какой RAID:

- HW RAID
- fake RAID
- Soft RAID (будь то mdadm/dmraid/etc в Linux или старый ataraid или gmirror/graid в xBSD)

таймаут увеличивается при ответе контроллера HDD -> RAID/HBA/простому контроллеру SATA/SAS,
последние в свою очередь сигнализируют драйверу об ошибке и пытаются выполнить reset
и init, и если ok - работать дальше.
В результате HW RAID помечает диск как BAD и деградирует RAID - обычно так, в случае
с fake RAID или Software RAID - просто непонятные ошибки, особенно после проверки
дисков в первое время и получения результата о том что с дисками все Ok, в итоге
- голова пухнет от непоняток.

Лучшие диски для RAID'ов на сегодняшний день - Hitachi UltraStar, SATA или SAS, личный
опыт за последние лет 10.

Ответить | Правка | ^ к родителю #2 | Наверх | Cообщить модератору

8. "Логи raid 0+1"  +/
Сообщение от Дядя_Федор on 06-Май-13, 13:58 
> Лучшие диски для RAID'ов на сегодняшний день - Hitachi UltraStar, SATA или
> SAS, личный
> опыт за последние лет 10.

Вот и мы перешли при комплектации нового железа на Хитачи. :) Могу заметить, что для комплектации файлопомойки (RAID5+spare) году, эдак, в 2008-м были закуплены 12 2-терабайтных дисков Хитачи (точную модель сейчас не упомню уже, а сам сервер лежит в настоящий момент выключенным - ждет помещения его в стойку после некоторых организационных перетурбаций, приведших к его отключению). Так из 12-ти НОВЫХ дисков 2 были при подключении к Рейд-котроллеру (16-портовый 3ware, кажется, 9650) вообще не были опознаны. Нам-то их поставщик поменял по гарантии. Но осадочек остался. Ну и напомню, что харды Хитачи - это старый добрый IBM. Они (IBM) продали эту часть своего бизнеса Hitachi. Кажется, в 2004-м году. У меня до сих пор валяются SCSCI диски IBM на 17 гиг, выпущенные в 2001 году. :) И уверен, что они рабочие.


Ответить | Правка | ^ к родителю #7 | Наверх | Cообщить модератору

9. "Логи raid 0+1"  +/
Сообщение от lavr email on 06-Май-13, 18:44 
>[оверквотинг удален]
> были закуплены 12 2-терабайтных дисков Хитачи (точную модель сейчас не упомню
> уже, а сам сервер лежит в настоящий момент выключенным - ждет
> помещения его в стойку после некоторых организационных перетурбаций, приведших к его
> отключению). Так из 12-ти НОВЫХ дисков 2 были при подключении к
> Рейд-котроллеру (16-портовый 3ware, кажется, 9650) вообще не были опознаны. Нам-то их
> поставщик поменял по гарантии. Но осадочек остался. Ну и напомню, что
> харды Хитачи - это старый добрый IBM. Они (IBM) продали эту
> часть своего бизнеса Hitachi. Кажется, в 2004-м году. У меня до
> сих пор валяются SCSCI диски IBM на 17 гиг, выпущенные в
> 2001 году. :) И уверен, что они рабочие.

В марте 2012 Western Digital купила Storage отделение Hitachi, лучше купить качественного
конкурента с лучшими технологиями.

Ответить | Правка | ^ к родителю #8 | Наверх | Cообщить модератору

10. "Логи raid 0+1"  +/
Сообщение от me (??) on 07-Май-13, 17:47 
> Привет всем. Помогите выяснить что именно происходит на сервере
> в syslog валит такими сообщениями
> May  5 14:02:05 server kernel: [2598945.472048] mptbase: ioc0: LogInfo(0x31110e00): Originator={PL},

у вас дебаг включен либо только для mpt, либо общий. скорее для mpt. lsiutil-ами попробуйте выключить. Может и через sysfs как-то можно, не знаю, не смотрел.

Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема




Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2025 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру