Сегодня в /var/log/messages обнаружил:Jun 16 06:22:33 my-host smartd[708]: Device: /dev/ad6, 8 Currently unreadable (pending) sectors
Jun 16 06:22:33 my-host smartd[708]: Device: /dev/ad6, 8 Offline uncorrectable sectors
Jun 16 06:52:32 my-host smartd[708]: Device: /dev/ad6, 8 Currently unreadable (pending) sectors
Jun 16 06:52:32 my-host smartd[708]: Device: /dev/ad6, 8 Offline uncorrectable sectors
Jun 16 07:22:32 my-host smartd[708]: Device: /dev/ad6, 8 Currently unreadable (pending) sectors
Jun 16 07:22:32 my-host smartd[708]: Device: /dev/ad6, 8 Offline uncorrectable sectors
Jun 16 07:52:33 my-host smartd[708]: Device: /dev/ad6, 8 Currently unreadable (pending) sectors
Jun 16 07:52:33 my-host smartd[708]: Device: /dev/ad6, 8 Offline uncorrectable sectors
Jun 16 08:22:32 my-host smartd[708]: Device: /dev/ad6, 8 Currently unreadable (pending) sectors
Jun 16 08:22:32 my-host smartd[708]: Device: /dev/ad6, 8 Offline uncorrectable sectorsЧто это означает? На сколько это критично? И возможно ли это вылечить?
>Сегодня в /var/log/messages обнаружил:
>
>Jun 16 06:22:33 my-host smartd[708]: Device: /dev/ad6, 8 Currently unreadable (pending) sectors
>
>Jun 16 06:22:33 my-host smartd[708]: Device: /dev/ad6, 8 Offline uncorrectable sectors
>Jun 16 06:52:32 my-host smartd[708]: Device: /dev/ad6, 8 Currently unreadable (pending) sectors
>
>Jun 16 06:52:32 my-host smartd[708]: Device: /dev/ad6, 8 Offline uncorrectable sectors
>Jun 16 07:22:32 my-host smartd[708]: Device: /dev/ad6, 8 Currently unreadable (pending) sectors
>
>Jun 16 07:22:32 my-host smartd[708]: Device: /dev/ad6, 8 Offline uncorrectable sectors
>Jun 16 07:52:33 my-host smartd[708]: Device: /dev/ad6, 8 Currently unreadable (pending) sectors
>
>Jun 16 07:52:33 my-host smartd[708]: Device: /dev/ad6, 8 Offline uncorrectable sectors
>Jun 16 08:22:32 my-host smartd[708]: Device: /dev/ad6, 8 Currently unreadable (pending) sectors
>
>Jun 16 08:22:32 my-host smartd[708]: Device: /dev/ad6, 8 Offline uncorrectable sectors
>
>Что это означает? На сколько это критично? И возможно ли это вылечить?
>8 Currently unreadable - 8 секторов нечитабельны
8 Offline uncorrectable sectors - 8 секторов неиспользуемые с некорректируемой ошибкойВылечить это может только сам контроллер на диске: сделать realloc этих секторов, если
есть возможность.Хотя ошибки при работе c UDMA дисками могут быть из-за:
- затык DMA
- перегрев дисков
- болтанка в разъемах
- болтанка в шлейфах
- дурит контроллерМогу лишь поделиться своим опытом:
- после проверки верхнего и устранения физических вещей: шлейфы и перегрев (выключить на
30мин, 1-2 часа)делаем следующее:
- если ошибки остались, ДЕЛАЕМ BACKUP данных с этого винчестера
- начинаем гонять dd на запись дня два-триВАЖНОЕ: строго использовать в dd bs=512, blocksize должен быть маленький, равный размеру
сектора!!! Кстати такой же bs=512 строго следует использовать при копировании битых
дисков или создания их образа.Использование dd с дисками у которых BAD SECTORS и UNCORRECTABLE ошибки:
чтение: dd if=диск of=/dev/null bs=512 conv=noerror,sync
запись: dd if=/dev/random of=диск bs=512 conv=noerror,sync
копирование или создание образа: dd if=диск of=hdimage bs=512 conv=noerror,syncbs=512 байт для того чтобы скопировать с максимально возможной сохранностью данных,
очень долго на больших дисках, но альтернативы нет.
Можно использовать bs=8k или bs=16k когда тестируем диски READ-ONLY на наличие
BAD SECTORS, но при создании ОБРАЗА и уже после создания BACKUP'а, при тестировании
на ЗАПИСЬ, строго bs=512.
Внутренний механизм realloc BAD SECTORS в современных дисках включается только
при ЗАПИСИ.ПОСЛЕДНЕЕ: если после всех вышеуказанных действий НЕ УДАЛОСЬ избавиться от BAD BLOCKS,
ЛИБО СДАВАТЬ ДИСК ПО ГАРАНТИИ, ЛИБО исключить BAD SECTORS на уровне файловой системы,
последнее в FreeBSD 5.x и выше на практике ХРЕН РАБОТАЕТ.
Вау...Спасибо за ответ
Можно ли сделать realloc не могу сказать, т.к. пока не знаю, что сие означает.Диски стоят в рейде, сервак HP на площадке у хостера, конечно при большом желании туда можно попасть, только сервак с клиентскими сайтами, отключить на больше, чем 1-2 часа не получится.
ATA channel 2:
Master: ad4 <Maxtor 6Y080M0/YAR511W0> Serial ATA v1.0
Slave: no device present
ATA channel 3:
Master: ad6 <Maxtor 6Y080M0/YAR511W0> Serial ATA v1.0
Slave: no device presentМожно допустим изъять оттуда винт и прогонять его на другом сервере? Или нужно на родном?
Насколько я понимаю, если зеркальный рейд, тогда сервак может работать без значительных потерь в производительности на одном оставшемся?
>Вау...
>
>Спасибо за ответ
>Можно ли сделать realloc не могу сказать, т.к. пока не знаю, что
>сие означает.
>
>Диски стоят в рейде, сервак HP на площадке у хостера, конечно при
>большом желании туда можно попасть, только сервак с клиентскими сайтами, отключить
>на больше, чем 1-2 часа не получится.
>
>ATA channel 2:
> Master: ad4 <Maxtor 6Y080M0/YAR511W0> Serial ATA v1.0
> Slave: no
>device present
>ATA channel 3:
> Master: ad6 <Maxtor 6Y080M0/YAR511W0> Serial ATA v1.0
> Slave: no
>device present
>
>Можно допустим изъять оттуда винт и прогонять его на другом сервере? Или
>нужно на родном?
>Насколько я понимаю, если зеркальный рейд, тогда сервак может работать без значительных
>потерь в производительности на одном оставшемся?
В случае ЛЮБОГО РЕЙДА, такие ошибки НЕДОПУСТИМЫ и такой/ие диски в РЕЙДЕ (не важно какого
уровня рейд) следует СРОЧНО МЕНЯТЬ. А в случае ЗЕРКАЛЬНОГО рейда покупать диски следует
СРАЗУ в ПОЛУТОРНОМ или ДВОЙНОМ КОМПЛЕКТЕ.
>>Вау...
>>
>>Спасибо за ответ
>>Можно ли сделать realloc не могу сказать, т.к. пока не знаю, что
>>сие означает.
>>
>>Диски стоят в рейде, сервак HP на площадке у хостера, конечно при
>>большом желании туда можно попасть, только сервак с клиентскими сайтами, отключить
>>на больше, чем 1-2 часа не получится.
>>
>>ATA channel 2:
>> Master: ad4 <Maxtor 6Y080M0/YAR511W0> Serial ATA v1.0
>> Slave: no
>>device present
>>ATA channel 3:
>> Master: ad6 <Maxtor 6Y080M0/YAR511W0> Serial ATA v1.0
>> Slave: no
>>device present
>>
>>Можно допустим изъять оттуда винт и прогонять его на другом сервере? Или
>>нужно на родном?
>>Насколько я понимаю, если зеркальный рейд, тогда сервак может работать без значительных
>>потерь в производительности на одном оставшемся?
>
>
>В случае ЛЮБОГО РЕЙДА, такие ошибки НЕДОПУСТИМЫ и такой/ие диски в РЕЙДЕ
>(не важно какого
>уровня рейд) следует СРОЧНО МЕНЯТЬ. А в случае ЗЕРКАЛЬНОГО рейда покупать диски
>следует
>СРАЗУ в ПОЛУТОРНОМ или ДВОЙНОМ КОМПЛЕКТЕ.Да, забыл добавить, в отличие от РЕЙДА, такие диски еще потом можно долго использовать
если удалось решить проблему BAD'ов и реально диск НЕ СЫПЕТСЯ.
С большим успехом сам использую подобное БАРАХЛО после постоянных сбоев и невозможности
использовать такие диски в РЕЙДАХ:[alone]~ > atacontrol list
ATA channel 0:
Master: acd0 <NEC DVD RW ND-3500AG/2.18> ATA/ATAPI revision 0
Slave: ad1 <Maxtor 6Y080P0/YAR41BW0> ATA/ATAPI revision 7
ATA channel 1:
Master: ad2 <Maxtor 6Y120L0/YAR41BW0> ATA/ATAPI revision 7
Slave: ad3 <Maxtor 6Y120L0/YAR41BW0> ATA/ATAPI revision 7
^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^- вот парочка
ниже чуть-ли не полный набор таких дисков которые я восстановил и с периодикой полгода/год
продолжаю восстанавливать, и ниче работают, куча мультимедия на них хранится:[unix1]~ > atacontrol list
ATA channel 0:
Master: ad0 <WDC WD800BB-00BSA0/12.08C12> ATA/ATAPI revision 5
Slave: ad1 <ST380011A/3.06> ATA/ATAPI revision 6
ATA channel 1:
Master: ad2 <ST3120022A/3.06> ATA/ATAPI revision 6
Slave: ad3 <Maxtor 6Y160L0/YAR41BW0> ATA/ATAPI revision 7
ATA channel 2:
Master: ad4 <ST3200822AS/3.01> Serial ATA v1.0
Slave: no device present
ATA channel 3:
Master: no device present
Slave: no device present
ATA channel 4:
Master: ad8 <Maxtor 4G120J6/GAK819K0> ATA/ATAPI revision 6
Slave: no device present
ATA channel 5:
Master: ad10 <ST3200822AS/3.01> Serial ATA v1.0
Slave: no device present
ATA channel 6:
Master: ad12 <ST3120827AS/3.42> Serial ATA v1.0
Slave: no device present
[unix1]~ >
А ремонту не подлежит? Он-то еще вроде как на гарантии.
>А ремонту не подлежит? Он-то еще вроде как на гарантии.ГАРАНТИЙНЫЕ диски нужно СТРОГО обменивать ПО ГАРАНТИИ.
Современные диски, ЕСЛИ НЕ СЫПЯТСЯ ГЛОБАЛЬНО, вполне можно РЕСТАВРИРОВАТЬ в спец.мастерских
на стендах, либо купить такой стенд+софт, либо СВОРОВАТЬ софт и спаять мониторку к
контроллеру (что не есть кАрашо - в смысле воровство).
Стенд - это работа(команды, smart) на уровне контроллера диска.В целом, современные PATA/SATA диски нужно покупать тех моделей что в списке
РЕКОМЕНДОВАННЫХ производителей РЕЙДОВ (не важно для рейда диски или просто): 3WARE и PROMISE. Правда сейчас многие продавцы делают сноски рядом с моделями - с повышенной
отказоустойчивостью, но лучше самому отслеживать по спискам РЕКОМЕНДОВАННЫХ (они разумеется
запаздывают по современному модельному ряду)
>ГАРАНТИЙНЫЕ диски нужно СТРОГО обменивать ПО ГАРАНТИИ.Спасибо за ответы.
Теперь будем ждать понедельника.
Т.к. у нас уже все сервисы и магазины закрыты.А сервер мы брали комплектованный производителем.
Мы только разместили его на площадке.
>В случае ЛЮБОГО РЕЙДА, такие ошибки НЕДОПУСТИМЫ и такой/ие диски в РЕЙДЕ
>(не важно какого
>уровня рейд) следует СРОЧНО МЕНЯТЬ.Сервак стал работать нестабильно и часто виснит
Диск может быть тому причиной?
В логах ничего нет :(
>>В случае ЛЮБОГО РЕЙДА, такие ошибки НЕДОПУСТИМЫ и такой/ие диски в РЕЙДЕ
>>(не важно какого
>>уровня рейд) следует СРОЧНО МЕНЯТЬ.
>
>Сервак стал работать нестабильно и часто виснит
>Диск может быть тому причиной?все может быть, вот только если в логах НЕТ ничего по дисковым сбоям, сложно
валить на диск, скорей всего ЧТО-ТО ДРУГОЕ:- БП (питание)
- память
...
...
...>В логах ничего нет :(
печально
>все может быть, вот только если в логах НЕТ ничего по дисковым
>сбоям, сложно
>валить на диск, скорей всего ЧТО-ТО ДРУГОЕ:Ну почему нет, все как обычно:
Jun 18 05:03:21 my-host smartd[4488]: Device: /dev/ad6, 7 Currently unreadable (pending) sectors
Jun 18 05:03:21 my-host smartd[4488]: Device: /dev/ad6, 1 Offline uncorrectable sectors
Jun 19 09:41:47 my-host syslogd: kernel boot file is /boot/kernel/kernelпотом практически сразу:
Jun 19 09:43:05 my-host smartd[703]: Device: /dev/ad6, 7 Currently unreadable (pending) sectors
Jun 19 09:43:05 my-host smartd[703]: Device: /dev/ad6, 8 Offline uncorrectable sectors
Jun 19 10:01:36 my-host syslogd: kernel boot file is /boot/kernel/kernelПри этом помогало лишь ручной рестарт сервера.
>>все может быть, вот только если в логах НЕТ ничего по дисковым
>>сбоям, сложно
>>валить на диск, скорей всего ЧТО-ТО ДРУГОЕ:
>
>Ну почему нет, все как обычно:
>
>Jun 18 05:03:21 my-host smartd[4488]: Device: /dev/ad6, 7 Currently unreadable (pending) sectors
>
>Jun 18 05:03:21 my-host smartd[4488]: Device: /dev/ad6, 1 Offline uncorrectable sectors
>Jun 19 09:41:47 my-host syslogd: kernel boot file is /boot/kernel/kernel
>
>потом практически сразу:
>
>Jun 19 09:43:05 my-host smartd[703]: Device: /dev/ad6, 7 Currently unreadable (pending) sectors
>
>Jun 19 09:43:05 my-host smartd[703]: Device: /dev/ad6, 8 Offline uncorrectable sectors
>Jun 19 10:01:36 my-host syslogd: kernel boot file is /boot/kernel/kernel
>
>При этом помогало лишь ручной рестарт сервера.
не помню был ли совет про ПЕРЕГРЕВ?!
Диски греются как утюг, если в аппаратной не поддерживается холод - хреново, значит
нужны доп.вентиляторы в корпус сервера.Диск может быть сам по себе нормальным, но при перегреве и контроллер может дурить
и диск - выключаешь, ждешь 30мин-1час, включаешь и все работает тип-топ, проходит
n-часов и ...поперло...
Диск может быть фуфло, но без явных признаков и тогда при нагреве ВСЕ и вылезает,
заканчивается ВЫБРАСЫВАНИЕМ через некоторое время.
Допустим у нас два диска:- хороший
- подозрение на плохойЧто будет в случае RAID1 - правильно, затыки при:
"read error"
"write error"вместо нормального зеркалирования, будут затыки при записи на "плохой" диски, а это
время (timeout) на n-ое количество попыток записи и тд и тп.Что будет если выключить сбойный диск и оставить ОДИН без рейда - в смысле в fstab
убрать рейд и заменить на adXsY ? Если коленкор измениться - значит диск.
>не помню был ли совет про ПЕРЕГРЕВ?!
>Диски греются как утюг, если в аппаратной не поддерживается холод - хреново,
>значит
>нужны доп.вентиляторы в корпус сервера.Да, как раз на той неделе, в конце на тех.площадке отказал второей конденционер
Т.е. как раз перегрев и имел место, после которого полезли эти ошибки.>Что будет если выключить сбойный диск и оставить ОДИН без рейда -
>в смысле в fstab
>убрать рейд и заменить на adXsY ? Если коленкор измениться - значит
>диск.Сейчас ждем замены диска, заказали в сервисном центре.
Будут проблемы, вытащим сбойный диск.
>>не помню был ли совет про ПЕРЕГРЕВ?!
>>Диски греются как утюг, если в аппаратной не поддерживается холод - хреново,
>>значит
>>нужны доп.вентиляторы в корпус сервера.
>
>Да, как раз на той неделе, в конце на тех.площадке отказал второей
>конденционер
>Т.е. как раз перегрев и имел место, после которого полезли эти ошибки.
>
>
>>Что будет если выключить сбойный диск и оставить ОДИН без рейда -
>>в смысле в fstab
>>убрать рейд и заменить на adXsY ? Если коленкор измениться - значит
>>диск.
>
>Сейчас ждем замены диска, заказали в сервисном центре.
>Будут проблемы, вытащим сбойный диск.
аналогичная проблема ((
Jan 5 13:21:00 fserver smartd[584]: Device: /dev/ad0, 1 Currently unreadable (pending) sectors
Jan 5 13:21:00 fserver smartd[584]: Device: /dev/ad0, 1 Offline uncorrectable sectors
Jan 5 13:51:00 fserver smartd[584]: Device: /dev/ad0, 1 Currently unreadable (pending) sectors
Jan 5 13:51:00 fserver smartd[584]: Device: /dev/ad0, 1 Offline uncorrectable sectors
Jan 5 14:21:00 fserver smartd[584]: Device: /dev/ad0, 1 Currently unreadable (pending) sectors
Jan 5 14:21:00 fserver smartd[584]: Device: /dev/ad0, 1 Offline uncorrectable sectors
Jan 5 14:51:00 fserver smartd[584]: Device: /dev/ad0, 1 Currently unreadable (pending) sectors
Jan 5 14:51:00 fserver smartd[584]: Device: /dev/ad0, 1 Offline uncorrectable sectors
Jan 5 15:21:00 fserver smartd[584]: Device: /dev/ad0, 1 Currently unreadable (pending) sectors
Jan 5 15:21:00 fserver smartd[584]: Device: /dev/ad0, 1 Offline uncorrectable sectors
Jan 5 15:51:00 fserver smartd[584]: Device: /dev/ad0, 1 Currently unreadable (pending) sectors
Jan 5 15:51:00 fserver smartd[584]: Device: /dev/ad0, 1 Offline uncorrectable sectors
Jan 5 16:45:38 fserver syslogd: kernel boot file is /boot/kernel/kernel
Jan 5 16:45:38 fserver kernel: Copyright (c) 1992-2005 The FreeBSD Project.
Jan 5 16:45:38 fserver kernel: Copyright (c) 1979, 1980, 1983, 1986, 1988, 1989, 1991, 1992, 1993, 1994перегрев исключается. висюк происходит из-за глюков харды?