Всем доброе утро.Мужики, горю! В сислоге имеются сообщения такого типа. Повторяются примерно каждые полчаса.
Jul 14 06:53:04 hostname smartd: /dev/hda:Failed to read smart values
Jul 14 06:53:04 hostname kernel: hda: drive_cmd: status=0x51 { DriveReady SeekComplete Error }
Jul 14 06:53:04 hostname kernel: hda: drive_cmd: error=0x04 { DriveStatusError }
Jul 14 06:53:05 hostname kernel: hda: drive_cmd: status=0x51 { DriveReady SeekComplete Error }
Jul 14 06:53:05 hostname kernel: hda: drive_cmd: error=0x04 { DriveStatusError }
Jul 14 06:53:05 hostname smartd: /dev/hda:Failed to read smart thresholds
Jul 14 06:53:05 hostname smartd: Device: /dev/hda, Failed attribute: 6
Jul 14 06:53:05 hostname smartd: Device: /dev/hde, S.M.A.R.T. Attribute: 1 Changed 1
Jul 14 06:53:05 hostname smartd: Device: /dev/hde, S.M.A.R.T. Attribute: 195 Changed 1Вопрос жизни и смерти (2 дня до отпуска, а тут такое...) - мне сразу хард менять или еще можно это дело как-то остановить?
>Вопрос жизни и смерти (2 дня до отпуска, а тут такое...) -
>мне сразу хард менять или еще можно это дело как-то остановить?
>
А из отпуска досрочно не хочешь вернуться? :)
>Всем доброе утро.
>
>Мужики, горю! В сислоге имеются сообщения такого типа. Повторяются примерно каждые полчаса.
>
>
>Jul 14 06:53:04 hostname smartd: /dev/hda:Failed to read smart values
>Jul 14 06:53:04 hostname kernel: hda: drive_cmd: status=0x51 { DriveReady SeekComplete Error
>}
>Jul 14 06:53:04 hostname kernel: hda: drive_cmd: error=0x04 { DriveStatusError }
>Jul 14 06:53:05 hostname kernel: hda: drive_cmd: status=0x51 { DriveReady SeekComplete Error
>}
>Jul 14 06:53:05 hostname kernel: hda: drive_cmd: error=0x04 { DriveStatusError }
>Jul 14 06:53:05 hostname smartd: /dev/hda:Failed to read smart thresholds
>Jul 14 06:53:05 hostname smartd: Device: /dev/hda, Failed attribute: 6
>Jul 14 06:53:05 hostname smartd: Device: /dev/hde, S.M.A.R.T. Attribute: 1 Changed 1
>
>Jul 14 06:53:05 hostname smartd: Device: /dev/hde, S.M.A.R.T. Attribute: 195 Changed 1
>
>
>Вопрос жизни и смерти (2 дня до отпуска, а тут такое...) -
>мне сразу хард менять или еще можно это дело как-то остановить?
>
помоему лучше поменять, у меня скази с приблизительно такими же симптомами лет пять назад прожил 2-а дня(как раз столько тебе до отпуска)
>помоему лучше поменять, у меня скази с приблизительно такими же симптомами лет
>пять назад прожил 2-а дня(как раз столько тебе до отпуска)А как легче и лучше перенести систему на новый хард? Просто образ передрать рискованно. Как сделать это "цивилизованным" способом?
>>помоему лучше поменять, у меня скази с приблизительно такими же симптомами лет
>>пять назад прожил 2-а дня(как раз столько тебе до отпуска)
>
>А как легче и лучше перенести систему на новый хард? Просто образ
>передрать рискованно. Как сделать это "цивилизованным" способом?
А чего рискованного? Хард, главное чтоб не меньше старого был.
Почитай тут:
http://opennet.ru/base/sys/freebsd_dup.txt.html
у меня это дело получилось :)
>Почитай тут:
>http://opennet.ru/base/sys/freebsd_dup.txt.html
>у меня это дело получилось :)У меня линукс Debian. :(
>>Почитай тут:
>>http://opennet.ru/base/sys/freebsd_dup.txt.html
>>у меня это дело получилось :)
>
>У меня линукс Debian. :(Какая разница, там используются dump/restore. У тебя что таких нет?
Только вот загрузчик и разбивку диска будешь делать как тебе удобнее, а не как для фри расписано.
>Какая разница, там используются dump/restore. У тебя что таких нет?
>Только вот загрузчик и разбивку диска будешь делать как тебе удобнее, а
>не как для фри расписано.INM, спасибо за помощь!
Друг тут вот что прислал - попробую сначала так.
>>Какая разница, там используются dump/restore. У тебя что таких нет?
>>Только вот загрузчик и разбивку диска будешь делать как тебе удобнее, а
>>не как для фри расписано.
>
>INM, спасибо за помощь!
>
>Друг тут вот что прислал - попробую сначала так.
>
>http://www.linuxdoc.ru/HOWTO/mini/Hard-Disk-Upgrade.htmlпри тех ошибках что у тебя показал smartd - ошибки seek, не все понятно,
лучше посмотри в логах системы ошибки READ/WRITE - если есть bad blocks,
лучше использовать tar/cpio/pax вместо dump/restore
>при тех ошибках что у тебя показал smartd - ошибки seek, не
>все понятно,
>лучше посмотри в логах системы ошибки READ/WRITE - если есть bad blocks,
>
>лучше использовать tar/cpio/pax вместо dump/restoreLavr, на bad blocks проверял - не нашел ничего. Проверял командой
badblock /dev/....Только что закончил перемещение системы на другой хард (все по той же http://www.linuxdoc.ru/HOWTO/mini/Hard-Disk-Upgrade.html), все работает, но во время загрузки опять увидел такое:
hdb: drive_cmd: status=0x51 { DriveReady SeekComplete Error }
hdb: drive_cmd: error=0x04 { DriveStatusError }
hdb: drive_cmd: status=0x51 { DriveReady SeekComplete Error }
hdb: drive_cmd: error=0x04 { DriveStatusError }
hdb: drive_cmd: status=0x51 { DriveReady SeekComplete Error }
hdb: drive_cmd: error=0x04 { DriveStatusError }
hdb: drive_cmd: status=0x51 { DriveReady SeekComplete Error }
hdb: drive_cmd: error=0x04 { DriveStatusError }Может дело не в харде, а в контроллере?
>>при тех ошибках что у тебя показал smartd - ошибки seek, не
>>все понятно,
>>лучше посмотри в логах системы ошибки READ/WRITE - если есть bad blocks,
>>
>>лучше использовать tar/cpio/pax вместо dump/restore
>
>Lavr, на bad blocks проверял - не нашел ничего. Проверял командой
>badblock /dev/....
>
>Только что закончил перемещение системы на другой хард (все по той же
>http://www.linuxdoc.ru/HOWTO/mini/Hard-Disk-Upgrade.html), все работает, но во время загрузки опять увидел такое:
>
>hdb: drive_cmd: status=0x51 { DriveReady SeekComplete Error }
>hdb: drive_cmd: error=0x04 { DriveStatusError }
>hdb: drive_cmd: status=0x51 { DriveReady SeekComplete Error }
>hdb: drive_cmd: error=0x04 { DriveStatusError }
>hdb: drive_cmd: status=0x51 { DriveReady SeekComplete Error }
>hdb: drive_cmd: error=0x04 { DriveStatusError }
>hdb: drive_cmd: status=0x51 { DriveReady SeekComplete Error }
>hdb: drive_cmd: error=0x04 { DriveStatusError }
>
>Может дело не в харде, а в контроллере?ну как бы это попроще: допустим масса дисковых операций на одном диске,
ну и где-то на операциях seek произошел затык - обработка прерываний...
ну не успел драйвер обработать какой-то запрос или очередь или
что еще - таймаут истек, контроллер какое-то время не отвечал или
система не успела обработать операцию (обрабатывались более приоритетные
прерывания...) - былы получены сообщения о неготовности устройства,
незавершенности операции, после этого обычно контроллеру посылается
reset и он должен перейти в готовность.Как варинт - последить кол-во дисковых прерываний, загрузку в этот
момент, нагрузку. Посмотреть ЧТО за диск, в КАКОМ режиме работает PIO/DMA
какой буфер у диска и покрутить параметры hdparmВзять этот диск и попробовать погонять его на другой машине с другим
контроллером - хотя бы dd на чтение, например пару dd в параллель друг
другу: dd if=большой_файл of=/dev/null - пару-тройку часов, плюс
dd if=/dev/весь_диск of=/dev/null - прогнать чтение всего диска
Как он работает на другом контроллере, заведомо нужно быть уверенным
в том что контроллер нормальный.Прим: но full-backup я бы на всякий случай точно сделал бы
>Как варинт - последить кол-во дисковых прерываний, загрузку в этот
>момент, нагрузку. Посмотреть ЧТО за диск, в КАКОМ режиме работает PIO/DMA
>какой буфер у диска и покрутить параметры hdparm
>
>Взять этот диск и попробовать погонять его на другой машине с другим
>
>контроллером - хотя бы dd на чтение, например пару dd в параллель
>друг
>другу: dd if=большой_файл of=/dev/null - пару-тройку часов, плюс
>dd if=/dev/весь_диск of=/dev/null - прогнать чтение всего диска
> Как он работает на другом контроллере, заведомо нужно быть уверенным
>в том что контроллер нормальный.
>
>Прим: но full-backup я бы на всякий случай точно сделал быLavr, спасибо за советы. Бэкап основных системных директорий сделал еще вчера, ленточка в сейфе :)
На всякий случай вот информация по новому диску из hdparm:
Model=Maxtor 6E040L0, FwRev=NAR61HA0, SerialNo=E13TELAN
Config={ Fixed }
RawCHS=16383/16/63, TrkSize=0, SectSize=0, ECCbytes=57
BuffType=DualPortCache, BuffSize=2048kB, MaxMultSect=16, MultSect=off
CurCHS=16383/16/63, CurSects=16514064, LBA=yes, LBAsects=80293248
IORDY=on/off, tPIO={min:120,w/IORDY:120}, tDMA={min:120,rec:120}
PIO modes: pio0 pio1 pio2 pio3 pio4
DMA modes: mdma0 mdma1 mdma2 udma0 udma1 udma2 udma3 udma4 *udma5 udma6
AdvancedPM=yes: disabled (255) WriteCache=enabled
Drive Supports : ataATA-1 ATA-2 ATA-3 ATA-4 ATA-5 ATA-6 ATA-7Сидит на 80-жильном шлейфе.
Стоит ли понизить уровень UDMA? C какими параметрами можно безопасно играться, подстраивая диск?
Попробовал снять старый хард, подцепил на другой машине - та же ерунда, что у нового.Т.е. выходит железная часть не при чем?
>Попробовал снять старый хард, подцепил на другой машине - та же ерунда,
>что у нового.
>
>Т.е. выходит железная часть не при чем?попробуй сделать то что я написал, особенно поиграй с PIO/DMA и другими
параметрами hdparm, возможно микруха какая-то на диске близка к гибели
- управление :(
>>Попробовал снять старый хард, подцепил на другой машине - та же ерунда,
>>что у нового.
>>
>>Т.е. выходит железная часть не при чем?
>
>попробуй сделать то что я написал, особенно поиграй с PIO/DMA и другими
>
>параметрами hdparm, возможно микруха какая-то на диске близка к гибели
>- управление :(Думаю микруха на диске вряд ли. Получается что - я сменил хард - не прокатило. Ставлю оригинальный хард на другую машину - ошибки те же. Т.е. либо у обоих хардов (один сигейт другой макстор) совершенно одинаковые проблемы с железом, либо одно из двух?
Надеюсь проблема лишь в том, что они у меня не корректно настроены...
Сейчас решил дать небольшую нагрузочку старому харду - затариваю директорию /home - при этом выскочили ошибки типа
hda: drive_cmd: status=0x51 { DriveReady Seekcomplete Error }
hda: drive_cmd: error=0x04 { DriveStatusError }Параллельно запустил
dd if=/dev/hda1 of=/dev/null
Копирует уже минут 5, пока ошибок не было.
>>>Попробовал снять старый хард, подцепил на другой машине - та же ерунда,
>>>что у нового.
>>>
>>>Т.е. выходит железная часть не при чем?
>>
>>попробуй сделать то что я написал, особенно поиграй с PIO/DMA и другими
>>
>>параметрами hdparm, возможно микруха какая-то на диске близка к гибели
>>- управление :(
>
>Думаю микруха на диске вряд ли. Получается что - я сменил хард
>- не прокатило. Ставлю оригинальный хард на другую машину - ошибки
>те же. Т.е. либо у обоих хардов (один сигейт другой макстор)
>совершенно одинаковые проблемы с железом, либо одно из двух?
>
>Надеюсь проблема лишь в том, что они у меня не корректно настроены...
>
>
>Сейчас решил дать небольшую нагрузочку старому харду - затариваю директорию /home -
>при этом выскочили ошибки типа
>
>hda: drive_cmd: status=0x51 { DriveReady Seekcomplete Error }
>hda: drive_cmd: error=0x04 { DriveStatusError }
>
>Параллельно запустил
>
>dd if=/dev/hda1 of=/dev/null
>
>Копирует уже минут 5, пока ошибок не было.
нужно отсекать проблемы:- выяснить ДИСК или КОНТРОЛЛЕР
1) берем этот диск и проверяем на паре других машин с заведомо исправными
контроллерами которым мы доверяем, если ошибок нет - контроллер
2) берем другой диск и делаем нужную нам FS на весь диск и проверяем
на паре других тачек dd на весь диск - если никаких ошибок, сливаем
на него копию ПОДОЗРИТЕЛЬНОГО и ставим на ту машину где у нас ПРОБЛЕМЫ
и смотрим результатВсе верхнее должно дать однозначные выводы.
1) попробуй понижать DMA до UDMA2/3
2) попробуй в PIO
3) проверяй температуру, вдруг он греется как печка - результатом могут
быть неприятные сообщения, timeout'ы, плюс офигенная нагрузка
4) если нет bad'ов и mhdd32 дает нормальную раскладку, значит греется
или не справляется с нагрузкой (приличный IO)
5) надеюсь никакой энергосберегающий режим в BIOS не включен для HDD!Вполне возможно что диск нормальный, а вот smart-monitor я бы отключил -
глюкало, лучше логи смотреть (это конечно если используется smarttools)
>Вполне возможно что диск нормальный, а вот smart-monitor я бы отключил -
>
>глюкало, лучше логи смотреть (это конечно если используется smarttools)Вобщем эти строки мне понравились больше всего. Наверное нашел не лучшее решение, понимаю.
Снес нафиг все эти SMART тулзы.
Загрузил опять параллельно tar и dd. Оставлю на ночь, а завтра будем посмотреть.
Спасибо, друзья!