URL: https://www.opennet.me/cgi-bin/openforum/vsluhboard.cgi
Форум: vsluhforumID1
Нить номер: 58208
[ Назад ]

Исходное сообщение
"Проблемы с системным хардом!!"

Отправлено vav1107 , 14-Июл-05 09:13 
Всем доброе утро.

Мужики, горю! В сислоге имеются сообщения такого типа. Повторяются примерно каждые полчаса.

Jul 14 06:53:04 hostname smartd: /dev/hda:Failed to read smart values
Jul 14 06:53:04 hostname kernel: hda: drive_cmd: status=0x51 { DriveReady SeekComplete Error }
Jul 14 06:53:04 hostname kernel: hda: drive_cmd: error=0x04 { DriveStatusError }
Jul 14 06:53:05 hostname kernel: hda: drive_cmd: status=0x51 { DriveReady SeekComplete Error }
Jul 14 06:53:05 hostname kernel: hda: drive_cmd: error=0x04 { DriveStatusError }
Jul 14 06:53:05 hostname smartd: /dev/hda:Failed to read smart thresholds
Jul 14 06:53:05 hostname smartd: Device: /dev/hda, Failed attribute: 6
Jul 14 06:53:05 hostname smartd: Device: /dev/hde, S.M.A.R.T. Attribute: 1 Changed 1
Jul 14 06:53:05 hostname smartd: Device: /dev/hde, S.M.A.R.T. Attribute: 195 Changed 1

Вопрос жизни и смерти (2 дня до отпуска, а тут такое...) - мне сразу хард менять или еще можно это дело как-то остановить?


Содержание

Сообщения в этом обсуждении
"Проблемы с системным хардом!!"
Отправлено mezantrop , 14-Июл-05 09:28 
>Вопрос жизни и смерти (2 дня до отпуска, а тут такое...) -
>мне сразу хард менять или еще можно это дело как-то остановить?
>
А из отпуска досрочно не хочешь вернуться? :)


"Проблемы с системным хардом!!"
Отправлено INM , 14-Июл-05 09:29 
>Всем доброе утро.
>
>Мужики, горю! В сислоге имеются сообщения такого типа. Повторяются примерно каждые полчаса.
>
>
>Jul 14 06:53:04 hostname smartd: /dev/hda:Failed to read smart values
>Jul 14 06:53:04 hostname kernel: hda: drive_cmd: status=0x51 { DriveReady SeekComplete Error
>}
>Jul 14 06:53:04 hostname kernel: hda: drive_cmd: error=0x04 { DriveStatusError }
>Jul 14 06:53:05 hostname kernel: hda: drive_cmd: status=0x51 { DriveReady SeekComplete Error
>}
>Jul 14 06:53:05 hostname kernel: hda: drive_cmd: error=0x04 { DriveStatusError }
>Jul 14 06:53:05 hostname smartd: /dev/hda:Failed to read smart thresholds
>Jul 14 06:53:05 hostname smartd: Device: /dev/hda, Failed attribute: 6
>Jul 14 06:53:05 hostname smartd: Device: /dev/hde, S.M.A.R.T. Attribute: 1 Changed 1
>
>Jul 14 06:53:05 hostname smartd: Device: /dev/hde, S.M.A.R.T. Attribute: 195 Changed 1
>
>
>Вопрос жизни и смерти (2 дня до отпуска, а тут такое...) -
>мне сразу хард менять или еще можно это дело как-то остановить?
>


помоему лучше поменять, у меня скази с приблизительно такими же симптомами лет пять назад прожил 2-а дня(как раз столько тебе до отпуска)


"Проблемы с системным хардом!!"
Отправлено vav1107 , 14-Июл-05 12:09 
>помоему лучше поменять, у меня скази с приблизительно такими же симптомами лет
>пять назад прожил 2-а дня(как раз столько тебе до отпуска)

А как легче и лучше перенести систему на новый хард? Просто образ передрать рискованно. Как сделать это "цивилизованным" способом?


"Проблемы с системным хардом!!"
Отправлено DEC , 14-Июл-05 12:31 
>>помоему лучше поменять, у меня скази с приблизительно такими же симптомами лет
>>пять назад прожил 2-а дня(как раз столько тебе до отпуска)
>
>А как легче и лучше перенести систему на новый хард? Просто образ
>передрать рискованно. Как сделать это "цивилизованным" способом?
А чего рискованного? Хард, главное чтоб не меньше старого был.

"Проблемы с системным хардом!!"
Отправлено romz , 14-Июл-05 12:41 
Почитай тут:
http://opennet.ru/base/sys/freebsd_dup.txt.html
у меня это дело получилось :)

"Проблемы с системным хардом!!"
Отправлено vav1107 , 14-Июл-05 12:49 
>Почитай тут:
>http://opennet.ru/base/sys/freebsd_dup.txt.html
>у меня это дело получилось :)

У меня линукс Debian. :(


"Проблемы с системным хардом!!"
Отправлено INM , 14-Июл-05 13:13 
>>Почитай тут:
>>http://opennet.ru/base/sys/freebsd_dup.txt.html
>>у меня это дело получилось :)
>
>У меня линукс Debian. :(

Какая разница, там используются dump/restore. У тебя что таких нет?
Только вот загрузчик и разбивку диска будешь делать как тебе удобнее, а не как для фри расписано.


"Проблемы с системным хардом!!"
Отправлено vav1107 , 14-Июл-05 13:19 
>Какая разница, там используются dump/restore. У тебя что таких нет?
>Только вот загрузчик и разбивку диска будешь делать как тебе удобнее, а
>не как для фри расписано.

INM, спасибо за помощь!

Друг тут вот что прислал - попробую сначала так.

http://www.linuxdoc.ru/HOWTO/mini/Hard-Disk-Upgrade.html


"Проблемы с системным хардом!!"
Отправлено lavr , 14-Июл-05 15:42 
>>Какая разница, там используются dump/restore. У тебя что таких нет?
>>Только вот загрузчик и разбивку диска будешь делать как тебе удобнее, а
>>не как для фри расписано.
>
>INM, спасибо за помощь!
>
>Друг тут вот что прислал - попробую сначала так.
>
>http://www.linuxdoc.ru/HOWTO/mini/Hard-Disk-Upgrade.html

при тех ошибках что у тебя показал smartd - ошибки seek, не все понятно,
лучше посмотри в логах системы ошибки READ/WRITE - если есть bad blocks,
лучше использовать tar/cpio/pax вместо dump/restore


"Проблемы с системным хардом!!"
Отправлено vav1107 , 14-Июл-05 16:36 
>при тех ошибках что у тебя показал smartd - ошибки seek, не
>все понятно,
>лучше посмотри в логах системы ошибки READ/WRITE - если есть bad blocks,
>
>лучше использовать tar/cpio/pax вместо dump/restore

Lavr, на bad blocks проверял - не нашел ничего. Проверял командой
badblock /dev/....

Только что закончил перемещение системы на другой хард (все по той же http://www.linuxdoc.ru/HOWTO/mini/Hard-Disk-Upgrade.html), все работает, но во время загрузки опять увидел такое:

hdb: drive_cmd: status=0x51 { DriveReady SeekComplete Error }
hdb: drive_cmd: error=0x04 { DriveStatusError }
hdb: drive_cmd: status=0x51 { DriveReady SeekComplete Error }
hdb: drive_cmd: error=0x04 { DriveStatusError }
hdb: drive_cmd: status=0x51 { DriveReady SeekComplete Error }
hdb: drive_cmd: error=0x04 { DriveStatusError }
hdb: drive_cmd: status=0x51 { DriveReady SeekComplete Error }
hdb: drive_cmd: error=0x04 { DriveStatusError }

Может дело не в харде, а в контроллере?


"Проблемы с системным хардом!!"
Отправлено lavr , 14-Июл-05 17:17 
>>при тех ошибках что у тебя показал smartd - ошибки seek, не
>>все понятно,
>>лучше посмотри в логах системы ошибки READ/WRITE - если есть bad blocks,
>>
>>лучше использовать tar/cpio/pax вместо dump/restore
>
>Lavr, на bad blocks проверял - не нашел ничего. Проверял командой
>badblock /dev/....
>
>Только что закончил перемещение системы на другой хард (все по той же
>http://www.linuxdoc.ru/HOWTO/mini/Hard-Disk-Upgrade.html), все работает, но во время загрузки опять увидел такое:
>
>hdb: drive_cmd: status=0x51 { DriveReady SeekComplete Error }
>hdb: drive_cmd: error=0x04 { DriveStatusError }
>hdb: drive_cmd: status=0x51 { DriveReady SeekComplete Error }
>hdb: drive_cmd: error=0x04 { DriveStatusError }
>hdb: drive_cmd: status=0x51 { DriveReady SeekComplete Error }
>hdb: drive_cmd: error=0x04 { DriveStatusError }
>hdb: drive_cmd: status=0x51 { DriveReady SeekComplete Error }
>hdb: drive_cmd: error=0x04 { DriveStatusError }
>
>Может дело не в харде, а в контроллере?

ну как бы это попроще: допустим масса дисковых операций на одном диске,
ну и где-то на операциях seek произошел затык - обработка прерываний...
ну не успел драйвер обработать какой-то запрос или очередь или
что еще - таймаут истек, контроллер какое-то время не отвечал или
система не успела обработать операцию (обрабатывались более приоритетные
прерывания...) - былы получены сообщения о неготовности устройства,
незавершенности операции, после этого обычно контроллеру посылается
reset и он должен перейти в готовность.

Как варинт - последить кол-во дисковых прерываний, загрузку в этот
момент, нагрузку. Посмотреть ЧТО за диск, в КАКОМ режиме работает PIO/DMA
какой буфер у диска и покрутить параметры hdparm

Взять этот диск и попробовать погонять его на другой машине с другим
контроллером - хотя бы dd на чтение, например пару dd в параллель друг
другу: dd if=большой_файл of=/dev/null - пару-тройку часов, плюс
dd if=/dev/весь_диск of=/dev/null - прогнать чтение всего диска
Как он работает на другом контроллере, заведомо нужно быть уверенным
в том что контроллер нормальный.

Прим: но full-backup я бы на всякий случай точно сделал бы


"Проблемы с системным хардом!!"
Отправлено vav1107 , 14-Июл-05 17:36 
>Как варинт - последить кол-во дисковых прерываний, загрузку в этот
>момент, нагрузку. Посмотреть ЧТО за диск, в КАКОМ режиме работает PIO/DMA
>какой буфер у диска и покрутить параметры hdparm
>
>Взять этот диск и попробовать погонять его на другой машине с другим
>
>контроллером - хотя бы dd на чтение, например пару dd в параллель
>друг
>другу: dd if=большой_файл of=/dev/null - пару-тройку часов, плюс
>dd if=/dev/весь_диск of=/dev/null - прогнать чтение всего диска
> Как он работает на другом контроллере, заведомо нужно быть уверенным
>в том что контроллер нормальный.
>
>Прим: но full-backup я бы на всякий случай точно сделал бы

Lavr, спасибо за советы. Бэкап основных системных директорий сделал еще вчера, ленточка в сейфе :)

На всякий случай вот информация по новому диску из hdparm:

Model=Maxtor 6E040L0, FwRev=NAR61HA0, SerialNo=E13TELAN
Config={ Fixed }
RawCHS=16383/16/63, TrkSize=0, SectSize=0, ECCbytes=57
BuffType=DualPortCache, BuffSize=2048kB, MaxMultSect=16, MultSect=off
CurCHS=16383/16/63, CurSects=16514064, LBA=yes, LBAsects=80293248
IORDY=on/off, tPIO={min:120,w/IORDY:120}, tDMA={min:120,rec:120}
PIO modes: pio0 pio1 pio2 pio3 pio4
DMA modes: mdma0 mdma1 mdma2 udma0 udma1 udma2 udma3 udma4 *udma5 udma6
AdvancedPM=yes: disabled (255) WriteCache=enabled
Drive Supports : ataATA-1 ATA-2 ATA-3 ATA-4 ATA-5 ATA-6 ATA-7

Сидит на 80-жильном шлейфе.

Стоит ли понизить уровень UDMA? C какими параметрами можно безопасно играться, подстраивая диск?


"Проблемы с системным хардом!!"
Отправлено vav1107 , 14-Июл-05 17:14 
Попробовал снять старый хард, подцепил на другой машине - та же ерунда, что у нового.

Т.е. выходит железная часть не при чем?


"Проблемы с системным хардом!!"
Отправлено lavr , 14-Июл-05 17:29 
>Попробовал снять старый хард, подцепил на другой машине - та же ерунда,
>что у нового.
>
>Т.е. выходит железная часть не при чем?

попробуй сделать то что я написал, особенно поиграй с PIO/DMA и другими
параметрами hdparm, возможно микруха какая-то на диске близка к гибели
- управление :(


"Проблемы с системным хардом!!"
Отправлено vav1107 , 14-Июл-05 17:46 
>>Попробовал снять старый хард, подцепил на другой машине - та же ерунда,
>>что у нового.
>>
>>Т.е. выходит железная часть не при чем?
>
>попробуй сделать то что я написал, особенно поиграй с PIO/DMA и другими
>
>параметрами hdparm, возможно микруха какая-то на диске близка к гибели
>- управление :(

Думаю микруха на диске вряд ли. Получается что - я сменил хард - не прокатило. Ставлю оригинальный хард на другую машину - ошибки те же. Т.е. либо у обоих хардов (один сигейт другой макстор) совершенно одинаковые проблемы с железом, либо одно из двух?

Надеюсь проблема лишь в том, что они у меня не корректно настроены...

Сейчас решил дать небольшую нагрузочку старому харду - затариваю директорию /home - при этом выскочили ошибки типа

hda: drive_cmd: status=0x51 { DriveReady Seekcomplete Error }
hda: drive_cmd: error=0x04 { DriveStatusError }

Параллельно запустил

dd if=/dev/hda1 of=/dev/null

Копирует уже минут 5, пока ошибок не было.


"Проблемы с системным хардом!!"
Отправлено lavr , 14-Июл-05 18:25 
>>>Попробовал снять старый хард, подцепил на другой машине - та же ерунда,
>>>что у нового.
>>>
>>>Т.е. выходит железная часть не при чем?
>>
>>попробуй сделать то что я написал, особенно поиграй с PIO/DMA и другими
>>
>>параметрами hdparm, возможно микруха какая-то на диске близка к гибели
>>- управление :(
>
>Думаю микруха на диске вряд ли. Получается что - я сменил хард
>- не прокатило. Ставлю оригинальный хард на другую машину - ошибки
>те же. Т.е. либо у обоих хардов (один сигейт другой макстор)
>совершенно одинаковые проблемы с железом, либо одно из двух?
>
>Надеюсь проблема лишь в том, что они у меня не корректно настроены...
>
>
>Сейчас решил дать небольшую нагрузочку старому харду - затариваю директорию /home -
>при этом выскочили ошибки типа
>
>hda: drive_cmd: status=0x51 { DriveReady Seekcomplete Error }
>hda: drive_cmd: error=0x04 { DriveStatusError }
>
>Параллельно запустил
>
>dd if=/dev/hda1 of=/dev/null
>
>Копирует уже минут 5, пока ошибок не было.


нужно отсекать проблемы:

- выяснить ДИСК или КОНТРОЛЛЕР

1) берем этот диск и проверяем на паре других машин с заведомо исправными
контроллерами которым мы доверяем, если ошибок нет - контроллер
2) берем другой диск и делаем нужную нам FS на весь диск и проверяем
на паре других тачек dd на весь диск - если никаких ошибок, сливаем
на него копию ПОДОЗРИТЕЛЬНОГО и ставим на ту машину где у нас ПРОБЛЕМЫ
и смотрим результат

Все верхнее должно дать однозначные выводы.

1) попробуй понижать DMA до UDMA2/3
2) попробуй в PIO
3) проверяй температуру, вдруг он греется как печка - результатом могут
быть неприятные сообщения, timeout'ы, плюс офигенная нагрузка
4) если нет bad'ов и mhdd32 дает нормальную раскладку, значит греется
или не справляется с нагрузкой (приличный IO)
5) надеюсь никакой энергосберегающий режим в BIOS не включен для HDD!

Вполне возможно что диск нормальный, а вот smart-monitor я бы отключил -
глюкало, лучше логи смотреть (это конечно если используется smarttools)


"Проблемы с системным хардом!!"
Отправлено vav1107 , 14-Июл-05 19:02 
>Вполне возможно что диск нормальный, а вот smart-monitor я бы отключил -
>
>глюкало, лучше логи смотреть (это конечно если используется smarttools)

Вобщем эти строки мне понравились больше всего. Наверное нашел не лучшее решение, понимаю.

Снес нафиг все эти SMART тулзы.

Загрузил опять параллельно tar и dd. Оставлю на ночь, а завтра будем посмотреть.

Спасибо, друзья!