Видимо наступило время умирать старому железу.
Содержание предыдущих серий. У меня тут много тем по старым железкам купленным мною в свою же контору 10-12 лет назад. Верой и правдой они служили мне. В основном это были сервера на intel s3200sh и hp 160 и 180 g5-6.Итак предыстория. Есть сервер с 2008 года для резервного копирования оперативной информации. Стоял он на centos в начале 5 потом 6 потом 7. Материнская плата была intel старая десктопная такая https://hard.rozetka.com.ua/intel_boxd2500hn/p220441/ с 2 гигами оперативки. Туда же в 2008 году был водружен контроллер еще на 2 sata разъема и вставлено 3 диска. 2 по 500 Гб, один на 300 (делалось в спешке, что было то было). Было разбито каждый 500-к на 2 раздела 300 + 200.
300+300+300 = 5 raid для резервных копий
200 + 200 = 1 raid для всякого ненужного редкого и прочего.
неделю назад получил на 5 рейде ошибку при попытке зарать файл по ftp.
Зашел локально выполнил
# cp up.part15.rar /tmp/up.part15.rar
cp: error reading 'up.part15.rar': Input/output error
cp: failed to extend '/tmp/up.part15.rar': Input/output error
Я человек который "делает бэкапы бэкапов". Страшного ничего не было. Гугл нашел статьи что могут быть проблемы с оперативной памятью.
Но меня это несколько напугало.
# cat /proc/mdstat
Personalities : [raid1] [raid6] [raid5] [raid4] [raid0]
md0 : active raid0 sda4[1] sdc4[0]
351548416 blocks super 1.2 512k chunks
md126 : active raid5 sdc1[0] sda1[1] sdb1[3]
619161600 blocks super 1.2 level 5, 512k chunk, algorithm 2 [3/3] [UUU]
bitmap: 1/3 pages [4KB], 65536KB chunk
md127 : active raid1 sdc2[0] sdb2[2] sda2[1]
976320 blocks super 1.2 [3/3] [UUU]
bitmap: 0/1 pages [0KB], 65536KB chunk
unused devices: <none>
С райдом все ок. Откуда тогда ошибка такая? Это же не единичный диск. Там если что должно же с 2-х других по контрольной сумме итп.
dmesg пуст, как голова студентки соцпеда. Т.е. там нет ничего о проблемах с дисками.
Неделю назад эти диски вставил все 3 в другой сервер, чтобы все другой.
И оппа - снова словил такую ошибку на свежесозданном файле.
Удалил его, И снова через 3 дня на большом файле такая ошибка.
Ок. сказал я. Я знаю баш на уровне школьника, и у меня есть свободное время. Я создал 230 файлов по 1 Гб с сожержимым "1". И прочитал их. 1 файл имеет такие проблемы. Удалил все, снова создал ( но в каждый записал букву z) файлы та же история. 1 файл битый.
Как же так? Отказа дисков нет. Смарт в норме. RAID 5-й.
Что это? Как с этим жить и как бороться?