Сегодня пол часа сайт был недоступен из-за сбоя на сервере.На сервере CentOS 7 (kernel 3.10.0-1062.1.1.el7.x86_64). Все запросы к одному из MD-raid-разделов стали отваливаться c таймаутом. Лавинообразно стал расти LA, даже после остановки http-сервера (вырос до 160, в норме ~0.5). Какой-то особой активности или флуда в этот момент не наблюдалось.
В логах всплывали
kernel: INFO: task xfsaild/md124:2356 blocked for more than 120 seconds.
kernel: INFO: task kworker/1:2:20573 blocked for more than 120 seconds.
с последующими дампами "Call Trace".
Sep 30 19:53:26 www kernel: [<ffffffff8756ae39>] schedule_preempt_disabled+0x29/0x70
Sep 30 19:53:26 www kernel: [<ffffffff87568db7>] __mutex_lock_slowpath+0xc7/0x1d0
Sep 30 19:53:26 www kernel: [<ffffffff8756819f>] mutex_lock+0x1f/0x2f
Sep 30 19:53:26 www kernel: [<ffffffff87050c0f>] do_last+0x28f/0x12a0
Sep 30 19:53:26 www kernel: [<ffffffff87053a27>] path_openat+0xd7/0x640
Sep 30 19:53:26 www kernel: [<ffffffff8705542d>] do_filp_open+0x4d/0xb0
Sep 30 19:53:26 www kernel: [<ffffffff87062b77>] ? __alloc_fd+0x47/0x170
Sep 30 19:53:26 www kernel: [<ffffffff87041587>] do_sys_open+0x137/0x240
Sep 30 19:53:26 www kernel: [<ffffffff87576d15>] ? system_call_after_swapgs+0xa2/0x146
Sep 30 19:53:26 www kernel: [<ffffffff870416ae>] SyS_open+0x1e/0x20
Sep 30 19:53:26 www kernel: [<ffffffff87576ddb>] system_call_fastpath+0x22/0x27
Sep 30 19:53:26 www kernel: [<ffffffff87576d21>] ? system_call_after_swapgs+0xae/0x146
В raid три диска, которые также используются на других md-разделах, которые во время сбоя работали нормально. По mdstat рассинхронизации не было, все диски оставались в состоянии up.
После перезагрузки доступ к разделу восстановился, но это очень тревожный звонок. Буду следить за ситуацией. Если что остаётся доступным зеркало http://ru.opennet.ru