Добрый день Друзья!Помогите пожалуйста диагностировать проблему с периодическим зависание сервера.
FreeBSD 12.0 amd64
Ryzen7-1700, 32GB Ram, ASUS PRIME B350M-AНа сервере крутится виртуалка VirtualBox с Win2003 для 1С, файловый ресурс, rsync для бэкапа пользовательских ПК.
Дисковая подсистема организована из 2*4TB HDD, geli+ZFS зеркало.Так вот периодически сервак просто намертво зависает. Экран не тухнет, клава и периферия не работают, сети нет, никаких сообщений в консоли нет, никаких сообщений в логах тоже нет.
Я просто даже не знаю к чему подступиться. Никаких внешних проявления. Память не заполнена.
Единственно что есть нестандартного это ZFS зеркало поверх geli, подскажите, куда и как копать?
> Я просто даже не знаю к чему подступиться. Никаких внешних проявления. Память
> не заполнена.
> Единственно что есть нестандартного это ZFS зеркало поверх geli, подскажите, куда и
> как копать?Я бы начал с конкретной профилактики железа, осмотра кондеров на мамке и теста памяти, поменял её на другую, а эту на стресс тест загнал.
У меня было дело, тоже висла, хотя не так нагружена была, как у Вас. Виснуть начала года через 3 после установки, поменяли память, зависоны пропали, хотя техники сказали, что на тесте память ничего не показала, её поставили пользователю под винду и он не жалуется. Возможно просто тыканьем туда-сюда прочистили контакты или еще чего.
>> Я просто даже не знаю к чему подступиться.
>> FreeBSD 12.0Обновлять до 12.1. И впредь не использовать в продакшене версии X.0
> Я бы начал с конкретной профилактики железа, осмотра кондеров на мамке и
> теста памяти,+1
И не забыть полечить разъемную болезнь. Т.е. все кабели и шлейфы вынуть-вставить, вынуть-вставить, вынуть, продуть/почистить, вставить, вынуть-вставить, вынуть-вставить.
> Обновлять до 12.1. И впредь не использовать в продакшене версии X.0Это вот сегодня как раз провернул. Тоже чтобы исключить какой-то ОС-ный косяк, обновил систему.
Только после перезагрузки пароль ввести надо, а я его не знаю, так что продолжение истории уже с понедельника.> И не забыть полечить разъемную болезнь. Т.е. все кабели и шлейфы вынуть-вставить,
> вынуть-вставить, вынуть, продуть/почистить, вставить, вынуть-вставить, вынуть-вставить.Ок, спасибо, тоже всё переткну и прочищу, продую, протру.
> Я бы начал с конкретной профилактики железа, осмотра кондеров на мамке и
> теста памяти, поменял её на другую, а эту на стресс тест
> загнал.
> У меня было дело, тоже висла, хотя не так нагружена была, как
> у Вас. Виснуть начала года через 3 после установки, поменяли память,
> зависоны пропали, хотя техники сказали, что на тесте память ничего не
> показала, её поставили пользователю под винду и он не жалуется. Возможно
> просто тыканьем туда-сюда прочистили контакты или еще чего.Хорошо, память проверю и всё прочищу-протру спиртом.
Спасибо!
Проблема в материнке. Прошейте биос.
> Проблема в материнке. Прошейте биос.Ок, опробую совет!
> Проблема в материнке. Прошейте биос.Блин, очень кстати похоже что может быть тем самым...
Куплено всё было в ноябре 17-го года.
Тут https://www.asus.com/ru/Motherboards/PRIME-B350M-A/HelpDesk_.../ просто дичь сколько биосовых обнов. И что характерно:2017/11/03
PRIME B350M-A BIOS 1001
Improve system stability
Помогло?
> Ryzen7-1700, 32GB Ram, ASUS PRIME B350M-A
> Так вот периодически сервак просто намертво зависает. Экран не тухнет, клава и
> периферия не работают, сети нет, никаких сообщений в консоли нет, никаких
> сообщений в логах тоже нет.Нормальное поведение продукции AMD при экономии на охлаждении...
>> Ryzen7-1700, 32GB Ram, ASUS PRIME B350M-A
>> Так вот периодически сервак просто намертво зависает. Экран не тухнет, клава и
>> периферия не работают, сети нет, никаких сообщений в консоли нет, никаких
>> сообщений в логах тоже нет.
> Нормальное поведение продукции AMD при экономии на охлаждении...Нет, не нормальное. Райзены достаточно холодные и боксовые кулеры к ним справляются прекрасно.
Проблема (наверняка) в косорылой прошивке матплаты.
>>> Ryzen7-1700, 32GB Ram, ASUS PRIME B350M-A
>>> Так вот периодически сервак просто намертво зависает. Экран не тухнет, клава и
>>> периферия не работают, сети нет, никаких сообщений в консоли нет, никаких
>>> сообщений в логах тоже нет.
>> Нормальное поведение продукции AMD при экономии на охлаждении...
> Нет, не нормальное. Райзены достаточно холодные и боксовые кулеры к ним справляются
> прекрасно.
> Проблема (наверняка) в косорылой прошивке матплаты.Там даже с охладом масса нюансов, кулер родной ? Боксовый ? Выкинуть !!! Минимум башню с двумя пропеллерами, если это сервер то оба пропеллера подключить на +12 без всякой регуляции скорости, да будет гудеть, зато проблем не будет.
Выкиньте что-нибудь из вещей своей мамы.
Боксовый кулер от райзена не шумит и нормально охлаждает. Большую часть времени на минимальных оборотах.>Минимум башню с двумя пропеллерами
Было актуально во времена Athlon XP при царе горохе. И даже тогда было нужно только при разгоне.
> Нормальное поведение продукции AMD при экономии на охлаждении...Тут скорее общая чудесатость. Linux таким тоже одно время страдал, потом amd выкатили патчи чинящие это.
Я бы смотрел в сторону памяти с ECC
В биосе отключи многопоточность (SMT) в процессоре>[оверквотинг удален]
> На сервере крутится виртуалка VirtualBox с Win2003 для 1С, файловый ресурс, rsync
> для бэкапа пользовательских ПК.
> Дисковая подсистема организована из 2*4TB HDD, geli+ZFS зеркало.
> Так вот периодически сервак просто намертво зависает. Экран не тухнет, клава и
> периферия не работают, сети нет, никаких сообщений в консоли нет, никаких
> сообщений в логах тоже нет.
> Я просто даже не знаю к чему подступиться. Никаких внешних проявления. Память
> не заполнена.
> Единственно что есть нестандартного это ZFS зеркало поверх geli, подскажите, куда и
> как копать?