Доброго времени всем.
Столкнулся с такой проблемой. На прошлой неделе вдруг начал ни с того ни с сего виснуть сервер с FreeBSD 6.2 с определенной регулярностью. В логах было тихо. Помогал только резет. В итоге тень подозрения упала на железо. Сменили железо под сервером (переставили винт в другой системник). Толку никакого. Через сутки висы начали повторяться. Поменяли железо на более новое - AMD Athlon64 nForce4..... Опять висы. Причем последняя смена железа и манипуляции проводились в течении примерно часа - а висы иногда после перезагрузки были с точностью до 1-2 минут.
С отключенной сетью как оказалось он не виснет. В ходе смены железа менялись и сетевые - ADMTek, Realtek, Intel и в конце Nvidia (nve). Нашли участок сети при отключении которого виснет. Но если смотреть tcpdump до виса - ничего подозрительного там нет. Равно как и в dmesg. Через время пытались локализовать проблему - но после включения назад того куска сети пока работает нормально.Что подозрительного могло происходить в сети, что вызывало глухой вис FreeBSD? Куда можно копнуть в случае, если повторится?
Заранее спасибо за помощь.
>[оверквотинг удален]
>менялись и сетевые - ADMTek, Realtek, Intel и в конце Nvidia
>(nve). Нашли участок сети при отключении которого виснет. Но если смотреть
>tcpdump до виса - ничего подозрительного там нет. Равно как и
>в dmesg. Через время пытались локализовать проблему - но после включения
>назад того куска сети пока работает нормально.
>
>Что подозрительного могло происходить в сети, что вызывало глухой вис FreeBSD? Куда
>можно копнуть в случае, если повторится?
>
>Заранее спасибо за помощь.Сокеты кончились, почему, ответ в логах.
>Сокеты кончились, почему, ответ в логах.Хмм. Может я не прав - но почему закончившиеся сокеты приводят не к ошибкам, выпаленным на скрин, а к вису до степени не реагирования на CAPS, Num и т.д.?
Мы тут посовещались с одним человеком - сошлись вот на чем:
в ходе смены железа (системников, между которыми кочевал винт в поисках траблы в железе) последним окащался значительно более мощный, чем два предыдущих Athlon64 3200+. И я чисто на автомате в конфиге активировал в pf опцию srub in all - дабы вылизать всякие пакеты. Спустя некоторое время решили посегментарно включать кусок сети из которого произростала проблема - дабы локализовать ее. В итоге все было включено (минус - возможно кто-то из клиентов за это время вырубил комп или другое железо) - но трабла не повторилась.
Дык вот вернемся к человечку - он выдвинул версию, что из сети приходит не то битый, не то кривой TCP пакет и через некоторое время получения таких пакетов системе сносит крышу. Ну или там виста какая-нибудь попалась с включенным IPv6 - у них где-то и такая трабла была.
В реале что-то подобно и было - если загрузить систему без сети - она стояла себе, жила и есть не просила. После включения сети вис происходил за время от 1 до 2 минут. То есть версия очень правдободобна - тем более на фоне scrub'a.Будут ли какие-нибудь мысли? В опровержение или в согласие... :)
>[оверквотинг удален]
>приходит не то битый, не то кривой TCP пакет и через
>некоторое время получения таких пакетов системе сносит крышу. Ну или там
>виста какая-нибудь попалась с включенным IPv6 - у них где-то и
>такая трабла была.
>В реале что-то подобно и было - если загрузить систему без сети
>- она стояла себе, жила и есть не просила. После включения
>сети вис происходил за время от 1 до 2 минут. То
>есть версия очень правдободобна - тем более на фоне scrub'a.
>
>Будут ли какие-нибудь мысли? В опровержение или в согласие... :)А Вам не приходила в голову банальная мысль. Заменить сетевуху? У меня была подобная хренотень, сервак тупо вис и все, помогал точно также ресет. Причем со временем эта проблема уходщилась и сервак стал виснуть очень часто. Думали думали... смотрели логи, все проверяли... память... проц... диски... файловую систему.. в итоге переустанавливали ось - нифига не помогло. Помогла банальная замена сетевухи.
>А Вам не приходила в голову банальная мысль. Заменить сетевуху? У меня
>была подобная хренотень, сервак тупо вис и все, помогал точно также
>ресет. Причем со временем эта проблема уходщилась и сервак стал виснуть
>очень часто. Думали думали... смотрели логи, все проверяли... память... проц... диски...
>файловую систему.. в итоге переустанавливали ось - нифига не помогло. Помогла
>банальная замена сетевухи.Я ж писал - менялось АБСОЛЮТНО ВСЕ - кроме жесткого диска. Но жесткий новый - ему не более 2х месяцев, так что с ним наиболее маловероятны бока. Да и реакция на сеть с винтом никак не была связана.
>[оверквотинг удален]
>>была подобная хренотень, сервак тупо вис и все, помогал точно также
>>ресет. Причем со временем эта проблема уходщилась и сервак стал виснуть
>>очень часто. Думали думали... смотрели логи, все проверяли... память... проц... диски...
>>файловую систему.. в итоге переустанавливали ось - нифига не помогло. Помогла
>>банальная замена сетевухи.
>
>Я ж писал - менялось АБСОЛЮТНО ВСЕ - кроме жесткого диска. Но
>жесткий новый - ему не более 2х месяцев, так что с
>ним наиболее маловероятны бока. Да и реакция на сеть с винтом
>никак не была связана.FreeBSD 6.2 Release ??? напиши пожалуйста, и если блокировать файерволом АБСАЛЮТНО всё , то какой эффект?
>Причем последняя смена
>железа и манипуляции проводились в течении примерно часа - а висы
>иногда после перезагрузки были с точностью до 1-2 минут.background fsck?
>background fsck?Про bg fsck - проблем быть не должно - потому как первые разы он вис после серьезного аптайма, а кроме того без сетки не вис.
Провести эксперимент с блокированием всего подряд фаерволом пока не представляется возможным - итак 4 дня с определенной регулярностью сервер вис, теперь пока он живет и смысла нет блочить, и клиенты меня на тряпки порвут. :-S
>Что подозрительного могло происходить в сети, что вызывало глухой вис FreeBSD? Куда
>можно копнуть в случае, если повторится?Один раз была похожая ситуация, на 6.1. Вылечилось удалением из pf правила блокирующего "марсианские адреса".
>>Что подозрительного могло происходить в сети, что вызывало глухой вис FreeBSD? Куда
>>можно копнуть в случае, если повторится?
>
>Один раз была похожая ситуация, на 6.1. Вылечилось удалением из pf правила
>блокирующего "марсианские адреса".? Что есть "марсианские адреса"?
А по-поводу проблемы - щас вспомнилось - было когда-то подобное у меня на FreeBSD 6.1 - и если не ошибаюсь - тож пропало после scrub in all. B-)
>>>Что подозрительного могло происходить в сети, что вызывало глухой вис FreeBSD? Куда
>>>можно копнуть в случае, если повторится?
>>
>>Один раз была похожая ситуация, на 6.1. Вылечилось удалением из pf правила
>>блокирующего "марсианские адреса".
>
>? Что есть "марсианские адреса"?Общее имя адресов, которые не должны появляться на внешнем интерфейсе.
table <martians> { 127.0.0.0/8, 192.168.0.0/16, 172.16.0.0/12, 10.0.0.0/8, 169.254.0.0/16, 192.0.2.0/24, 0.0.0.0/8, 240.0.0.0/4 }
>Общее имя адресов, которые не должны появляться на внешнем интерфейсе.
>table <martians> { 127.0.0.0/8, 192.168.0.0/16, 172.16.0.0/12, 10.0.0.0/8, 169.254.0.0/16, 192.0.2.0/24, 0.0.0.0/8, 240.0.0.0/4 }Ааа. :) Я просто всегда их знал как "серые", "болото", "нереальные", но "марсианские" еще не слышал :). Добавлю в свою копилку эрудита. :-D