Стоит 3 NAS'a на линуксах (генту). Крутится pptpd + tc как шейпер.
Железо на них _абсолютно_ одинаковое:
Intel(R) Core(TM)2 Quad CPU Q6600 @ 2.40GHz;
MemTotal: 1023196 kB
Сетевухи - интелки с дровами e1000.Так вот, две из трех тачек время от времени выпадают с kernel panic ;( Никакой зависимости от каких-либо внешних причин проследить не получилось, нагрузка на все 3 одинаковая: ~400 сессий постоянно на каждой, по времени - могут простоять без висяка сутки, а могут месяц.
Вопрос № раз: как бы поточнее определить, что вызывает висяки? Желательно - без перетыканий железа и долгих ковыряний, т.к. железки стоят на потоке и вырубать их нежелательно.
Пытался добиться того, чтобы по кернел-панику сервачки сами ребутались, как фря, подкрутил sysctl:
kernel.panic = 1
kernel.panic_on_oops = 1
Но нихрена не получилось, висят и висят, ребутаться не хотят ;(Вопрос № два: как сделать, чтобы по панику серваки ребутались сами? ;)
знакомая ситуация :) как вариан - подкинуть мониторы, и смотреть на что ругается - делать выводы, куда нужно лезть
>знакомая ситуация :) как вариан - подкинуть мониторы, и смотреть на что
>ругается - делать выводы, куда нужно лезтьНачало вывода не видно - не прокручивается ;) А так - 'fatal exception in interrupt', т.е. теоретически - дрова/железо, НО железо и ядра везде одинаковые, а висяками страдают только 2 из трёх...
в логах чтонить есть?
>в логах чтонить есть?До - обычная нормальная работа, после - только старт сислога, и дальше как обычно
есть 2 варианта, ждать пока не накроится окончательно, либо снимать и тестировать машины.
1 - проц и память можно поганять и в рабочем варианте - компиляцией (пустой) попробовать ядра пособирать или опенофис, можно, и кде - то что помассивнее
2 память, вроде, можно поганять с лайв сд RIPlinux видел пункт в загрузке, но не пробовал3 могут быть проблемы с мамкой - вознила микротрещина при монтаже памяти или проца... практически не выудить такую поломку только пробовать мать менять
4 у мяня воть накрылся винт 4 бэда вылезло и уже третьи сутки мучусь (время ему пришло)
5 может, сверь память с настройкми биоса, попробуй замедлить шину или задержки увиличить
6 если подумать можно еще чтонить придумать, но для этого нужно что то делать с компом.
>[оверквотинг удален]
>
>3 могут быть проблемы с мамкой - вознила микротрещина при монтаже памяти
>или проца... практически не выудить такую поломку только пробовать мать менять
>
>4 у мяня воть накрылся винт 4 бэда вылезло и уже третьи
>сутки мучусь (время ему пришло)
>5 может, сверь память с настройкми биоса, попробуй замедлить шину или задержки
>увиличить
>6 если подумать можно еще чтонить придумать, но для этого нужно что
>то делать с компом.Да нет, не могут же возникнуть микротрещины у двух тачек одновременно... А ядра и др. софт пересобирал - никаких проблем в процессе компиляции не вылазило -> врядли проц/память/мать.
Единственное, что мне в голову приходит - кривые дрова к чему-нибуть..А с хардом - очень сочувствую.. Была подобная беда с БД билинга, возили в контору по срочному восстановлению данных, ночевал там с ихними спецами - так ничего и не восстановили.. Благо был бекап недельной давности =)
2all: вопрос о ребуте после panic'a в силе ;)
>Да нет, не могут же возникнуть микротрещины у двух тачек одновременно... А ядра и др. софт пересобирал - никаких проблем в процессе компиляции не вылазило -> врядли проц/память/мать.
>Единственное, что мне в голову приходит - кривые дрова к чему-нибуть..я предпологаю, что 3 машины идентичны как в железе, так и в по, отличия только в бд (пользовательской инфо). А одна же работает без проблем!
ну как вариант - просмотри инфу командой sensors -кажеться температуры напряжения и т.п.
еще рекомендую всеже проверить винты, у меня были ужасно разные глюки, зависал при загрузки ядра! железо прогнал всеми извесными вариантами, ничго подозрительного не нашел
smartctl и mhdd - утилиткой стартони выбери винт и нажми Ф8 посмотри, как говорят никто не даёт вообще гарантий, что беды не могут появится в перые же дни эксплуатации!
ну проверь еще все шлейфы и разъёмы на качество соединения.
как я предпологаю насы контролируют все сетевы подключения, и вариантов переполнений буферов можно исключить?>2all: вопрос о ребуте после panic'a в силе ;)
>[оверквотинг удален]
>Сетевухи - интелки с дровами e1000.
>
>Так вот, две из трех тачек время от времени выпадают с kernel
>panic ;( Никакой зависимости от каких-либо внешних причин проследить не получилось,
>нагрузка на все 3 одинаковая: ~400 сессий постоянно на каждой, по
>времени - могут простоять без висяка сутки, а могут месяц.
>
>Вопрос № раз: как бы поточнее определить, что вызывает висяки? Желательно -
>без перетыканий железа и долгих ковыряний, т.к. железки стоят на потоке
>и вырубать их нежелательно.1. Версия ядра?
2. Дисциплины вешаются только на ppp-устройства или еще есть ifb/imq-устройства?
3. Надо смотреть полный call trace, может следует подключить монитор или через netdump>Пытался добиться того, чтобы по кернел-панику сервачки сами ребутались, как фря, подкрутил
>sysctl:
>kernel.panic = 1
>kernel.panic_on_oops = 1
>Но нихрена не получилось, висят и висят, ребутаться не хотят ;(
>
>Вопрос № два: как сделать, чтобы по панику серваки ребутались сами? ;)
>у меня работает. перегружается через 5мин:
# grep "panic" /etc/sysctl.conf
kernel.panic=300
>1. Версия ядра?2.6.23
>2. Дисциплины вешаются только на ppp-устройства или еще есть ifb/imq-устройства?
Только на ppp
>3. Надо смотреть полный call trace, может следует подключить монитор или через
>netdumpДа монитор с клавой подключены, но видно только конец дампа, прокручивать шифт+пг-ап не даёт ;( Прикручивать ради бОльшего разрешения фреймбуфер не хочется...
Возможно на днях netdump попробую, спасибо за идею -)>у меня работает. перегружается через 5мин:
>
># grep "panic" /etc/sysctl.conf
>kernel.panic=300Выставил значение "300", посмотрим что будет, благодарю в любом случае!