Здравствуйте! Странная ситуация:
Прихожу на работу в понедельник. FreeBSD cервер, который должен работать круглосуточно выключен. Включаю, смотрю последние логи перед моим включением:
/var/log/messages
Jan 13 11:34:40 f1 kernel: carp0: link state changed to UP
Jan 15 09:18:48 f1 syslogd: exiting on signal 15/var/log/smartd.log
Jan 15 08:07:12 f1 smartd[89401]: Device: /dev/ad8, SMART Usage Attribute: 190 Airflow_Temperature_Cel changed from 76 to 77
Jan 15 09:18:47 f1 smartd[89401]: smartd received signal 15: Terminated: 15
Jan 15 09:18:47 f1 smartd[89401]: smartd is exiting (exit status 0)/var/log/rsyncd.log
2012/01/13 10:35:15 [23942] connect from f2.tvzt (192.168.20.2)
2012/01/13 10:35:15 [23942] rsync on raid1_films/ from backup@f2.tvzt (192.168.20.2)
2012/01/13 10:35:15 [23942] building file list
2012/01/13 10:35:16 [23942] sent 30540 bytes received 151 bytes total size 649477865576
2012/01/15 09:18:47 [1508] rsync error: received SIGINT, SIGTERM, or SIGHUP (code 20) at rsync.c(543) [Receiver=3.0.7]man signal
15 SIGTERM terminate process software termination signalОхрана говорит, что в серверную никто не заходил.
Удаленно могу зайти только я, в логах по поводу su: чисто.PID USERNAME THR PRI NICE SIZE RES STATE C TIME WCPU COMMAND
1648 root 1 44 0 35288K 9264K select 1 1:54 0.00% smbd
1380 root 1 44 0 26400K 5348K select 1 0:05 0.00% nmbd
6417 root 1 44 0 35288K 8864K select 0 0:03 0.00% smbd
1450 root 1 44 0 11920K 2880K select 0 0:02 0.00% ntpd
6525 root 1 44 0 35288K 8848K select 0 0:00 0.00% smbd
1543 root 1 76 0 7976K 1652K nanslp 1 0:00 0.00% cron
1190 root 1 44 0 7048K 1564K select 1 0:00 0.00% syslogd
6241 root 1 44 0 38192K 5292K sbwait 0 0:00 0.00% sshd
1361 root 1 44 0 13560K 3004K nanslp 0 0:00 0.00% smartd
6247 root 1 44 0 10312K 2908K pause 0 0:00 0.00% csh
1384 root 1 44 0 34988K 7792K select 1 0:00 0.00% smbd
1503 root 1 47 0 5960K 1664K select 0 0:00 0.00% rsync
6644 root 1 44 0 9372K 2392K CPU0 0 0:00 0.00% top
720 root 1 76 0 8136K 1724K sbwait 1 0:00 0.00% pflogd
1616 root 1 76 0 6916K 1296K ttyin 0 0:00 0.00% getty
966 root 1 44 0 3204K 740K select 1 0:00 0.00% devd
1618 root 1 76 0 6916K 1296K ttyin 1 0:00 0.00% getty
1532 root 1 44 0 26260K 4604K select 1 0:00 0.00% sshd
1622 root 1 76 0 6916K 1296K ttyin 0 0:00 0.00% getty
1619 root 1 76 0 6916K 1296K ttyin 0 0:00 0.00% getty
1621 root 1 76 0 6916K 1296K ttyin 1 0:00 0.00% getty
1617 root 1 76 0 6916K 1296K ttyin 1 0:00 0.00% getty
1620 root 1 76 0 6916K 1296K ttyin 1 0:00 0.00% getty
1623 root 1 76 0 6916K 1296K ttyin 0 0:00 0.00% getty
1449 root 1 44 0 34988K 7728K select 0 0:00 0.00% smbd
129 root 1 76 0 2768K 1068K pause 0 0:00 0.00% adjkerntzПодскажите, пож., может ли какая-то из служб инициировать сама выключение сервера? Или наезжать дальше на охрану?
в биосе не настроено выключение?
например из за перегрева
>[оверквотинг удален]
> 1296K ttyin 0 0:00 0.00% getty
> 1449 root
> 1 44 0 34988K 7728K
> select 0 0:00 0.00% smbd
> 129 root
> 1 76 0 2768K
> 1068K pause 0 0:00 0.00%
> adjkerntz
> Подскажите, пож., может ли какая-то из служб инициировать сама выключение сервера? Или
> наезжать дальше на охрану?
> в биосе не настроено выключение?
> например из за перегреваНет. Там кондиционер, куча кулеров и т.д.,
нагрузка в выходные минимальная, пыли в системнике нет, перегрев отпадает
>> в биосе не настроено выключение?
>> например из за перегрева
> Нет. Там кондиционер, куча кулеров и т.д.,
> нагрузка в выходные минимальная, пыли в системнике нет, перегрев отпадаетJan 15 08:07:12 f1 smartd[89401]: Device: /dev/ad8, SMART Usage Attribute: 190 Airflow_Temperature_Cel changed from 76 to 77
это перегрев отпадает? 77 градусов, это пипец уже, у нас 40 на винте уже аларм и идем разбираться, что такое с охлаждением в серверной, при нагрузке рабочая температура воздушного потока не выше
190 Airflow_Temperature_Cel 0x0022 073 052 045 Old_age Always - 27 (Min/Max 24/37)
194 Temperature_Celsius 0x0022 027 048 000 Old_age Always - 27 (0 17 0 0 0)
> Jan 15 08:07:12 f1 smartd[89401]: Device: /dev/ad8, SMART Usage Attribute: 190 Airflow_Temperature_Cel
> changed from 76 to 77
> это перегрев отпадает? 77 градусов, это пипец уже, у нас 40 на
> винте уже аларм и идем разбираться, что такое с охлаждением в
> серверной, при нагрузке рабочая температура воздушного потока не вышеУ Вас, судя по всему "температура воздушного потока" тоже высокая - 73
190 Airflow_Temperature_Cel 0x0022 073 052 045 Old_age Always - 27 (Min/Max 24/37)
У сигейтовских винтов реальная температура высчитывается по формуле 100-ATC_190
Так что мой винт /dev/ad8 на 77 показывает 23 градуса темп.потока
> У сигейтовских винтов реальная температура высчитывается по формуле 100-ATC_190
> Так что мой винт /dev/ad8 на 77 показывает 23 градуса темп.потокану да, скорее всего так и есть, я ориентируюсь по RAW значению
но у Вас все-таки произошло корректное отключение сервера, а не просто вилку выдернули
значит либо биос загасил, либо нажали кнопку, ну либо упс, если стоит по способное гасить сервер при пропадании питания надолго
> но у Вас все-таки произошло корректное отключение сервера, а не просто вилку
> выдернули
> значит либо биос загасил, либо нажали кнопку, ну либо упс, если стоит
> по способное гасить сервер при пропадании питания надолгоНет, ПО гасящее сервер от УПС не стоит. УПС сигнальными кабелями к компу не подключен.
>> но у Вас все-таки произошло корректное отключение сервера, а не просто вилку
>> выдернули
>> значит либо биос загасил, либо нажали кнопку, ну либо упс, если стоит
>> по способное гасить сервер при пропадании питания надолго
> Нет, ПО гасящее сервер от УПС не стоит. УПС сигнальными кабелями к
> компу не подключен.выключение - никакая, кроме bios - перегрев, все остальные по настройкам:
cron, ups, watchdog...судя по signal 15 - похоже на shutdown, reboot или кнопку
есть в логах слова reboot/shutdown?
возможно что железо - попробуйте настроить получение dump'а при панике
> есть в логах слова reboot/shutdown?Нет таких слов.
Насколько я помню, при панике система сама уходит в ребут, если успевает. А тут выключилась. Проверил железо, все живое, два дня машина пашет как часы
>> есть в логах слова reboot/shutdown?
> Нет таких слов.
> Насколько я помню, при панике система сама уходит в ребут, если успевает.не всегда, в случае железа она может встать намертво
короткого скачка питания не могло быть?> А тут выключилась. Проверил железо, все живое, два дня машина пашет
> как часы"в жизни всякое бывает"
вероятно имеет смысл отключить CTRL-ALT-DEL: hw.syscons.kbd_reboot
или переопределить в kbd-map, помониторить систему, ограничить доступ
в аппаратную: уборщице - тоже могла, охране и тд и тп.В smartd.conf не определено -M exec /path/script ?
> В smartd.conf не определено -M exec /path/script ?Нет, там все обычно.
>> В smartd.conf не определено -M exec /path/script ?
> Нет, там все обычно.тогда мониторить