<?xml version="1.0" encoding="koi8-r"?>
<rss version="0.91">
<channel>
    <title>OpenForum RSS: зависание сервера (логи, сбор информации)</title>
    <link>https://www.opennet.ru/openforum/vsluhforumID1/81768.html</link>
    <description>Здравствуйте!&lt;br&gt;&lt;br&gt;На серверах (7 Штук) работает altlinux master 2.4. Естественно от самого мастера там мало что осталось (большинство пакетов обновлено, ядро собрано 2.4.36). &lt;br&gt;Несколько недель все работало нормально. Теперь каждую ночь в 4:02 идет зависание двух серверов.&lt;br&gt;И вот такие чудные логи:&lt;br&gt;&lt;br&gt;Aug 31 04:02:05 vkufs1_11 pam_tcb&#091;9829&#093;: su: Session opened for cacheman by (uid=0)&lt;br&gt;Aug 31 04:02:02 vkufs1_11 syslogd: syslogd shutdown succeeded &lt;br&gt;Aug 31 04:02:03 vkufs1_11 last message repeated 3 times&lt;br&gt;Aug 31 04:02:05 vkufs1_11 pam_tcb&#091;9829&#093;: su: Session closed for cacheman&lt;br&gt;Aug 31 04:02:03 vkufs1_11 syslogd: syslogd shutdown succeeded &lt;br&gt;Aug 31 06:02:22 vkufs1_11 syslogd 1.4.1: restart.&lt;br&gt;Aug 31 06:02:22 vkufs1_11 syslogd: syslogd startup succeeded&lt;br&gt;Aug 31 06:02:22 vkufs1_11 kernel: klogd 1.4.1, log source = /proc/kmsg started.&lt;br&gt;Aug 31 06:02:22 vkufs1_11 klogd: klogd startup succeeded&lt;br&gt;Aug 31 06:02:22 vkufs1_11 kernel: Inspecting /boot/System.map-2.4.36.arkhangel&lt;br&gt;Aug 31 06:02:22 vkufs1_11 kernel: Loaded 19891</description>

<item>
    <title>зависание сервера (логи, сбор информации) (demiurg)</title>
    <link>https://www.opennet.ru/openforum/vsluhforumID1/81768.html#9</link>
    <pubDate>Sat, 25 Jul 2009 00:37:28 GMT</pubDate>
    <description>Короче в свое время (т.е. 2 года назад) мы решили этот вопрос жестко - полной сменой модулей на которых происходило падение. Мнение всех специалистов было что дело в SCSI под-системе. То ли с контроллером что-то не так. То ли с самими хардами. Именно на 4 часа утра поставлены многие задания cron и за котороткий промежуток времени происходит резкое увеличение попыток записи/чтения (или только записи или только чтения - сейчас уже непомню) к хардам (raid массив 5 уровня). В принципе такой ситуации можно добиться и самому, если по самое небалуйся запустить тест iozone. Система может нагнуться и через пару часов и через несколько суток. В понедельник, если интересно - могу выложить полную аппаратную конфигурацию наших серверов.&lt;br&gt;&lt;br&gt;&lt;br&gt;&lt;br&gt;</description>
</item>

<item>
    <title>зависание сервера (логи, сбор информации) (ej_head)</title>
    <link>https://www.opennet.ru/openforum/vsluhforumID1/81768.html#8</link>
    <pubDate>Fri, 24 Jul 2009 07:50:07 GMT</pubDate>
    <description>У меня возникла точно такая же проблема, в 4:02 сервер под Alt Linux Master 2.4 зависает. Началось это примерно неделю назад, вчера утром обнаружил, что он в 4:02 он перезагрузился. &lt;br&gt;У меня лог заканчивается строчкой:&lt;br&gt;pam_tcb&#091;9829&#093;: su: Session closed for cacheman&lt;br&gt;далее видимо должен перезагрузиться syslogd, но этого не происходит.&lt;br&gt;Сервак стоит c 2006 года, всегда работал стабильно.&lt;br&gt;</description>
</item>

<item>
    <title>зависание сервера (логи, сбор информации) (Ivniq)</title>
    <link>https://www.opennet.ru/openforum/vsluhforumID1/81768.html#7</link>
    <pubDate>Thu, 02 Apr 2009 09:50:09 GMT</pubDate>
    <description>Здравствуйте! Существует &quot;нечто&quot;))) демон-планировщик задач в UNIX-образных операционных системах, использующийся для периодического выполнения заданий в заданное время. Каждый пользователь системы имеет свой файл заданий crontab, в котором описано, в какое время и какие программы запускать от имени этого пользователя. Для редактирования файла crontab используется специальная одноименная программа crontab, позволяющая не прерывать процесс cron на время редактирования.&lt;br&gt; Использую Alt Linux 4.1 Desktop, я конечно верю в совпадения, но не до такой же степени. Вот строка из моего журнала: Mar 29 04:02:12 localhost su&#091;8159&#093;: pam_tcb(su:session): Session opened for cacheman by (uid=0).&lt;br&gt;Так что скорее всего Крон настроен по дефолту.&lt;br&gt;&lt;br&gt;</description>
</item>

<item>
    <title>зависание сервера (логи, сбор информации) (demiurg)</title>
    <link>https://www.opennet.ru/openforum/vsluhforumID1/81768.html#6</link>
    <pubDate>Sat, 06 Sep 2008 09:09:14 GMT</pubDate>
    <description>Спасибо всем большое... &lt;br&gt;&lt;br&gt;Добился определенных результатов.&lt;br&gt;1. На сервере кроме ОС работает ППО (оно иногда пишет небольшие объемы  информации - в час по 50-100 мб.) Поставил iozone тестироваться вместе с ППО - через 2.5 часа сервер повис. Потом через сутки опять iozone был поставлен но без ППО сервер выдержал. &lt;br&gt;&lt;br&gt;2. Начал эксперементировать: работает ППО и запускаю скрипт obsec - перезагрузка системы. Работает ППО - и запускаю скрипт updatedb - система зависает. &lt;br&gt;&lt;br&gt;3. Вчера вообще пипец начался: операторы по sftp копируют файлы с сервера и он стабильно перегружается.&lt;br&gt;&lt;br&gt;У меня подозрения на дисковую подсистему точнее  драйверы для raid массива (aacraid).&lt;br&gt;&lt;br&gt;Вот распечатка lsmod:&lt;br&gt;Module                  Size  Used by    Not tainted&lt;br&gt;sg                     29468   0  (autoclean)&lt;br&gt;sr_mod                 14320   0  (autoclean)&lt;br&gt;cdrom                  27552   0  (autoclean) &#091;sr_mod&#093;&lt;br&gt;floppy                 48056   0  (autoclean)&lt;br&gt;usb-storage            26040   0 &lt;br&gt;autofs4                 8532   0  (autoclea</description>
</item>

<item>
    <title>зависание сервера (логи, сбор информации) (demiurg)</title>
    <link>https://www.opennet.ru/openforum/vsluhforumID1/81768.html#5</link>
    <pubDate>Mon, 01 Sep 2008 02:57:55 GMT</pubDate>
    <description>Вышел в ночь. Все идеально. Ни один сервер не завис. Такое впечатление, что на это появлияли прикладные программы. В пятницу начался большой обмен данными и возможно это привело к падению. Сейчас поставил iozone гоняться. Потом буду память на всякий случай проверять. &lt;br&gt;За любые идеи - предложения - респект... &lt;br&gt;</description>
</item>

<item>
    <title>зависание сервера (логи, сбор информации) (demiurg)</title>
    <link>https://www.opennet.ru/openforum/vsluhforumID1/81768.html#4</link>
    <pubDate>Sun, 31 Aug 2008 16:43:56 GMT</pubDate>
    <description>Обратили внимание... и что?&lt;br&gt;&lt;br&gt;Как выявить какой это процесс это вызывает? Учитывая что это происходит синхронно на двух несвязанных серверах я вижу что причина задачах anacron. &lt;br&gt;Сегодня в ночь выйду - посмотрю. Потом на одном сервере запущу iozone для тестирования нжмд. И тест памяти на всякий случай.&lt;br&gt;Вот кстати вывод sar:&lt;br&gt;&lt;br&gt;Linux 2.4.36.arkhangel (vkufs1_11) 31.08.2008&lt;br&gt;&lt;br&gt;00:01:01          CPU     &#037;user     &#037;nice   &#037;system   &#037;iowait     &#037;idle&lt;br&gt;00:11:01          all      1,21      0,00      0,37      0,00     98,42&lt;br&gt;00:21:01          all      1,03      0,00      0,24      0,00     98,73&lt;br&gt;00:31:01          all      1,22      0,00      0,45      0,00     98,34&lt;br&gt;00:41:01          all      1,10      0,00      0,22      0,00     98,68&lt;br&gt;00:51:01          all      1,17      0,00      0,34      0,00     98,49&lt;br&gt;01:01:01          all      1,12      0,00      0,24      0,00     98,64&lt;br&gt;01:11:01          all      1,10      0,00      0,31      0,00     98,59&lt;br&gt;01:21:01          all      1,23      0,00      0,36      0,</description>
</item>

<item>
    <title>зависание сервера (логи, сбор информации) (Vaso_Petrovich)</title>
    <link>https://www.opennet.ru/openforum/vsluhforumID1/81768.html#3</link>
    <pubDate>Sun, 31 Aug 2008 15:50:39 GMT</pubDate>
    <description>&amp;gt;Aug 31 04:02:01 vkufs1_11 anacron&#091;9461&#093;: Updated timestamp for job &#096;cron.daily&apos; to &amp;gt;&#096;2008-08-31 04:02:01&apos;&lt;br&gt;&amp;gt;Aug 31 04:02:01 vkufs1_11 exiting on signal 15&lt;br&gt;&amp;gt;Aug 31 04:02:01 vkufs1_11 syslogd 1.4.1: restart.&lt;br&gt;&amp;gt;Aug 31 04:02:01 vkufs1_11 syslogd: syslogd startup succeeded&amp;gt;&lt;br&gt;&lt;br&gt;вот на это надо обратить внимание... особенно на&lt;br&gt;&amp;gt;Aug 31 04:02:01 vkufs1_11 exiting on signal 15</description>
</item>

<item>
    <title>зависание сервера (логи, сбор информации) (demiurg)</title>
    <link>https://www.opennet.ru/openforum/vsluhforumID1/81768.html#2</link>
    <pubDate>Sun, 31 Aug 2008 14:14:45 GMT</pubDate>
    <description>Незаархивированная папка /var/log на 12 мегабайт с одного сервера. Какие файлы логов Вы имеете в виду.&lt;br&gt;&lt;br&gt;Вот еще немного /var/log/kernel/errors&lt;br&gt;&lt;br&gt;scsi_hostadapter, errno = 2&lt;br&gt;Aug 30 03:59:42 vkufs1_11 kernel: ipmi_kcs: SPMI table not found.&lt;br&gt;Aug 30 03:59:46 vkufs1_11 kernel: ldm_validate_partition_table(): Disk read failed.&lt;br&gt;Aug 30 03:59:46 vkufs1_11 kernel: ldm_validate_partition_table(): Disk read failed.&lt;br&gt;Aug 30 04:09:15 vkufs1_11 kernel: kmod: failed to exec /sbin/modprobe -s -k scsi_hostadapter, errno = 2&lt;br&gt;Aug 30 04:09:15 vkufs1_11 kernel: ipmi_kcs: SPMI table not found.&lt;br&gt;Aug 30 04:09:19 vkufs1_11 kernel: ldm_validate_partition_table(): Disk read failed.&lt;br&gt;Aug 30 04:09:19 vkufs1_11 kernel: ldm_validate_partition_table(): Disk read failed.&lt;br&gt;Aug 30 04:45:02 vkufs1_11 kernel: kmod: failed to exec /sbin/modprobe -s -k scsi_hostadapter, errno = 2&lt;br&gt;Aug 30 04:45:02 vkufs1_11 kernel: ipmi_kcs: SPMI table not found.&lt;br&gt;Aug 30 04:45:06 vkufs1_11 kernel: ldm_validate_partition_table(): Disk read failed.&lt;br&gt;Aug 30 04:4</description>
</item>

<item>
    <title>зависание сервера (логи, сбор информации) (Vaso_Petrovich)</title>
    <link>https://www.opennet.ru/openforum/vsluhforumID1/81768.html#1</link>
    <pubDate>Sun, 31 Aug 2008 09:41:58 GMT</pubDate>
    <description>&amp;gt;Aug 31 04:02:05 vkufs1_11 pam_tcb&#091;9829&#093;: su: Session opened for cacheman by (uid=0) &lt;br&gt;&amp;gt;&lt;br&gt;&amp;gt;Aug 31 04:02:02 vkufs1_11 syslogd: syslogd shutdown succeeded &lt;br&gt;&amp;gt;Aug 31 04:02:03 vkufs1_11 last message repeated 3 times &lt;br&gt;&amp;gt;Aug 31 04:02:05 vkufs1_11 pam_tcb&#091;9829&#093;: su: Session closed for cacheman &lt;br&gt;&amp;gt;Aug 31 04:02:03 vkufs1_11 syslogd: syslogd shutdown succeeded &lt;br&gt;&lt;br&gt;логи побольше запости, нафига постить следствие, когда ищищь причину? или что там написано не понятно? словарь в ноги и переводить до полного понимания...&lt;br&gt;</description>
</item>

</channel>
</rss>
