>>Всем спасибо - уже нашел :)
>>Будем теперь тестить
>
>А поделиться можете?
Результаты неутешительные :(
12.4(13) падает при использовании PBR, DTS (сложно-иерархического), NAT, Tunneling примерно через час при средней активной нагрузке в 25/10Мбит In/Out. При этом загрузку cpu составляет 70-99%. Без использования PBR падает через 6-18 часов такой же нагрузки, но уже с средней загрузкой цпу 10-20%.
Падения в обоих случаях сопровождались одинаковыми симптомами. При повышении нагрузки более 5Мбит in, в логе VIP'a появляются периодические записи вида:
---------------
Mar 2 14:43:39.246: %SYS-3-MGDTIMER: Uninitialized timer, set_exptime, timer = 634EDB10. -Process= "<interrupt level>", ipl= 1, pid= 45 -Traceback= 0x60066F20 0x6016CD20 0x606761C0 0x60676C24 0x604F6CC4 0x6026F2D4 0x60271218
Mar 2 14:44:43.078: %SYS-3-MGDTIMER: Timer not a leaf, set_exptime, timer = 64220590. -Process= "<interrupt level>", ipl= 1, pid= 45 -Traceback= 0x60066F20 0x6016CD20 0x606761C0 0x60676D28 0x604F25A4 0x6026F2D4 0x60271218
Mar 2 14:44:53.158: %SYS-3-MGDTIMER: Uninitialized timer, set_exptime, timer = 613D5430. -Process= "<interrupt level>", ipl= 1, pid= 45 -Traceback= 0x60066F20 0x6016CD20 0x606761C0 0x60676C24 0x604F6CC4 0x6026F2D4 0x60271218
Mar 2 14:45:50.702: %SYS-3-MGDTIMER: Uninitialized timer, set_exptime, timer = 61442CD0. -Process= "<interrupt level>", ipl= 1, pid= 45 -Traceback= 0x60066F20 0x6016CD20 0x606761C0 0x60676C24 0x604F6CC4 0x6026F2D4 0x60271218
Mar 2 14:46:03.490: %SYS-3-MGDTIMER: Uninitialized timer, set_exptime, timer = 6421EA70. -Process= "<interrupt level>", ipl= 1, pid= 45 -Traceback= 0x60066F20 0x6016CD20 0x606761C0 0x60676C24 0x604F6CC4 0x6026F2D4 0x60271218
Mar 2 14:46:30.266: %SYS-3-MGDTIMER: Uninitialized timer, set_exptime, timer = 613FDB90. -Process= "<interrupt level>", ipl= 1, pid= 45 -Traceback= 0x60066F20 0x6016CD20 0x606761C0 0x60676C24 0x604F6CC4 0x6026F2D4 0x60271218
Mar 2 14:47:33.978: %SYS-3-MGDTIMER: Uninitialized timer, set_exptime, timer = 6432B1B0. -Process= "<interrupt level>", ipl= 1, pid= 45 -Traceback= 0x60066F20 0x6016CD20 0x606761C0 0x60676C24 0x604F6CC4 0x6026F2D4 0x60271218
----------------------
PID= 45 - в процессах VIP это "CEF IPC Background".
Но визуально, на работе, на прохождении пакетов это вроде как не сказывается.
В итоге в падении циска выдает в крэш-лог випа:
---------
IOBUS Error Interrupt Status register 0x4
Address/Command Strobe Timeout
IOBUS Error Address High 0x1C01
IOBUS Error Address Low 0xC
19:48:02 MSK Fri Mar 2 2007: Address Error (load or instruction fetch) exception, CPU signal 10, PC = 0x6016C184
---------
После чего VIP перегружается, при этом с 80% вероятностью отваливается полностью весь dCEF и все что с ним связано.
Падение (с тем же самым сообщением) может быть вызвано и "пофикшеной" командой "clear ip nat translations *". Теперь да - циска не вешается наглухо, а просто ВИП перегружается с вероятностью примерно 70%. Но больше всего "прикалывает" статистика после применения этой команды - в количестве активных сессий невероятное число, исчисляемое миллиардами:
----------
xxx.ru# sh ip nat st
Total active translations: 23162 (0 static, 23162 dynamic; 23162 extended)
Outside interfaces:
FastEthernet0/0/0
Inside interfaces:
FastEthernet0/1/0
Hits: 32995844 Misses: 59164
CEF Translated packets: 29043619, CEF Punted packets: 33872788
Expired translations: 3243750
Dynamic mappings:
-- Inside Source
[Id: 1] access-list 100 pool ComcorNATPool refcount 24164
pool ComcorNATPool: netmask 255.255.255.248
start xxx.xxx.xxx.222 end xxx.xxx.xxx.222
type generic, total addresses 1, allocated 1 (100%), misses 1
Queued Packets: 0
<если посмотреть детальную инфу по записям, то видно, что почти 20к записей с флагом timing-out - не прибиты.. некоторые записи прибивается нормально.. а некоторые остаются>
xxx.ru#clear ip nat translation *
<тут киска думает секунд 15 - страшно, а вдруг потеряли?>
xxx.ru#sh ip nat st
Total active translations: 4294951258 (0 static, 4294951258 dynamic; 4294951258 extended)
Outside interfaces:
FastEthernet0/0/0
Inside interfaces:
FastEthernet0/1/0
Hits: 33019448 Misses: 59164
CEF Translated packets: 29063951, CEF Punted packets: 33901096
Expired translations: 3246379
Dynamic mappings:
-- Inside Source
[Id: 1] access-list 100 pool ComcorNATPool refcount 317
pool ComcorNATPool: netmask 255.255.255.248
start xxx.xxx.xxx.222 end xxx.xxx.xxx.222
type generic, total addresses 1, allocated 1 (100%), misses 1
Queued Packets: 0
----------
Т.е. просто пофиксили повисание циски, но не пофиксили проблему с утечкой памяти при прибивании записей в таблице НАТ (когда сессия должна быть прибита по таймауту или еще по каким причинам).