URL: https://www.opennet.me/cgi-bin/openforum/vsluhboard.cgi
Форум: vsluhforumID6
Нить номер: 17264
[ Назад ]

Исходное сообщение
"Cat6509: Высокая загрузка CPU после замены Sup2 на Sup720"

Отправлено Igor , 29-Сен-08 15:53 
Есть шасси 6500 серии, в котором стоят 2 модуля 64x10/100 и 1 модуль 64x10/100/1000. Устройство является центральным маршрутизатором локальной сети, состоящей из большого числа сегментов.

На выходных заменили Sup2 на Sup720.

На Sup2 использовался IOS 12.1(27b)E2, на Sup720 используется IOS 12.2(33)SXH3.

На Sup2 пиковая загрузка процессора достигала 50% (около 800 активных компов в локалке). После замены супервайзера и IOS, примерно с тем же конфигом ("примерно" - потому что есть различия, связанные с железом), загрузка процессора достигает 100% уже при 400 активных компах.

"Вылизывание" конфига снизило загрузку по процессу IP Input с 30% до 0.3%-3.0% - но это почти не сказалось на общей загрузке процессора...

Вот загрузка процессора на текущий момент (примерно 450 компов):


cat-6509#sh processes cpu sorted | e 0.00
CPU utilization for five seconds: 92%/86%; one minute: 93%; five minutes: 93%
PID Runtime(ms)   Invoked      uSecs   5Sec   1Min   5Min TTY Process
156    61749620  27672803       2231  3.35%  4.06%  4.15%   0 IP Input
395     5464264   4808498       1136  1.59%  1.43%  1.20%   0 SNMP ENGINE
   9     1574980   4606693        341  0.31%  0.49%  0.54%   0 ARP Input
158       94300    355808        265  0.15%  0.06%  0.07%   0 ADJ resolve proc
  43      428540    158297       2707  0.15%  0.07%  0.06%   0 Per-Second Jobs
135      372192  27817585         13  0.15%  0.06%  0.06%   0 Earl NDE Task
219      960632    234128       4103  0.07%  0.22%  0.23%   0 CEF: IPv4 proces
391      806672   2754236        292  0.07%  0.18%  0.18%   0 IP SNMP
354     1138940   3100398        367  0.07%  0.35%  0.32%   0 Port manager per

Полный конфиг имеет размер около 100 Кбайт, поэтому я сомневаюсь, имеет ли смысл целиком его публиковать. В конфиге - около 60 vlan'ов, почти на каждом из которых "висит" ACL с полным перечнем IP адресов, разрешенных в этом vlan'е (всего более 2000 адресов). Естественно, я конфиг не скрываю - предоставлю всю необходимую информацию...

Помогите, пожалуйста, найти причину загрузки процессора - сам справиться не могу.


Содержание

Сообщения в этом обсуждении
"Cat6509: Высокая загрузка CPU после замены Sup2 на Sup720"
Отправлено Евгений , 29-Сен-08 18:00 
Ты все же расскажи, что делает, как делает.. НАТ ? ACl ?
Что, где, какие ?
720-3C ? 3CXL ?


>[оверквотинг удален]
>модуль 64x10/100/1000. Устройство является центральным маршрутизатором локальной сети, состоящей из большого
>числа сегментов.
>На выходных заменили Sup2 на Sup720.
>
>На Sup2 использовался IOS 12.1(27b)E2, на Sup720 используется IOS 12.2(33)SXH3.
>
>На Sup2 пиковая загрузка процессора достигала 50% (около 800 активных компов в
>локалке). После замены супервайзера и IOS, примерно с тем же конфигом
>("примерно" - потому что есть различия, связанные с железом), загрузка процессора
>достигает 100% уже при 400 активных компах.


"Cat6509: Высокая загрузка CPU после замены Sup2 на Sup720"
Отправлено Евгений , 29-Сен-08 18:12 
И +сколько сессий НАТ в таблице трансляции, и сколько mpps/mbps.

> Ты все же расскажи, что делает, как делает.. НАТ ? ACl
>?
> Что, где, какие ?
> 720-3C ? 3CXL ?
>


"Cat6509: Высокая загрузка CPU после замены Sup2 на Sup720"
Отправлено weris , 30-Сен-08 06:40 
> И +сколько сессий НАТ в таблице трансляции, и сколько mpps/mbps.
>
>> Ты все же расскажи, что делает, как делает.. НАТ ? ACl
>>?
>> Что, где, какие ?
>> 720-3C ? 3CXL ?
>>

У нас при 1500 пользователей и супе -
Supervisor Engine 720 (Active)         WS-SUP720-3B
нагрузка не превышает
CPU utilization for five seconds: 4%; one minute: 5%; five minutes: 5%

#sh vlan summary
Number of existing VLANs           : 72
Number of existing VTP VLANs      : 72
Number of existing extended VLANs : 0


"Cat6509: Высокая загрузка CPU после замены Sup2 на Sup720"
Отправлено Igor , 30-Сен-08 14:01 
> И +сколько сессий НАТ в таблице трансляции, и сколько mpps/mbps.


cat-6509#show ip nat statistics
Total active translations: 3607 (0 static, 3607 dynamic; 3607 extended)
Outside interfaces:
  FastEthernet9/46, FastEthernet9/48
Inside interfaces:
  Vlan10, Vlan13, Vlan20, Vlan27, Vlan29, Vlan30, Vlan33, Vlan38, Vlan39
  Vlan41, Vlan44, Vlan50, Vlan52, Vlan54, Vlan61, Vlan70, Vlan71, Vlan72
  Vlan77, Vlan78, Vlan79, Vlan81, Vlan82, Vlan99, Vlan101, Vlan103, Vlan104
  Vlan110, Vlan141, Vlan144, Vlan150, Vlan154, Vlan199, Vlan951, Vlan952
  Vlan953, Vlan954, Vlan955, Vlan956, Vlan957, Vlan958, Vlan959, Vlan960
  Vlan961, Vlan962, Vlan963, Vlan964, Vlan965, Vlan966, Vlan967, Vlan968
  Vlan969, Vlan970
Hits: 93134469  Misses: 0
CEF Translated packets: 93005428, CEF Punted packets: 270262
Expired translations: 111403
Dynamic mappings:
-- Inside Source
[Id: 3] access-list nat-all pool natpool-all refcount 3607
pool natpool-all: netmask 255.255.255.192
        start 194.79.8.41 end 194.79.8.50
        type generic, total addresses 10, allocated 1 (10%), misses 0

Как посмотреть pps и bps?

> Ты все же расскажи, что делает, как делает.. НАТ ? ACl ?

Про ACL я писАл в первом посте. Про NAT - см.выше.

Кстати о NAT. Вчера перегрузили Сиську - NAT после перезагрузки поднялся только частично (натились только icmp и udp пакеты, tcp пакеты не натились). "Починил" тем, что сделал один пул из 10 адресов (до этого было два пула для разных направлений по одному адресу в каждом пуле). Пока NAT не работал - загрузка процессора не поднималась выше 50%. После "починки" загрузка снова под 100%. Хотя в доках отмечается, что в Sup720 NAT реализован аппаратно.

> 720-3C ? 3CXL ?

3BXL - постом раньше я привел "show module"


"Cat6509: Высокая загрузка CPU после замены Sup2 на Sup720"
Отправлено Mt , 30-Сен-08 12:46 
>Вот загрузка процессора на текущий момент (примерно 450 компов):
>
 
>cat-6509#sh processes cpu sorted | e 0.00
>CPU utilization for five seconds: 92%/86%; one minute: 93%; five minutes: 93%
>
>0 IP Input  395     5464264   4808498    1136  1.59%  1.43%  1.20%

Все сидит в интераптах, в ip input пусто  - похоже проблема в linecard (или может режим неправильный или еще что)

sh ver
sh modules
sh runn
sh cef summ - или как там его :)


"Cat6509: Высокая загрузка CPU после замены Sup2 на Sup720"
Отправлено Igor , 30-Сен-08 13:29 
>Все сидит в интераптах, в ip input пусто  - похоже проблема
>в linecard (или может режим неправильный или еще что)

Теоретически это понятно - осталось только найти, где именно ошибка :)

>sh ver


cat-6509#show version
Cisco IOS Software, s72033_rp Software (s72033_rp-ADVENTERPRISEK9_WAN-M), Version 12.2(33)SXH3, RELEASE SOFTWARE (fc1)

[skip]

ROM: System Bootstrap, Version 12.2(17r)S4, RELEASE SOFTWARE (fc1)

[skip]

cisco WS-C6509 (R7000) processor (revision 2.0) with 983008K/65536K bytes of memory.
Processor board ID SCA040300G2
SR71000 CPU at 600Mhz, Implementation 0x504, Rev 1.2, 512KB L2 Cache
Last reset from s/w reset
238 Virtual Ethernet interfaces
96 FastEthernet interfaces
50 Gigabit Ethernet interfaces
1917K bytes of non-volatile configuration memory.
8192K bytes of packet buffer memory.

65536K bytes of Flash internal SIMM (Sector size 512K).
Configuration register is 0x2102

>sh modules


cat-6509#show module
Mod Ports Card Type                              Model              Serial No.
--- ----- -------------------------------------- ------------------ -----------
  2   48  SFM-capable 48 port 10/100/1000mb RJ45 WS-X6548-GE-TX     SAL1052C0HK
  5    2  Supervisor Engine 720 (Active)         WS-SUP720-3BXL     SAL10446GRC
  8   48  SFM-capable 48-port 10/100 Mbps RJ45   WS-X6548-RJ-45     SAL0701B5KK
  9   48  48 port 10/100 mb RJ45                 WS-X6348-RJ-45     SAL0547ED6S

Mod MAC addresses                       Hw    Fw           Sw           Status
--- ---------------------------------- ------ ------------ ------------ -------
  2  001a.6d39.8e48 to 001a.6d39.8e77  11.1   7.2(1)       8.7(0.22)BUB Ok
  5  0016.9df6.afe0 to 0016.9df6.afe3   5.2   8.4(2)       12.2(33)SXH3 Ok
  8  0009.11f2.9b98 to 0009.11f2.9bc7   5.1   6.3(1)       8.7(0.22)BUB Ok
  9  0005.7408.ddb0 to 0005.7408.dddf   5.0   5.4(2)       8.7(0.22)BUB Ok

Mod  Sub-Module                  Model              Serial       Hw     Status
---- --------------------------- ------------------ ----------- ------- -------
  5  Policy Feature Card 3       WS-F6K-PFC3BXL     SAL10436AE6  1.8    Ok
  5  MSFC3 Daughterboard         WS-SUP720          SAL10446EYV  2.5    Ok

Mod  Online Diag Status
---- -------------------
  2  Pass
  5  Pass
  8  Pass
  9  Pass

>sh runn

Я ж писал - под 100 Кб. Говори, что нужно показать - я покажу. Смысла не вижу весь конфиг постить...

>sh cef summ - или как там его :)


cat-6509#show ip cef summary
IPv4 CEF is enabled for distributed and running
VRF Default:
1513 prefixes (1513/0 fwd/non-fwd)
Default network 0.0.0.0/0
Table id 0
Database epoch:        5 (1513 entries at this epoch)


"Cat6509: Высокая загрузка CPU после замены Sup2 на Sup720"
Отправлено Mt , 30-Сен-08 13:52 
В чем смысл SXH3 ? Вроде sup не VSS.... Попробуйте SXF из последних.
Этот Withney еще не очень рабочий пока...

Про cef я немного другое хотел - sh cef state

еще наверное
sh runn | i cef
sh runn | i fabric


"Cat6509: Высокая загрузка CPU после замены Sup2 на Sup720"
Отправлено Igor , 30-Сен-08 14:30 
>В чем смысл SXH3 ? Вроде sup не VSS....

Все-таки новая линейка. Вдруг что-то "вкусное" появилось. Тем более, что за год должны были бОльшую часть ошибок пофиксить...

>Попробуйте SXF из последних.

Это только в субботу: вдруг что-то "не пойдет" - не желательно в будние дни надолго сетку рушить.

"Из последних" есть 12.2(18)SXF14 - предпоследняя, и, вроде, в 15-й ничего экстраординарного не фиксилось...

>Про cef я немного другое хотел - sh cef state


cat-6509#show cef state
CEF Status:
RP instance
common CEF enabled
IPv4 CEF Status:
CEF enabled/running
dCEF enabled/running
CEF switching enabled/running
universal per-destination load sharing algorithm, id A79481E3
IPv6 CEF Status:
CEF disabled/not running
dCEF disabled/not running
universal per-destination load sharing algorithm, id A79481E3
RRP state:
I am standby RRP:                   no
RF Peer Presence:                   no
RF PeerComm reached:                no
RF Progression blocked:             never
Redundancy mode:                    sso(3)
CEF NSF sync:                       disabled/not running

>еще наверное
>sh runn | i cef


mls cef error action reset

>sh runn | i fabric


fabric timer 15


"Cat6509: Высокая загрузка CPU после замены Sup2 на Sup720"
Отправлено Mt , 30-Сен-08 19:18 

>[оверквотинг удален]
>>sh runn | i cef
>
>
 
>mls cef error action reset
>

>>sh runn | i fabric
>
>
 
>fabric timer 15
>

Типа все нормально.... Сомневаюсь что смогу помочь удаленно в данном случае...
Видимо это в TAC.


"Cat6509: Высокая загрузка CPU после замены Sup2 на Sup720"
Отправлено chesnok , 01-Окт-08 00:46 
>[оверквотинг удален]
>>mls cef error action reset
>>

>>>sh runn | i fabric
>>
>>
 
>>fabric timer 15
>>

>
>Типа все нормально.... Сомневаюсь что смогу помочь удаленно в данном случае...
>Видимо это в TAC.

не а с чего коммутатор в процесс-свиченге обрабатывает трафик то?


"Cat6509: Высокая загрузка CPU после замены Sup2 на Sup720"
Отправлено CrAzOiD , 01-Окт-08 01:02 
>[оверквотинг удален]
>>>>sh runn | i fabric
>>>
>>>
 
>>>fabric timer 15
>>>

>>
>>Типа все нормально.... Сомневаюсь что смогу помочь удаленно в данном случае...
>>Видимо это в TAC.
>
>не а с чего коммутатор в процесс-свиченге обрабатывает трафик то?

угу...
любимый CEF что-ли
sh adj summ что говорит?


"Cat6509: Высокая загрузка CPU после замены Sup2 на Sup720"
Отправлено IVB , 01-Окт-08 10:38 
>sh adj summ что говорит?

Уже ничего. Вернули назад Sup2.

Я провел эксперимент: в ACL, который выбирает, кого нужно NAT'ить, добавил 1-й строкой "deny ip any any" - загрузка проца _тут же_ упала с 95% до 40%.

Потом я погуглил по ключевым словам NAT и sup720 и прочел достаточно много "лестных" отзывов по поводу NAT'а на 65-й серии вообще и на Sup720 в частности.

Решили временно вернуть Sup2, вынести NAT к такой-то бабушке с Сиськи на, например, MikroTik, потом снова попробовать Sup720.

Тогда я снова попрошу помощи, т.к. загрузка в 40% (которую 720-й показывал без NAT'а), на мой взгляд, тоже слишком велика для того трафика, который через Сиську ходит.

(IVB и Igor - это я, только IVB - это зареганный ник, а Igor - это ник, под которым я несколько лет назад здесь первый раз отпостился. Почему он автоматом подставился в первый пост - знает только браузер)


"Cat6509: Высокая загрузка CPU после замены Sup2 на Sup720"
Отправлено mt , 01-Окт-08 12:32 
>[оверквотинг удален]
>например, MikroTik, потом снова попробовать Sup720.
>
>Тогда я снова попрошу помощи, т.к. загрузка в 40% (которую 720-й показывал
>без NAT'а), на мой взгляд, тоже слишком велика для того трафика,
>который через Сиську ходит.
>
>(IVB и Igor - это я, только IVB - это зареганный ник,
>а Igor - это ник, под которым я несколько лет назад
>здесь первый раз отпостился. Почему он автоматом подставился в первый пост
>- знает только браузер)

Так честно если сказать - не предназначен у нас 6500 для NAT - и 720й супер тем более  - плохо ему от NAT.

По поводу process switching - так и осталось не ясным было его много или мало...
по идее высокое значение interrups это не обязательно только process swithcing - возможны и еще варианты. Скажем такой - везде ли на L3 интерфейсах написано no ip unreach ? Если есть роутинг в Null0 то там тоже нада.

Пишите как будете снова 720й вставлять :)


"Cat6509: Высокая загрузка CPU после замены Sup2 на Sup720"
Отправлено IVB , 01-Окт-08 12:52 
>Так честно если сказать - не предназначен у нас 6500 для NAT
>- и 720й супер тем более  - плохо ему от
>NAT.

Так надо было сразу так и сказать - чувак, не морочь голову себе и людям: 65-я Сиська нормально НАТить не сможет...

>По поводу process switching - так и осталось не ясным было его
>много или мало...

Вернемся на 720-й - посмотрю.

>по идее высокое значение interrups это не обязательно только process swithcing -
>возможны и еще варианты. Скажем такой - везде ли на L3
>интерфейсах написано no ip unreach ?

Везде. Я включил

no ip redirects
no ip unreachables
на всех интерфейсах еще до того, как прочитал о том, что в отсутствие "no ip unreachables" форвард выполняется программно, а не аппаратно.

>Если есть роутинг в Null0
>то там тоже нада.

Есть. Но там трафик должен быть близок к нулю. Нужно будет глянуть...

>Пишите как будете снова 720й вставлять :)

А куда я денусь ;)


"Cat6509: Высокая загрузка CPU после замены Sup2 на Sup720"
Отправлено IVB , 01-Окт-08 10:24 
>[оверквотинг удален]
>>mls cef error action reset
>>

>>>sh runn | i fabric
>>
>>
 
>>fabric timer 15
>>

>
>Типа все нормально.... Сомневаюсь что смогу помочь удаленно в данном случае...
>Видимо это в TAC.

Для нас что в TAC, что в [censored] - Сиська б/у, саппорт не предусмотрен.


"Cat6509: Высокая загрузка CPU после замены Sup2 на Sup720"
Отправлено Cyrill Malevanov , 04-Окт-08 02:01 
>На выходных заменили Sup2 на Sup720.
>
 
>cat-6509#sh processes cpu sorted | e 0.00
>CPU utilization for five seconds: 92%/86%; one minute: 93%; five minutes: 93%
>

Можно попробовать на клиентских интерфейсах сделать ip verify source reachable-via rx
Можно попробовать ip route-cache same-interface на всех интерфейсах сделать.



"Cat6509: Высокая загрузка CPU после замены Sup2 на Sup720"
Отправлено Сергей , 04-Окт-08 12:00 
В RSP-720 таже проблема, от ната проц умирает.
Сама циска рекомендует для ната купить модуль отдельный,
но он очень дорогой - цена аппаратного нат около 40К$.
Проще поставить 1 юнитовых пару компиков,
которые пронатят до 400 мегабит, а цена будет максимум 2-4К$


>>На выходных заменили Sup2 на Sup720.
>>

 
>>cat-6509#sh processes cpu sorted | e 0.00
>>CPU utilization for five seconds: 92%/86%; one minute: 93%; five minutes: 93%
>>

>
>Можно попробовать на клиентских интерфейсах сделать ip verify source reachable-via rx
>Можно попробовать ip route-cache same-interface на всех интерфейсах сделать.

"Cat6509: Высокая загрузка CPU после замены Sup2 на Sup720"
Отправлено Cyrill Malevanov , 06-Окт-08 14:36 
>В RSP-720 таже проблема, от ната проц умирает.
>Сама циска рекомендует для ната купить модуль отдельный,
>но он очень дорогой - цена аппаратного нат около 40К$.
>Проще поставить 1 юнитовых пару компиков,
>которые пронатят до 400 мегабит, а цена будет максимум 2-4К$

HP DL160G5, quad core xeon 2.66 (1.33ghz bus) под микротиком - натит 500 мбит на загрузке 20%


"Cat6509: Высокая загрузка CPU после замены Sup2 на Sup720"
Отправлено chesnok , 07-Окт-08 02:48 
>>В RSP-720 таже проблема, от ната проц умирает.
>>Сама циска рекомендует для ната купить модуль отдельный,
>>но он очень дорогой - цена аппаратного нат около 40К$.
>>Проще поставить 1 юнитовых пару компиков,
>>которые пронатят до 400 мегабит, а цена будет максимум 2-4К$
>
>HP DL160G5, quad core xeon 2.66 (1.33ghz bus) под микротиком - натит
>500 мбит на загрузке 20%

реклама PC и микротик не о чем, если вы хотите подчеркнуть не сосоятельность сетевого оборудования, а в данном случае cisco, то приводите примеры, где например магистральный оператор перешел на микротик и подобные решения.


"Cat6509: Высокая загрузка CPU после замены Sup2 на Sup720"
Отправлено AD , 07-Окт-08 05:34 
У магистральных операторов имхо нет ната.

"Cat6509: Высокая загрузка CPU после замены Sup2 на Sup720"
Отправлено chesnok , 09-Окт-08 01:18 
>У магистральных операторов имхо нет ната.

в магистрели нет конечно...
да и для 65хх есть сервисные модули, да и задачи его не массовый нат для школьников.


"Cat6509: Высокая загрузка CPU после замены Sup2 на Sup720"
Отправлено mdenisov , 26-Дек-08 11:38 
Господа,
Судя по документации на cisco.com sup32 и все варианты sup720 умеют nat in hardware, но рабочего примера не встречал. При включении любого ната, даже если в него ничего не попадает сразу начинает подскакивать загрузка по прерываниям, причем зависимости от версии IOS не выявлено. Методы лечения науке не известны, предполагаю что это кривизна проектировки этого самого nat in hardware. Было бы очень интересно если бы кто смог открыть case.
По поводу высокой загрузки без NAT могу порекомендовать изучить http://www.cisco.com/en/US/products/hw/switches/ps708/produc.... Кстати, там про нат тоже написано, но в действительности все не так как на самом деле. Недавно на sup720-3b при перекачке одним потоком при скорости ниже 20 мегабит загрузка превысила 60%. Причем это был единственный трафик, кторый и в NAT-то не попадал.