- Странное поведение catalyst 4948e, fantom, 12:39 , 11-Янв-18 (1)
>[оверквотинг удален] > rx_queue_6_csum_err: 842091 > rx_queue_6_alloc_failed: 0 > rx_queue_7_packets: 59948940847 > rx_queue_7_bytes: 66689840760277 > rx_queue_7_drops: 66252 > rx_queue_7_csum_err: 803654 > rx_queue_7_alloc_failed: 0 > соответственно на циске вижу что она начинает активно вставлять pause frame и > дропать трафф. Возвращаю 3550 и все нормализуется, счетчики дропов перестают расти. > Если я правильно понимаю то дело даже не в циске.rx_queue_N_csum_err <очень много> Где N 0-8 Symptoms rx_queue_0_csum_err incrementing in ethtool -S output [Expert@gw]# ethtool -k <interface> shows: rx-checksumming: on The interface is using the igb driver Cause The cable or port in use may be faulty.
This can also be caused by the rx-checksumming option for the interface, in some cases.
- Странное поведение catalyst 4948e, kid, 12:55 , 11-Янв-18 (2)
>[оверквотинг удален] > Где N 0-8 > Symptoms > rx_queue_0_csum_err incrementing in ethtool -S output > [Expert@gw]# ethtool -k <interface> shows: > rx-checksumming: on > The interface is using the igb driver > Cause > The cable or port in use may be faulty. > This can also be caused by the rx-checksumming option for the interface, > in some cases.Я правильно понял что надо отключить чексумминг на интерфейсе? сейчас вот так настройки сделаны ethtool -k eth6 Features for eth6: rx-checksumming: on tx-checksumming: on tx-checksum-ipv4: on tx-checksum-unneeded: off [fixed] tx-checksum-ip-generic: off [fixed] tx-checksum-ipv6: on tx-checksum-fcoe-crc: off [fixed] tx-checksum-sctp: on scatter-gather: on tx-scatter-gather: on tx-scatter-gather-fraglist: off [fixed] tcp-segmentation-offload: on tx-tcp-segmentation: on tx-tcp-ecn-segmentation: off [fixed] tx-tcp6-segmentation: on udp-fragmentation-offload: off [fixed] generic-segmentation-offload: on generic-receive-offload: on large-receive-offload: off [fixed] rx-vlan-offload: on tx-vlan-offload: on ntuple-filters: off [fixed] receive-hashing: on highdma: on [fixed] rx-vlan-filter: on [fixed] vlan-challenged: off [fixed] tx-lockless: off [fixed] netns-local: off [fixed] tx-gso-robust: off [fixed] tx-fcoe-segmentation: off [fixed] fcoe-mtu: off [fixed] tx-nocache-copy: on loopback: off [fixed]
- Странное поведение catalyst 4948e, fantom, 13:05 , 11-Янв-18 (3)
>[оверквотинг удален] > highdma: on [fixed] > rx-vlan-filter: on [fixed] > vlan-challenged: off [fixed] > tx-lockless: off [fixed] > netns-local: off [fixed] > tx-gso-robust: off [fixed] > tx-fcoe-segmentation: off [fixed] > fcoe-mtu: off [fixed] > tx-nocache-copy: on > loopback: off [fixed] !!!! The cable or port in use may be faulty. !!!! Порт или кабель могут быть неисправны. Для начала проверить порты 48-ого каталиста
- Странное поведение catalyst 4948e, kid, 16:06 , 11-Янв-18 (4)
>[оверквотинг удален] >> tx-gso-robust: off [fixed] >> tx-fcoe-segmentation: off [fixed] >> fcoe-mtu: off [fixed] >> tx-nocache-copy: on >> loopback: off [fixed] > !!!! > The cable or port in use may be faulty. > !!!! > Порт или кабель могут быть неисправны. > Для начала проверить порты 48-ого каталиста что проблема на всех портах в которые включены сервера?
- Странное поведение catalyst 4948e, vk, 07:42 , 12-Янв-18 (5)
выключайте flowcontrol, ставьте максимум hold-queue на интерфейсе коммутатора. Должно полегчать.
- Странное поведение catalyst 4948e, kid, 14:27 , 12-Янв-18 (6)
> выключайте flowcontrol, ставьте максимум hold-queue на интерфейсе коммутатора. Должно > полегчать.flowcontrol Отключал и на rx и на tx легче не становилось. Что то я прихожу к выводу что и не в циске дело, похоже сервера наливают кучу мелких пакетов, 3550 как то жует их, а на 4948 уже получается переполнение буферов, вчера на одном из серверов через ethtool увеличил буфера на rx-tx до 4096 (стояло 256) так у меня сразу порт на циске и слождился с переполненым тх буфером. в данный момент настройки интерфейса на сервера вот такие ethtool -g eth6 Ring parameters for eth6: Pre-set maximums: RX: 4096 RX Mini: 0 RX Jumbo: 0 TX: 4096 Current hardware settings: RX: 256 RX Mini: 0 RX Jumbo: 0 TX: 256 ethtool -k eth6 Features for eth6: rx-checksumming: on tx-checksumming: on tx-checksum-ipv4: on tx-checksum-unneeded: off [fixed] tx-checksum-ip-generic: off [fixed] tx-checksum-ipv6: on tx-checksum-fcoe-crc: off [fixed] tx-checksum-sctp: on scatter-gather: on tx-scatter-gather: on tx-scatter-gather-fraglist: off [fixed] tcp-segmentation-offload: on tx-tcp-segmentation: on tx-tcp-ecn-segmentation: off [fixed] tx-tcp6-segmentation: on udp-fragmentation-offload: off [fixed] generic-segmentation-offload: on generic-receive-offload: on large-receive-offload: off [fixed] rx-vlan-offload: on tx-vlan-offload: on ntuple-filters: off [fixed] receive-hashing: on highdma: on [fixed] rx-vlan-filter: on [fixed] vlan-challenged: off [fixed] tx-lockless: off [fixed] netns-local: off [fixed] tx-gso-robust: off [fixed] tx-fcoe-segmentation: off [fixed] fcoe-mtu: off [fixed] tx-nocache-copy: on loopback: off [fixed] ethtool -i eth6 driver: igb version: 5.0.5-k firmware-version: 1.2.1 bus-info: 0000:0a:00.1 supports-statistics: yes supports-test: yes supports-eeprom-access: yes supports-register-dump: yes supports-priv-flags: no может чего то отключить включить посоветуете?
- Странное поведение catalyst 4948e, fantom, 17:02 , 12-Янв-18 (7)
>[оверквотинг удален] > driver: igb > version: 5.0.5-k > firmware-version: 1.2.1 > bus-info: 0000:0a:00.1 > supports-statistics: yes > supports-test: yes > supports-eeprom-access: yes > supports-register-dump: yes > supports-priv-flags: no > может чего то отключить включить посоветуете?А что счетчики ошибок на портах каталиста 48-го говорят?
- Странное поведение catalyst 4948e, vk, 22:59 , 12-Янв-18 (8)
мне кажется, что дело в QoS. И я бы копал в эту сторону. у 3550 и 4849 разные архитектуры qos, разный queuing. Судя по тому что каталист дает паузы - у него переполняется очередь. Смотрите статистику qos и input/output drops по очередям,возможно придется его немного подтюнить. >[оверквотинг удален] > driver: igb > version: 5.0.5-k > firmware-version: 1.2.1 > bus-info: 0000:0a:00.1 > supports-statistics: yes > supports-test: yes > supports-eeprom-access: yes > supports-register-dump: yes > supports-priv-flags: no > может чего то отключить включить посоветуете?
- Странное поведение catalyst 4948e, Andrey, 23:21 , 12-Янв-18 (9)
> может чего то отключить включить посоветуете?Ну для начала нужно определиться с тем, в какую сторону будете копать проблему. Вы грешите на Cisco, но статистику показываете тольк с интерфейсов _серверов_. Делать предположения что в вашем каталисте происходит, только на основании показаний серверов... ну даже не знаю что сказать... Либо статистика со свитча, либо разбираем проблему на стороне серверов.
- Странное поведение catalyst 4948e, kid, 12:49 , 13-Янв-18 (10)
>> может чего то отключить включить посоветуете? > Ну для начала нужно определиться с тем, в какую сторону будете копать > проблему. Вы грешите на Cisco, но статистику показываете тольк с интерфейсов > _серверов_. Делать предположения что в вашем каталисте происходит, только на основании > показаний серверов... ну даже не знаю что сказать... > Либо статистика со свитча, либо разбираем проблему на стороне серверов.Спасибо все откликнувшимся на проблему, сейчас 4948 снята и перепрошита другой версией иос, так что счетчики обнулились, выкладываю показания в момент когда она стояла на канале и в нее были включены сервера. отключил flow control на интерфейсах пропали ошибки TxPauseFrames ,до этого сыпались, потом стал смотреть счетчики на интерфейсах, почему льет в одну очередь когда qos вообще отсутствует в настройках Port Tx-Bytes-Queue-1 Tx-Bytes-Queue-2 Tx-Bytes-Queue-3 Tx-Bytes-Queue-4 Gi1/8 275988 0 0 0 Port Tx-Bytes-Queue-5 Tx-Bytes-Queue-6 Tx-Bytes-Queue-7 Tx-Bytes-Queue-8 Gi1/8 0 0 0 2234230990749 ну и самое главное откуда сыпятся дропы? show platform software drop-port Drop Port Software State Dequeue Enabled : True DropQueue Water mark Reg : 0x8000600038001D4C DropQueue Water mark Reg : 0x7FE32010 (Empty, PreEmpty, Head:0xED, Tail:0xED) DropActivityCount : 22236165 DropOverrunCount : 0 Drop Event Reason Packets Dropped ----------------- --------------- RxErrDrop 16 SptDrop 144611 InpL2AclDrop 19 InpL3AclDrop 46123 BridgeToRxPortDrop 3541320 rplErrDrop 6576714 TxQueFullDrop 22799697 show platform health PacketBufRaw 184.29 100% 184.29 100% PacketBufRaw 5938.31 100% 5938.31 100% Packets Dropped In Processing Overall Total 5 sec avg 1 min avg 5 min avg 1 hour avg -------------------- --------- --------- --------- ---------- 2839939 1 0 1 0 Packets Dropped In Processing by CPU event Event Total 5 sec avg 1 min avg 5 min avg 1 hour avg ----------------- -------------------- --------- --------- --------- ---------- Sa Miss 2839939 1 0 1 0 Packets Dropped In Processing by Priority Priority Total 5 sec avg 1 min avg 5 min avg 1 hour avg ----------------- -------------------- --------- --------- --------- ---------- Medium 2839939 1 0 1 0 Packets Dropped In Processing by Reason Reason Total 5 sec avg 1 min avg 5 min avg 1 hour avg ------------------ -------------------- --------- --------- --------- ---------- STPDrop 10 0 0 0 0 Tx Mode Drop 2839929 1 0 1 0 Total packet queues 64 Packets Received by Packet Queue Queue Total 5 sec avg 1 min avg 5 min avg 1 hour avg ---------------------- --------------- --------- --------- --------- ---------- Input ACL fwd(snooping) 2108 0 0 0 0 Host Learning 2839893 1 0 1 0 L2 Control 1170963 0 0 0 0 Ip Option 98 0 0 0 0 Ttl Expired 3753040 5 0 2 0 Adj SameIf Fail 8805693 0 0 0 0 L2 router to CPU, 7 3297553 2 0 1 0 L3 Glean, 7 3917159 2 0 1 2 L3 Fwd, 7 610579 0 0 0 0 L3 Receive, 7 1106106 0 0 0 0 Packets Dropped by Packet Queue Queue Total 5 sec avg 1 min avg 5 min avg 1 hour avg ---------------------- --------------- --------- --------- --------- ---------- Adj SameIf Fail 136 0 0 0 0 L3 Glean, 7 13174 0 0 0 0 никаких колец нет.
- Странное поведение catalyst 4948e, kid, 17:47 , 15-Янв-18 (11)
Идей нет? В общем судя по документации циски очередь при переводе порта в L3 становится 75 Input queue: 0/75/0/0 (size/max/drops/flushes), и как рекомендует циско не повышать ее выше 100 единиц, https://www.cisco.com/c/en/us/support/docs/routers/10000-ser..., судя посчетчикам у меня все лилось в 8 очередь что на данном коммутаторе является свободным qos. Возможно ли с ПС с гиговым портом нагенерировать под гиг трафика для разбора на стенде, если поставлю в рабочую сеть и будет опять такая петрушка меня уже точно порешат.
- Странное поведение catalyst 4948e, fantom, 19:24 , 15-Янв-18 (12)
> Идей нет? В общем судя по документации циски очередь при переводе порта > в L3 становится 75 > Input queue: 0/75/0/0 (size/max/drops/flushes), и как рекомендует циско не повышать ее > выше 100 единиц, https://www.cisco.com/c/en/us/support/docs/routers/10000-ser... > , судя посчетчикам у меня все лилось в 8 очередь > что на данном коммутаторе является свободным qos. Возможно ли с ПС > с гиговым портом нагенерировать под гиг трафика для разбора на стенде, > если поставлю в рабочую сеть и будет опять такая петрушка меня > уже точно порешат.https://wiki.linuxfoundation.org/networking/pktgen - Странное поведение catalyst 4948e, Andrey, 21:19 , 15-Янв-18 (13)
> Идей нет? В общем судя по документации циски очередь при переводе порта > в L3 становится 75 > Input queue: 0/75/0/0 (size/max/drops/flushes), и как рекомендует циско не повышать ее > выше 100 единиц, https://www.cisco.com/c/en/us/support/docs/routers/10000-ser... > , судя посчетчикам у меня все лилось в 8 очередь > что на данном коммутаторе является свободным qos. Возможно ли с ПС > с гиговым портом нагенерировать под гиг трафика для разбора на стенде, > если поставлю в рабочую сеть и будет опять такая петрушка меня > уже точно порешат.Первое правило радиолюбителя гласит: нельзя крутить более одной ручки настройки за раз. В вашем случае: сняли, залили свежий IOS - погоняйте на стенде. Соберите инфу со свежими настройками. В режиме L2, в режиме L3. Посмотрите в эти моменты на очереди, интерфейсы, процессор. Попробуйте через разные интерфейсы. Если используете SFP - меняйте модули, патч-корды и т.д. Попробуйте зафлудить маленькими пакетами, большими, Jumbo. Современные компы вполне могут выдать полноценный 1Gb на интерфейсе. Попробуйте iperf-ом погонять.
|