专业IT设备第三方维保_IT设备维保服务_IT备件服务_网络设备维保_IT设备维修-网度通信

华为S系列交换机如何解决CPU占用率高的问题

2025-09-26 10:56
分享到:
        华为S系列交换机如何解决CPU占用率高的问题
        根据任务和CPU占用率排序判断初步原因后,可以通过该原因进一步分析问题的根本原因并执行相应的故障处理措施。
        判断为硬件故障引起 
        根据任务的CPU占用率排序判断初步原因(框式交换机)
        通过查看display cpu-usage命令的显示信息,获取CPU占用率较高的任务,并重点关注占用率最高的前3个任务(V200R005及后续版本,显示信息中“TaskName”会以CPU占用率高低来排序)。
        根据任务的CPU占用率排序判断初步原因(盒式交换机)
        通过查看display cpu-usage命令的显示信息,获取CPU占用率较高的任务,并重点关注占用率最高的前3个任务(V200R005及后续版本,显示信息中“TaskName”会以CPU占用率高低来排序)。
        根据以上命令查看判断可能为硬件故障,即观察到DEV/HOTT/FMCK/SRMI任务CPU占用率高时,请联系华为交换机维保商网度通信确认是否为硬件故障并进行处理。
        如果业务受影响时,请尝试下手工复位CPU占用率较高的单板(建议采用下电的方式进行复位)来紧急恢复。
        判断为网络攻击引起
 
        现网中导致CPU占用率高的原因,很大一部分是由于网络攻击引起。网络攻击是由于网络中的主机或者网络设备通过发起大量的非正常网络交互对交换机产生冲击,影响交换机的安全性和正常的业务运行。发生网络攻击时,交换机忙于处理来自于攻击源的非正常网络交互请求,具体表现均为某些任务大量占用CPU,导致CPU占用率高。
 
        常见的网络攻击
 
        常见的网络攻击包括ARP、ARP-Miss以及DHCP等协议报文攻击,这些攻击行为的共同特点是攻击源产生大量的协议报文对设备进行冲击,因此可以在设备上看到大量上送CPU的报文统计。
        •ARP协议报文攻击和ARP-Miss协议报文攻击◾ARP和ARP-Miss泛洪攻击
        ◾ARP欺骗攻击
 
        •DHCP协议报文攻击
        •其他攻击◾ICMP攻击
        ◾DDoS攻击
        ◾广播报文攻击
        ◾TTL-expired报文攻击
        ◾目的IP为设备IP的报文攻击
        ◾SSH/FTP/Telnet等应用层协议报文攻击
 
        网络攻击的定位方法
        1.使用display version和display device命令查看交换机的版本信息及部件类型,将获取的信息记录下来,以供后续排查时使用。
        2.使用display cpu-defend statistics命令查看上送CPU报文的统计信息,判断是否存在过多由于来不及处理而丢弃的协议报文。
        a.执行reset cpu-defend statistics命令,清除上送CPU报文的统计信息。
        b.隔几秒display cpu-defend statistics命令,查看上送CPU报文的统计信息。
        如果观察到某种协议报文过多,根据组网判断是否可能出现这么多的协议报文。如果不可能出现这么多协议报文,则可基本判断为协议报文的攻击。
        <HUAWEI> reset cpu-defend statistics
        <HUAWEI> display cpu-defend statistics all
        Statistics on slot 2:
        -----------------------------------------------------------------------------------------------------------
        Packet Type         Pass(Bytes)  Drop(Bytes)   Pass(Packets)   Drop(Packets)
        -----------------------------------------------------------------------------------------------------------
        arp-miss            0           0            0             0
        arp-request          40800       35768        600           52600
        bgp                0           0            0             0
        ……
        -----------------------------------------------------------------------------------------------------------
 
        可以观察到这台设备出现过多被丢弃的ARP-Request报文,如果现网不可能出现这么多的ARP-Request报文,确定设备遭受到了ARP攻击。
 
        3.使用本机防攻击的攻击溯源功能找出攻击源。
 
        设备提供本机防攻击功能来保护CPU,解决CPU因处理大量正常上送CPU的报文或者恶意攻击报文造成的业务中断问题。本机防攻击策略主要包括攻击溯源、端口防攻击、CPCAR和黑名单这四大功能。a.创建基于攻击溯源的本机防攻击策略。i.创建ACL,用于将网关IP加入攻击溯源的白名单。<HUAWEI> system-view
[HUAWEI] acl number 2000 
[HUAWEI-acl-basic-2000] rule 5 permit source 10.1.1.1 0  //10.1.1.1为网关IP地址
[HUAWEI-acl-basic-2000] quit
 
ii.创建基于攻击溯源的本机防攻击策略。[HUAWEI] cpu-defend policy policy1
[HUAWEI-cpu-defend-policy-policy1] auto-defend enable  //使能攻击溯源功能(缺省情况下,未使能该功能)
[HUAWEI-cpu-defend-policy-policy1] undo auto-defend trace-type source-portvlan  //配置攻击溯源的溯源模式为基于源MAC地址和源IP地址(缺省情况下,攻击溯源的溯源模式为基于源MAC地址、基于源IP地址和基于源接口+VLAN。一般是使用undo auto-defend trace-type命令来删除不需要的攻击溯源模式。)
[HUAWEI-cpu-defend-policy-policy1] undo auto-defend protocol 8021x dhcp icmp igmp tcp telnet ttl-expired udp  //删除攻击溯源防范的报文类型(缺省情况下,攻击溯源防范的报文类型为802.1x、ARP、DHCP、ICMP、IGMP、TCP、Telnet、TTL-expired和UDP。)
[HUAWEI-cpu-defend-policy-policy1] auto-defend whitelist 1 acl 2000  //将网关IP加入白名单
[HUAWEI-cpu-defend-policy-policy1] quit 
 
V200R009之后版本,攻击溯源的配置模型进行重新设计,攻击溯源默认使能,溯源的协议按照正常的使用习惯,设计成覆盖式。[HUAWEI] cpu-defend policy policy1
[HUAWEI-cpu-defend-policy-policy1] auto-defend protocol arp //只溯源攻击溯源ARP报文(缺省情况下,攻击溯源防范的报文类型为802.1x、ARP、DHCP、ICMP、IGMP、TCP、Telnet、TTL-expired和UDP。V200R010 新增支持IPv6类型的DHCPv6,ND,ICMPv6,MLD)
[HUAWEI-cpu-defend-policy-policy1] auto-defend whitelist 1 acl 2000  //将网关IP加入白名单
[HUAWEI-cpu-defend-policy-policy1] quit 
 
b.应用本机防攻击策略。•框式交换机
对框式交换机来说,主控板和接口板上均有CPU,本机防攻击策略的配置和应用也需要按主控板和接口板来做区分。
 
先检查主控板和接口板的受报文攻击情况,再创建防攻击策略并应用。如果主控板和接口板上受报文攻击的情况相同,可以在主控板和接口板上应用相同的防攻击策略,否则需要应用不同的防攻击策略。
i.在主控板上应用防攻击策略。<HUAWEI> system-view
[HUAWEI] cpu-defend-policy policy1 
[HUAWEI] quit
 
ii.在接口板上应用防攻击策略。
 
 
如果在所有接口板上应用防攻击策略,则不能在指定接口板上应用该防攻击策略。反之亦然。
◾如果设备的接口板承载业务类似,在所有接口板上应用防攻击策略。<HUAWEI> system-view
[HUAWEI] cpu-defend-policy policy2 global 
 
◾如果设备的接口板承载业务各有差异,在指定接口板上应用防攻击策略。<HUAWEI> system-view
[HUAWEI] slot 1
[HUAWEI-slot-1] cpu-defend-policy policy2
 
•盒式交换机◾非堆叠情况下,在设备上应用防攻击策略。<HUAWEI> system-view
[HUAWEI] cpu-defend-policy policy1 global 
 
◾堆叠情况下:◾在主设备上应用防攻击策略<HUAWEI> system-view
[HUAWEI] cpu-defend-policy policy1 
 
◾在所有堆叠设备上应用防攻击策略<HUAWEI> system-view
[HUAWEI] cpu-defend-policy policy1 global 
 
c.查看攻击源信息。
配置基于攻击溯源的本机防攻击功能后,可以执行display auto-defend attack-source和display auto-defend attack-source slot slot-id命令,查看攻击源信息。
 
识别的攻击源MAC中可能包含网关的MAC地址,需要注意剔除。
 
网络攻击的处理建议
 
根据查看到的攻击源信息,结合现网情况,选择处理方法。
•配置ARP安全功能,防范ARP协议攻击。
针对ARP和ARP-Miss协议报文攻击,可以部署ARP安全功能,来防止设备后续遭受这类攻击。
 
设备提供了多种ARP安全的解决方案,请参考产品文档的“配置指南-安全配置-ARP安全配置”的“ARP安全解决方案”进行配置。
 
•配置攻击溯源的惩罚功能,在指定周期内丢弃识别为攻击的报文。◾使能攻击溯源的惩罚功能,在300秒内,将识别为攻击的报文全部丢弃。<HUAWEI> system-view
[HUAWEI] cpu-defend policy policy1
[HUAWEI-cpu-defend-policy-policy1] auto-defend enable  //使能攻击溯源功能(缺省情况下,未使能该功能)
[HUAWEI-cpu-defend-policy-policy1] auto-defend action deny timer 300  //(缺省情况下,未使能攻击溯源的惩罚功能)
 
◾配置本机防攻击策略的黑名单,直接丢弃黑名单用户上送的报文。
如果判断攻击源为特定用户的恶意报文(假设攻击源为1.1.1.0/24)攻击,可以通过ACL把符合特定特征的用户纳入到黑名单中,被纳入黑名单的用户所发的报文到达设备后均会被丢弃。
 
# 配置ACL 2001匹配源1.1.1.0/24的报文,命中该ACL的特征报文将被设备直接丢弃。
[HUAWEI] acl number 2001
[HUAWEI-acl-basic-2001] rule permit source 1.1.1.0 0.0.0.255
[HUAWEI-acl-basic-2001] quit
[HUAWEI] cpu-defend policy policy1
[HUAWEI-cpu-defend-policy-policy1] blacklist 1 acl 2001
 
◾配置攻击溯源的惩罚功能,将攻击报文进入的接口shutdown,避免攻击源继续攻击设备。
如果判断攻击报文来自某端口,并且将该端口shutdown,不会对设备业务造成影响,可以使用该方法。
 
如果配置攻击溯源的惩罚措施是将攻击报文进入的接口shutdown,有可能会造成设备业务的中断,接口下合法的用户会受牵连,请谨慎使用。
 
# 配置攻击溯源的惩罚措施为将攻击报文进入的端口shutdown。
<HUAWEI> system-view
[HUAWEI] cpu-defend policy policy1
[HUAWEI-cpu-defend-policy-policy1] auto-defend enable  //使能攻击溯源功能(缺省情况下,系统未使能该功能)
[HUAWEI-cpu-defend-policy-policy1] auto-defend action error-down
 
 
判断为网络攻击引起 
判断为网络震荡引起
 
 
出现网络震荡时,网络频繁变动,设备忙于处理网络切换事件,导致CPU占用率高。常见的网络震荡情况包括STP震荡和OSPF路由协议震荡。
 
 
STP震荡
 
在STP频繁震荡时,设备需要不断进行STP拓扑计算,更新MAC表、ARP表等转发表,引起CPU占用率高。
1.定位方法•当怀疑网络中存在频繁的STP震荡时,可以通过隔几秒连续执行display stp topology-change命令查看当前STP的拓扑变化信息,也可以查看设备输出的告警和日志信息观察设备是否产生过STP拓扑变化。
# 隔几秒连续执行一次该命令,查看设备上STP拓扑变化统计信息,观察“Number of topology changes”是否有增长。
<HUAWEI> display stp topology-change 
 CIST topology change information
   Number of topology changes             :35
   Time since last topology change        :0 days 1h:7m:30s
   Topology change initiator(notified)    :GigabitEthernet2/0/6
   Topology change last received from     :101b-5498-d3e0
   Number of generated topologychange traps :   38
   Number of suppressed topologychange traps:   8
 
 MSTI 1 topology change information
   Number of topology changes             :0
 
•确认存在频繁的网络拓扑变化后,隔几秒连续执行display stp tc-bpdu statistics命令查看端口接收到的TC-BPDU统计,以确定TC(Topology Change)报文的来源,找到发送拓扑变化的设备。◾如果显示信息中只有“TC(Send)”计数增长,表明是本设备发生拓扑变化,产生STP震荡。◾如果只是单个接口的“TC(Send)”计数增长,确定是该接口产生震荡。
◾如果是多个接口的“TC(Send)”计数增长,请查看网管事件和日志信息分析STP拓扑变化的根因,确定是哪个端口产生震荡。
 
◾如果显示信息中“TC(Send/Receive)”计数均有增长,先查看本设备网管事件和日志信息排查本设备是否发生拓扑变化,产生STP震荡,再排查与发生问题的端口连接的设备是否产生STP震荡。
 
# 查看端口TC/TCN报文收发计数。
<HUAWEI> display stp tc-bpdu statistics  
-------------------------- STP TC/TCN information --------------------------
 MSTID Port                    TC(Send/Receive)      TCN(Send/Receive)
 0     GigabitEthernet2/0/6        21/4                  0/1 
 0     GigabitEthernet2/0/7        93/0                  0/1 
 0     GigabitEthernet2/0/8        115/0                 0/0 
 0     GigabitEthernet2/0/9        110/0                 0/0 
 0     GigabitEthernet3/0/23       29/5                  0/0
 
 
2.处理建议a.打开TC保护的告警开关,帮助管理用户了解设备对TC报文的具体处理情况。
系统视图下,执行命令snmp-agent trap enable feature-name mstp和stp tc-protection,打开TC保护的告警开关。
 
缺省情况下,设备已启用防拓扑变化攻击功能,在stp tc-protection interval命令指定的生成树协议处理最大数量的TC报文所需的时间内,设备只会处理stp tc-protection threshold指定的最大数量的TC报文。
 
告警开关打开后,设备会触发MSTP_1.3.6.1.4.1.2011.5.25.42.4.2.15 hwMstpiTcGuarded和MSTP_1.3.6.1.4.1.2011.5.25.42.4.2.16 hwMstpProTcGuarded两个告警。
 
关于以上告警的详细信息,请参考告警信息。
 
b.根据拓扑变化情况进行处理•接入侧端口Up/Down引起的STP拓扑变化
在接口视图下通过stp edged-port enable命令将接入侧端口配置为边缘端口,并在系统视图或STP进程视图下通过stp bpdu-protection命令开启BPDU保护功能。
 
•根桥发生了非预期的变化,即“抢根”
执行display stp命令,观察“CIST Root/ERPC”是否为原预期的端口的MAC地址,如果不是则表示根桥发生了非预期的变化。
 
在端口视图下通过stp root-protection命令开启根保护功能,保证拓扑的正确性。
<HUAWEI> display stp
-------[CIST Global Info][Mode MSTP]-------
CIST Bridge:4096 .707b-e8c8-00e9
Config Times:Hello 2s MaxAge 20s FwDly 15s MaxHop 20
Active Times:Hello 2s MaxAge 20s FwDly 15s MaxHop 20
CIST Root/ERPC:4096 .707b-e8c8-00e9 / 0 (This bridge is the root)
CIST RegRoot/IRPC:4096 .707b-e8c8-00e9 / 0 (This bridge is the root)
CIST RootPortId:0.0
BPDU-Protection:Disabled
CIST Root Type:Secondary root
TC or TCN received:1
TC count per hello:0
STP Converge Mode:Normal 
Share region-configuration :Enabled
Time since last TC:1 days 14h:25m:38s
Number of TC:2
Last TC occurred:GigabitEthernet0/0/1
----[Port18(GigabitEthernet0/0/1)][LEARNING]----
Port Protocol:Enabled
Port Role:Designated Port
Port Priority:128
Port Cost(Dot1T ):Config=auto / Active=20000
Designated Bridge/Port:4096.707b-e8c8-00e9 / 128.18
Port Edged:Config=default / Active=disabled
Point-to-point:Config=auto / Active=true
Transit Limit:6 packets/s
Protection Type:None
Port STP Mode:STP 
Port Protocol Type:Config=auto / Active=dot1s
BPDU Encapsulation:Config=stp / Active=stp
PortTimes:Hello 2s MaxAge 20s FwDly 15s RemHop 20
TC or TCN send:0
TC or TCN received:0
BPDU Sent:11
TCN: 0, Config: 12, RST: 0, MST: 1
BPDU Received:0
TCN: 0, Config: 1, RST: 0, MST: 0
 
 
c.如果无法找到拓扑变化原因或者执行以上处理措施后故障依然存在,请收集组网信息(包括端口连接情况)和日志信息(可以是log.log日志文件,也可以是执行display logbuffer输出的信息),联系华为交换机维保服务商网度通信获取支持。
 
 
 
OSPF路由协议震荡
 
路由协议震荡会导致路由信息的重新扩散和路由表的重新计算,对设备CPU产生影响。交换机的实际应用中,通常使用OSPF协议对动态路由信息进行管理,因此这里介绍常见的OSPF路由协议震荡。1.定位方法•通过命令display ospf peer last-nbr-down查看OSPF邻居状态Down的原因。
根据输出信息的“Immediate Reason”字段和“Primary Reason”字段查看原因。
 
•通过日志查看OSPF邻居状态Down的原因。
执行display logbuffer命令,查看如下日志信息:
OSPF/3/NBR_DOWN_REASON:Neighbor state leaves full or changed to Down. (ProcessId=[USHORT], NeighborRouterId=[IPADDR],NeighborAreaId=[ULONG], NeighborInterface=[STRING],NeighborDownImmediate reason=[STRING], NeighborDownPrimeReason=[STRING],NeighborChangeTime=[STRING])
 
NeighborDownImmediate reason关键字记录的是OSPF邻居Down的原因。
 
 
2.处理建议
根据关键字段判断原因并采取相应措施。
 
OSPF邻居Down的原因一般会有以下几种:•Neighbor Down Due to Inactivity
表示在deadtime时间(在接口视图下通过ospf timer dead命令配置)内没有收到Hello报文导致OSPF邻居Down。
 
OSPF邻居Down一般包括OSPF邻居震荡和OSPF邻居建立不起来。持续执行display ospf peer brief 命令,查看当前是OSPF邻居震荡还是OSPF邻居无法建立。◾OSPF邻居震荡
设备上OSPF CPCAR值过小、接口链路震荡或接口链路拥塞、大量LSA flooding都会导致OSPF邻居关系震荡。
a.执行命令display cpu-defend statistics packet-type ospf查看上送CPU的OSPF报文统计信息,如果OSPF丢包过多,请排查设备是否受到OSPF报文攻击或OSPF的CPCAR值设置过小。
b.通过日志信息查看接口Up/Down的记录情况。如果出现链路震荡或链路拥塞,请对接口链路进行检查。
c.如果配置的OSPF邻居失效时间小于20s,建议在接口视图下通过ospf timer dead interval命令将OSPF邻居失效时间配置为20s以上。
d.建议OSPF视图下通过sham-hello enable命令使能OSPF的sham-hello功能,允许设备通过LSU等非hello报文维持邻居关系,从而可以更灵敏的感知OSPF邻居的存在,使邻居关系更加稳定。
e.如果执行上述措施后仍然无法解决问题,建议联系华为交换机维保服务商网度通信获取支持
 
◾OSPF邻居无法建立
排查两端OSPF视图下的配置是否一致,如果区域ID,区域类型(NSSA区域、STUB区域、普通区域)等配置不一致,会导致邻居无法建立。
 
执行命令display ospf [ process-id ] interface查看Interface字段,检查对应的接口是否被成功使能OSPF。
<HUAWEI> display ospf 1 interface
 
          OSPF Process 1 with Router ID 2.2.2.2
                  Interfaces
 
 Area: 0.0.0.0          (MPLS TE not enabled)
Interface           IP Address      Type         State    Cost    Pri
Eth0/1/1            10.1.1.2        Broadcast    Waiting  1       1
◾如果对应的接口没有使能OSPF,请在接口视图下执行命令ospf enable [ process-id ] area area-id将接口使能OSPF。
◾如果对应的接口已经被使能到OSPF进程,请隔几秒连续执行display ospf error命令,查看Bad authentication type和Bad authentication key字段,确认两端设备的OSPF认证信息是否匹配:<HUAWEI> display ospf 1 error
 
          OSPF Process 1 with Router ID 2.2.2.2
                  OSPF error statistics
 
General packet errors:
 0           : IP: received my own packet     3           : Bad packet
 0           : Bad version                  0           : Bad checksum
 0           : Bad area id                  0           : Drop on unnumbered interface
 0           : Bad virtual link             3        : Bad authentication type
 0           : Bad authentication key        0           : Packet too small
 0           : Packet size > ip length         0           : Transmit error
 0           : Interface down               0           : Unknown neighbor
 0           : Bad net segment           0           : Extern option mismatch
 
 
- 如果Bad authentication type或者Bad authentication key计数持续增长,说明两端的OSPF认证信息不匹配,请在接口视图下执行ospf authentication-mode命令或者在OSPF区域视图下执行authentication-mode命令将两端设备配置相同的认证信息。
 
- 如果Bad authentication type或者Bad authentication key计数不增长,说明认证信息匹配,且多次执行命令display ospf peer显示邻居时有时无,有可能是OSPF邻居震荡,请参考“OSPF邻居震荡”进行处理。
 
 
 
•Neighbor Down Due to Kill Neighbor
表示因为接口Down、BFD Down或执行了reset ospf process操作。
 
请查看NeighborDownPrimeReason字段判断具体原因。
 
•Neighbor Down Due to 1-Wayhello Received或Neighbor Down Due to SequenceNum Mismatch
表示因为对端OSPF状态首先变成Down,从而向本端发送1-Wayhello,导致本端OSPF状态也变成Down。
 
请先排查对端设备的原因。
其它导致OSPF邻居Down的原因,请参考日志信息的“OSPF/3/NBR_DOWN_REASON”的日志详细信息
 
判断为网络震荡引起 
判断为网络震荡引起
 
 
出现网络震荡时,网络频繁变动,设备忙于处理网络切换事件,导致CPU占用率高。常见的网络震荡情况包括STP震荡和OSPF路由协议震荡。
 
 
STP震荡
 
在STP频繁震荡时,设备需要不断进行STP拓扑计算,更新MAC表、ARP表等转发表,引起CPU占用率高。
1.定位方法•当怀疑网络中存在频繁的STP震荡时,可以通过隔几秒连续执行display stp topology-change命令查看当前STP的拓扑变化信息,也可以查看设备输出的告警和日志信息观察设备是否产生过STP拓扑变化。
# 隔几秒连续执行一次该命令,查看设备上STP拓扑变化统计信息,观察“Number of topology changes”是否有增长。
<HUAWEI> display stp topology-change 
 CIST topology change information
   Number of topology changes             :35
   Time since last topology change        :0 days 1h:7m:30s
   Topology change initiator(notified)    :GigabitEthernet2/0/6
   Topology change last received from     :101b-5498-d3e0
   Number of generated topologychange traps :   38
   Number of suppressed topologychange traps:   8
 
 MSTI 1 topology change information
   Number of topology changes             :0
 
•确认存在频繁的网络拓扑变化后,隔几秒连续执行display stp tc-bpdu statistics命令查看端口接收到的TC-BPDU统计,以确定TC(Topology Change)报文的来源,找到发送拓扑变化的设备。◾如果显示信息中只有“TC(Send)”计数增长,表明是本设备发生拓扑变化,产生STP震荡。◾如果只是单个接口的“TC(Send)”计数增长,确定是该接口产生震荡。
◾如果是多个接口的“TC(Send)”计数增长,请查看网管事件和日志信息分析STP拓扑变化的根因,确定是哪个端口产生震荡。
 
◾如果显示信息中“TC(Send/Receive)”计数均有增长,先查看本设备网管事件和日志信息排查本设备是否发生拓扑变化,产生STP震荡,再排查与发生问题的端口连接的设备是否产生STP震荡。
 
# 查看端口TC/TCN报文收发计数。
<HUAWEI> display stp tc-bpdu statistics  
-------------------------- STP TC/TCN information --------------------------
 MSTID Port                    TC(Send/Receive)      TCN(Send/Receive)
 0     GigabitEthernet2/0/6        21/4                  0/1 
 0     GigabitEthernet2/0/7        93/0                  0/1 
 0     GigabitEthernet2/0/8        115/0                 0/0 
 0     GigabitEthernet2/0/9        110/0                 0/0 
 0     GigabitEthernet3/0/23       29/5                  0/0
 
 
2.处理建议a.打开TC保护的告警开关,帮助管理用户了解设备对TC报文的具体处理情况。
系统视图下,执行命令snmp-agent trap enable feature-name mstp和stp tc-protection,打开TC保护的告警开关。
 
缺省情况下,设备已启用防拓扑变化攻击功能,在stp tc-protection interval命令指定的生成树协议处理最大数量的TC报文所需的时间内,设备只会处理stp tc-protection threshold指定的最大数量的TC报文。
 
告警开关打开后,设备会触发MSTP_1.3.6.1.4.1.2011.5.25.42.4.2.15 hwMstpiTcGuarded和MSTP_1.3.6.1.4.1.2011.5.25.42.4.2.16 hwMstpProTcGuarded两个告警。
 
关于以上告警的详细信息,请参考告警信息。
 
b.根据拓扑变化情况进行处理•接入侧端口Up/Down引起的STP拓扑变化
在接口视图下通过stp edged-port enable命令将接入侧端口配置为边缘端口,并在系统视图或STP进程视图下通过stp bpdu-protection命令开启BPDU保护功能。
 
•根桥发生了非预期的变化,即“抢根”
执行display stp命令,观察“CIST Root/ERPC”是否为原预期的端口的MAC地址,如果不是则表示根桥发生了非预期的变化。
 
在端口视图下通过stp root-protection命令开启根保护功能,保证拓扑的正确性。
<HUAWEI> display stp
-------[CIST Global Info][Mode MSTP]-------
CIST Bridge:4096 .707b-e8c8-00e9
Config Times:Hello 2s MaxAge 20s FwDly 15s MaxHop 20
Active Times:Hello 2s MaxAge 20s FwDly 15s MaxHop 20
CIST Root/ERPC:4096 .707b-e8c8-00e9 / 0 (This bridge is the root)
CIST RegRoot/IRPC:4096 .707b-e8c8-00e9 / 0 (This bridge is the root)
CIST RootPortId:0.0
BPDU-Protection:Disabled
CIST Root Type:Secondary root
TC or TCN received:1
TC count per hello:0
STP Converge Mode:Normal 
Share region-configuration :Enabled
Time since last TC:1 days 14h:25m:38s
Number of TC:2
Last TC occurred:GigabitEthernet0/0/1
----[Port18(GigabitEthernet0/0/1)][LEARNING]----
Port Protocol:Enabled
Port Role:Designated Port
Port Priority:128
Port Cost(Dot1T ):Config=auto / Active=20000
Designated Bridge/Port:4096.707b-e8c8-00e9 / 128.18
Port Edged:Config=default / Active=disabled
Point-to-point:Config=auto / Active=true
Transit Limit:6 packets/s
Protection Type:None
Port STP Mode:STP 
Port Protocol Type:Config=auto / Active=dot1s
BPDU Encapsulation:Config=stp / Active=stp
PortTimes:Hello 2s MaxAge 20s FwDly 15s RemHop 20
TC or TCN send:0
TC or TCN received:0
BPDU Sent:11
TCN: 0, Config: 12, RST: 0, MST: 1
BPDU Received:0
TCN: 0, Config: 1, RST: 0, MST: 0
c.如果无法找到拓扑变化原因或者执行以上处理措施后故障依然存在,请收集组网信息(包括端口连接情况)和日志信息(可以是log.log日志文件,也可以是执行display logbuffer输出的信息),联系联系华为交换机维保服务商网度通信获取支持
OSPF路由协议震荡
路由协议震荡会导致路由信息的重新扩散和路由表的重新计算,对设备CPU产生影响。交换机的实际应用中,通常使用OSPF协议对动态路由信息进行管理,因此这里介绍常见的OSPF路由协议震荡。1.定位方法•通过命令display ospf peer last-nbr-down查看OSPF邻居状态Down的原因。
根据输出信息的“Immediate Reason”字段和“Primary Reason”字段查看原因。
 
•通过日志查看OSPF邻居状态Down的原因。
执行display logbuffer命令,查看如下日志信息:
OSPF/3/NBR_DOWN_REASON:Neighbor state leaves full or changed to Down. (ProcessId=[USHORT], NeighborRouterId=[IPADDR],NeighborAreaId=[ULONG], NeighborInterface=[STRING],NeighborDownImmediate reason=[STRING], NeighborDownPrimeReason=[STRING],NeighborChangeTime=[STRING])
 
NeighborDownImmediate reason关键字记录的是OSPF邻居Down的原因。
 
2.处理建议
根据关键字段判断原因并采取相应措施。
 
OSPF邻居Down的原因一般会有以下几种:•Neighbor Down Due to Inactivity
表示在deadtime时间(在接口视图下通过ospf timer dead命令配置)内没有收到Hello报文导致OSPF邻居Down。
 
OSPF邻居Down一般包括OSPF邻居震荡和OSPF邻居建立不起来。持续执行display ospf peer brief 命令,查看当前是OSPF邻居震荡还是OSPF邻居无法建立。◾OSPF邻居震荡
设备上OSPF CPCAR值过小、接口链路震荡或接口链路拥塞、大量LSA flooding都会导致OSPF邻居关系震荡。
a.执行命令display cpu-defend statistics packet-type ospf查看上送CPU的OSPF报文统计信息,如果OSPF丢包过多,请排查设备是否受到OSPF报文攻击或OSPF的CPCAR值设置过小。
b.通过日志信息查看接口Up/Down的记录情况。如果出现链路震荡或链路拥塞,请对接口链路进行检查。
c.如果配置的OSPF邻居失效时间小于20s,建议在接口视图下通过ospf timer dead interval命令将OSPF邻居失效时间配置为20s以上。
d.建议OSPF视图下通过sham-hello enable命令使能OSPF的sham-hello功能,允许设备通过LSU等非hello报文维持邻居关系,从而可以更灵敏的感知OSPF邻居的存在,使邻居关系更加稳定。
e.如果执行上述措施后仍然无法解决问题,建议联系华为交换机维保服务商网度通信获取支持
 
◾OSPF邻居无法建立
排查两端OSPF视图下的配置是否一致,如果区域ID,区域类型(NSSA区域、STUB区域、普通区域)等配置不一致,会导致邻居无法建立。
 
执行命令display ospf [ process-id ] interface查看Interface字段,检查对应的接口是否被成功使能OSPF。
<HUAWEI> display ospf 1 interface
 
          OSPF Process 1 with Router ID 2.2.2.2
                  Interfaces
 
 Area: 0.0.0.0          (MPLS TE not enabled)
Interface           IP Address      Type         State    Cost    Pri
Eth0/1/1            10.1.1.2        Broadcast    Waiting  1       1
◾如果对应的接口没有使能OSPF,请在接口视图下执行命令ospf enable [ process-id ] area area-id将接口使能OSPF。
◾如果对应的接口已经被使能到OSPF进程,请隔几秒连续执行display ospf error命令,查看Bad authentication type和Bad authentication key字段,确认两端设备的OSPF认证信息是否匹配:<HUAWEI> display ospf 1 error
 
          OSPF Process 1 with Router ID 2.2.2.2
                  OSPF error statistics
 
General packet errors:
 0           : IP: received my own packet     3           : Bad packet
 0           : Bad version                  0           : Bad checksum
 0           : Bad area id                  0           : Drop on unnumbered interface
 0           : Bad virtual link             3        : Bad authentication type
 0           : Bad authentication key        0           : Packet too small
 0           : Packet size > ip length         0           : Transmit error
 0           : Interface down               0           : Unknown neighbor
 0           : Bad net segment           0           : Extern option mismatch
 
- 如果Bad authentication type或者Bad authentication key计数持续增长,说明两端的OSPF认证信息不匹配,请在接口视图下执行ospf authentication-mode命令或者在OSPF区域视图下执行authentication-mode命令将两端设备配置相同的认证信息。
- 如果Bad authentication type或者Bad authentication key计数不增长,说明认证信息匹配,且多次执行命令display ospf peer显示邻居时有时无,有可能是OSPF邻居震荡,请参考“OSPF邻居震荡”进行处理。
 
•Neighbor Down Due to Kill Neighbor
表示因为接口Down、BFD Down或执行了reset ospf process操作。
 
请查看NeighborDownPrimeReason字段判断具体原因。
 
•Neighbor Down Due to 1-Wayhello Received或Neighbor Down Due to SequenceNum Mismatch
表示因为对端OSPF状态首先变成Down,从而向本端发送1-Wayhello,导致本端OSPF状态也变成Down。
 
请先排查对端设备的原因。
其它导致OSPF邻居Down的原因,请参考日志信息的“OSPF/3/NBR_DOWN_REASON”的日志详细信息。
 
判断为网络环路引起 
判断为网络环路引起
 
 
出现网络环路时,设备上MAC表频繁漂移,同时产生的广播风暴造成大量协议报文上送设备处理,导致CPU占用率高。
1.定位方法
网络出现环路后,一般会有如下现象产生:
•设备CPU占用率超过80%。
•设备上发生环路的VLAN的接口指示灯频繁闪烁。
•设备出现频繁的MAC漂移。
•管理用户无法远程登录设备,并且使用Console口登录设备进行操作时,操作比较慢。
•通过Ping命令进行网络测试时丢包严重。
•使用display interface命令查看接口统计信息时,发现接口收到大量广播报文。
•部署环路检测功能后,设备出现环路告警。
•设备下接的PC机上收到大量的广播报文或未知单播报文。
 
2.处理建议a.通过接口指示灯的闪烁情况和接口流量情况,确认存在广播风暴的接口。
b.根据链路拓扑,逐跳排查产生环路的设备。
c.判断产生环路的接口并破环。
d.如果执行上述措施后仍然无法解决问题,请收集组网信息(包括端口连接情况)和日志信息(可以是log.log日志文件,也可以是执行display logbuffer输出的信息),联系交换机维保服务商网度通信工程师获取支持。
 
上一篇:Dell Storage Center SC100/SC120扩展柜组件风扇电源驱动故障排除
下一篇:没有了