组网架构:S7700交换机作为核心交换机,连接1、2、3、4四个的不同的IP地址段,为四个地址段的网关。
问题描述:网络中四个网段终端均可ping通核心层S7700,但1网段与4网段中部分IP地址无法相互ping通,其他地址连接正常,网络可能无告警。
1、排查除核心层交换机以外的设备网络状态,将障碍锁定在S7700交换机。
2、检查问题IP网段所在的板卡槽位;进入诊断视图,输入命令display hg-connection slot 6,显示设备目标槽位板卡所连接的主板芯片。显示:
HGID (Unit, Port) --> (SruSlot, Chip, HG)
---------------------------------------------
hg2 ( 1, 28) --> ( 7, 0, HG11 )
hg1 ( 0, 27) --> ( 7, 0, HG13 )
hg0 ( 0, 26) --> ( 8, 0, HG11 )
hg3 ( 1, 29) --> ( 8, 0, HG13 )
由此可知,6号槽位接口板通过0号芯片的HG1连接到7号主控板的(7号主控板位现设备的备用主控板)
3、进入诊断视图,输入命令lsw-command 6 0 by-string ps hg,查询6号板卡的工作状态。显示:
ena/ speed/ link auto STP lrn inter max loop
port link duplex scan neg? state pause discrd ops face frame back
hg0 up 13G FD HWSW No Forward None FA XGMII 16360
hg1 down 13G FD HWSW No Forward None FA XGMII 16360
hg2 up 13G FD HWSW Yes Forward None F XGMII 16360
hg3 up 13G FD HWSW Yes Forward None F XGMII 16360
看到6号接口板的HG1未UP,这样会导致跨板的流量存在丢包。这种情况下是7号主控或者6号接口板问题,7号主控问题概率大点。
4、拔下7号主控板卡,6号接口板直连8号主控板,网络恢复正常。
5、更换7号主控板后再通过如下命令查看6号接口板卡的HG1
根因
板卡硬件损坏原因
解决方案
更换7号主控板卡通过如下命令查看6号接口板的HG1是否正常UP。查询命令如下:
进入诊断视图:
debugging lsw-command slot 6 open
lsw-command 6 0 by-string ps hg
如果插上7号主控该HG还是DOWN状态,则是6号接口板问题,需要更换6号接口板到其他槽位继续诊断,更换6号接口板。
建议与总结
当出现交换机部分链路中断的情况下,很有可能是由于硬件板卡故障导致跨板流量丢包。应检查硬件设备。