技术文档
当前位置:技术文档

华为S5720交换机一定时间段内有时断时通的现象案例

来源:未知 时间:2019-08-12 14:31
 

     某用户流量网络闪断,在一定时间段内(下午一点至四点半左右)有时断时通的现象。

  1、拓扑描述

  涉及设备:两台汇聚交换机 Huawei - S5720-32X-EI-24S

  两台瑞士康达核心交换机,型号不明

  核心设备与汇聚交换机之间互联链路使用Eth-Trunk技术做了链路聚合。

  两台瑞士康达核心交换机之间为同一堆叠组

  两台5720交换机之间为同一堆叠组。

  

 

  本次排障使用排除法进行故障排查。

  考虑到用户流量闪断,判断可能有以下几点问题存在,并逐一进行排查:

  1: 现网中有运行STP,因此判断可能有TC通告报文引起整个现网拓扑结构收敛,从而导致网络有时断时通现象:

  情况显现时,使用display stp tc-bpdu statistics 查看了整个网络中TCbpdu的统计信息,

  在网络故障显现时,以上三个端口的发送、接收TCbpdu的数量并未增长,且所有端口均为forwarding转发状态,因此排除此故障点。

  2: 怀疑现网中可能存在环路问题导致CPU、接口使用率被占满,因此查看设备CPU以及接口情况判断是否存在环路:

  故障显现时,使用 dis cpu-usage 命令查看cpu使用率,

  数据显示目前CPU使用率只达到百分之20,之后查看接口下带宽使用率

  使用display ip interface brief 命令查看了接口下带宽占用率,结果如下:

  以上查看结果显示接口带宽利用率比较正常,并且上行物理端口以及Eth-Trunk接口都正常运行。

  根据上述两点查看结果,可以排除掉网络中有广播风暴的情况。

  3:经过上述查看,基本排除了几点导致网络大面积瘫痪的原因。接下来使用Wireshark以及流量统计定位网络故障:

  ①.使用ping-t 命令对网关节点地址进行ping测试,

  测试结果中发现,在网络不通时,ICMP报文都是无法发出请求的

  在分析至网络恢复时,主机开始发出ICMP请求报文,网关地址开始回复ICMP报文。

  主机无法发出ICMP报文可能是因为无法进行报文的完整封装,推断主机发出ARP请求可能存在发出或回复失败的现象。

  ②.对ARP报文进行了筛选分析:

  网络中只存在主机的ARP请求报文,并没有核心设备的ARP回复。

  根据上述现象,进一步判断汇聚设备与核心设备之间可能存在阻塞ARP报文回复方面的故障。

  之后针对于上述故障进行进一步排查,因核心无法登录,首先排查汇聚设备是否存在上述故障现象:

  ③.使用流量统计查看本机对ARP报文处理情况:

  首先使用流量统计功能将经过汇聚设备的本机ARP流量进行流量统计,看是否有丢包,

  经过查看发现流量统计中ARP报文统计 Drop字段为丢弃的ARP报文,显示为0,表明此设备没有丢弃过ARP请求、回复报文。

  流量统计结果

  通过以上测试,结果表明汇聚设备对ARP报文处理并未出现问题将故障进一步定位至核心交换机上。

  原因分析

  在排查类似网络故障时,如果没有思路可以先检查一下网络中是否存在STP频繁收敛的现象,以及网络中是否存在环路问题,如果上述两点未发现故障点,可以使用流量统计配合软件看下报文交互是否存在问题。

  本案例问题点在于核心交换机处理ARP报文达到阈值,导致整个网络出现流量闪断,网络瘫痪的现象。

 

  解决方案

  修改核心交换机的ARP报文处理阈值上限。因本案例的故障根因定位在友商设备上,本案例不做配置演示。

  如果Huawei交换机出现此故障现象,可以参考相关设备产品文档来修改CPU处理ARP报文上限阈值。


上一篇:华为交换机的DHCP服务提供地址慢
下一篇:华为S7706 VRRP华为IP话机获取地址异常的解决方法
电子标识编号:20181009000069

售前客服

售前客服

电话:028-83252151

传真:028-85259033

咨询热线:15378180513
在线客服