某银行客户办公网与设备带外管理网属于同一网段,其通过网管监控发现,大量设备在特定时间出现管理口利用率和设备CPU利用率突增情况,CPU利用率最高可达到95%,管理口利用率设备运行存在安全隐患。
1、采集客户设备日志和diag信息,分析客户组网
2、查看当前设备上的报文计数信息:
=====================================================================
===============display cpu-defend statistics all===============
=====================================================================
Statistics on mainboard:
--------------------------------------------------------------------------------
Packet Type Pass(Packet/Byte) Drop(Packet/Byte) Last-dropping-time
--------------------------------------------------------------------------------
8021x 0 0 -
0 0
……..
asdp 0 0 -
0 0
bfd 138866273 0 -
9720639110 0
……..
vrrp 1038299918 0 -
NA NA
可以看出该设备当前状态上是BFD以及VRRP两类报文的量级很大,存在大量上送的情况, 且对应的丢包计数都是为0;
3、查看后台日志,对应的时间点(05:57:54 和06:57:53)上后台日志都有相应的超限记录:
05:57:54之前:
Feb 24 2022 05:56:15+08:00 XAD01-BF-DS02 SECE/4/OLC_START:OID 1.3.6.1.4.1.2011.5.25.165.2.2.11.1 CPU overload control start in slot 7. (Threshold1=95%, CurrentCpuUsage=96%, Cycle=2s)
Feb 24 2022 05:57:36+08:00 XAD01-BF-DS02 SECE/4/OLC_STOP:OID 1.3.6.1.4.1.2011.5.25.165.2.2.11.2 CPU overload control stop in slot 7. (Threshold1=95%, CurrentCpuUsage=13%, Cycle=2s)
4、对应任务线程:排前三占用CPU的线程分别是(SOCK+ METH+MERX)
设备在CPU 冲高的时间点上,存在大量报文走管理口上送,这部分报文不丢弃直接上送导致了CPU 占用率偏高,而管理口为何会发送报文且报文数量有突增,需要进一步排查。
5、通过与客户核对分析网络结构发现,其办公网地址段和设备的带外管理地址段的网关都是同一个,且都是部署在S7706上,虽然网络中设备带外管理都是通过vpn上送到带外管理交换机,但带外管理交换机是二层透传的方式将管理vlan上送到S7706进行终结,从本质上说,其办公网和设备的带外管理口都属于同一个网络,如果办公网存在网络冲突或中毒等问题,也会导致设备的管理口收到相关的报文,影响设备CPU的性能,按照如上思路排查,在S7706上发现有大量的ARP冲突告警,
#Feb 10 2022 08:01:27+08:00 XAD01-BF-DS02 ARP/4/ARP_IPCONFLICT_TRAP:OID 1.3.6.1.4.1.2011.5.25.123.2.6 ARP detects IP conflict. (IP address=10.87.0.199, Local interface=Ethernet0/0/0, Local MAC=3c2a-f411-54e6, Local vlan=0, Local CE vlan=0, Receive interface=Ethernet0/0/0, Receive MAC=14a0-f89b-5e23, Receive vlan=0, Receive CE vlan=0, IP conflict type=Remote IP conflict).
同时也发现设备上存在该地址地址冲突问题
通过跟踪排查,查询对应mac地址发现,其地址是在办公网内的一台打印机地址,与防火墙出口的一条nat地址冲突,因NAT地址已经不再使用,删除NAT配置,保留打印机地址。为了进一步判断确认故障源头,与客户协商在带外交换机上配置7706管理口接到交换机端口入方向端口镜像,进行故障定位。
6、在随后的测试阶段,交换机管理口依旧收到突然报文,通过抓取的镜像口报文分析,发现大量的HTTP报文,地址源是10.87.0.199 ,即打印机地址,通过分析,该打印开启的web访问服务,用户在访问其web应用时,会给同网段用户周期性的发送http访问请求,从而导致问题发生,随后客户拔除该打印机后,突发告警不再出现。