某公司网络全部为内部网络,不与internet连接,出口防火墙连接集团内网,下联核心交换机,核心交换机下连“下属单位”防火墙。如下图所示:
前一段时间上午8-10点左右网络及应用访问缓慢,内网用户ping DMZ区服务器时会产生大量丢包,甚至无法正常提供服务,而且会不定时的网络访问慢,严重的影响了正常的工作。经过一段时间的排查,并没有发现网络及应用产生故障的原因。
这时通过网络中部署的科来网络回溯分析系统对之前发生的问题进行长时间的回溯分析,定位到故障发生的时段,来重现故障当时的情景,以便帮助我们找到产生问题的根本原因,解决问题。
上图为发生异常的3小时的流量视图,并且为网络总流量及进出流量做出统计,可以看到总流量已经占出口带宽的70%左右,峰值达到了682.35Mbps,顺时的网络利用率甚至更高,已经达到非常高网络利用率,会造成大量的数据包丢失。
详细分析:
经过针对网络应用分析,发现这3小时的数据中,未知的UDP应用流量占用了总流量的99%以上(如下图)。
通过进行未知UDP应用的深入挖掘分析,可以发现大量UDP 2425 端口的单方向通讯。
所以基本我们可以确定网络中产生大数据量传输导致网络慢的原因就是内网中这些使用UDP 2425 端口进行通讯的数据占用了网络的大量带宽,导致网络中产生很多丢包,造成访问应用系统慢。
查找占用带宽较大的ip时,发现基本所有大流量传输的ip地址均为“该公司下属单位”网段的ip地址。
经过查阅资料和udp会话分析发现,使用UDP2425端口是飞秋软件,飞秋(FeiQ)是一款局域网聊天传送文件的绿色软件,它参考了飞鸽传书(IPMSG)和QQ, 完全兼容飞鸽传书(IPMSG)协议。
通过“下载分析”针对一个UDP2425会话进行解码分析,发现数据包的标
识相同且TTL值递减,每次捕获的TTL的值都是递减2,可能存在路由环路,这就造成了大量相同的数据重复传输,导致网络性能降低,大量丢包。
网络环路分析:
下载数据包进行精细分析,我们可以对其中的两台主机传输的数据包进行解码分析,发现数据中存在大量IP端口相同并且具有相同的ip标识位的数据包,这就证明了这个主机之间传输的数据包为同一个数据包。
再来定位到数据包中的TTL字段,发现数据包的TTL值呈现逐步递减的趋势,每个数据包TTL值减二,这就说明了这个数据包在传输的过程中经过了2个三层设备的处理后又回到了核心交换机与防火墙上联的接口,被再次捕获。
经过确认,在防火墙上发现一条为192.168.0.0/16指向核心交换机的路由。这就造成了“下属公司“网段中发往192.168.0.0/16网段的数据包,由于在核心交换机没有精确匹配的路由,所以通过核心交换机的默认路由指向防火墙,而经过防火墙后被防火墙的192.168.0.0/16路由指回核心交换机,这样就形成了路由环路。
分析结果:
通过对内网的整体流量分析,发现大量未知UDP2425流量,占用总带宽的
99%,导致网络其他访问慢。经过“下载分析”发现由于路由环路导致。
其中“下属公司“的网段到总部的一些网段之间路由配置存在问题,产生路
由环路,造成了核心交换和防火墙之间传输大量数据,阻塞链路带宽,造成网络传输效率降低,产生网络问题。
紧急处理办法:
通过联系“下属公司”网络管理员,禁止了“下属公司“的防火墙到核心交
换机的UDP2425的流量,之后网络流量恢复正常。故障现象基本消失,网络恢复正常。
网络优化建议:
针对本次流量异常情况,我们建议修改防火墙上的路由配置,精细路由条目,
进行整理规划,或禁止UDP2425的流量。
类似的路由环路可以通过“黑洞路由”的方式避免,在上级路由器使用汇总路由,而下级路由器配置缺省路由,同时汇总的网段中有部分子网未使用的情况下,最好在下级设备中额外配置一条静态路由,将汇总的大网段指向空接口。例如:上级设备(防火墙)配置192.168.0.0/16指向下级核心交换机,下级核心交换机则配置192.168.0.0/16指向“null 0”接口(针对cisco路由器)。由于路由转发遵循精确匹配原则,这样配置不会影响下级路由器已配置的子网访问,只是将目标地址为未配置的子网主机的数据包丢弃,避免环路发生。
因篇幅问题不能全部显示,请点此查看更多更全内容