关于IP承载网分布式网络质量监测和故障定位技术的浅研

(整期优先)网络出版时间:2016-09-19
/ 2

关于IP承载网分布式网络质量监测和故障定位技术的浅研

刘嘉荣

东莞移动公司523129

摘要:本论文通过对当前各种监控系统的监控方式进行深入地分析和比较开发了一个基于IP可视化分析技术的IP网络监控系统,主要用于IP承载网网络性能监控和故障定位。

关键词:IP承载网;网络质量监测;传输网

0前言

IP承载网是各运营商承载对传输质量要求较高的业务的一张以IP技术构建的专网,承载的业务有软交换、重点客户VPN、视讯及其他自有高价值业务等。IP承载网作为运营商最重要业务载体(如软交换、视讯、重点客户VPN等),网络安全性很重要,同时网络规模比较大,通过传统的人工测试方式难以达到网络的7x24小时监控,并且由于IP承载网采用双层面以及设备冗余等技术力求网络达到高可靠性和高安全性,导致一些隐藏的性能问题难以发现。但是一旦网络出现问题,往往会导致巨大的经济损失和社会影响。

1IP承载网分布式网络质量监测和故障定位系统的定位

1.1当前IP承载网维护的现状

传统的IP承载网故障定位主要依靠工程师对网络设备进行查看,或者依靠承载网网管进行MIB和参数分析进行;涉及到软交换网络故障的定位也主要依靠软交换、IP承载网、传输网三网的专业工程师基于故障现象及告警对各自专业的网络设备进行查看,再汇总分析。这种方法已经无法适应IP承载网承担移动公司核心业务的质量维护要求。目前的维护手段主要有以下几个关键缺点:

(1)单一维护对象,无法彻底定位故障点。

IP承载网位于整个网络架构的中间层次,基于之下的传输网络,并为之上的软交换网络提供支撑。通常来说当工程师收到故障申告的时候,这个故障可能位于不同层面,可能是由于传输网络造成的,也可能是由于软交换设备造成的,当然也可能是IP承载网造成的。由于IP承载网的维护人员没有手段对传输网络和软交换网络进行分析,实际上无法对网络故障进行根本定位。

(2)由于故障维护的部门分割导致故障定位速度缓慢。

由于IP承载网部门的工程师无法判断传输网络和软交换网络的可能影响,导致当发生故障时故障处理信息不得不反复在几个部门之间进行传递。这就对故障监测和定位速度造成了严重影响。经验表明,通常排除一个软交换网络的故障(包括传输,IP承载网或者软交换)只需要几分钟,而定位这个故障点却往往需要几个小时。这就是由于对网络维护条块分割造成的。

(3)无法进行预防式维护。

由于存在大量手工操作,无法对IP承载网的质量进行长期和不间断的测量,无法覆盖整个IP承载网络,造成不能对可能出现的故障提前发现。故障处理总是处于补救阶段。

(4)目前的网管系统没有网络流量拓扑发现及维护功能,现网中实际的流量拓扑结构有可能会同网络建设前期网络规划的流量拓扑结构有些许差异。

在网络维护过程中,维护人员对流量拓扑结构也并没有清晰的认识,因此当网络出现链路或节点故障出现时,路由拓扑发生变化,网络流量也进行相应的切换,但切换后的路径,维护人员无法对其有直观、清晰的判断。因此,IP承载网维护人员无法快速、直观掌握整个软交换网络中流量拓扑结构,并对故障原因进行深入挖掘、定位。

1.2分布式端到端网络质量监测方案

分布式端到端测试是基于多点到多点之间的测试,点与点之间跨越的网元设备包括多个,在多个测试端之间形成一个完全覆盖所有链路的测试,对整个网络的性能进行全面的评估。

从测试的范围和测试的方式来讲,分布式端到端的测试是一种可扩展性强、覆盖范围广、更为完善的性能测试解决方案。将原来的点到点、点到线测试方式逐渐延伸到点到面的full-mesh矩阵式测试方式。

其应用场景是基于IP承载网和软交换的结构,如下图所示:

测试的场景包括:

1)AR到AR之间骨干链路的IP质量(时延,丢包,抖动)。

2)不同局向MGW到MGW之间的语音质量(MOS和PESQ)。

3)MSCServer到MGW之间H.248和SCTP信令连接的性能(时延,抖动,延迟,丢包)。

4)MSCServer之间的BICC和SCTP的信令连接性能。

5)MSCServer和MGW之间的骨干链路的IP质量。

2面向服务的故障处理解决方案

面向服务的故障处理解决方案是通过对网络故障的综合分析,对CE设备,网络路由,流量拓扑和业务层面倒换等网络深层信息进行集中显示和关联,从而使得工程师能够对整个网络的流量变化和路径变化做到心中有数。

建设内容包括以下方面:

1)业务流量模型查询:通过输入源、目的点,显示业务流量路径;通过SSH读取各个路由器上的路由和流量数据,并以可视化的方式显示出来。

2)故障模型查询:通过输入故障点、源、目的点,显示故障时业务流量路径。

3)自动采集故障设备信息:一线监控工程师通过选择故障网元,可自动采集相关信息并生成信息文件。

4)故障前后的业务流量路径对比、分析;

5)可视化显示软交换设备的倒换和路径变化情况。

6)建立IP承载网故障定位分析专家知识库,通过基于XML的专家知识库建立一套可扩展,可迁移的专家帮助系统。

面向服务的故障处理功能,包括动态路由监控、流量拓扑分析。具体如下文所示:

①动态路由监控分析

IP承载网是一个高度冗余备份的网络,网络本身会比较安全,但是也意味着在出现问题时比较隐蔽,通过对路由的动态监控,可以及时的发现路由倒换发生,并在第一时间通过与传输告警进行匹配,找到问题发生的原因,定位发生故障的设备和环节。在网络拓扑图上直观展示路由倒换的情况,通过不同的颜色来展示路由倒换前和倒换后的情况,如下图所示。

测试步骤如下:

A:启动测试,事先需要在测试界面上配置好测试链路、测试参数,并且配置好路由器的接入方式等配置信息。

B:驱动路由器进行MPLSVPN网络的测试,通过LSPTrouteRoute测试来测试循环进行路由监控测试。每次测试生成的测试结果入库。用于后续的报表查询。

C:如果发生了路由倒换,则在网络拓扑图以及网络地图上呈现告警,以及链路的变化情况。前后通过不同的颜色来表示路由倒换的路径。如果没有发生路由倒换,则继续进行测试,直到测试结束或者发生路由变更。

D:产生路由变更后启动传输告警匹配,如果匹配成功,将传输告警与系统自身告警一起整合产生告警信息。如果未匹配到,产生系统自身告警。

E:循环测试,直到测试结束。

②流量拓扑分析

通过SNMP下发命令获取路由器对应网卡的MIB数据,以一定间隔(5分钟/可调),周期提取路由器接口流量信息。帮助维护人员通过拓扑图,直观显示

网络中每个路由器的接口流量情况以及流量变化情况。

测试流程如下图所示:

测试步骤如下:

A:启动测试,事先需要在测试界面上配置测试参数,以及要监控的路由器。

B:驱动路由器进行SNMP+MIB测试,循环进行路由资源获取测试。每次测试生成的测试结果入库。用于后续的报表查询。

C:如果发生了接口流量变化超门限的情况,则在网络拓扑图以及网络地图上呈现告警。

D:接口流量变化超门限后启动传输告警匹配,如果匹配成功,将传输告警与系统自身告警一起整合产生告警信息。

E:循环测试,直到测试结束。

3总结

IP网络的发展会越来越快,整个电信网络的IP化进程也会不断加速,在网络发展的过程中,网络快速建设的同时网络质量的保证显得尤为重要,因此承载网分布式网络质量监测和故障定位系统的应用前景非常广阔。IP网络的发展会越来越快,整个电信网络的IP化进程也会不断加速,在网络发展的过程中,网络快速建设的同时网络质量的保证显得尤为重要,因此承载网分布式网络质量监测和故障定位系统的应用前景非常广阔。

参考文献:

[1]刘晓辉,网络故障现场处理实践,电子工业出版社,2009年1月

[2]华为技术有限公司,NE80E&40E(V300R003C02B697)产品文档,2009年4月

[3]刘朋,网络故障分析手册,化学工业出版社,2009年4月

[4]刘芳,网络流量监测与控制,北京邮电大学出版社,2009年9月

[5]谢希仁,计算机网络(第5版),北京,人民邮电出版社,2002