大规模数据中心监控数据并发处理

(整期优先)网络出版时间:2018-07-17
/ 2

大规模数据中心监控数据并发处理

李兴来,王永章,白明,刘永彬

山信软件股份有限公司莱芜自动化分公司山东莱芜271104

摘要:随着信息化时代的来临,数据的规模和数量不断增加,数据处理成为重要的研究课题。在大规模数据中心的系统下,数据采集系统,需要对大规模数据进行实时并发处理,保证各项监控数据的实时特点。在问题探究的过程中,根据大规模数据中心监控数据的规模,了解监控数据并发处理中存在的问题,结合实际问题提出几点关键性的技术和解决方案。通过相应的实验验证,保证监控数据的实时性,实现系统设备的扩展。文章中分析大规模数据中心数据并发处理的问题,探究监控数据并发处理的关键技术,以供参考。

关键词:大规模数据中心监控数据并发处理关键技术

大数据时代的来临,我国信息产业面临着发展的机遇和挑战,云计算技术的应用提供技术方面的保障。企业在发展的过程中,根据云计算的特点,采取新的商业模式和业务形式,推出新的业务,称为云业务。为了能够保证云业务的正常进行,数据中心构建相应的监控系统,监控硬件资源的运行。随着云业务的发展,监控数据的规模不断增加,采集系统需要对监控数据进行并发处理。

一、大规模数据中心监控数据并发处理的问题

1、监控数据的规模。“公众服务云”的业务平台,在用户快速增长的情况下,其支撑平台的IT规模也在扩大,服务器和交换机等资源不断增加。IT资源数量的增加,监控数据采集的数据量更多。现阶段的采集系统,在系统设计的过程中,对于大规模数据因素缺少考虑,忽视可能存在的风险和问题。通过数据评估模型的构建,对多数的监控资源进行推导,得出其数量模型,进而获得监控数据量模型。具体评估的过程如下:第一,模型的构建:根据以往的项目经验和理论,推导出相应的模型,为虚拟机模型的评估提供有效的数据支撑。第二,虚拟机规模的评估:根据计算机节点的规模以及数据模型,进行每种计算机节点的虚拟机规模的评估,进一步进行客户规模的评估。第三,客户和存储规模的评估:根据虚拟机规模数据以及客户模型开展客户规模的推导,充分考虑计算机节点规模和客户规模数据,对其存储的规模进行推导。第四,交换机规模的评估:通过计算机节点规模和春初规模的分析,推导出交换机的规模。第五,监控数据量规模的评估:结合虚拟机规模、计算机节点规模、存储规模以及交换机规模开展监控数据并发量规模的推导。

2、监控数据并发处理的问题分析。通过分析采集规模评估的结果,监控数据达到8万条/秒以上,在控制台实现30秒内的展示。现有的架构中,难以支撑并发数量如此大并且实时性要求较高的应用,需要采取分布式的计算。因此,采取处理大量并发的实时性分布式计算机架构。分布式架构在告警合并中存在一定的困难,多个节点采取NOSQL实现合并告警,实时性受到NoSQL的影响。同一个设备的告警需要自始至终发给同一个节点,才能够保证告警处理的实时性。因此,分布式框架需要灵活性的路由方式。如果集群中一些节点的负载比较高,通过增加处理节点的方式,有效环节压力,框架具有动态扩容的能力,在节点增加的同时,业务不会受到影响而中断。

通过以上内容的分析,大规模数据中心监控数据并发处理面临着多方面的挑战,如下所述:能够支持大数据并发:能够实现集群部署,并且支持上万级别吞吐的实时处理框架。能够实现告警实时合并:框架中能够进行合并告警,保证告警能够及时处理、支持动态扩容:支持动态扩容,保证业务正常的情况,增加处理节点,提高处理能力。

二、大规模数据中心监控数据并发处理的关键技术

目前,大数据的计算模式主要有批量计算和流式计算两种形态。批量计算的模式主要是存储后的计算机,实时性的要求较低,应用中对于数据的准确和全面要求较高。流式计算不需要提前存储,可以直接开展计算工作,实时性的要求比较严格,在精确度要求较为宽松的场景具有优势。主流的分布式流式系统中,Storm和S4常见的软件。

1、Storm系统。通过实时处理问题的分析,在选择计算框架时,需要具有动态的增减节点功能,进行动态的部署,保证可靠性。通过对Storm和S4的性能对比,相对于S4来说,Storm在可靠、并行处理、动态部署等方面的工作上更加具有优势。Storm作为一款分数是的大数据流式计算系统,实现大量数据的处理,并且做到数据的连续处理。在其核心的部分采用高效的流式计算函数,增强系统的性能。Storm集群有一个主节点和一群工作节点组成,借助Zookeeper的协调作用。主节点的作用主要是相应集群中的节点,做好任务的分配和故障的监测工作。

2、性能测试。通过相应的性能测试,获取Storm系统的数据吞吐量,通过分析进行判断,是否能够满足大规模数据实时并发处理的标准。在性能测试的过程中,确定的测试的环境,如操作系统、服务器以及软件。明确性能测试的方法,Storm属于流式处理系统,以tuple为基本单位,在每个单位中含有多个字段。通常可以定义两个字段:Data和tsInfo。Data中可以存放相应的原始数据,主要是1000字节的数据。测试只是测量直接的转发数据。tsInfo意思是时间戳信息,经过一个模块处理之后,在字段中会标记相应的时间戳,统计模块根据相应的时间数据进行延迟时间的计算。不同的设备时间戳存在不同步的情况,在延迟计算中存在误差,将数据发送和统计在同一台机器上处理,有效解决误差。通过性能测试之后得出相应的测试结果,了解主机CPU的利用率、内存的利用率。

3、通过相应的分析和实验测试,可以明确的判断storm符合项目的各项要求。首先,能够支持大数据的并发。此系统采取的是集群架构,其节点都可以进行水平扩展,并且采取高性能的通信框架,作为单位和字段之间的传输层,使其具有大量并发数据处理的能力。经过性能的验证,其具有万条/秒以上的处理能力,满足大数据并发的要求。其次,实现告警实时合并。Storm采取字段分组的路由方式,实现告警合并处理,保证告警处理具有实时性。最后,支持动态的扩容。Storm能够实现动态增减工作节点,如果节点出现超负荷时,能够增加相应的工作节点,在主节点上执行命令,实现任务的平均分配,环节节点工作压力。

三、结语

综上所述,通过对大规模数据中心监控数据并发处理的问题开展分析,探究问题解决的关键性技术,明确解决过程中采取以的系统架构。采取storm进行监控数据的实时处理,有效解决大规模监控数据的并发问题,可以进行动态的增删节点,使得扩容和维护工作更加简便。因此,应当更加深入的开展研究,增强其可靠性、扩展性和实时性,提供更高质量的客户服务。

参考文献:

[1]王姜勇.基于大规模数据集的并发处理的研究[D].北京邮电大学,2015.

[2]戴声,肖建明,王波.大规模数据中心监控数据并发处理[J].计算机与数字工程,2014(12):2373-2378.