基于 Hadoop大数据技术的火电厂数据资产全寿命周期管理

(整期优先)网络出版时间:2019-12-05
/ 3

基于 Hadoop大数据技术的火电厂数据资产全寿命周期管理

孙宇笛

北京华电天仁电力控制技术有限公司 , 北京 , 100039

摘 要:针对燃煤火力发电厂,建设基于hadoop大数据平台的大数据中心,分析hadoop平台的软件架构、硬件架构、资源管理、功能、大数据的应用内容等,以提高火电企业数据全过程标准化管理能力,增强数据的挖掘、分析和预测能力,提高企业对大数据资产的利用效率。结果表明,典型的工业大数据平台系统架构包括监控设备、数据采集、数据存储、数据管控和数据服务。hadoop大数据架构包括底层基础层、存储层、统一管理层、计算引擎层、能力服务层、工具及增强、应用及接口,共计七个部分。大数据技术的应用包括计算密集型应用,输入、输出的密集型应用,分布式存储与大规模并行计算,实时数据处理与查询分析,数据整合,数据使用,数据服务,数据治理。大数据的治理的内容包括数据采集、数据交换、数据存储、数据清洗、数据查询、数据加工、审计、数据溯源、元数据标记与发现、数据生命周期管理等。

关键词:燃煤火力发电;hadoop大数据库;大数据治理;大数据中心;数据清洗;大数据技术应用

引 言

传统的燃煤火电厂信息管理为了充分利用和挖掘数据的价值,消除信息孤岛,一般采用不同信息子系统开放数据接口的形式来进行数据共享和调用[1-4]。事实证明仅仅开放数据接口,以期望打通不同信息系统、不同数据库之间的联系,实现数据的深度挖掘和利用,是一条失败的道路[3-6]。因为来自不同信息系统数据的类型、标准、格式、定义、单位、更新频率均有较大的差别,很容易发生数据的错误调用[6-8]。因此,有必要应用hadoop大数据架构来兼容不同类型的数据,形成具有数据采集、交换、存储、清洗、查询、加工、审计、溯源、挖掘、应用的以大数据全寿命周期为核心的智慧企业生态系统。

针对燃煤火力发电厂,建设基于hadoop大数据平台的大数据中心,分析hadoop平台的软件架构、硬件架构、资源管理、功能、大数据的应用内容等,以提高火电企业数据全过程标准化管理能力,增强数据的挖掘、分析和预测能力,提高企业对数据资产的利用效率。本研究的成果有助于了解hadoop大数据平台的软件架构、硬件架构的详细构成,通过基于大数据的数据治理、挖掘和应用,实现火电数据集中、统一、标准化管理,让数据真正成为火电企业的资产和财富。

Hadoop大数据平台的架构

以某公司大数据中心建设为例,进行分析。基于hadoop大数据平台,先进行数据治理,在标准化的数据基础上,然后进行系统管理。图1示出典型的工业大数据平台系统架构包括监控设备、数据采集、数据存储、数据管控和数据服务。

5de8ae7c11ff6_html_2fcd8da1d22e4a0a.png

图1工业大数据平台系统架构

图2示出hadoop大数据架构包括底层基础层、存储层、统一管理层、计算引擎层、能力服务层、工具及增强、应用及接口,共计七个部分。

(1)底层基础层包括基础类库Common、统一协调层Zookeeper、序列化Avro。

(2)存储层包括分布式文件系统HDFS、混合存储Kudu、分布式NoSQL数据库HBase、列式文件格式Parquent。HDFS用以文件系统的储存,能支持云计算平台,有多个NameNode备机。HBASE用以非关系型数据的存储。Hadoop内核里自带文件存储层HDFS。在存储层,出现了综合了HDFS和HBase优点的Kudu。

(3)统一管理层包括用户安全管理Sentry、资源管理Yarn、记录访问管理RecordService。

(4)计算引擎层包括分布式计算框架MapReduce、内存计算引擎Spark、MPP执行引擎Impala、消息队列Kafka、流处理Storm、文本搜索引擎Solr。MapReduce用以采用分布式系统,廉价地处理海量数据。Solr是一种搜索引擎,用以文本数据查询。Impala用以分析SQL、分析型数据库的低延时高并发查询、列级访问控制。Spark是 Hadoop 通用处理引擎,用以通用数据处理、快速批处理、机器学习、表级访问控制,Spark将会取代MapReduce成为新一代的通用计算引擎。kafka和Spark streaming用以流处理。

(5)能力服务层包括MapReduce管道、结构化数据库或数据仓库Hive、全文检索Search。MapReduce用以磁盘数据处理、对规模要求极高和对磁盘IO敏感的任务。Pig、Hive组件用以实现批处理。

(6)工具及增强包括数据挖掘算法库Mahout、Pig数学处理库DataFu、工作流Oozie、管道管理工具Crunch、编译测试工具Bigtop、部署工具Whirr。

(7)接口包括实时数据传输Flume、数据ETL组件Sqoop、文件访问接口Fuse、WebHDFS、NFS。

(8)应用包括数据仓库SQL、机器学习SPARK ML、基于文本的搜索Solr、流处理和实时流计算、非结构化的日志分析、交互式SQL(包括Impala、Presto)、用户使用界面Hue、数据SDK组件kite。很多传统的数据仓库应用已经迁移到 Hadoop上。现在出现了特制的SQL引擎,包括Impala和Presto,绕过通用的计算引擎MapReduce和Spark这一层,从而达到更低的延迟。

5de8ae7c11ff6_html_3dd4ede1588ab46b.png

图2 大数据架构的结构和应用体系

Hadoop生态系统的核心就是 Apache Hadoop,包括文件存储层、计算引擎、任务调度、应用层等。Hadoop集群包括HDFS客户端、MapReduce客户端、HBase客户端、Hive客户端等。Hadoop大数据平台适用于任何数据类型的存储,覆盖集群所有资源与服务,进行统一配置、管理、监控、诊断。

Hadoop的硬件架构管理内容包括:

(1)管理节点(Head/Master Node),包括NameNode,JobTracker及Master等。管理节点用以提供关键的、集中的、无替代的集群管理服务;若该管理服务停止,则对应集群Hadoop服务停止。管理节点通常对内存要求高,需要可靠性高的硬件设备,但对存储要求低。Hive Meta Server以及Hive Server通常部署在其他管理节点服务器上。NameNode服务器配置主要需求为内存容量大小以及持久化存储可靠性。

(2)数据节点(Data/Worker/Slave Node),包括处理实际任务,如数据存储,子任务执行等。数据节点用以同节点运行多个服务,为保证局部性;若该服务停止,则由其他节点自动代替服务。数据节点的实现需要硬件各部件能方便的替换。Zookeeper Server以及HMaster通常选取数据节点服务器,由于一般负载有限,对节点无太大特殊要求。

一般而言,数据节点管理倾向于使用更多的机器,而不是升级服务器配置。数据多分布可获得更好的scale-out并行性能以及可靠性。需要考虑物理空间、网络规模以及其他配套设备等综合因素来 考虑集群服务器数目。计算密集型应用考虑使用更好的CPU以及更多的内存。通常按1块硬盘+2个CPU核+6至8 GB内存的比例配置升级硬件可以满足多数应用的需求,尤其是IO密集型应用。

(3)边缘节点(Edge Node)。边缘节点作为客户端访问实际Hadoop服务,用以对外提供Hadoop服务代理以及包装,需要可靠性高的硬件设备。

大数据治理与应用

大数据技术的应用包括:

(1)计算密集型应用。例如机器学习、数据挖掘。

(2)输入、输出的密集型应用。例如索引、检索、统计、聚类、数据解码与解压缩。

(3)分布式存储与大规模并行计算。一般使用HDFS,HIVE,SPARK等组件。Apache HDFS

用以分布式存储、文件并行化批量处理。Apache Hive组件用以数据仓库查询与处理。Apache Spark组件用以流处理、算法模型、查询分析。

(4)实时数据处理与查询分析。通常使用SPARK,KUDU,IMPALA等组件。Apache Impala组件用以快速分析、交互式查询。Apache Kudu组件用于关系型模型,实时存储和计算资源管理。

(5)数据整合。数据接入的类型包括ORACLE等关系数据库、PI等实时数据库、结构化、非结构化、半结构化数据。Apache Kafka组件用以采集和分发消息、流式等半结构化数据。Apache Flume组件用以采集和分发消息、文件等非结构化数据。Apache Sqoop用以采集和分发关系型、SQL等结构化数据。

(6)数据使用。数据使用包括流批图数据加工、交互式查询、探索分析与模型训练。

(7)数据服务。数据服务包括多业务应用场景支撑、多用户多租户支撑、高并发与高吞吐数据服务。

(8)数据治理。数据治理包括元数据定义、元数据标签、生命周期、血缘关系、架构、质量、安全、审计、加密、脱敏、分布、备份等。

大数据的治理的内容包括数据采集、数据交换、数据存储、数据清洗、数据查询、数据加工、审计、数据溯源、元数据标记与发现、数据生命周期管理等。

Hadoop大数据平台对资源的管理包括数据资源管理、存储资源管理、计算资源管理和集群运营管理。Hadoop大数据平台实现的三大功能是数据的采集与分发,对数据的分布式存储和并行化处理,数据的查询、分析、挖掘、服务。

结 论

针对燃煤火力发电厂,建设基于hadoop大数据平台的大数据中心,分析hadoop平台的软件架构、硬件架构、资源管理、功能、大数据的应用内容等,以提高火电企业数据全过程标准化管理能力,增强数据的挖掘、分析和预测能力,提高企业对大数据资产的利用效率。结果表明:

(1)典型的工业大数据平台系统架构包括监控设备、数据采集、数据存储、数据管控和数据服务。hadoop大数据架构包括底层基础层、存储层、统一管理层、计算引擎层、能力服务层、工具及增强、应用及接口,共计七个部分。

(2)Hadoop生态系统的核心就是 Apache Hadoop,包括文件存储层、计算引擎、任务调度、应用层等。Hadoop大数据平台适用于任何数据类型的存储,覆盖集群所有资源与服务,进行统一配置、管理、监控、诊断。Hadoop的硬件架构管理内容包括管理节点、数据节点、边缘节点。

(3)大数据技术的应用包括计算密集型应用,输入、输出的密集型应用,分布式存储与大规模并行计算,实时数据处理与查询分析,数据整合,数据使用,数据服务,数据治理。大数据的治理的内容包括数据采集、数据交换、数据存储、数据清洗、数据查询、数据加工、审计、数据溯源、元数据标记与发现、数据生命周期管理等。

(4)数据接入的类型包括ORACLE等关系数据库、PI等实时数据库、结构化、非结构化、半结构化数据。Apache Kafka组件用以采集和分发消息、流式等半结构化数据。Apache Flume组件用以采集和分发消息、文件等非结构化数据。Apache Sqoop用以采集和分发关系型、SQL等结构化数据。

(5)Hadoop大数据平台对资源的管理包括数据资源管理、存储资源管理、计算资源管理和集群运营管理。Hadoop大数据平台实现的三大功能是数据的采集与分发,对数据的分布式存储和并行化处理,数据的查询、分析、挖掘、服务。应用于燃煤火力发电的大数据平台的工业应用场景包括预测性维护和关联分析。

参考文献

贺舒婷, 朱贤伟, 叶启明, 翁天天, 赵俊杰. 火力发电企业EAM系统运行效率分析及优化[J]. 移动信息, 2016, 10(10): 58-60.

沈跃军, 马克, 崔畅元, 周健, 兰俊生, 赵俊杰. 大数据与逻辑故障树在火电厂故障诊断中应用[J]. 电力设备, 2018, (10): 62-63.

张毅龙, 王齐, 任晓敏, 尹进新, 胡伟, 赵俊杰. 基于两个细则的AGC性能优化控制策略研究[J]. 电力设备, 2017, (34): 373-374.

任晓敏, 宋华, 张毅龙, 隋晓华, 高殿波, 赵俊杰. 330 MW空冷火电机组降低厂用电率的措施研究[J]. 防护工程, 2018, (9): 232.

庞冬冬, 吕越, 牛磊, 李洪山, 赵俊杰. 330 MW火电机组汽轮机保安系统控制分析与优化[J]. 防护工程, 2017, (27): 198-199.

沈跃军, 马克, 周健, 马俊峰, 张毅龙, 赵俊杰. 基于逻辑故障树的智能DCS早期预警建模与应用[J]. 防护工程, 2018, (9): 470, 472.

王金浩, 陈伟巍, 陈铮, 卢珏, 张学丽, 赵俊杰. 1000 MW机组输煤控制系统通讯网络升级优化改造[J]. 防护工程, 2018, (2): 293-294.

李孟周, 伏劲宇, 杜杰, 张毅龙, 兰俊生, 赵俊杰. 燃煤火电集控运行精益化管理提升策略研究[J]. 电力设备, 2017, (34): 230, 232.

3