大数据环境下海量异构数据集成方法研究-中国期刊网

首页 > 《知识-力量》 > 2019年11期 > 大数据环境下海量异构数据集成方法研究

（整期优先）网络出版时间：2019-11-21

作者: 何波张继茹

文化科学 >

打印

同系列资源

/ 2

大数据环境下海量异构数据集成方法研究

何波张继茹

（重庆理工大学计算机科学与工程学院，重庆市400054）

基金项目：本文得到教育部人文社会科学研究规划基金项目(19XJA910001)；

重庆市教育委员会人文社会科学研究项目(18SKGH099)资助。

摘要：海量异构数据具有数据量巨大、高度分布、数据异构和增量数据不断出现的特点。现有的数据集成方法针对小规模数据，无法解决海量异构数据集成的瓶颈问题，针对这个问题，论文利用MapReduce处理海量数据的优势、数据视图和大数据库Hbase集成海量异构数据的优势，提出大数据环境下海量异构数据集成方法。

关键词：大数据；海量异构数据；数据集成

一、引言

海量异构数据具有数据量巨大、高度分布、数据异构和增量数据不断出现的特点。

2012年3月，美国奥巴马政府宣布推出“大数据的研究和发展计划”[1]，将“大数据”从商业行为上升到国家战略。

大数据（Bigdata）[2,3]是指利用常用软件工具获取、管理、挖掘和处理数据所耗时间超过可容忍时间的数据集。

数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中，从而提供全面的数据共享。

现有的数据集成方法针对小规模数据，不适合海量异构数据的集成。

MapReduce[4]，是一种大数据的计算模型，将要执行的问题拆解成Map（映射）和Reduce（归约）操作，非常适合海量异构数据的集成。

二、海量异构数据集成方法现状

数据集成将多个来源的异构数据进行集中和预处理，是进一步进行数据挖掘的基础。部分学者对数据集成方法进行了初步研究。有代表性的研究成果有：陈飞彦等发表的“一种文本数据集成方法的研究与实现”[5]，刘君强等发表的“云键-值数据仓库的并行数据集成方法研究”[6]，邱树伟等发表的“网格环境下分布式信息系统数据集成方法研究”[7]，黄盼等发表的“信息系统中的数据集成方法研究与应用分析”[8]。

上述研究成果针对小规模数据的集成，无法解决海量异构数据集成的瓶颈问题。因此，针对海量异构数据的特点，如何进行海量异构数据集成是迫切需要开展的研究。发展趋势是利用MapReduce处理海量数据的优势、数据视图和大数据库Hbase集成海量异构数据的优势，研究大数据环境下海量异构数据集成方法。

关联规则描述在给定的事务集中，频繁出现的项集的规则。关联规则知识发现的关键是获取频繁项集。常见的关联规则知识发现方法有Apriori、FP-growth等。

Apriori是典型的关联规则方法。采用逐层搜索的迭代，利用K项集来产生K+1项集。该方法简单，但是存在扫描数据次数多、同步次数多、执行效率低等问题。

频繁模式树为满足以下3个条件的树型结构：①它由一个标为“null”的根结点，作为根结点的孩子的项目前缀子树集合，以及频繁项目头表组成；②项目前缀子树中的每一结点包含3个域：item-name，count，node-link，其中，item-name记录项目名，count记录能到达该结点路径所表示的事务的数目,node-link为指向频繁模式树中具有相同的item-name值的下一结点，当下一个结点不存在时，node-link为null；③频繁项目头表的每一表项包含两个域：item-name,headofnode-link,其中,headofnode-link为指向频繁模式树中具有相同的item-name值的首结点的指针。

FP-growth方法以频繁模式树为基础，只需要扫描数据两次，大大减少了数据的扫描次数和计算时间。

三、大数据环境下海量异构数据集成方法

针对海量异构数据的特点，利用MapReduce处理海量数据的优势、数据视图和大数据库Hbase集成海量异构数据的优势，通过建立MapReduce、统一数据视图和大数据库Hbase，提出大数据环境下海量异构数据集成方法。

首先，对海量异构数据构建统一数据视图，建立统一数据视图与海量异构数据的映射关系；其次，按照挖掘的主题，采用Map分解任务，从不同网络的海量异构数据中抽取数据；然后，采用Reduce进行归并，将抽取的数据集成到大数据库Hbase；最后，对大数据库Hbase中的数据进行预处理，得到海量同构数据。如图1所示。

图1大数据环境下海量异构数据集成方法图

四、结束语

论文利用MapReduce处理海量数据的优势、数据视图和大数据库Hbase集成海量异构数据的优势，提出高效的大数据环境下海量异构数据集成方法。下一步工作是对提出的方法进行实验和应用。

参考文献

[1]BigDataAcrosstheFederalGovernment[EB].http://www.whitehouse.gov/sites/default/files/microsites/ostp/big_data_fact_sheet_final_1.pdf,2012.

[2]Science.SpecialOnlineCollection:DealingwithData[EB].

http://www.sciencemag.org/site/special/data/,2011.

[3]孟小峰,慈祥.大数据管理：概念、技术与挑战[J].计算机研究与发展,2013,50(1):146-149.

[4]张继福,李永红,秦啸,荀亚玲.基于MapReduce与相关子空间的局部离群数据挖掘算法[J].软件学报,2015,26(5):1079-1095.

[5]陈飞彦,胡亮.一种文本数据集成方法的研究与实现[J].东北师大学报(自然科学),2016(1):78-83

[6]刘君强,左洪福,彭智勇.云键-值数据仓库的并行数据集成方法研究[J].计算机应用研究,2015,32(8):2458-2460.

[7]邱树伟,郑麟,黄健新.网格环境下分布式信息系统数据集成方法研究[J].广州大学学报（自然科学版）,2012,11(2):70-75.

[8]黄盼,王冬冬,王露露.信息系统中的数据集成方法研究与应用分析[J].山东工业技术,2015(7):179-179.

作者简介：何波（1978-），男，副教授，主要研究领域为大数据、数据挖掘。

同系列内容

《知识-力量》2019年11期 - 大学生留学意向调查 2019-11-21 104
《知识-力量》2019年11期 - 学科育德的实践初探 2019-11-21 70
《知识-力量》2019年11期 - 小学英语阅读教学中思维导图的作用分析 2019-11-21 60
《知识-力量》2019年11期 - 浅谈现代信息化下建筑工程管理的创新与发展 2019-11-21 58
《知识-力量》2019年11期 - 土木工程建设中结构与地基加固技术的应用贾东洋 2019-11-21 65

查看全部

来源期刊

知识-力量

2019年11期

大数据环境下海量异构数据集成方法研究

大数据环境下海量异构数据集成方法研究

来源期刊

相关推荐

同分类资源更多

相关关键词

大数据环境下海量异构数据集成方法研究

大数据环境下海量异构数据集成方法研究

来源期刊

相关推荐

同分类资源 更多

相关关键词

同分类资源更多