大数据环境下海量异构数据集成方法研究

(整期优先)网络出版时间:2019-11-21
/ 2

大数据环境下海量异构数据集成方法研究

何波张继茹

(重庆理工大学计算机科学与工程学院,重庆市400054)

基金项目:本文得到教育部人文社会科学研究规划基金项目(19XJA910001);

重庆市教育委员会人文社会科学研究项目(18SKGH099)资助。

摘要:海量异构数据具有数据量巨大、高度分布、数据异构和增量数据不断出现的特点。现有的数据集成方法针对小规模数据,无法解决海量异构数据集成的瓶颈问题,针对这个问题,论文利用MapReduce处理海量数据的优势、数据视图和大数据库Hbase集成海量异构数据的优势,提出大数据环境下海量异构数据集成方法。

关键词:大数据;海量异构数据;数据集成

一、引言

海量异构数据具有数据量巨大、高度分布、数据异构和增量数据不断出现的特点。

2012年3月,美国奥巴马政府宣布推出“大数据的研究和发展计划”[1],将“大数据”从商业行为上升到国家战略。

大数据(Bigdata)[2,3]是指利用常用软件工具获取、管理、挖掘和处理数据所耗时间超过可容忍时间的数据集。

数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而提供全面的数据共享。

现有的数据集成方法针对小规模数据,不适合海量异构数据的集成。

MapReduce[4],是一种大数据的计算模型,将要执行的问题拆解成Map(映射)和Reduce(归约)操作,非常适合海量异构数据的集成。

二、海量异构数据集成方法现状

数据集成将多个来源的异构数据进行集中和预处理,是进一步进行数据挖掘的基础。部分学者对数据集成方法进行了初步研究。有代表性的研究成果有:陈飞彦等发表的“一种文本数据集成方法的研究与实现”[5],刘君强等发表的“云键-值数据仓库的并行数据集成方法研究”[6],邱树伟等发表的“网格环境下分布式信息系统数据集成方法研究”[7],黄盼等发表的“信息系统中的数据集成方法研究与应用分析”[8]。

上述研究成果针对小规模数据的集成,无法解决海量异构数据集成的瓶颈问题。因此,针对海量异构数据的特点,如何进行海量异构数据集成是迫切需要开展的研究。发展趋势是利用MapReduce处理海量数据的优势、数据视图和大数据库Hbase集成海量异构数据的优势,研究大数据环境下海量异构数据集成方法。

关联规则描述在给定的事务集中,频繁出现的项集的规则。关联规则知识发现的关键是获取频繁项集。常见的关联规则知识发现方法有Apriori、FP-growth等。

Apriori是典型的关联规则方法。采用逐层搜索的迭代,利用K项集来产生K+1项集。该方法简单,但是存在扫描数据次数多、同步次数多、执行效率低等问题。

频繁模式树为满足以下3个条件的树型结构:①它由一个标为“null”的根结点,作为根结点的孩子的项目前缀子树集合,以及频繁项目头表组成;②项目前缀子树中的每一结点包含3个域:item-name,count,node-link,其中,item-name记录项目名,count记录能到达该结点路径所表示的事务的数目,node-link为指向频繁模式树中具有相同的item-name值的下一结点,当下一个结点不存在时,node-link为null;③频繁项目头表的每一表项包含两个域:item-name,headofnode-link,其中,headofnode-link为指向频繁模式树中具有相同的item-name值的首结点的指针。

FP-growth方法以频繁模式树为基础,只需要扫描数据两次,大大减少了数据的扫描次数和计算时间。

三、大数据环境下海量异构数据集成方法

针对海量异构数据的特点,利用MapReduce处理海量数据的优势、数据视图和大数据库Hbase集成海量异构数据的优势,通过建立MapReduce、统一数据视图和大数据库Hbase,提出大数据环境下海量异构数据集成方法。

首先,对海量异构数据构建统一数据视图,建立统一数据视图与海量异构数据的映射关系;其次,按照挖掘的主题,采用Map分解任务,从不同网络的海量异构数据中抽取数据;然后,采用Reduce进行归并,将抽取的数据集成到大数据库Hbase;最后,对大数据库Hbase中的数据进行预处理,得到海量同构数据。如图1所示。

图1大数据环境下海量异构数据集成方法图

四、结束语

论文利用MapReduce处理海量数据的优势、数据视图和大数据库Hbase集成海量异构数据的优势,提出高效的大数据环境下海量异构数据集成方法。下一步工作是对提出的方法进行实验和应用。

参考文献

[1]BigDataAcrosstheFederalGovernment[EB].http://www.whitehouse.gov/sites/default/files/microsites/ostp/big_data_fact_sheet_final_1.pdf,2012.

[2]Science.SpecialOnlineCollection:DealingwithData[EB].

http://www.sciencemag.org/site/special/data/,2011.

[3]孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146-149.

[4]张继福,李永红,秦啸,荀亚玲.基于MapReduce与相关子空间的局部离群数据挖掘算法[J].软件学报,2015,26(5):1079-1095.

[5]陈飞彦,胡亮.一种文本数据集成方法的研究与实现[J].东北师大学报(自然科学),2016(1):78-83

[6]刘君强,左洪福,彭智勇.云键-值数据仓库的并行数据集成方法研究[J].计算机应用研究,2015,32(8):2458-2460.

[7]邱树伟,郑麟,黄健新.网格环境下分布式信息系统数据集成方法研究[J].广州大学学报(自然科学版),2012,11(2):70-75.

[8]黄盼,王冬冬,王露露.信息系统中的数据集成方法研究与应用分析[J].山东工业技术,2015(7):179-179.

作者简介:何波(1978-),男,副教授,主要研究领域为大数据、数据挖掘。