数据挖掘研究综述

(整期优先)网络出版时间:2009-02-12
/ 3

数据挖掘研究综述

邓家斌1胡畅2

(中山职业技术学院广东中山528404;西安计量技术研究院陕西西安710068)

摘要:数据挖掘技术是今年来新兴的、重要的、具有广阔应用前景和富有挑战性的综合方面的研究。本文介绍了数据挖掘的定义、功能以及数据挖掘的过程,介绍了数据挖掘的应用,最后结合当前新的研究成果,分析了数据挖掘领域的发展趋势。

关键词:数据挖掘知识发现人工智能

中图分类号:G644.5文献标识码:A文章编号:1671-8437(2009)2-0019-02

介绍

随着计算机技术的飞速发展,性价比显著提高,以至各行各业都开始采用计算机及相应的信息技术对其日常业务进行管理,其结果是企业生成、收集、存储和处理数据的能力大大提高,数据量与日俱增。随着数据的积累不断增加,如何更好地利用数据,变成一个迫切解决的问题[1]。而随之诞生的数据挖掘技术是指从数据库中抽取隐含的、具有潜在使用价值信息的过程,是一种新型的数据分析技术,被广泛应用于银行金融、保险、政府、教育、运输等企事业单位及国防科研上。数据挖掘应用的普遍性及带来的巨大经济和社会效益,吸引了许多专家和研究机构从事该领域的研究。

2数据挖掘的概念与主要步骤

2.1数据挖掘的概念

数据挖掘(DataMining,DM)就是从大量的、不完全的、有

噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事

先不知道的、但又是潜在的有用的信息和知识的过程[2]。国内的学者也把DataMining译为数据采掘或数据开采。而数据挖掘也被称为数据库中的知识发现(KnowledgeDiscoveryinDatabase,KDD)[3]。

2.2数据挖掘的主要步骤

数据挖掘的过程可粗略的分为:问题的定义(TaskDefinition)、数据收集与预处理(DataPreparationandPreprocessing)、数据挖掘(DataMining)算法执行以及结果的解释和评估(InterpretationandEvaluation)。数据挖掘过程是一个多次的循环反复的过程,每一个步骤一旦与预期目标不符,都要回到前面的步骤,重新调整,重新执行[4][5]。

3数据挖掘的主要任务

3.1数据总结

数据总结是对数据进行浓缩,给出它的紧凑描述。传统的也是最简单的数据方法是计算出数据库的各个字段上的求和值、平均值、方差值等统计值。数据挖掘主要关心从数据泛化的角度来讨论数据总结。数据泛化是一种把数据库中的有关数据从低层次抽象到高层次上的过程。由于数据库上的数据或对象所包含的信息总是最原始、最基本的信息,用户希望能从较高层次的视图上处理或浏览数据,因此需要对数据进行不同层次上的泛化以适应各种查询要求。数据泛化目前主要有两种技术:多维数据分析方法和面向属性的归纳方法。

3.2概念描述

用户常常需要抽象的有意义的描述,经过归纳的抽象描述能概括大量的关于类的信息。概念描述就是对数据库中一类对象的内涵进行的描述,以概括这个类的有关特征。概念描述是对数据库的整体信息进行全面概括,从数据库中归纳抽象的信息。概念描述有两种典型的描述。

3.3分类分析

预言模型以通过数据库中的某些数据得到另外的数据为目标。若预测的变量是离散的(如批准或否决一项贷款),这类问题就称为分类(Classification);如果预测的变量是连续的(如预测盈亏情况),这类问题称为回归(Regression)。分类一直为人们所关注。常用的方法有决策树方法、神经网络、径向基础函数、粗糙集等。

3.4聚类分析

聚类用于从数据集中找出相似的数据并分成不同的组。与分类分析不同,聚类分析输入的是一组未分类记录,并且这些记录应分成几类事先也不知道。聚类分析就是通过分析数据库中的记录数据,根据一定的分类规则,合理地划分记录集合,确定每个记录所在类别。聚类可分“有监督”和“无监督”两种。常用的有K-means聚类、模糊聚类、神经网络等。

3.5关联分析

关联分析,即利用关联规则进行挖掘。在数据挖掘研究领域,对于关联分析的研究开展得比较深入,人们提出了多种关联规则的挖掘算法,如APRIORI、抽样算法、DIC[6]等算法。关联分析的目的是挖掘隐藏在数据间的相互关系,它能发现数据库中形如“70%的顾客在一次购买活动中购买商品A的同时购买商品B”之类的知识。

3.6偏差分析

偏差分析包括分类中的反常实例、例外模式、观测结果对期望值的偏离以及量值随时间的变化等,其基本思想是寻找观察结果与参照量之间的有意义的差别。数据库中的数据能反映许多异常情况,从数据分析中发现这些异常情况是很重要的,能引起人们对它更多的注意。偏差分析的一个重要特征就是它可以有效的过滤大量的不感兴趣的模式。

3.7预测

预测是预测新事物的特征,它利用现有的数据找出变化规律,即建立模型,并用此模型来预测未来数据的种类、特征等。

数据挖掘的主要方法

4.1信息论方法

信息论主要的方法有ID3、C4.5、IBLE等。

4.1.1ID3方法

它是利用信息论中信息增益寻找数据库中具有最大信息量的字段,建立决策树的一个节点,再根据字段的不同取值建立树的分枝,在每个分枝子集中重复建树的下层节点和分枝的过程,叶节点为正例或反例,这样就建立了决策树。国际上最有影响和最早的决策树方法是Quinlan研制的ID3[7]和C4.5[8]方法。这种方法对越大的数据库效果越好。以后在ID3方法的基础上又发展了各种决策树方法。

4.1.2IBLE方法

它是利用信息论中信道容量,寻找数据库中信息量从大到小的多个字段的取值建立决策规则树的一个节点。字段的取值是由译码函数按正例标准而决定的值,字段的信道容量作为该字段的权值,节点中包含两个阈值(Wn,Wp)。节点中的多个字段名、权值、正例标准值、阈值共同构成了一个决策规则。权值之和与两个阈值比较,按照小于Wn,Wn和Wp之间,大于Wp,分别建立左、中、右三个分枝,在各分枝子集中重复建树节点和分枝,叶节点为正例(P)或反例(N)。这就建立了决策规则树。IBLE方法比ID3方法在识别率上提高了十个百分点。

4.2集合论方法

集合论的主要方法有粗糙集方法、概念树方法和覆盖正例排斥反例方法等。

4.2.1粗糙集方法

在数据库中将行元素看成对象,列元素是属性(分为条件属性和决策属性),等价关系R定义为不同对象在某个(或几个)属性上取值相同,这些满足等价关系的对象组成的集合称为该等价关系R的等价类。条件属性上的等价类E与决策属性上的等价类Y之间有三种关系:(l)下近似,Y包含E。(2)上近似,Y和E的交非空。(3)无关,Y和E的交为空。对于下近似建立确定性规则,对上近似建立不确定性规则(含可信度),对无关情况不存在规则。

4.2.2概念树方法

数据库中记录的属性字段按归类方式进行抽象,建立起来的层次结构称为概念树。如“城市”概念树的最下层是具体市名或县名(如武汉、南京等),它的直接上层是省名(广东、湖南等),省名的直接上层是国家行政区(华南、华东等),再上层是国名(美国、中国等)。

利用概念树提升的方法可以大大浓缩数据库中的记录。对多个属性字段的概念树提升,将得到高度概括的知识基表,再将它转换成规则。

4.2.3覆盖正例排斥反例方法

它是利用覆盖所有正例,排斥所有反例的思想来寻找规则。比较典型的有Michalski的AQ11方法,洪家荣改进的AQ15方法以及洪家荣的AE5方法。

AQ系列的核心算法是在正例集中任选一个种子,到反例集中逐个比较,对字段取值构成的选择子相容则舍去,相斥则保留。按此思想循环所有正例种子,将得到正例集的规则(选择子的合取式)。AE系列方法是用扩张矩阵来完成的。

4.3仿生物技术

仿生物技术的主要方法有神经网络方法、遗传算法、人工蚁群算法等。

4.3.1神经网络方法

它是模拟人脑神经元结构,以MP模型和Hebb学习规则为基础的,建立了三大类多种神经网络模型。

(1)前馈式网络:它含感知机、反向传播模型、函数型网络、模糊神经网络等。此类网络可用于预测、模式识别等方面。

(2)反馈式网络:它以Hopfield的离散模型和连续模型为代表,分别用于联想记忆和优化计算。

(3)自组织网络:它以ART模型、Koholen模型为代表,用于聚类。

神经网络的知识体现在网络联结的权值上,是一个分布式矩阵结构。神经网络的学习体现在神经网络权值的逐步计算上(包括反复迭代或者是累加计算)。

4.3.2遗传算法

这是模拟生物进化过程的算法。它由三个基本算子组成:

(1)繁殖(选择):从一个旧种群(父代)选择出生命力强的个体产生新种群(后代)的过程。

(2)交叉(重组):选择两个不同个体(染色体)的部分(基因)进行交换,形成新个体。

(3)变异(突变):对某些个体的某些基因进行变异(1变0,0变1)。

这种遗传算法能够产生一群优良后代,这些后代力求满足适应值,经过若干代的遗传,将得到满足要求的后代(问题的解)。遗传算法己在优化计算和分类机器学习方面发挥了显著的效果。

4.4统计分析方法

利用统计学原理对数据库中的数据进行分析。有如下方法:

4.4.1相关分析和回归分析

相关分析是用相关系数来度量变量间的相关程度。回归分析是用数学方程来表示变量间的数量关系,方法有线性回归和非线性回归。

4.4.2差异分析

从样本统计量的值得出的差异来确定总体参数之间是否存在差异(假设检验)。典型方法为方差分析,它是通过分析实验数据中不同来源的变异对总体变异的贡献的大小,确定实验中的可控因素(自变量)是否对实验结果(因变量)有重要影响。

4.4.3因子分析

它是用较少的综合变量来表达多个观察变量。根据相关性大小把变量分组,使得同组内的变量之间相关较高,不同组变量间的相关较低。

4.4.4聚类分析

直接比较样本中各事物之间的性质,将性质相近的归为一类,而将性质差别比较大的分在不同的类。对变量聚类(R型)计算变量之间的相关系数。对样本聚类(Q型)计算样本间的距离。

4.4.5判别分析

建立一个或多个判别函数,并确定一个判别标准,然后对未知属性的对象,根据测定的观测值,将其划归已知类别中的一类。判别准则有错误率最小或错误损失最小等。

4.5其他方法和技术

4.5.1模糊论方法

利用模糊集合理论对实际问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。

由于模糊性是客观的存在,而且系统的复杂性愈高,其精确化能力便愈低,这就意味着模糊性愈强。这是Zadeh总结出的互克性原理。以上提到的模糊方法都取得了较好的效果。

4.5.2可视化技术

可视化数据分析技术拓宽了传统的图表功能,使用户对数据的剖析更清楚。例如把数据库中多维的数据变成多种图形,对于揭示数据中的状况,内在本质以及规律性起到很大的作用。5结论

数据挖掘的技术与应用今方兴未艾。每年有新的数据挖掘方法和模型问世,人们对它的研究正日益广泛和深入。它也是由众多学科(如数据库、人工智能、统计学、数据仓库、在线分析处理、专家系统、数据可视化、高性能计算等)相互交叉、融合而形成的。随着数据挖掘技术的进一步发展,必然会带给用户更大的利益。

参考文献:

[1]NaisbittJMegatrends:Tennewdirectionstransformingourlives[M].NewYork:WarnerBooks,1982.16-17.

[2]邵峰晶,于忠清.数据挖掘原理与算法[M].中国水利水电出版社,2003.2-26.

[3]JiaweiHanMichelineKamber.数据挖掘概念与技术[M].机械工业出版社,2005.4.

[4]MehmedKantardzieDataMining:Concepts,Models,Methods,andAlgorithms[J].JournalofComputingandInformationScienceinEngineering.Sci.Eng,2005,5(4):394-395.

[5]FayyadUsama,Piatetsky-ShapiroGregory,SmythFromdataminingtoknowledgediscoveryindatabases.AIMagazine,1997,17(3):37-54.

[6]R·Groth.数据挖掘一构筑企业竞争优势,侯迪等译.西安:西安交通大学出版社,2001:146-1860.

[7]QuinlanJRIndutionofdecisiontrees[J].MachineLearning,1986,1(1):81-106.

[8]QuinlanJR.C4.5:Pragramsformachinelearning[M].California:MorganKaufmannPublishers,Inc,1993.

作者简介:

邓家斌(1979-),男,硕士,中山职业技术学院,教师,研究方向:数据挖掘、人工智能。

胡畅(1975-),男,本科,西安计量技术研究院,工程师,研究方向:计量与信息化。