初探数据分析能力成熟度模型

(整期优先)网络出版时间:2018-06-16
/ 2

初探数据分析能力成熟度模型

元绍华

1.引言

近年来,大数据相关研究与应用层出不穷,很多行业开始利用大数据分析技术支撑业务决策、指导业务发展,数据应用的广度从单一内部数据逐渐发展为多源内部数据,一些互联网企业已提前进入多源内外部数据综合应用的阶段,在应用深度上,数据分析的地位从辅助业务决策逐渐融入生产系统,甚至成为业务发展的驱动力量。但与此同时,数据分析能力成熟度模型的缺失,使后进企业对自身数据分析能力难以形成清晰定位,容易在提升自身数据分析能力时迷失方向。

2.大数据领域能力成熟度模型发展现状

在大数据领域,当前的能力成熟度模型建设主要集中在数据能力成熟度模型上,且尚未形成统一、权威的专业标准,所以一些组织在借鉴软件能力成熟度模型的基础上提出各自的数据能力成熟度模型,用以规范、指导具体的数据生产过程的数据管理,比较著名的有以下三个[1]。

2.1.SEI的数据能力成熟度模型(DMM)

DMM(DataManagementMaturity)模型是由卡耐基-梅隆大学旗下机构CMMI研究所以能力成熟度模型整合的各项基础原则为基础开发的。包含六大职能域:数据管理战略、数据质量管理、数据操作、数据平台和机构、数据治理、支撑流程。

2.2.EDM的数据管理能力成熟度模型(DCAM)

DCAM(TheDataManagementCapabilityModel数据管理能力成熟度模型)是由EDMCouncil主导,组织金融行业企业参与编制和验证,基于众多实际案例的经验总结来进行编写的。主要分为八个职能域:数据管理策略、数据管理业务案例、数据管理程序、数据治理、数据架构、技术架构、数据质量、数据操作。

2.3.我国的数据能力成熟度评价模型(DCMM)

数据能力成熟度评价模型(DataCapabilityMaturityModel简称DCMM)是国内关于数据能力成熟度模型的一项国家标准,由全国信息技术标准化技术委员会于2014年启动编制工作,在制定过程中充分吸取了国内先进行业的发展经验(以金融业为主),结合了国际上DAMA(国际数据管理协会)《数据管理知识体系指南DMBOK》中的内容,并根据中国国内数据管理的实际情况,定义了数据能力评估的八大过程域:数据战略、数据治理、数据架构、数据标准、数据安全、数据应用、数据质量、数据生命周期管理等。

3.建立数据分析能力成熟度模型的必要性

从当前大数据领域能力成熟度模型发展现状可以看出,现有能力成熟度模型主要期望在以下方面为企业的数据管理提供帮助。

规范和标准化企业数据管理方面的专业术语。

规范和标准化企业数据管理方面职能域的划分。

明确数据管理方面相关的工具集、技能集。

帮助企业准确评估目前的现状、差距和发展方向。

帮助企业理解数据治理的组织架构需求。

建立数据管理方面相关的最佳实践。

另一方面,大数据的价值主要体现在数据服务、数据分析和数据探索上[2],广义来说,这三类价值均可理解为数据分析。数据治理处于数据分析的上游,所有数据治理工作都是为了更好地开展数据分析工作而服务。因此有必要建立数据分析能力成熟度模型,以对现有大数据领域能力成熟度模型形成补充,一方面可引导企业开展数据分析工作时充分利用前期数据治理的成果,另一方面可以对企业的数据分析能力进行统一评价,便于帮助后进企业查明问题、找到差距、指出方向,并提供实施建议。

4.数据分析能力成熟度模型的等级划分

本文认为,数据分析能力成熟度模型是指对企业开展数据分析能力进行评价的标准。即从企业实现收益、控制风险和优化资源的基本诉求出发,确立数据分析的目标以及实现这些目标所应具备的要素,要素按特性划分为若干能力项,每个能力项基于证据进行评价得出其成熟度,单个能力项成熟度经加权计算后得到数据分析能力成熟度。

大数据分析主要分为简单分析和智能化复杂分析两大类,前者常用SQL语句来完成一些统计和查询工作,后者通常需要使用基于机器学习和数据挖掘的智能化复杂分析实现[3]。本文认为,根据面向的问题域不同,结合数据广度和应用深度,可将数据分析能力成熟度模型分为四个等级,成熟度越高,所解决问题的价值也越大。

4.1.数据统计级

该级别为数据分析能力成熟度模型中最基础的级别,其问题域聚焦于“发生了什么”。该等级的数据分析,通过对过去一段时间、一定范围内所发生的事实进行记录,并按照一定规则生成数据报表,以满足有限范围内的业务需求,如结论描述、过程展示等。

4.2.多维分析级

该级别的数据分析,问题域聚焦于“为什么会发生”。主要依托多维分析技术和数据可视化技术,通过对以多维形式组织起来的数据进行上卷、下钻、切片、切块、旋转等各种分析操作,深入剖析数据,使分析者、决策者能从多个角度、多个侧面观察数据库中的数据,从而深入了解包含在数据中的信息和内涵。

4.3.预测性分析级

该级别的数据分析,问题域聚焦于“会发生什么”。主要通过关联分析、聚类分析、时序分析等各种算法,找到数据之间的潜在关系,探寻人们未知的、可能有用的、隐藏的规则,进而利用这些关系和规则预测未来会发生什么。

4.4.指导性分析级

该级别的数据分析,问题域聚焦于“让什么发生”。主要是指根据现在的态势,预测到未来的变化,现在做的什么将会对未来产生什么影响。例如用大数据指导公司重大发展战略,这个决策做出去之后会演变成哪些可能的结果。全国信标委大数据标准工作组组长、中国科学院院士梅宏认为指导性分析是最高级的一种数据运用方式。

5.数据分析能力成熟度模型的能力项

参考数据能力成熟度模型的能力项组成,本文认为数据分析能力成熟度模型的能力项可分为以下六大职能域。

数据分析模型管理策略

数据分析业务案例

数据分析模型架构

数据分析技术架构

支撑流程

数据安全

6.结语

大数据是相对较新的行业,目前大数据相关理论的发展相对滞后,但随着大数据相关业务的快速发展,大数据分析的发展方向将更加清晰,并形成众多成熟案例,反向促进相关标准的制定,推动大数据行业的整体发展。

参考文献

[1]李冰,宾军志.数据管理能力成熟度模型[J].大数据,2017,3(4):29-36.

[2]杜小勇,陈跃国.大数据的价值发现方法[J].大数据,2017,3(2):19-25.

[3]洪歧,杨刚,惠立山.大数据分析中机器学习研究[J].人工智能与机器人研究,2017,6(1):16-21.