大数据聚类算法研究(汽车类的)

(整期优先)网络出版时间:2018-12-22
/ 2

大数据聚类算法研究(汽车类的)

赵海云1王艳霞2

(1.长城汽车股份有限公司天津300462;2.长城汽车股份有限公司天津哈弗分公司天津300309)

摘要:本文分析了汽车行业基于不同思想的各类大数据聚类算法,用户应该根据实际应用中的具体问题具体分析,选择恰当的聚类算法。聚类算法具有非常广泛的应用,改进聚类算法或者开发新的聚类算法是一件非常有意义工作,相信在不久的将来,聚类算法将随着新技术的出现和应用的需求而在汽车行业得到蓬勃的发展。

关键词:汽车;大数据;聚类算法;划分

就精确系数不算太严格的情况而言,汽车行业内对各种大型数据集,通过对比各种聚类算法,提出了一种部分优先聚类算法。然后在此基础之上分析研究聚类成员的产生过程与聚类融合方式,通过设计共识函数并利用加权方式确定类中心,在部分优先聚类算法的基础上进行聚类融合,从而使算法的计算准度加以提升。通过不断的实验,我们可以感受到优化之后算法的显著优势,这不仅体现在其可靠性,同时在其稳定性以及扩展性、鲁棒性等方面都得到了很好的展现。

一、汽车行业在大数据时代有三个鲜明的特征

1、数据全面数字化,第一人的行为数字化,包括所有驾驶操作、每天所有的行为习惯,甚至是座椅的习惯等等都将形成相应的数字化。以车为中心物理事件的数字化,车况、维修保养、交通、地理、信息等等都会形成数字化,全面数字化就会形成庞大的汽车产业链,汽车的大数据生态圈。这是第一个特点。

由于大数据拥有分析和总结的核心优势,越来越多的品牌厂商和广告营销机构都在大力发展以数据为基础的网络营销模式,这些变化也在不断地向传统的汽车营销领域发起进攻。从前品牌做营销仅能凭主观想法和经验去预估,而现在大数据的出现则可以帮助客户进行精准的客户群定位。

2、第二个特点是数据互联资源化。有一个领导人讲过:未来大数据会成为石油一样的资源。这说明大数据可以创造巨大的价值,甚至可能成为石油之外,更为强大的自然资源。

大数据首先改变了传统调研的方式。通过观察Cookie等方式,广告从业者可以通过直观的数据了解客观的需求。之前的汽车市场调研抽样的样本有限,而且在问题设计和角度选取过程中,人为因素总是或多或少地介入,这就可能会影响到市场调研的客观性。大数据分析不只会分析互联网行为,也会关注人生活的更多纬度。数据可以更加丰富,比如了解到消费者的习惯和周期、兴趣爱好、对人的理解会更加深刻。这些因素综合在一起就会形成一笔无形且珍贵的数据资源。有了大数据的支持,便可以实现曾经很多只能“纸上谈兵”的理论。

3、第三个特点则是产生虚拟的汽车,人和汽车可以对话,更具有智慧的新兴产业。这个就是未来在大数据时代,汽车行业会呈现的特点。

在这个情况下,我们以人、车、社会形成汽车产业大数据的生态圈,现实生活中每个有车一族所产生的数据都对整个生态圈有积极的影响。车辆上传的每一组数据都带有位置信息和时间,并且很容易形成海量数据。如果说大数据的特征是完整和混杂,那么车联网与车有关的大数据特征则是完整和精准。如某些与车辆本身有关的数据,都有明确的一个用户,根据不同用户可以关联到相应的车主信息,并且这些信息都是极其精准的,这样形成的数据才是有价值的数据。

二、汽车行业大数据下聚类算法的含义

汽车行业大数据是指以多元形式,由许多来源搜集而组成的庞大数据组。电子商务网站、社交网站以及网页浏览记录等都可以成为大数据的数据来源。同时,大数据又是指在现有的技术条件下无法在规定的时间内对数据进行传输、存储、计算和应用等的数据集合。大数据的数据体量巨大,数据的类型繁多,价值密度较低,处理速度较快,其核心的价值在于对海量的数据进行存储和分析,具有成本低、效率高等优势。随着信息化技术的不断发展,大数据已经成为当代炙手可热的一个话题,各个行业都在对大数据下的聚类算法的应用进行研究。大数据是信息化社会的一个产物,像是一块蕴含着能量的煤矿,利用大数据的优势,可以为大量消费者提供汽车行业产品或服务,提供精准营销的技术,促进汽车行业企业的转型和升级。

采用聚类算法对汽车行业大数据进行处理解决抽样数据处理上的局限性,通过聚类,可以对大数据集进行随机分块,每一块又是原数据集的一个可以保证抽样能够独立进行的样本集合,在足够小的范围之内保证处理结果的可靠性。

在物联网技术的不断发展下,聚类作为数据挖掘的一个重要的手段,在无先验知识的前提下揭示汽车行业数据之间的内在联系,将某些具有共同属性的数据聚成一个簇,减小簇间的相似性,扩大簇内数据之间的相似性,是数据挖掘以及机器等学习领域的重要研究课题,属于无监督模式识别的一种。大数据环境的发展,使得在数据处理上的要求不断增加,面对每天所存在的几百维乃至上万维的数据,传统的聚类算法不能够很好地与这些任务要求进行匹配,导致处理效率低下、效果差等情况的出现,迫切需要定义新的聚类算法,提高算法的稳定性和保证聚类效果的准确性。

三、汽车行业大数据下的聚类算法划分

1、传统聚类算法

传统聚类算法包含以下几种算法[1]

(1)分段聚类算法。该类型的划分是基于点的相似性,在单个分区中根据彼此之间的分离距离来进行划分,但是由于其需要用户预先定义一个不具有确定性的参数K。现今具有代表性的分区算法主要有CLARANS,PAN和K-Means等。

(2)分层聚类算法。它就是指将数据按照不同的层次来进行划分,划分的依据是根据数据自底向上或自顶向下来进行的,划分后的每种结果就代表了一种层次分类树。现阶段的代表性算法有ROCK,CURE和BIRCH等。

(3)基于密度的聚类算法。这种聚类划分方法能够有效地过滤噪音,以一种任意的方式来发现不同密度的区域,以此来达到处理数据的目的。

2、基于抽样的聚类算法

基于抽样的聚类算法只需要在数据集的一个样本上应用聚类算法就能够推广到整个数据集,重点关注较小的数据,有效减少聚类的时间和节省空间,提高数据处理的经济效益。主要是根据以下的公式来推测其样本的大小。

(1)基于随机选择的聚类算法(ClusteringAlgorithmbasedonRandomizedSearch,CLARANS)。它是由CLARA演变过来的,继承了CLARA在处理规模数据上的优势,有效地节约运行的时间和降低算法的复杂性,其主要目的就是通过一个整体的图来挖掘出其局部的最优处理方式,在动态处理上具有明显的优势。

(2)利用层次方法的平衡迭代规约和聚类(BalancedIterativeReducingandClusteringUsingHierarchies,BTRCH)。它可以利用其自身的数据结构,对所有存在的数据点进行筛选之后存放到内存中去,提高数据的处理效率。在这个算法中有两个重要的步骤,首先是它需要对数据点进行扫描并在内存中建立一棵树;其次就是运用聚类算法对所建立好的树的各个叶子节点进行处理。

(3)针对汽车行业大型数据库的高效的聚类算法(ClusteringUsingRepresentatives,CURE)。前述所讲的算法一般都采取单个的数据点来表示一个聚类,这种模式只适用球形聚类,在实际中会出现各种不同类型的聚类,而CURE便能够很好地解决这类问题,利用一组分散的数据点来表示这个聚类,把每一个数据点都看成一个独立的聚类,并依次对相邻的聚类进行合并,以最短的距离为基础,在每个阶段利用堆和K-D树来分别记录和表示每个聚点间的距离以及每个聚类的所有代表点。同样的,CURE也可以使用抽样技术来提高计算的速度,利用分区的方式,对每个分区进行局部的分层聚类直到达到预设的聚类数的临界值或者两个需要合并的聚类之间距离的某个阈值。如此再重复几次,使得没有被抽中的数据点也可以被分配到就近的聚类中,通过常数因子来缩小代表点和聚类之间的中心距离。

四、结语

每天,在路上行驶着数以万计的车辆,每一辆车哪怕只产生一丁点有价值的数据,汇聚起来都可以形成巨大的数据宝藏。身处大数据时代的我们,无时无刻不面对着海量数据的产生,对这些大数据分析和运用,会极大地改变着我们的生存和生活方式。我们司空见惯的交通工具,也将会迎来大数据带来的机遇,汽车一旦拥抱上大数据,奇幻般的汽车世界将会呈现在我们面前。大数据有助于汽车行业产业研究,现在信息越来越透明,关键是对信息获取的速度、准确性,通过大数据的方法快速掌握动态,投资方可以准确布局战略,同时对市场进行预测。汽车大数据的研究将改变汽车市场研究的方法,用大数据的方法能够更好预判未来竞争中的优势,也能更好的洞察用户需求。

参考文献

[1]李斌,王劲松,黄玮.一种大数据环境下的新聚类算法[J].计算机科学,2015(12):247-250.

[2]周丽华,黄成泉,王林.一种自动模糊聚类的算法[J].统计与决策,2014(20):16-19.