基于聚类分析的交通优化方案分析

(整期优先)网络出版时间:2019-10-20
/ 2

基于聚类分析的交通优化方案分析

张馨月

中央民族大学理学院北京市100089

摘要:本文以兰州市作为例子,运用因子分析法提取出公因子,然后利用聚类分析发掘出各路口之间的相关性,从而分析导致兰州市交通堵塞的一系列相关因素。

关键词:交通优化;因子分析;聚类分析

1因子分析法

因子分析作为有一种多元统计的分析技术,在解决多变量问题的时候,其具有显著的优点。因子分析法之所以在特征提取、数据压缩方面都有着广泛的应用,是得益于它的这些特性。利用因子分析法对各个因素的数据进行规格化处理,才能在影响交通拥堵的众多影响因素中发掘造成兰州市交通拥堵的潜在因素。

设对兰州交通有影响的因素数目为N,选取路口数目为M,得到

(1)

Xij为第i个路口第j个指标的观察数据,i=1,2,…,M;j=1,2,…,N。

因子分析中每一个变量用新公共因子的线性函数与特殊因子之和表示,公式为

,(i=1,2,…,p)(2)

其中,F1,F2,…,Fm为求取的新的公共因子,εi为特殊因子。

(3)

可以从协方差矩阵入手来进行因子分析的计算,以下是求解因子载荷阵的具体方法:

1)计算标准化处理后的数据的相关系数矩阵。

2)计算相关系数矩阵的特征根及其对应的特征向量,根据特征值的大小(一般取大于1的特征值)和累积方差贡献率(累积贡献率达80%以上)来确定因子个数。

3)利用相关系数矩阵的特征根和特征向量计算因子载荷矩阵,

。(4)

因子分析法的目的是为了减少变量个数,从而实现降维,因此,得到的公因子的数目是小于变量数目p的。

由因子载荷矩阵得

。(5)

又因为第j列元素的平方和为

。(6)

所以有,各个因子的方差贡献,即是其对应的各第j个特征根。

4)计算因子得分系数。

2聚类分析

聚类分析是将高维空间数分布的结构特征用二维图像显示,利用对二维图像的识别能力考察高维空间数据分布结构的特征,并且用来分析衡量同类样本的类似性。利用这一特性,从各路口的历史数据中获得路口间交通流量的的相似性和相关性,找出各路口间的相互关系[8]。这里采用非线性映射方法(NLM)得到二维图像。

在m维空间,矢量和的距离为

。(7)

在二维空间中,矢量和的距离为

。(8)

映射时的误差函数为

。(9)

其中,,分别为样本数据及其二维数据的欧氏距离。

3数据获取与处理

3.1数据的获取

在每个路口的4个方向都设置调查组,并且需要对相对来说拥堵的多个路口进行测量统计,最终再从其中选取几个路口进行研究分析,才能使得数据更具说服力。因此选取以下8个交叉路口及其交通量参数对兰州市交通拥堵的主要原因进行分析:机动车量、非机动车量、引道延误、车速、路段均速、效率指数、饱和度等。

3.2数据整合

由于有些数据明显不合理,因此在实际分析中要淘汰这些数据。除此之外,在实际的提取数据的过程中,设备故障、操作失误而造成的个别数据丢失的现象不可避免。在一般情况下,还会有个别离群较远的异常值和极端值也应该直接舍去。

4仿真结果分析

4.1因子分析结果

本文采用SPSS软件进行因子模型分析,对因子分析的7个指标进行分析,其包括:机动车量(B1)、非机动车量(B2)、引道延误(B3)、车速(B4)、路段均速(B5)、效率指数(B6)、饱和度(B7)。

矩阵中存在大量高值相关系数,下半部分P值存在很多小于0.05的数值,上下两部分均表明原始变量之间存在着较强的相关性。提取两个因子计算后,从旋转前因子方差贡献率可以看到,提取出的两个因子可以解释原始变量81.383%的信息,具有代表性。

因子旋转的目的使因子载荷变得简单化,同时也有利于对测量数据点进行分组。可看出,两个因子在不同原始变量上的载荷范围并没有明显的差别,所以要对因子载荷进行旋转。

从计算结果,旋转后载荷系数两极的差异显著。第一公因子在指标B6(效率指数)、B3(引道延误)、B4(车速)、B5(路段均速)上有较大载荷,说明这些指标有较强的相关性,可以划为一类,从影响指标的因素来看,这些指标主要受道路条件的制约,兰州两山加一河的特殊地形对道路限制极其严重,因此可以把第一公因子命名为“地形因子”。第二公因子在B1(机动车量)、B2(非机动车量)、B7(饱和度)上有较大载荷,而这3个因子都是关于交通量的指标,因此,将其命名为“交通量因子”。

此外,通过旋转后的因子载荷阵得到因子得分。得分值越大,则其对新因子的影响也越大。在这7个指标中,3(引道延误)、4(车速)、5(路段均速)、6(效率指数)与地形关系较大,而1(机动车量)、2(非机动车量)、7(饱和度)与交通量关系较大。

就各交通路口联系的紧密程度而言,南关什字(3)、中山桥(5)、小西湖(8)的3个路口数据在二维空间的距离比较接近,说明这3个路口之间的联系较为紧密。同理可知,天水路什字(6)和省图书馆(7)两路口关系较大。在二维平面图上各路口的分类按照一定的方向和顺序邻次排列,自右向左来看,交通拥堵程度逐渐增加。不同的拥堵类别,客观地反映了地理、车流对交通状况的影响。对于联系紧密程度不同的路口,对交通流进行控制和疏导的时候应分别考虑各路口之间的相互影响,这样才得以实现合理疏导分量正交或不相关,同时能反映原始变量的绝大部分信息。

通过各主成分方差的帕累托图可知,根据各个新主成分的各自贡献率及其对应的累积贡献率对其大小进行排序,选取前3个成分:机动车量(1)、非机动车量(2)、引道延误(3),其累积贡献率为91.264%(大于85%),因而取前3个主成分即可作为提取的主成分,来代表全部7个变量的大部分信息。用其贡献率加权3个主成分得分,可分别求出8个路口各自的得分。

运用PCA仿真分析得到,兰州市河谷狭长形的道路条件以及车流量是造成兰州市交通拥堵现状的首要因素,这一结论与因子分析提取出的两个新因子“地形”、“交通流”的结论是一致的,因此把“地形”和“交通流”视为拥堵治理的重点对象。