简介:k均值算法是一个常用的局部搜索算法,它的主要缺陷是容易陷入局部极小,并且该局部极小解与全局最优解往往有很大的偏差.本文提出一个基于K-均值的迭代局部搜索文档聚类算法.该算法以k均值算法所得到的解作为初始解,从该初始解开始作局部搜索,在搜索过程中接受部分劣解.当解无法改进时,算法对所得到的局部极小解做适当强度的扰动后进行下一次的迭代,以跳出局部极小,从而拓展了搜索的范围.实验结果表明该算法对文档数据集聚类的正确性达99%以上.
简介:针对Hadoop存在的不足,提出了利用分布式数据库来模拟共享存储空间的解决方案。并对DBIK-means聚类算法做了并行化设计和实验分析,验证了DBIK-means聚类算法在处理大数据时,能够获得较好的加速比。