Web日志挖掘研究

(整期优先)网络出版时间:2005-02-12
/ 1
通过对Web服务器日志文件进行分析,可以发现相似客户群体、相关Web页面和频繁访问路径.在本文算法中,首先以Web站点的URL为行、以UserID为列建立URL-UserID关联矩阵,其元素值为用户的访问次数.然后,采用模糊聚类算法和K-平均算法两种方法分别对列向量进行分析得到相似客户群体,对行向量进行分析可获得相关页面,对后者再进一步处理还可以发现频繁访问路径.实验结果表明了算法的有效性.