Web数据挖掘-中国期刊网

首页 > 《电脑知识与技术：学术版》 > 2005年2期 > Web数据挖掘

（整期优先）网络出版时间：2005-02-12

作者: 赵建军

/ 1

用户访问数据中往往存在大量无用或与当前信息挖掘无关的数据，我们通过数据清洗从挖掘对象中去除不相关的数据，并实现了用户识别、会话识别、格式化等步骤，对WEB信息进行预处理，为进一步的操作提供了较好的数据格式，提高了挖掘效率。同时，因特网上的信息往往具有非结构化或半结构化特性，难以得到传统数据挖掘技术的支持，我们通过事务识别技术解决了这一问题，将访问序列组织成逻辑单元以表示事务或用户会话，将所有事务组成一个事务数据库，识别出事务后就可以利用对传统数据挖掘的方法对WEB数据进行挖掘：事务识别技术有多种实现形式，不同形式有不同的应用场合，本文根据特定挖掘任务，实现了以时间维来分割事务的算法，并给出了一些实验数据。

同系列内容