简介:作为一个网虫,我特别喜欢收集一些有趣或者有用的资料保存到电脑中。日积月累,硬盘中的资料越来越多,有各种文档、图片、电子图书、歌曲和网页等,但由于所有资料未按分类收藏,结果连我自己都不清楚硬盘上到底保存了哪些东东,想找点资料如同大海捞针。怎么办?好在我听朋友介绍,找到了一个专门为我这样丢三落四的人准备的、用来搜索文件的软件——数码龙批量文件搜索器。有了它的帮助,搜索文件变得简单多了。
简介:用户访问数据中往往存在大量无用或与当前信息挖掘无关的数据,我们通过数据清洗从挖掘对象中去除不相关的数据,并实现了用户识别、会话识别、格式化等步骤,对WEB信息进行预处理,为进一步的操作提供了较好的数据格式,提高了挖掘效率。同时,因特网上的信息往往具有非结构化或半结构化特性,难以得到传统数据挖掘技术的支持,我们通过事务识别技术解决了这一问题,将访问序列组织成逻辑单元以表示事务或用户会话,将所有事务组成一个事务数据库,识别出事务后就可以利用对传统数据挖掘的方法对WEB数据进行挖掘:事务识别技术有多种实现形式,不同形式有不同的应用场合,本文根据特定挖掘任务,实现了以时间维来分割事务的算法,并给出了一些实验数据。
简介:大数据是毋庸置疑的技术趋势和话题焦点,但是多数情况下,可能人们都太纠结大数据“是什么?不是什么?”,这让话题看起来永远都不会有结论。而本书作者另辟蹊径,在另外的角度上对这一趋势进行解读,即什么才是大数据的正确之路。现在我们就好像身处大数据技术演进的寒武纪时代,在这个技术变革时期,各种技术粉墨登场,快速演化。而这恰恰是人们对现有大数据技术一切疑惑和模棱两可观点的源头,也正是作者在开篇第1章和结尾表述的观点。因为我们身处变革当中,所以很好理解为什么作者并不急于回答“大数据是什么“。只要翻翻这本书,你一定会发现它和市面上其它大数据书籍的不同。