什么是Web数据挖掘
Web数据挖掘是数据挖掘在Web上的应用,它利用数据挖掘技术从与WWW相关的资源和行为中发现和抽取感兴趣的、有用的模式和隐含信息,是在分析大量数据的基础上,进行归纳性推理,从而预测客户行为,帮助企业的决策者调整市场策略、减少风险并作出正确决策的过程。它涉及Web技术、数据挖掘、计算机语言学、信息学、神经网络、机器学习等多个领域,是一项综合技术。
Web数据具有数据量大、半结构化数据结构、异构数据库环境、数据动态性极强等特点。所以,Web数据挖掘具有以下功能。
①系统提升:包括网站自身的提升和网络性能的提升。网站自身的提升是指根据实际用户的浏览情况,调整网页的链接结构和内容,更好地服务用户。网络性能的提升是指应用缓存技术加快网络信息传输,从proxy的访问信息中分析用户的访问模式,从而预测用户的网页访问,提高Web Caching的性能。
②个性化定制:从用户每次浏览的页面可以发现他的兴趣爱好,根据发现的用户喜好,动态地为用户定制观看的内容或提供浏览建议。
典型Web数据挖掘技术
Web数据挖掘有众多应用,根据不同应用场景可以使用不同的Web数据挖掘技术进行信息挖掘。
1)分类技术
分类技术可以根据捕获的Web访问用户的个人信息或者共同的访问模式,分析出访问某一服务器文件的用户特征。Web数据挖掘中常用的分类技术有:贝叶斯分类和贝叶斯网络、判定树归纳、神经网络、遗传算法、基于案例的推理、粗糙集方法和模糊集方法等。
2)关联规则挖掘技术
关联规则挖掘就是要挖掘出用户在一个访问会话期间从服务器上访问的页面或者文件之间的联系,这些页面之间可能并不存在直接的引用关系。最常用的算法是Apriori算法,它从事务数据库中挖掘出最频繁访问项集,这个集就是关联规则挖掘出来的用户访问模式。
3)时间序列模式技术
时间序列模式挖掘就是要挖掘出交易集之间有时间序列的模式。在网站服务器日志里,用户的访问是以时间段为单位记载的,经过确认数据净化和事件交易得到一个间断的时间序列所反映的用户行为,有助于帮助商家印证其产品所处的生命周期阶段。
4)路径分析技术
用路径分析技术进行Web数据挖掘时,最常用的是图。因为Web可以用一个有向图来表示, G =( V , E ), V 是页面集合, E 是页面之间的超链接集合。页面抽象为图中的顶点,而页面之间的超链接抽象为图中的有向边,顶点 V 的入边表示对 V 的引用,出边表示 V 引用了其他页面。