Web数据挖掘的类型及流程

2024年7月10日17:08:28Web数据挖掘的类型及流程已关闭评论

1 什么是Web数据挖掘

Web数据挖掘是数据挖掘在Web上的应用,它利用数据挖掘技术从与WWW相关的资源和行为中发现和抽取感兴趣的、有用的模式和隐含信息,是在分析大量数据的基础上,进行归纳性推理,从而预测客户行为,帮助企业的决策者调整市场策略、减少风险并作出正确决策的过程。它涉及Web技术、数据挖掘、计算机语言学、信息学、神经网络、机器学习等多个领域,是一项综合技术。

Web数据具有数据量大、半结构化数据结构、异构数据库环境、数据动态性极强等特点。所以,Web数据挖掘具有以下功能。

①系统提升:包括网站自身的提升和网络性能的提升。网站自身的提升是指根据实际用户的浏览情况,调整网页的链接结构和内容,更好地服务用户。网络性能的提升是指应用缓存技术加快网络信息传输,从proxy的访问信息中分析用户的访问模式,从而预测用户的网页访问,提高Web Caching的性能。

②个性化定制:从用户每次浏览的页面可以发现他的兴趣爱好,根据发现的用户喜好,动态地为用户定制观看的内容或提供浏览建议。

2 Web数据挖掘的类型及流程

1)Web数据挖掘的类型

Web包括Web页面数据、Web结构数据、Web日志文件三种类型的数据。相应地也可以将Web数据挖掘分为内容挖掘、结构挖掘以及使用挖掘三种类型,如图2—12所示。

图2—12 Web数据挖掘分类

(1)内容挖掘

内容挖掘又分为:文本数据挖掘和多媒体数据挖掘。文本数据挖掘又称文本挖掘,是对非结构文本进行的Web挖掘,是Web挖掘中重要的技术领域。多媒体数据挖掘是从多媒体数据库中提取多媒体数据关联、隐藏的知识,或者是没有直接存储在多媒体数据库中的其他模式,先进行特征提取,随后利用数据挖掘技术进行进一步挖掘。

(2)结构挖掘

有用的知识不仅包含在Web页面的内容之中,也包含在Web页面的结构之中。Web结构挖掘就是挖掘Web潜在链接结构模式,通过分析页面链接中被链接数量和对象,建立Web自身的链接结构模式。然后对页面进行分类和聚类,找到权威页面。Web结构挖掘是对文档内部结构、Web页面超链接关系、文档URL中的目录结构的挖掘,因此,Web结构挖掘又可以分为内容挖掘、超链接挖掘和URL挖掘。

(3)使用挖掘

当前,许多商务活动都是通过Internet或Web来实现的。服务器方每天都会产生大量的数据,这些数据通常是由服务器自动产生并存放在服务器日志文件中,同时,往往会形成大量用户个人信息。Internet作为一个信息资源是繁杂、异构和庞大的,然而从局部来说,每一个提供信息的服务器都有一个结构化较好的Web访问日志。Web使用挖掘就是运用数据挖掘技术在这些资源中发现使用模式的过程,它面对的是在用户和网络交互的过程中抽取出来的第二手数据。

Web使用挖掘可以分为一般访问模式跟踪和个性化使用记录跟踪。一般的访问模式跟踪通过分析Web访问日志来理解访问模式。个性化使用记录跟踪能分析个人的倾向,根据个人喜好,为每个用户定制具有个人特色的Web站点。

2)Web数据挖掘的流程

与传统数据和数据仓库相比,Web上的信息具有高度异构和半结构化特性,并且是动态的,所以很难直接以Web网页上的数据进行数据挖掘,必须经过必要的数据处理,典型的Web数据挖掘的处理流程,如图2—13所示。

图2—13 Web数据挖掘处理流程

(1)查找资源

该阶段主要任务是从目标Web文档中得到数据,值得注意的是信息资源不仅限于在线Web文档,还包括电子邮件、电子文档、新闻组、网站日志甚至是通过Web形成的交易数据库中的数据。

(2)信息选择和预处理

任务为从取得的Web资源中剔除无用信息,将信息进行必要整理。例如,从Web文档中自动去除广告链接,去除多余格式标记、自动识别段落或者字段,并将数据组织成规整的逻辑形式甚至关系表。

(3)模式发现

对预处理后的数据进行挖掘,自动进行模式发现,从Web站点间发现普遍的模式和规则。

(4)模式分析

对发现的模式进行解释和评估,必要时需返回前面处理中的某些步骤反复提取,最后将发现的知识以能理解的方式提供给用户。可以是机器自动完成,也可以是与分析人员进行交互来完成。

  • 版权声明:本篇文章(包括图片)来自网络,由程序自动采集,著作权(版权)归原作者所有,如有侵权联系我们删除,联系方式(QQ:452038415)。