什么是Web文本挖掘？

2024年4月2日10:30:43已关闭评论

以Web文本为分析对象的文本挖掘被称为Web文本挖掘。Web文本挖掘主要通过应用数据挖掘技术从Web页面的文本内容中发现有价值的信息，帮助人们从大量的Web文本数据中找出隐藏的、潜在的关联模式。Web文本挖掘的主要功能包括预测和描述。

（1）Web文本挖掘的过程与方法。

Web文本数据的种类有很多，因而Web文本挖掘的种类也有很多。虽然Web文本挖掘的方法之间存在着差异性，但是这些方法遵循的处理过程一般都是相同的，如图12-2所示。Web文本挖掘首先要从Internet上抓取Web文本，对这些数据进行预处理和分词，然后再把Web文本转化成二维表，表格的形式为每一列表示一个特征，每一行表示一个Web页面的特征集合。其中Web文本挖掘过程中至关重要的一环就是对特征子集的提取。在完成对文档特征子集的提取后，可以利用数据挖掘的方法提取面向特定应用的模式并进行评价。如果评价的结果满足一定的要求，则存储起来；否则返回到前面的某个步骤继续进行新一轮的挖掘工作。

图12-2 Web文本挖掘的一般过程

Web文本挖掘的方法主要包括文本摘要、文本分类和文本聚类等。

1）文本摘要。

文本摘要是指从文本（集）中抽取关键信息，以简洁的方式对文本（集）中的主体内容进行总结。这样做可以使用户在不阅读全文的情况下对文本（集）的内容有比较全面的了解，使用户可以判断出是否需要对文本（集）做深入阅读。文本摘要在很多情景下十分有用，例如，用户在使用搜索引擎进行检索时，搜索引擎向用户返回检索结果的时候通常需要给出文本的摘要。现在绝大部分搜索引擎返回的文本摘要只截取文本的前几行，但文本的前几行往往并不能对文本进行一个有效的总结，因此这种方法很明显存在一定的缺陷。

2）文本分类。

分类的方法被广泛地应用于人类社会与科学领域的各个方面，是保存和处理信息与知识的最有效的方式之一。在Web数据的处理中，文本分类是把一些被标记的文本作为训练集，按照文本属性和文本类别之间的关系模型预测待标记的文本的类别。文本分类的效果可以用召回率和准确度来衡量。召回率是正确分类的文档数与实际相关文档数之比，准确度是分类中正确分类的文档与总文档数之比。

3）文本聚类。

文本聚类是指根据文本的不同特征将它们划分为不同的簇，目的是使文档集合分成一个个的文档簇，要求归属于同一簇文本之间的差别尽可能得小，不同簇间的文本差别尽可能得大。文本聚类与文本分类不同，聚类没有预先对主题定义类别标记，这些标记需要通过聚类学习算法自动确定。文本聚类的算法也有很多种，聚类算法大致可以分为两类，即以GHAC等算法为代表的层次聚类（Hierarchical Clustering）法和以K-Means等算法为代表的划分聚类法。

（2）Web文本挖掘的应用。

Web文本挖掘在搜索引擎领域和自然语言理解领域有着广泛的应用。

1）搜索引擎领域。

Web文本挖掘可以充分利用万维网资源，提高搜索效率与精准度，使搜索引擎返回与用户检索条件更加匹配的结果，从而提高Web文档的利用价值。Web文本挖掘对搜索引擎的搜索结果做到了有效的文本聚类，如谷歌的“精化查询”。在信息检索领域中，善用聚类分析产生的聚类文件结构能够改进检索的效果和效率。聚类分析能对搜索结果进行合理的整合：类似文档聚类的过程，按照页面摘要或页面之间的相似程度分为多个簇，相似度高的聚集在一个簇内，使每个簇形成一个中心。用户在检索时，搜索引擎把搜索内容和簇中心进行比较可以更快地得到搜索结果，提高查询的查全率和查准率。

2）自然语言理解领域。

自然语言理解是人工智能领域的一个重要方向，是一门新兴的边缘学科，以语言学为基础，内容涉及语言学、心理学、逻辑学、声学、数学和计算机科学等多个学科。从人工智能的角度来看，自然语言理解的任务是建立一种计算机模型，这种模型的功能要能够给出类似人的理解，可以分析回答自然语言提出的问题。Web中存在着海量的自然语言数据，如何处理和利用这些数据是一个亟待解决的问题。而利用Web文本挖掘的方法可以更有效地处理这些自然语言数据。国内外许多学者提出了结合自然语言处理技术和Web文本挖掘技术的模型：先定义敏感数据库，将词库中的敏感词作为关键字；然后利用智能网络机器人，把主流搜索引擎的搜索结果下载到本地数据库进行后台分析；再利用语义模板从被考察对象中提取典型句式，对这些典型句式进行语法、语义分析后再进行分类，判断是不是所需要的对象；最后利用聚类、分类算法把结果返回给用户。

登录 找回密码

登录找回密码