以Web文本为分析对象的文本挖掘被称为Web文本挖掘。Web文本挖掘主要通过应用数据挖掘技术从Web页面的文本内容中发现有价值的信息,帮助人们从大量的Web文本数据中找出隐藏的、潜在的关联模式。Web文本挖掘的主要功能包括预测和描述。
(1)Web文本挖掘的过程与方法。
Web文本数据的种类有很多,因而Web文本挖掘的种类也有很多。虽然Web文本挖掘的方法之间存在着差异性,但是这些方法遵循的处理过程一般都是相同的,如图12-2所示。Web文本挖掘首先要从Internet上抓取Web文本,对这些数据进行预处理和分词,然后再把Web文本转化成二维表,表格的形式为每一列表示一个特征,每一行表示一个Web页面的特征集合。其中Web文本挖掘过程中至关重要的一环就是对特征子集的提取。在完成对文档特征子集的提取后,可以利用数据挖掘的方法提取面向特定应用的模式并进行评价。如果评价的结果满足一定的要求,则存储起来;否则返回到前面的某个步骤继续进行新一轮的挖掘工作。
图12-2 Web文本挖掘的一般过程
Web文本挖掘的方法主要包括文本摘要、文本分类和文本聚类等。
1)文本摘要。
文本摘要是指从文本(集)中抽取关键信息,以简洁的方式对文本(集)中的主体内容进行总结。这样做可以使用户在不阅读全文的情况下对文本(集)的内容有比较全面的了解,使用户可以判断出是否需要对文本(集)做深入阅读。文本摘要在很多情景下十分有用,例如,用户在使用搜索引擎进行检索时,搜索引擎向用户返回检索结果的时候通常需要给出文本的摘要。现在绝大部分搜索引擎返回的文本摘要只截取文本的前几行,但文本的前几行往往并不能对文本进行一个有效的总结,因此这种方法很明显存在一定的缺陷。
2)文本分类。
分类的方法被广泛地应用于人类社会与科学领域的各个方面,是保存和处理信息与知识的最有效的方式之一。在Web数据的处理中,文本分类是把一些被标记的文本作为训练集,按照文本属性和文本类别之间的关系模型预测待标记的文本的类别。文本分类的效果可以用召回率和准确度来衡量。召回率是正确分类的文档数与实际相关文档数之比,准确度是分类中正确分类的文档与总文档数之比。
3)文本聚类。
文本聚类是指根据文本的不同特征将它们划分为不同的簇,目的是使文档集合分成一个个的文档簇,要求归属于同一簇文本之间的差别尽可能得小,不同簇间的文本差别尽可能得大。文本聚类与文本分类不同,聚类没有预先对主题定义类别标记,这些标记需要通过聚类学习算法自动确定。文本聚类的算法也有很多种,聚类算法大致可以分为两类,即以GHAC等算法为代表的层次聚类(Hierarchical Clustering)法和以K-Means等算法为代表的划分聚类法。
(2)Web文本挖掘的应用。
Web文本挖掘在搜索引擎领域和自然语言理解领域有着广泛的应用。
1)搜索引擎领域。
Web文本挖掘可以充分利用万维网资源,提高搜索效率与精准度,使搜索引擎返回与用户检索条件更加匹配的结果,从而提高Web文档的利用价值。Web文本挖掘对搜索引擎的搜索结果做到了有效的文本聚类,如谷歌的“精化查询”。在信息检索领域中,善用聚类分析产生的聚类文件结构能够改进检索的效果和效率。聚类分析能对搜索结果进行合理的整合:类似文档聚类的过程,按照页面摘要或页面之间的相似程度分为多个簇,相似度高的聚集在一个簇内,使每个簇形成一个中心。用户在检索时,搜索引擎把搜索内容和簇中心进行比较可以更快地得到搜索结果,提高查询的查全率和查准率。
2)自然语言理解领域。
自然语言理解是人工智能领域的一个重要方向,是一门新兴的边缘学科,以语言学为基础,内容涉及语言学、心理学、逻辑学、声学、数学和计算机科学等多个学科。从人工智能的角度来看,自然语言理解的任务是建立一种计算机模型,这种模型的功能要能够给出类似人的理解,可以分析回答自然语言提出的问题。Web中存在着海量的自然语言数据,如何处理和利用这些数据是一个亟待解决的问题。而利用Web文本挖掘的方法可以更有效地处理这些自然语言数据。国内外许多学者提出了结合自然语言处理技术和Web文本挖掘技术的模型:先定义敏感数据库,将词库中的敏感词作为关键字;然后利用智能网络机器人,把主流搜索引擎的搜索结果下载到本地数据库进行后台分析;再利用语义模板从被考察对象中提取典型句式,对这些典型句式进行语法、语义分析后再进行分类,判断是不是所需要的对象;最后利用聚类、分类算法把结果返回给用户。