截词检索的右截断和左截断是什么意思?

2023年4月22日10:31:51截词检索的右截断和左截断是什么意思?已关闭评论

截词检索是一种常用的检索技术,在西文检索中更是广泛使用。

由于西文的构词特征,在检索中常会遇到单复数形式不一致;同一意思的词,英美拼法不一样;词干加上不同性质的前缀和后缀就可以派生出许多意义相近的词,这样就会出现检索式过长,输入时间长,存在耗机时的情况。截词检索就是为解决这些问题而设计的。截词检索指的是用给定的词干做检索词,检索出含有该词干的全部相关文献。它可以起到扩大检索范围、提高查全率、节省检索时间等作用。截词检索在名词的单复数形式、词的不同拼写法、词尾的不同变化等方面有很好的应用。

常用的截词符有“?”“*”“#”“$”等。

按照截词位置的不同,截词检索可分为:右截断(前方一致)、左截断(后方一致)、左右同时截断(中间一致)等类型。

按截断的长度可划分为有限截断(limited truncation)和无限截断(unlimited truncation)。

1.右截断

右截断(即前方一致)将检索词的词尾部分截断,要求比较被检项的前面部分。右截断在计算机检索中广泛应用,这种方法可以省去键入各种词尾有变化的检索词的麻烦,有助于提高查全率。

例如,键入检索词“physic*”(*代表多个字符的截断),表示physic、physical、physicalism、physician、physicochemistry等,可以检索出含有“physic”开头词汇的所有文献;键入检索词“acid??”(?代表一个字符的有限截断,??表示两个字符的有限截断检索),表示可以检索出含有acid、acidic、acids等词汇的文献,但不会检索出包含acidicity、acidify等词汇的文献。

概括地说,右截断运算主要应用在以下四个方面:

①词的单复数,如“desk?”“class??”;

②年代,如“197?”(20世纪70年代)、“20??”(21世纪);

③作者,如用“Thatcher*”可检索出所有姓Thatcher的所有作者;

④同根词,如用“success*”可检索出succeeded,successful,succeeds等同根词。

在具体的检索实践中,使用右截断运算有可能检索出无关词汇,尤其在使用无限右截断时,所选词干不能太短,否则将造成大量误检,或是发生溢出,导致检索失败。

2.左截断

左截断(即后方一致)将截词符号放置在检索字符左侧,以表示截词符左侧的有限或无限个字符不影响该字符串的检索。这种截断在计算机检索中广泛应用,这种方法可以省去键入各种词头有变化的检索词的麻烦,有助于提高查全率。在检索化学化工文献和复合词较多的文献时,使用后方一致的截断较多见。

例如,键入检索词“*computer”可以命中minicomputer、microcomputer等相关词汇。左、右截断检索存在隐含“OR”运算“*computer”等价于“minicomputer OR microcomputer…”。

3.左右同时截断

左右同时截断(即中间一致),把截断符号放置在检索词的左右两侧,将词根左右词头、词尾同时截断。例如,键入检索词“*computer*”可以命中包含该字根的所有索引词,如minicomputer、microcomputer、minicomputers、microcomputers等。

截词检索可以减少检索词的输入量,简化检索步骤,扩大查找范围,提高查全率,目前截词检索在检索系统特别是外文检索系统中有广泛的运用。

  • 版权声明:本篇文章(包括图片)来自网络,由程序自动采集,著作权(版权)归原作者所有,如有侵权联系我们删除,联系方式(QQ:452038415)。