6.4.4 信息检索效率的评价
从理论上讲,信息检索系统应检索出与需要查找的内容有关的所有信息,同时过滤掉所有的非相关信息。这种状态称为“理想检索”。但事实上,理想检索是难以实现的。所以,有必要对检索效率进行评价。检索效率是指全、准、快、便、省(查全率、查准率、检索速度、检索方便性、检索成本与效益),最主要的是全和准[9]。所以,在评价信息检索效率过程中,主要通过查全率、查准率、漏检率和误检率四个评价指标进行评价,而查全率和查准率又是其中最为重要的两个指标。
(1)评价指标
为了方便介绍信息检索效率评价的几个主要指标,我们可以通过信息检索系统性能评价中使用的2*2表来说明。在信息检索系统中,每进行一次检索,就把系统中所有的文献分为四个部分,如表6-1所示。其中,a表示检出的相关文献,即合理的命中;b表示未检出的相关文献,即漏查;c表示检出的非相关文献,即误查;d表示未检出的非相关文献,即合理的排除。a+c表示检出的全部文献;b+d表示未检出的全部文献;a+b表示与提问相关的全部文献;c+d表示与提问不相关的全部文献;a+c+b+d则表示检索系统中的所有文献。
表6-1 检索系统性能评价使用的2*2表
①查全率R(Recall Ratio),是衡量信息检索系统在实施某一检索作业时检出相关文献能力的一种测度指标,指检出的相关文献数占系统中相关文献总数的百分比。查全率反映检索的全面性,其补数就是漏查率。查全率的计算方法为:
R=检出的相关文献量/检索系统中的相关文献总量=a/(a+b)
②查准率P(Precision Ratio),是衡量信息检索系统在实施某一检索作业时检索精确度的一种测度指标,指检出的相关文献数占检出文献总数的百分比。查准率反映检索精确性,其补数就是误差率。查准率的计算方法为:
P=检出的相关文献量/检出的文献总量=a/(a+c)
③作为查全率的补数,漏查率O(Omission Ratio)的计算方法为:
Omission=未检出的相关文献量/检索系统中的相关文献总量=b/(a+b)
④作为查准率的补数,误查率E(Error Ratio)的计算方法为:
Error=检出的非相关文献量/检出的文献总量=c/(a+c)
显然,查全率、查准率与漏查率、误查率之间存在以下关系:
Recall+Omission=1
Precision+Error=1
事实上,查全率和查准率指标的使用隐含着一个主要的前提条件:一般用户都期望检索出大量的相关性文献(即得到高的查全率),而同时又尽量拒绝大量的非相关文献(即得到高的查准率)。
(2)影响查全率和查准率的因素
影响查全率的因素有很多,从文献存储来看,主要有:文献库收录文献不全;索引词汇缺乏控制和专指性;词表结构不完整;词间关系模糊或不正确;标引不详;标引前后不一致;标引人员遗漏了原文的重要概念或用词不当等。此外,从信息检索过程来看,主要有:检索策略过于简单;选词和进行逻辑组配不当;检索途径和方法太少;检索人员业务不熟练和缺乏耐心;检索系统不具备截词功能和反馈功能,检索时不能全面地描述检索要求等。
影响查准率的因素主要有:索引词不能准确描述文献主题和检索要求;组配规则不严密;选词及词间关系不正确;标引过于详尽;组配错误;检索时所用检索词(或检索式)专指度不够,检索面宽于检索要求;检索系统不具备逻辑“非”功能和反馈功能;检索式中允许容纳的词数量有限;截词部位不当,检索式中使用逻辑“或”不当等。
(3)查全率与查准率之间的关系
查全率和查准率之间具有密切的关系,即互逆关系。英国学者克列维尔顿(C.W.Cleverdon)自1959年以来一直从事信息检索效率的理论研究,经过大量试验,发现信息检索系统中检全率与检准率相互之间呈现如图6-5所示的曲线关系。该曲线被称为查全率与查准率的互逆相关曲线。在一个信息检索系统中,当查全率和查准率达到一定程度以后,两者就会呈现出非线性的反变关系。换言之,在查准率不断提高的同时,查全率会持续下降;反之,在查全率不断提高的同时,查准率也会持续下降。
若欲提高检全率,则检准率会降低;而欲提高检准率,则检全率会降低。信息检索人员的任务在于努力提高信息检索效率,使曲线尽可能往右上方移动,也就是说在客观允许达到的范围内尽量实现最佳的结果。值得注意的是,只有当查全率和查准率达到一定程度以后,两者之间才会呈现出这种反变关系。如果查全率和查准率都很低,那么两者完全可以同时得到提高[10]。
上面介绍的评价指标主要是从系统角度来考察信息检索的效率。随着检索系统日益广泛的应用,各类检索模式越来越由专家模式向最终用户模式转变,检索效率评价也开始更多地关注检索相关性判断中人的因素和影响。检索用户的目标、知识状态、检索任务及所处的情境等众多因素,都会对检索效果产生影响。因而,用户角度的检索效率评价也开始成为该领域研究的内容。
图6-5 检全率与检准率的互逆相关曲线
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。