五、XML检索评价
利用上文介绍的各种方法进行XML检索研究或者开发的系统大都在INEX中进行评测。可以说,INEX会议评价方法的发展体现了XML检索评价的研究发展,因此下面将介绍INEX会议中所使用的评价方法。对检索排序方法进行评价,需要有标准结果集来做对比。INEX通过每年子任务完成之后的人工相关性评测(Relevance Assessment)过程来获得标准结果集。
INEXXML检索评价中对检索结果与用户查询关系的相关性衡量,从两个维度进行了定义:
Exhausitivity:也叫topical relevance,即主题相关性,定义元素对检索主题要求的满足度;
Specificity:也叫component coverage,即主题专指度,元素中与检索主题相关的内容的多少。
Exhausitivity是信息检索中的标准指标,Specificity则是元素内相关部分和不相关部分大小的比例。Exhausitivity一般规定有四个等级:0:irrelevant;1:marginally relevant;2:fairly relevant;3: highly relevant。Specificity的四个等级定义为:N:no coverage;L: too large;S:too small;E:exact coverage。
INEX2005及以前几届会议定义了量化函数来综合Exhausitivity和Specificity的得分,如下:
Oglive和Lalmas[45]通过调查INEX2005的评测结果发现使用Exhausitivity与不使用时的检索效果类似,因此自2006年起,INEX放弃了Exhausitivity这一维度。
INEX2005针对Focused任务设计了XCG(eXtended Cumulated Gain)评测方法[46];2006年,多种新的评测方法被引进[47],包括:HiXEval、BEPD和EPRUM等。
XML的不同检索任务有不同的检索要求,因此也需要制定不同的评价指标,例如对需要找到最佳阅读入口点(best entry point)的XML检索任务,进行评价时需要考虑最佳入口点和正确结果之间的距离大小。INEX2005、INEX2006提出了一些新的评价方法,并且对往届的评价方法进行了很多改进,这两年的评价方法最为丰富[46,47]。INEX2007和INEX2008对过去两年的一些比较复杂的方法进行了适当简化,并逐步趋于成熟[48,49]。下面以2007年的INEX为例,介绍Ad-hoc各项子任务所采用的评价方法[50]。
(1)focused task
假定:Pr是排序为r的XML元素片段;rsize(Pr)是Pr中包含的高亮部分的字符数;Size(Pr)是Pr中包含的总字符数;Trel是文档集中高亮部分的总字符数,表示所有相关文档的相关片段的大小Size。
在排序为r的地方的查准率:
即:为了达到更高的查准率,系统应该返回尽可能少的不相关片段。
在排序为r的地方的查全率:
即:为了达到更高的查全率,系统应该返回尽可能多的相关片段。
定义rel(Pr)为一个系数,如果片段p包含有高亮片段,则取值1;如果不包含则取值为0,R则为1500,因为官方设定的返回结果数为1500个。则检索结果的平均查准率(average precision)定义为:
其计算方法是:首先在每一个recall的地方计算查准率precision,如果某一个recall的地方没有相关部分,则precision为0。
(2)relevant in context task
该方法假设:用户认为每一个相关文档都是同等重要的。
则单篇文章的得分计算公式是:
P是文档d的部分。
定义Trel(d)为文档d中的高亮区域的大小,则recall为:
定义文档的F值为:
文档最终得分是:
(3)best entry point(BEP)task
单篇文章的得分是距离d(字符距离)的线性函数。
假定S(x,b)计算的是系统返回的BEP和真实的BEP之间的距离,值为1时表示两者相吻合,最小值为0。d(x,b)表示它们之间的字符距离,L是文档长度,A是调和参数,A越大,长度的影响就会越小,则单篇文档的得分计算方法是:
另一种计算方法是:
其中n=1000表示在屏幕上文档的可见部分的字符数。文档得分公式为:
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。