首页 理论教育 相似度系数

相似度系数

时间:2023-02-27 理论教育 版权反馈
【摘要】:人工标引出关键词共有5 091个,平均每篇文献3.8个关键词。相似度系数呈明显的正态分布,双字词、三字词和四字词具有较高的相似度,比较符合汉语中词汇的分布规律。
相似度系数_情报检索语言的兼容转换

6.5.1 相似度系数

相似度系数(Q)可以直接计算人工标引关键词和自动抽取关键词的匹配程度,a表示自动抽取关键词的数量,m表示人工标引关键词的数量,c表示两者相同的关键词数量。

img165

实验数据集由上海复旦大学李荣陆提供[2],其中1 350篇含有人工标引关键词的文献用作实验数据集。人工标引出关键词共有5 091个,平均每篇文献3.8个关键词。用GKEY方法共抽取出5 316个关键词,平均每篇文献4.2个关键词,其中K取值为1。下面考察两种方法标引结果的相似度系数,相似度计算针对整个数据集而不是单篇文献。

完全匹配是指两种方法标引结果中完全相同的关键词;部分匹配是指由两种方法标引出的关键词,虽然词义相同或者相近,但是有一两个字符不相匹配。表6-2详细描述了两种方法标引结果的匹配程度。

表6-2 两种方法标引结果的相似度系数

img166

续表 6-2

img167

实验结果中,绝大多数自动抽取的关键词都具有正确的分词边界,错误率远远低于Tseng等的实验结果。从查全率和查准率的角度看,GKEY方法是一种性能较为优良的方法。相似度系数呈明显的正态分布,双字词、三字词和四字词具有较高的相似度,比较符合汉语中词汇的分布规律。

GKEY方法对多字关键词的抽取非常有效,但对单字关键词的识别能力还较弱。原因在于:部分自动抽取的关键词为比较专指的特定专业词汇,而人工标引则往往采用比较泛指的词;30.3%左右的人工标引关键词为来自文本之外的词汇(主要是同义词、广义词、狭义词或者相关词);实验数据集中的文献来源于不同的期刊和报纸,没有遵循统一的标引规范。特别是许多没有检索意义的停用词也被用作关键词,而这些词在自动抽取实验中被筛选掉。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈