3.1.7 概念空间方法[14]
美国学者Chen,H.在1995年综合词汇同现频率、词汇长度等因素提出了一种不对称的词汇相似度算法,称为概念空间方法(Concept Space Approach)。概念空间是词汇和词汇之间的权重关联组成的语义网络,代表了潜在于信息空间(如不同领域知识库中的文献)的概念(词汇)和它们的关联,并能辅助基于概念的跨领域信息检索。有效地构建概念空间需要领会六项基本原则:词汇对数增长原则、完整性原则、词汇专指性原则、非对称关联原则、相关性反馈原则、词汇重叠和发散激活原则。运用该理论,Chen初步构建了生物领域中的英文蠕虫群叙词表[15],后来,在Illinois数字图书馆启动项目(DLI)的语义检索实验中也付诸实践,构建了基于概念的跨领域的英文工程词表[16],均取得了令人鼓舞的效果,并通过实验证实,这种关联度计算方法较余弦公式能得到更好的关联效果。其中:dij=tfij×log(n/dfj×wj),词汇j在文献i中的权重,由TF-IDF计算得出。dijk=tfijk×log(n/d fjk×wj),词汇j和k在文献i中的权重。
各参数代表的含义如下:tfij表示词汇j在文献i中的词频;dfj表示词汇j在整个文献集合中出现的文献数;wj表示词j的长度;n表示文献集合中文献量;tfijk表示词汇j和词汇k在文献i中的同现频次,其值等于min(tfij,tfik);dfjk表示词汇j和词汇k同现的文献数量。
weightingfactor(k)=log(N/df k)/log(N),是权重调整方案,考虑到普通词问题,即在大量文献中出现的词汇权重小,在词汇关联时得到较小的关联度。相应的,词汇k到词汇j的关联计算公式为:
Chen通过实验评估了所生成词表的性能:选6个检索者,每人给定16个预选的词,请每个检索者先就每个词联想出相关的词汇,再从系统提示的关联词中判断哪些是相关或不相关。通过两种结果比较得出,召回率分别为28.60%与61.89%,准确率为77.08%及24.17%。由此得出:人工联想准确度高,召回率低;而机器产生关联词较多,准确度低。但是这种不对称的词汇关联算法涉及计算量庞大,需要超级计算机作为硬件保障,因此学者Chi Yuen Ng等提出一种效率较高的改进算法[17]。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。