5.2.2 确定财税词表选词依据
财税词表中的词汇分为两种:内核词汇和外壳词汇。内核部分词汇用以受控标引和检索,同时起到控制外壳词汇作用。对于已经收集完毕的财税关键词词典,从中选取出内核词汇并进一步识别词间关系用以构建关系紧密的内核词表,实现以上功能。自动构建叙词表,目前有三种选词方法[5]:
①通过词频选词,把词汇表中的词按词频分成三类:高频词、中频词和低频词。Salton和McGill经过讨论研究认为,中频词是优良的标引和检索词汇,可以收录到词表中。
②通过区分值(Discrimination Value,DV)选词,区分值测量一个词汇区分文献集合中的文献的能力。词汇的区分值越高,它作为标引用词的价值就越高。其中区分值等于去掉词汇k后计算的平均文献相似度减去带有词汇k的平均文献相似度的差。即DV(k)=(Average Similarity without k)—(Average Similarity with k)。区分能力强的词汇,由于它的存在明显降低平均文献相似度,其DV值为正值。相反,区分能力差的中性词汇,对平均相似度几乎无影响。
③通过泊松分布选词,泊松分布模型用以模拟离散随机分布现象。对泊松分布模型研究的一个重要结论是,不重要的词具有单值泊松分布,而重要词汇的分布则明显偏离泊松分布。后来这个结论作为词表选词的依据,用以识别领域内的重要词汇。
其中后两种选词方法需要经过大量统计实现,而且尚处于实验阶段,难以普及。根据实际需要,本文内核部分词汇收词时需要综合考虑多种因素,主要以词频控制为依据,兼顾词长、词义、词类等多种因素,并经过人工核定收词。选词时遵循以下控制原则:
①词长控制。选定的主题词应词形简练、概念明确。网络环境中词表容量不再成为问题,收词以词义表达明确为适中,以前需组配表达的概念,可适当收录,以提高词表专指度。
②词频控制。具有一定词频是取舍该词的基本判断依据,符合文献保障原则。内核表中词汇词频应大于45。对于词频较低的新财税概念,考虑到今后的发展,部分重要词汇收入内核表,其他收入外壳表中。对词频的统计是在关联概念空间生成过程中标引阶段实现的,在正排档的基础上统计词汇在训练库中的总词频,并按词频从大到小排列,得到总词频表。
③词类控制。选定的词以名词和名词词组为主,适当收录一些必要的动词。
④词义控制。尽量收录同一概念的不同表达词汇。
根据词频统计结合人工判定的方法共选取内核主题词1 272个,关键词词典中的其余词汇归入到外壳关键词部分。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。