5.3.2 关联概念空间生成的两个主要阶段
(1)标引阶段
为了获得语词之间的同现信息,需要首先统计语词在文本训练库中出现的信息,这就是一个标引的过程。具体做法是:用以上关键词词典作为抽词词典,对文献库中每一篇文献采用正向最大匹配算法抽取词汇(词组),同时统计词频,生成正排档。如《法制日报:国家开征烟叶税取代原烟叶特产农业税》一文:
经过关键词最大正向匹配算法,从中抽取关键词,按词频自大到小构成词串“烟叶税6,烟叶特产农业税3,烟叶3,农民负担1,纳税人1,征收1,纳税环节1,计税依据1,暂行条例1,国家税务总局1”。得到正排档如表5-3:
表5-3 正排档示例
(续表)
根据文本库中对所有文本的标引结果生成正排档,基本概括了文本训练库内的信息,以下操作通过直接扫描正排档来完成概念空间的构建过程。
(2)同现分析阶段
即利用关联算法计算正排档中所有语词两两之间的关联度,最终生成关联概念空间。词语A和B之间关联度计算的影响因素主要有两个:①词汇A,B同现的频次。同现频次越高,二者相关程度越大;反之,相关程度越低。②同现窗口的大小。同现窗口越小,二者关系越紧密;反之,关系越松散。财税网站中的文本简短意赅,本文以单篇财税网页作为同现窗口。鉴于此,本文选取DICE测度进行关联度计算,主要因为其中各测度因素设置较为合理,可以有效克服“零概率事件”和低频现象。并对其改造,克服同现窗口大小的影响。以下为本文采用的关联度计算公式:
weight(t1,t2)
公式中,前部分计算两词汇在财税文本库中的同现频次与各自总频次和的比值,后部分计算同现文献中最短文长的对数值与所有同现文献对数值的平均值的比值,其中k为两词汇同现文献数量。公式后半部分的作用是,对DICE测度计算结果进行调整,使得不同长度的文献中计算的关联度值有所区别,因为相对短小的文献,同现窗口较小,会得到较强的词汇关联,而长文献更……长文献更倾向于产生较弱的词汇关联。
通过计算正排档中各词汇之间的关联度,得到关联概念空间。为了提高其运行效率和质量,需对弱关联进行兴趣度过滤,只保留关联度排前50位的词汇对应关系,如表5-4所示:
表5-4 关联概念空间片段
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。