4.4.1 基于LogL的方法
下面以YBK1为例,具体介绍IM和LogL用于生成分类号—主题词对照记录的方法。具体操作步骤如下:
(1)将样本库自动去掉重复记录,并进行统计(见表4-9)。
表4-9 YBK1的统计结果
(2)由程序生成每条记录的LogL值。计算结果见表4-10。
表4-10 YBK1的LogL值
续表 4-10
(3)根据IM值的大小,确定每个标引词与不同分类号的关联程度,选取IM值绝对值最大者为该标引词的最佳分类号。例如,标引词“国际资金”的分类号为“F831.7”;“国际资本”的分类号为“F831.6”,“国际资金”的分类号为“F831.7”。
(4)经过上述操作,已筛选掉样本库大部分错误记录。YBK1是单个标引词与分类号的对照数据库,其平均出现频次较高,可根据需要将样本库中词(串)频次小于平均频次的记录筛选掉。本文所有样本库的平均频次约等于3,所以将样本库中标引词频次小于3的记录删除。另外,采用上述四种模式生成样本库中,很多标引词属于通用概念,如“观点”、“分析”、时间和地点等词汇,可以建立通用概念表,并与样本库匹配。如果某条记录对应的所有标引词均为通用概念,则将该条记录删除。为了测试最后生成的样本库中分类号与标引词的对应准确率,本实验共抽取162条记录进行统计分析。实验结果表明,分类号与标引词的对应正确率可达72.3%。
(5)从第3步起,重新计算每条记录的LogL值。根据LogL值的大小,确定每个标引词与不同分类号的关联程度,选取LogL值最大者为该标引词的最佳分类号。如“国际资本”的分类号确定为F831.6,“国际资金”的分为号为F831.7。再用程序将标引词(串)频次小于3的记录和通用概念删除,并抽取203个记录进行抽样统计分析,其中分类号与标引词对应正确率达80.3%。
从上面的实验可以看出,LogL方法的实验效果较为理想。主要原因有两个:一是样本量较小,LogL方法比较适合小样本的统计分析;二是分类号和主题词的共现频次较低,50%左右的记录共现频次小于3。采用LogL方法,可以避免高LogL值较小的信息噪声。因此,我们采用LogL方法,为每个样本库中的各个标引词(串)均确定一个分类号,并将标引词(串)频次小于3的记录删除,四个样本库中分类号与标引词(串)对照结果的正确率见表4-11。
表4-11 样本库分类号与标引词(串)对照结果
在实验过程中还发现,分类号与标引词相符率随标引词串中标引词个数的增加而逐步递增。主要原因:一是标引词串中标引词个数越多,越能准确地表达文献主题,与分类号的相关程度较高;二是标引词串所包含的标引词越多,出现频次越低。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。