首页 百科知识 知识库制作步骤

知识库制作步骤

时间:2023-02-27 百科知识 版权反馈
【摘要】:6.4.2 知识库制作步骤错误排除,去重处理将在套录过程中出现的关键词、题名、分类号中出现的错误排除。由于数据量较大,直接删除这些错误记录,在三个数据库合并后去掉重复记录,经过处理后共有734 339条记录。在实验中采用Dice测度方法来进行研究。对于数据库记录中存在一个关键词对应多个分类号的记录,取关键词Dice值最大的记录所对应的分类号为最佳分类号,并做相应标记。
知识库制作步骤_文本自动标引与自动分类研究

6.4.2 知识库制作步骤

(1)错误排除,去重处理

将在套录过程中出现的关键词、题名、分类号中出现的错误排除。由于数据量较大,直接删除这些错误记录,在三个数据库合并后去掉重复记录,经过处理后共有734 339条记录。

经过此步处理生成的样例如表6-3所示。

表6-3 经去重处理后的记录样例

img59

(2)全角到半角的转换处理

将关键词字段中有关的字符进行半角到全角的转换,以统一字符编码。主要是将半角的标点符号、阿拉伯数字和拉丁字母转换处理为全角。

(3)分类辅助用词过滤处理

在标引的关键词中,存在时间、地名和文献类型这样的停用词,这些词对匹配效果有影响。本书采用程序将这些词过滤掉。具体做法是:编制时间表、地名表和文献类型表,将知识库中的记录与表中的数据对应,发现匹配的即过滤掉,并在知识库中作相应的字段,记录过滤掉的停用词。经过此步处理后的数据样例如表6-4所示。

表6-4 经过分类辅助用词过滤处理后的数据样例

img60

(4)权值排序

关键词的个数、词长、该词是否在题名中出现以及关键词字段中关键词个数等存在一定的相关性,对文献主题的准确表达有较大的影响。这些因素对文献主题的影响并不是均等的。本书指定了如下的权重衡量体系来综合考察词长信息、词个数信息、题名信息对关键词的主题表达能力的影响。

img61

其中:

Weight(A):表示关键词A的权值;

Length(A):表示关键词A的词长;

Number(A):表示关键词A所在关键词字段中关键词的个数;

Heading(A):表示关键词A是否在题名中出现,若出现为1,否则为0;

Average(Len):表示标引经验知识库中关键词的平均词长,单位为“字节”;

Average(Num):表示标引经验知识库中关键词个数平均数,单位为“个”。

本系统原始分类知识库中Average(Len)=7.10,Average (Num)=3.11。

假设某记录有A、B、C、D、E五个关键词,根据上述公式,计算各自的权重Weight(A)、Weight(B)、Weight(C)、Weight(D)、Weight(E)。经过此步处理的数据样例如表6-5所示。

表6-5 关键词权值处理结果样例

img62

按照权值从低到高的顺序排列各关键词的位置。经过排序后的主题词串如表6-6所示。

表6-6 排序后结果样例

img63

这样就形成了按主题表达能力排序的关键词串。

(5)相关度度量

这里采用前面介绍的方法进行关键词-分类号的相关度度量,以此为依据找到与关键词对应的最佳分类号。在实验中采用Dice测度方法来进行研究。具体过程如下:计算分类号、关键词出现的频次,再统计Dice值。

用程序统计数据库记录中每个分类号、关键词出现的频次,即分类号和关键词出现的概率P(A)、P(B),表示为fre_flh,fre_ztc。以分类号和关键词共同出现的频次作为共现频次(fre_gxpc),也即关键词和分类号同时出现的概率P(A,B),作为统计的基础。此步处理结果样例如表6-7所示。

表6-7 相关度计算结果样例

img64

(6)兴趣度过滤

兴趣度包括支持度和置信度:

img65

其中:

fre_ztc:样本库中主题词(串)出现的频度;

fre_flh:样本库中分类号出现的频度;

fre_gxpc:样本库中分类号和主题词(串)同时出现在一条记录中的频度(注:采用完全一致匹配,不考虑主题词之间的包含关系);

N:样本库规模,即总记录数。

对于数据库记录中存在一个关键词对应多个分类号的记录,取关键词Dice值最大的记录所对应的分类号为最佳分类号,并做相应标记。

根据相关度度量结果和设定的四个系列的强规则,得到了四种规模的分类知识库。这四种规模的分类知识库所使用的强规则、Dice测度情况如表6-8所示。

四种规模的分类知识库数据结构都一致,只是容量不同,给出容量为8万的样例如图6-2所示。

表6-8 数据库规模与强规则对应表

img66

img67

图6-2 分类知识库样例(规模:8万余条)

在系统的实际运行时,必须确定库的规模,提高挖掘的一致性。下一小节将根据系统测试结果来解决此问题。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈