首页 百科知识 系统各模块介绍

系统各模块介绍

时间:2023-02-27 百科知识 版权反馈
【摘要】:11.2.3 系统各模块介绍抽词词典维护模块具体算法如前第2章所述。
系统各模块介绍_文本自动标引与自动分类研究

11.2.3 系统各模块介绍

(1)抽词词典维护模块

具体算法如前第2章所述。流程如图11-5所示:

img145

图11-5 词典维护模块

(2)训练模块

训练流程描述如下:

Step1:文本输入入库

Step2:文本预处理(预置类号、文章号、本类文本总数、特征项切分、特征词排序等)

Step3:词频统计(标题内、文本内、类内、类间等频率统计)

Step4:特征选择及权值计算

[计算算法见本书5.1小节,具体见公式(5-2)、(5-3)、(5-4)、(5-5)、(5-8)等]

Step5:向量知识库生成、规则提取算法生成规则

(对于前者,设定权值阈值,确定向量矩阵维数;对于后者,规则约简及提取算法见文献[2]文第80页)

Step6:输出向量及规则库备用

(3)分类模块

分类过程如下:

Step1:待分类文本输入

Step2:待分类文本预处理

文本切分词

权值计算标引

[加权公式:(LOG2(词频)×LOG2(LEN(特征项))/LOG2(文本长度)]

特征向量生成

标题特征权值计算

Step3:分类匹配

向量比对[见公式(9-2)]

规则匹配[部分匹配算法,见文献[2]文中的公式(12-10)、(12-11)]

Step4:分类号赋予、归类输出

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈