【摘要】:11.2.3 系统各模块介绍抽词词典维护模块具体算法如前第2章所述。
系统各模块介绍_文本自动标引与自动分类研究
11.2.3 系统各模块介绍
(1)抽词词典维护模块
具体算法如前第2章所述。流程如图11-5所示:
图11-5 词典维护模块
(2)训练模块
训练流程描述如下:
Step1:文本输入入库
Step2:文本预处理(预置类号、文章号、本类文本总数、特征项切分、特征词排序等)
Step3:词频统计(标题内、文本内、类内、类间等频率统计)
Step4:特征选择及权值计算
[计算算法见本书5.1小节,具体见公式(5-2)、(5-3)、(5-4)、(5-5)、(5-8)等]
Step5:向量知识库生成、规则提取算法生成规则
(对于前者,设定权值阈值,确定向量矩阵维数;对于后者,规则约简及提取算法见文献[2]文第80页)
Step6:输出向量及规则库备用
(3)分类模块
分类过程如下:
Step1:待分类文本输入
Step2:待分类文本预处理
文本切分词
权值计算标引
[加权公式:(LOG2(词频)×LOG2(LEN(特征项))/LOG2(文本长度)]
特征向量生成
标题特征权值计算
Step3:分类匹配
向量比对[见公式(9-2)]
规则匹配[部分匹配算法,见文献[2]文中的公式(12-10)、(12-11)]
Step4:分类号赋予、归类输出
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。