11.4 本章小结
本章在对相关自动分类研究成果分析与借鉴的基础上,提出了一个基于机器统计学习方法与基于规则分类相结合的分类模型[3—4],研究并实现了该自动分类系统,在选定语料集上进行了验证实验。谭金波等曾利用统计与规则结合的方法对网页进行层次分类研究,其实验表明,统计与规则结合的方法能获得比较理想的分类效果[5]。
该自动分类系统的新颖性主要体现在以下几个方面:
①结合汉语构造法及复合词成词规律,借鉴关键词轮排原理思想,结合相关统计模型,从正反两个方向对原始抽词词典依据其中心词进行压缩和优选,达到降维和准确表达主题的目的。
②在对不同特征选择及权值计算方法的本质优缺点分析的基础上,采用多方法相结合的策略,以“投票”方式进行特征选择和权值赋值,发挥各方法的优势,提高文本标引的准确性。
③针对不同分类体系所固有的特点,研究探索层次分类的算法,以达到准确进行分类的目的。
④在一定程度上实验验证了不同分类器的互补作用,探索并设计了基于机器统计学习法与决策规则法两种方法的分类模型,探讨了双重分类的分界阈值及算法思路。
⑤研究了在保持分类能力的前提下,影响分类速度的相关因素,同时提出了改进方案。
该自动分类系统在开发过程中还存在以下几方面不足之处:
①在基于粗糙集的规则提取与匹配部分没有独立进行相关算法的设计,同时也没有对基于其他规则分类的算法进行对比实验和可行性探索。
②系统对数据格式要求较为严格,适应性上存在局限性。
③本分类系统主要针对的是主题分类,并未考虑如地名、国别等因素,对基于《中图法》分类体系的分类结果会产生潜在影响。
④对层次分类的集成还未完全实现。
结合以上本系统开发中的一些收获与存在的问题,未来需要进一步完成解决的工作主要有以下几点:
①除了保持本专业领域的固定的术语词典外,如何较为彻底地解决生活中不断涌现的大量的新生关键词(尤其是进行新闻一类的文献自动分类时),加入到文本自动标引中,更好地提高文本自动分类的效果,成为亟待解决的一个问题。
②分类体系是随着发展需要而不断调整的,如何使自动分类系统能够随着分类体系的变化具备一定的灵活性,尤其是当分类体系发生变化或新的语料加入到分类系统中时,如何利用已有的训练结果,将其集成进新的训练体系中,从而提高系统训练分类的效率,也是一个不容忽视的问题。
如前所述,如何将层次分类的方法集成进分类系统中,能够自由定制分类的层次,并利用层次分类的优势提高分类效果,也是未来本系统需要做的工作。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。