1.3 本书的内容与章节安排
本书主要介绍笔者近年来在文本自动标引和自动分类上所做的工作,图1-2为本书章节安排的示意图。
图1-2 本书章节安排示意简图
本书主要包括四个部分,共11章。第一部分为文本自动标引与自动分类基础部分,主要介绍文本自动标引和自动分类的研究背景与研究意义,对自动标引和分类相关研究进行综述。第二部分为自动标引部分,主要介绍我们在自动标引方面的研究工作。第三部分和第四部分都是自动分类部分,由于采用不同的文本分类策略,为了便于分析说明和读者阅读,故将这部分拆分为两个部分。第三部分主要介绍基于《中国图书馆分类法》知识库的文本自动分类系统的研究工作,第四部分介绍基于统计与规则相结合的文本自动分类系统相关的研究。
第一部分,基础部分,包括第1、2章。
第2章,对文本的自动标引和自动分类工作进行系统梳理,介绍了国内外在自动标引和自动分类上的代表性工作,并分析标引和分类上尚需解决的问题,对今后的研究进行展望。
第二部分,文本的自动标引部分,包括第3~5章。由于文本的自动标引和文本的特征提取从信息提取和数学模型上来看,有很多过程是重叠的,所以本书将这两个任务一起纳入自动标引研究范畴,构成本书的第二部分。另外,由于自动标引是基于知识库的文本分类系统中的基本模块之一,本书将自动标引的测评放在自动分类(即本书第8章)的测评部分一并进行说明。
第3章,介绍自动标引任务中更底层技术,即中文分词、分词词典构造。
第4章,介绍文本特征提取中基于多特征选择与权值计算。
第5章,介绍自动标引中标引源权重确定方面的研究工作。
第三部分,文本的自动分类部分(一),主要介绍基于《中国图书馆分类法》知识库的文本自动分类系统的研究工作,包括第6~8章。
第6章,介绍分类知识库的制作方法。
第7章,介绍基于语义体系的词语相似度计算方法,并将该方法用于同义词的挖掘。
第8章,介绍基于《中国图书馆分类法》知识库的中文文本分类系统设计与实现,并给出自动标引和自动分类系统的测评结果。
第四部分,文本的自动分类部分(二),主要介绍基于统计与规则相结合的文本自动分类系统的相关研究,包括第9~11章。
第9章,介绍统计与决策规则双重分类算法。
第10章,介绍层次分类算法实验。
第11章,介绍基于向量空间模型(VSM)与规则相结合的中文文本分类系统的设计与实现,并给出自动分类系统的测评结果。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。