8.2 文本自动分类系统的测评
(1)测评数据说明
本书以150篇html文本作为测试文本,对文本自动标引和自动分类系统进行测试。测试文本都是与经济类主题相关的Web页面,是从中国经济信息网[1]、中国资讯行[2]、中国经济网[3]手工采集得到的。此外,在确定分类知识库规模时,依据本系统对从华泰证券网[4]、中国财经网[5]采集到的100篇Web页面进行了标引测试。
(2)系统测评方法与结果
本书采用将系统挖掘结果与自动标引和手工分类的结果进行比较的方法来进行质量测评。在测评本系统的同时,为了同时验证第4章提出来的权重方案的可行性及全文挖掘和重要标引源挖掘的比较,本书提出如下四种方案来进行测试:
方案Ⅰ:权重方案为:sd∶bt∶html∶ds1∶title∶dw1∶ds2∶dw2∶wd∶ds3∶qt∶dw3=5∶5∶5∶4∶4∶4∶2∶2∶2∶2∶2∶2。
方案Ⅱ:title∶html∶sd∶段落首句∶网页其余正文=5∶3∶3∶2∶1[6]。
方案Ⅲ:标引源由sd、bt、title、wd、html组成,采用词频加权统计法。权重方案为:sd∶bt∶html∶title∶wd=5∶5∶5∶4∶2。该方案是方案Ⅰ的简化,进行此方案测试的目的是分析这几个主题表达能力比较强的标引源替代全文进行挖掘的可能性。
方案Ⅳ:标引源由首段sd、bt、title、wd、html组成,不考虑位置因素,而是直接采用词频统计的方法进行挖掘。
根据以上四种方案,采集中国经济信息网、中国资讯行、中国经济网上的150篇Web页面进行了自动标引和分类,同时进行自动标引和人工标引,比较处理结果分别如表8-1、表8-2、表8-3、表8-4所示。
表8-1 文本自动标引和分类(全文)、自动标引结果比较表
表8-2 自动分类(全文)与人工分类结果比较表
注:分类结果错误是指分类号两级及两级以下相符,如F097.12与F293.3;分类正确是指分类号五级或五级以上相符,如F830.4与F830.42;其他相符情况都认为以上分类基本正确,如F830.3与F830.48。
表8-3 文本自动标引和分类(简化)、自动标引结果比较表
表8-4 自动分类(简化)与人工分类结果比较表
从表8-1可以看出,挖掘系统对主题的提取个数,即通常所说的平均标引深度为4.93,略高于自动标引的深度。但在系统的运行中,完全可以设定标引深度。
进行主题提取的效率要远远高于自动标引,前者的速度约为后者的24倍。
从表8-2可以看出,采用挖掘系统进行自动分类,正确率为84.17%(包括基本正确与正确两个部分的总和,下同),分类的结果是可以接受的。
从表8-1和表8-2可以看出,无论是进行主题提取还是自动分类,方案Ⅰ的结果都略优于方案Ⅱ,如,自动分类结果,采用方案Ⅰ时正确率为84.17%,而通过方案Ⅱ结果则为82.73%。这说明了本书第5章制定的权重方案是比较合理的。
另外,由表8-3和表8-4可以看出,简化标引源后,主题提取和自动分类的结果还是可以让人接受的,其中自动分类正确率为75%,这说明了可以在保证一定的正确率的基础上,利用简化标引源的方式,提高挖掘系统的运行效率。而当前几乎所有的检索系统都是对全文进行没有考虑具体位置权重或者只提取文本前几个段落,以此来发现文本的特征词,这样做是不太合理的。
利用方案Ⅳ进行分类,正确率为72.18%,这也进一步验证了权重方案Ⅰ的合理性。
由以上分析可以得出:系统从系统效率、兼容性及系统挖掘质量上来看,都是可以接受的。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。