首页 理论教育 自动标引结果测评

自动标引结果测评

时间:2023-02-27 理论教育 版权反馈
【摘要】:8.3 自动标引结果测评重新下载财税网页100篇,利用财税自然语言叙词表对其进行自动标引,并提取权重最高的前6个词汇作为标引结果,与人工自由标引结果从标引词的相符程度、先组度和标引深度三个方面进行量化对比,据此考察两种标引方式的优劣以及财税词表的性能。考察实际漏标引词汇记录发现,大部分漏标引词汇属于前两种情况,这说明财税自然语言叙词表内核部分收词较为完备,另外自动标引性能尚可。
自动标引结果测评_自然语言叙词表自动构建研究

8.3 自动标引结果测评

重新下载财税网页100篇,利用财税自然语言叙词表对其进行自动标引,并提取权重最高的前6个词汇作为标引结果,与人工自由标引结果从标引词的相符程度、先组度和标引深度三个方面进行量化对比,据此考察两种标引方式的优劣以及财税词表的性能。

(1)相符程度比较

以人工自由标引结果为参照标准,比较自动标引结果的优劣。按照自动标引结果与人工自由标引结果的相符程度,分为以下几种情况:

①完全相同词:两个标引词完全相同。

②同义准同义词:两个词是同义词、近义词或准同义词,如:“对外贸易”与“对外经济贸易”,“车购税”与“车辆购置税”等。

③等级关系词:两个词在概念上具有包含关系,如:“银行”与“人民银行”,“酒类产品”与“白酒”等。

④组配关系词:自动标引结果中,两个或两个以上标引词组配后与自由标引结果中某词汇表达相同概念,如“货运发票”与“货物运输业+运输发票”,“申报软件”与“纳税申报+软件”等。

⑤漏标词汇:自由标引结果中存在自动标引没有标出的概念和词汇的数量,即自由标引词汇中排除自动标引词汇具有以上关系外的词汇。

⑥新增加词汇:自动标引结果在自由标引结果中未找到相对应关系的词汇数量。

经过统计,人工自由标引共345个词汇,其中对一篇文献最少标引2个词,最多标引7个词。按照上述标准,相对人工自由标引结果,自动标引结果的相符度比较结果如下表:

表8-1 标引结果相符度比较

img92

从上表统计结果看出,如果以相同词汇、同义准同义词和组配关系词都记做正确的自动标引结果,那么自动标引的正确率为59.42%。自动标引结果漏标引81个词,占23.48%,可见是影响以上正确率的重要原因之一。造成漏标引的原因有以下几点:①漏标词在自动标引结果中,但因其权重较低,没有被选为自动标引最终结果;②漏标词中存在地名词和人名词,不是财税词表收词范围;③漏标词是词表没有收录的财税词汇。考察实际漏标引词汇记录发现,大部分漏标引词汇属于前两种情况,这说明财税自然语言叙词表内核部分收词较为完备,另外自动标引性能尚可。

(2)标引先组度比较

先组度指词表中词汇的先组程度,可按词长加以测度。先组度是影响检索系统的检准率的重要因素,先组度越高,会得到越高的检准率。以单个词含有字符的个数为标准,自由标引与自动标引结果的先组度统计数据如表8-2:

表8-2 标引先组度比较

img93

从表8-2统计结果看,自动标引结果的平均词长为3.61个字符,自由标引结果的平均词长为4.55个字符,后者标引先组度更高些。分析其原因,自由标引时能够标引出文献中出现的更专指的词,如考察自由标引结果中词长大于等于10个字符的6个词均为专有名词,如“中国联合通信有限公司”、“城市房地产税暂行条例”、“中国石油化工股份有限公司”等,而机器自动标引时以财税词表中的词汇作为主题标识,因词表收词经过人工控制,不可能罗列以上专有名词,对以上其标引结果为“公司”和“城市房地产+暂行条例”。

(3)标引深度

标引深度指标引一篇文献所用的检索标识的数量,从对文献主题内容揭示的广度来衡量标引质量。标引深度越高,检索系统提供给用户的检索入口越多,在一个标识下聚集的文献数量越多,查全文献的可能性也随之增大,从而提高了检全率。同时,深标引意味着对文献主题内容表达更具体和专指,文献的检准率也会有所提高。根据以下公式计算平均标引深度:

img94

经过统计,自由标引深度为3.45,自动标引深度为6,后者标引深度较高。对100篇文献的标引结果中,相对人工标引,后者多标引出328个词汇,对文献主题揭示更全面,提供更多的检索入口。

总之,自由标引和自动标引各有所长。自由标引时,人工析出文献主题并转换为自由词进行标引,更能准确表达文献主题,标引先组度高,但标引速度慢,成本高,同一篇文献由不同标引人员操作,得到的标引结果可能大相径庭。机器自动标引对比人工自由标引结果正确率接近60%,而且速度快,标引一致性好,标引深度较高,能够提供更多检索入口,如果在性能上再加以改进,可以代替人工自由标引,更适用于网络信息组织。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈