2.4 性能评价
假定相关转换提供的检索词对潜在用户都是有效的(即对某一用户无效,但对其他的用户来说可能有效)。只要某词表有转换词出现,则认为转换有效。本实验从《汉表》、《社科表》和《经管表》中随机抽取180个词汇进行转换效率测定。性能评价采用以下指标:
完全匹配率:是指用户输入的转换词在各词表中出现的频次与用户输入的转换词可能出现的频次之比。
完全同义词转换率:是指同义词(包括用户输入的转换词)在各词表中出现的频次与用户输入的转换词可能出现的频次之比。
相关转换率:是指在完全同义词转换不能实现,而相关转换能够实现的情况下,相关转换词在各词表出现的频次与用户输入的转换词可能出现的频次之比。
例如:
上例转换中,“代币”一词通过完全匹配和完全同义词转换,在汉表中均没有转换结果,通过相关转换,在汉表中找到相关词“货币”。此次转换提高了词表的转换性能,在相关转换率测定中是有效的。
叙词表转换结果统计样例如表2-7所示,转换性能评价结果如表2-8所示。其中,“A”表示完全匹配转换;“B”表示完全同义词转换;“C”表示相关词转换;“○”表示系统转换生成的检索词;“●”表示用户输入的转换词。
表2-7 叙词表转换结果统计样例
续表 2-7
表2-8 叙词表转换性能评价结果
《社科表》、《汉表》和《经管表》的转换结果为180条,三者的兼容率分别为30.2%、44.4%和40.0%,平均兼容率为40.5%。采用完全同义词转换和相关转换,可使《社科表》转换率分别提高13.4%和7.7%(共21.1%),《汉表》转换率分别提高14.5%和4.4%(共18.9%),《经管表》转换率都提高5%(共10%)。以上数据分析表明,叙词表之间实现自动转换是完全可行的,通过不同类型的转换操作可使叙词表的词汇自动转换性能大大提高。
《社科表》与《汉表》兼容转换效率远远高于《经管表》。主要原因在于《社科表》与《汉表》具有基本相同的叙词款目结构,并且具有完善的参照系统。因此,叙词表的词汇结构影响叙词表的兼容转换性能的一个重要因素。为了测试《社科表》与《汉表》的兼容转换性能,从上述用于测定转换效率的词汇中抽取出从《汉表》和《社科表》中选取的实验数据(共124个词汇),重新进行统计分析,统计结果见表2-9。
表2-9 《汉表》与《社科表》转换结果
《社科表》与《汉表》本身具有较好的兼容性,通过同义词转换和相关词转换,可使《社科表》的兼容转换率分别提高16.9%和11.3%,《汉表》的兼容转换率提高18.5%和6.4%。由此可以看出,中文叙词表词汇自动转换是完全可以实现的。
尽管《经管表》是计算机检索系统的词汇表,并且没有参照系统,但通过其他叙词表提供的同义词等参照系统,可使其兼容水平得到一定的提高。另外,由于《经管表》是面向计算机检索系统的,其兼容转换性能往往取决于其标引质量。如果其标引质量高,其转换性能也会相对提高。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。