3.5 自动映射系统的使用与测试评价
3.5.1 自动映射系统的使用
图3-10 自动映射系统的基本界面
(1)类目对应数据生成
类目对应数据生成主要处理类目与索引词、类名词、主题词的对应。例如:“332.404/货币的形式与单位”类目对应的索引词、类名词、主题词分别如下:
索引词:货币形式货币单位【金币】【银币】【辅币】【纸币】【通货十进制】《货币》
类名词:货币形式 货币单位
主题词:货币单位 货币形式 金币 辅币
(2)计算类目相似度建立类目映射关系
下面就利用索引词计算类目相似度并建立映射关系举例说明。
①两类目的自动映射(见图3-11)
在图3-11的树形框中分别选取CLC和DDC待映射的类目,类目对应的索引词将自动读入语义计算栏中。
图3-11 两类目自动映射
利用语义词典对类目对应词进行语义切分,切分时给类名词、注释词、下位词、上位词分别加注标记,以便在统计相等词时,识别相等词的类别,同时记录切分后语义单元对应的语义编码,以便进行词的语义相似度计算。在图3-11的结果显示区中,上部分显示了F820.2类目与332.404类目对应词的切分结果,下部分显示了F820.2类目与332.404类目对应词中每两个词进行语义相似度计算后,构建出的词汇相似值矩阵,构建词汇矩阵是为了使类目中最相似的概念因素配对。
根据最大值对应原则确定概念因素的配对,相似值越大概念因素排序越前,如图3-12所示。
图3-12 概念因素配对结果
根据配对概念因素的相似值,加权后计算出CLC类目与DDC类目的相似值,根据类目规则建立类目之间的映射关系。
②映射批处理
映射批处理能处理一对多,和多对多的类目映射,通过一对多的类目映射可以计算出一部分类法中某条类目与另一部分类法中概念相关类目的映射关系。多对多映射可以生成类目映射关系表,但通常是动态计算一定范围内类目映射关系。图3-13是映射批处理界面。
在图3-13中上半部分为映射类目待选框,图中选取了6条待映射的CLC类目,11条待映射的DDC类目,映射批处理共计算了66对类目的相似度。具体过程是依次选用待映射CLC中一条类目为与待映射的每条DDC类目进行相似度计算,最终为两类目自动映射。图3-13下半部分为映射批处理经过排序后的结果。
图3-13 类目映射批处理
③地理复分
在两类目映射或自动映射批处理中得到类目的映射关系,如果两类目有地理复分标记,并且类目映射关系为相等关系,在按地理概念进行复分,例如CLC中F813-F817/各国财政(按地区表复分)与DDC中“336.4—336.9/现代世界中特定大洲、国家、地方的公共财政(依附表2中的标识4-9分,如:澳大利亚的公共财政为336.94。)”。图3-14显示了两类目进行地理复分后的部分结果。特别应该注意的是当CLC类目含有地区复分概念,而DDC类目没有,进行地理复分时,必须在DDC类号后加入09后再加地区号。
图3-14 部分地理复分结果
3.5.2 自动映射系统性能测试
CLC与DDC的自动映射,是通过分类法类目对应的类名词、索引词、类名词加主题词之间的语义计算,得到类目之间的语义相似度,再根据类目之间的相似度,相等词类型、类目对应词差额三参数来确定类目之间的映射关系。为了检验自动映射系统的性能,有必要进行系统测试。
(1)三种映射方法的测试与选择
CLC与DDC自动映射系统中通过采用索引词、类名词、类名词与主题词相结合三种方法计算类目的相似度,这三种方法的计算过程和映射规则大体上相同。现分别对这三种方法所产生结果的准确性进行测试。具体的测试步骤是:①从CLC试验数据中选择国家财政、货币、金融、保险等每个主题中抽取1~2条类目,从DDC试验数据中随机从国家财政、货币、金融、保险每个主题中抽取3~4条类目;②利用手工映射的方法建立这些类目之间的映射关系(小部分重叠不考虑);③利用自动映射系统分别用索引词法、类名词法、主题词法三种方法建立这些类目之间的映射关系;④以人工映射结果为参考标准,比较三种映射方法所产生的映射结果。试验数据如表3-5所示。
表3-5 三种自动映射结果表
续表3-5
续表3-5
表3-6是对表3-5中24对类目对应结果的统计。
表3-6 三种映射方法结果统计表
由表3-6可知,采用索引词的方法进行类目的自动映射准确率最高,当然,因选取类目较少,得出这个结论的数据也可能存在误差。而索引词法的语义切分词除了类名词外还包括注释词、下位词与上位词。这三个部分是类目概念的内涵和外延,起着解释、说明和限定类目词的作用,更详细和准确地补充说明类目的概念,这就决定索引词法的准确度是比较高的。另外,自动映射系统主要是针对索引词法开发的,类名词与主题词法的相对不完善和也是这些方法误差较大的重要原因。特别应该说明的是,测试25对关系中,包含和包含于关系就占12对,而利用主题词建立的类目映射关系不能表达类目包含和包含于关系,这影响了正确率,如果除去包含关系和包含于关系,利用主题词建立类目之间的关系正确率为53%。
(2)自动映射批处理准确性测试
要实现不同分类法间的相互映射,具体来说,在本系统中要实现CLC与DDC的相互映射,必须能对这两部分类法中的类目进行批量处理,即自动处理两部分类法中相同或相近主题的多条类目之间的相互映射,从系统三种映射方法测试中可知采用索引词的映射结果准确度最高,因此,自动映射批处理采用索引词的方法。具体的测试方法是:①分别选取两部分类与货币和信贷有关的所有类目;②采用索引词的方法进行自动批处理映射,即多对多的映射,映射结果按相等关系、包含关系、包含于关系、大部分重叠、小部分重叠排序,并用文本格式保存映射结果;③对映射结果进行人工判断,并统计正确率,如表3-7所示。
表3-7 自动映射批处理统计结果
从表3-7可知,包含与包含于这两种映射关系的准确率非常高,而且准确率比较稳定,用自动映射系统计算类目之间的包含关系和包含于关系具有很好的实用性,相等关系的计算在不同范围内具有较大的波动性,但可以通过调整映射关系的阈值,可以提高准确率,因为自动映射系统基本上能把类目之间所有相等关系找出来,但由于阈值的原因,有些本应该大部分重叠关系类目也建立了相等映射关系,但总体来说,相等关系的准确率达到了72.02%。大部分重叠关系的准确率较差,只有51.31%同时也影响了整个系统的正确率的平均值。部分映射关系实例见附录2。
3.5.3 自动映射系统的评价
(1)自动映射系统的特点
采用自动映射系统来完成类目之间的关系映射,具有以下显著特点。
①自动映射系统建立的类目映射结果具有较好的一致性,克服了人工类目映射的主观性,即类目之间的映射关系不会因人因时而异。
②自动映射有较强的动态性,自动映射系统可以自由的选择类目映射范围,系统根据选定的范围自动计算出类目之间的映射关系。当然,也可以选择两部分类法的所有类目进行计算,并建立类目之间的映射关系,形成类目映射关系对应表。较好的动态性也有利于计算分类体系中多重列类的类目。
③采用自动映射系统建立类目之间的映射关系在速度是手工建立类目映射关系数倍甚至是几十倍,自动映射系统中,除了类目、类目注释中表达类目概念的词需要人工进行标记以及语义词典需要人工维护外,其他的都可以由计算机程序自动计算完成,计算速度由计算机的性能和程序中算法确定。
④自动映射系统中类目之间的相似度是可以量化的,类目相似度的量化有利于建立类目映射关系,使类目映射关系更具客观性。
⑤自动映射系统中,类目之间的映射关系维护方便,当参加映射的分类法中某些类目进行了修改,只要把修改后的类目对应的词进行必要的修改,然后根据修改后对应词进行计算,相比手工建立类目映射关系更方便快捷。
(2)自动映射系统的不足
目前通过自动映射系统建立的类目映射关系的正确率还不能达到100%,这一方面是由于两部分类法之间存在巨大的差异性;另一方面是由于自动映射系统本身还存在一些不足,有待以后进一步的改进。
①类目概念用词来表达,存在概念损耗。类目对应词从类目中抽取,不管是索引词、类名词,还是主题词,有时并不能完全表达类目原本概念内涵与外延,特别是一些用短语表达的类目,如果只选取类目中的实词来表达类目概念,必然带来类目概念的失真。
②对类目对应词进行语素切分时,也会造成概念上的失真。自动映射系统中,对类名词,索引词、主题词进行语义切分时,由于切分词典的不完善,部分类名词,索引词、主题词进行语素切分后表达的概念可能会失真,切词词典需要进一步的完善。
③本系统中词的相似度计算基于《同义词词林》的语义体系,该体系建立时间较早,新概念、新主题的反映能力差,需要进一步完善。
④目前CLC与DDC的映射主要选取了财政金融、保险类等数据,数据量不大,另外,系统中CLC与DDC的映射基本上停留在类目的相互映射上,对于附表的映射只完成了地区复分。
参考文献
1 赖茂生,王廷飞,赵丹群.计算机情报检索[M].北京:北京大学出版社,1997:302—303.
2 中国图书馆编辑委员会.中国图书馆分类法(第四版)[M].北京:北京图书馆出版社,1999:1—12
3 梁津南.西文分类编目法[M].台北:“国立中央图书馆”,1979
4 文榕生.再探分类法类目控制[J].图书馆,1998(1):19—21.
5 Mapping classification schemes[EB/OL].[2009-2-26].http://www.intute.ac.uk/socialsciences/
6 Report on DDC Mapping and DC.Type Mapping[EB/OL].[2009-2-26].http://renardus.sub.uni-goettingen.de/wp7/d7.4/
7s Lois Mai Chan,Marcia Lei Zeng.Projects addressing or relating to interoperability issues[EB/OL].[2009-2-26]http://www.und.edu/dept/library/Departments/abc/SAC-SEM-InteroperabilityProjects-Lois.htm
8 宋明亮.汉语词汇字面相似性原理与后控制词表动态维护研究[J].情报学报,1996(4):261—271
9 朱毅华.智能搜索引擎中的同义词识别算法研究[D].南京:南京农业大学信息科技学院,2001
10 Agirre,Rigau.A Proposal for word sense disambiguation using conceptual distance[J/OL].[2009-2-26].http://citeseer.ist.psu.edu/agirre95proposal.html.
11 章成志.基于文本层次模型的WEB概念挖掘研究[D].南京:南京农业大学信息科技学院,2002
12 刘群,李素建.基于《知网》的词汇语义相似度计算[J/OL].[2009-2-25]http://www.keenage.com/html/c-index.html
13 梅家驹,等.同义词词林[M].上海:上海辞书出版社,1983
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。