1.3 受控词表互操作的模式和方法
随着数量众多的数据库和检索系统加入信息网络,为了使用户能够方便快捷地实现跨库检索,就必须解决情报系统间的兼容问题。采取兼容化措施,即可以在分类表、词表等各种信息组织工具的编制阶段,也可以在标引或检索阶段。在编表阶段采取兼容化措施,可使两种或多种受控词表间具有较大程度的兼容性,称为主动式兼容;在现有的两种或多种受控词表的条件下采取兼容化措施,称为被动式兼容,这种兼容方式有一定局限性,不及在编表阶段采取兼容化措施的兼容程度高。
1.3.1 受控词表互操作的模式
据目前的研究和实施情况来看,受控词表的互操作有多种模式,这里综合介绍几种主要模式:词汇转换、中介词典、宏词表与微词表、集成词表等19,20,21,22。
(1)词汇转换
虽然受控词表促进了信息系统内部的一致性,但是,却降低了信息系统间的兼容性。因此,要想将不同系统的数据合并成一个系统,就必须解决词汇的转换问题,即设法把一种词汇转换成另一种词汇,否则,难以实现文档合并。词汇转换的模式一般有4种:
①单向转换
两个系统采用不用的受控词表,每个系统都不愿放弃自己使用的词表。假如A系统希望与B系统合并记录以便产生共同输出,则需要把B系统所用的词汇转换成A系统的词汇。即识别出B系统的词汇哪些与A系统的词汇有等同或准等同关系,并将其记录下来。
②互逆转换
为使两个系统相互使用对方的记录而采取的往复式转换。如果A、B两个系统都想利用对方的记录,而又坚持利用各自使用的受控词表,就必须实行互逆转换,即A必须转换成B,B必须转换成A。当两个系统都是按照国际标准或国家标准设计编表时,这种互逆转换则相当容易。
③多向转换
多向转换是多个系统需要进行词汇转换时,各个系统所进行的两两转换模式。如果有A、B、C、D四个系统要交换记录,且需要完全互逆转换,就必须将每种词表都转换成其他词表来实现。这种转换次数多(如4个系统需进行12次转换),需耗费大量的人力和物力,费用较为昂贵。
④中介转换
编制一种可用于不同词表之间互相转换的中介性交换语言,来实现多个系统之间词汇的转换。假设X代表一种交换语言或中介语言,如果A、B、C、D四个系统要交换各种记录,则都必须与交换语言X之间建立等价关系,从而每个系统都可用自己的词汇,通过X转换其他任一系统的词汇,并查询其数据库。如果要通过A系统去查询D系统的数据库,其途径是:A→X→D,也就是说,把A系统的词汇转换成X,把X作为中介,再转换成D的词汇。这种互用对方记录,总共需要进行8次转换。当中心越多时,其优势越明显。
(2)中介词典
中介词典是一种转换方法或交换语言。在不同词表中转换相同语词时,可以使用一种转换语言或词表作为中介,即形成一个中介词典,通过这种中介语言联结参加兼容的若干个词表,促进它们之间的互操作。英国E.J.科茨(Coates)把中介词典定义为:一种能把任何一个情报系统中标引文献时给出的标引词或分类号转换成任何其他情报系统中的概念等价词的软件。它不是直接用于标引或检索的词表,而只是一种中介,起间接兼容或协调作用,类似于通信网络中的自动交换台。每个信息系统都能利用自己的词表去检索其他系统的数据库。这种中介词典有多种形式,可以是一个分类系统,也可以是一种字顺索引或一种分类法与叙词表的对照表。它的长处是可使参与转换的词汇互相沟通并转换成统一的语言。
有了中介词典,那些自己拥有词表和数据库的机构,可以利用中介词典去获取其他机构生产的数据库。中介词典还可以应用于多语种环境,不失为解决受控词表兼容问题的最好途径之一。然而编制一部中介词典需要大量的智力劳动,当参与转换的词表主题覆盖面不同时,其转换困难增加;而同时其有效性仅局限于所有参加转换的有相同或相近主题覆盖面的词表,所以在真正的多数据检索网中尚未见到实用的中介词典。
(3)宏词表/微词表
宏词表和微词表是针对词汇规模和覆盖学科范围而言的。宏词表是一种由一批通用性很强的术语组成的,覆盖着广泛的知识领域的词汇表;而微词表则是一种专门化的词汇表,它与某个范围更广的词表相吻合,而且完全被包容在大词表的等级结构中。宏词表的基本思想就是创造一种词汇的超级族性结构,并使之能囊括各学科领域中的专门化词表,使各专门化词表所包含的概念在上层结构上与这种超级族性结构相一致,或能够相互转换。而微词表的主导思想是将各专门化的词表作为一个上层综合词表的卫星表,在这个综合词表的基础上衍生出多部微词表。实际是以一部已经存在的、全面的综合词表为模型,从不同的角度出发,编制各种专业的、简单的词表。
由此可知,实现宏词表和微词表的兼容有两个方法:一是在众多的微词表的基础上发展一部宏词表;二是在一部宏词表的基础上编制众多的微词表。宏词表与微词表的兼容模式如图1-1所示。
图1-1 微词表与宏词表的兼容模式
上图中,A表示从一个宏词表中摘出一个微词表来,微词表成为宏词表的一个组成部分,二者完全兼容。B和C表示从一个宏词表摘出有关部分,再增补扩充专业词汇和相关学科的词汇,发展成一个微词表。
微词表是一种可取的方法,一般而言,它与综合性词表在编制体例和结构上相一致,并从综合性词表中选取一部分相关词为基础,然后再加以扩充,从而使微词表既可与综合性词表完全兼容,又能满足本领域标引和检索的需要。
(4)集成词表
集成词表法是将某一特定主题领域的若干叙词表或分类法融合在一起,在各源词表的基础上建立一个含全部词条及相关参照的母表。这种词表也称为综合表或整合词表,可以通过识别等价词及准等价词建立一个词汇转换系统,从而实现分类表和叙词表之间的互操作。最早出现的集成词表是世界上几个主要联机检索中心编制的数据库索引,如美国DIALOG的DIALINDEX、BRS 的CROSS、SDC的Ddatabase Index以及ESA的QuestIndex等。这些数据库索引分别列出了在它所收集的数以百计的数据库中出现的全部词汇及其标引频率,以便用户选择最适合的数据库进行有关课题的检索。另一项著名的试验是美国巴特尔哥伦布实验室(Battelle Columbus Labatories)编制的“词汇交换系统”(Vocabulary Switching System,简称VSS),它是从十多个数据库抽取与能源有关的词汇,并在它们之间建立等同关系,用户可以选择合适的词汇在数据库中进行检索。
20世纪70年代末,联合国教科文组织曾组织世界一些国家的情报学家和社会科学家,计划编制一部大型的《社会科学集成词表》。计划先搜集各种机读版社会科学词表,然后建立一个叙词词库,最后在词库的基础上完成这部词表的编制工作。该表分为四大部分,即分类显示、兼容矩阵、字顺表和轮排索引。分类显示以《布利斯书目分类法》第2版(BC2)为基础,用分面分类的形式展开;兼容矩阵是把若干种受控词表与BC2的类目对照,列出等值兼容及近似兼容的概念;字顺表则由分类显示部分通过计算机自动生成的字顺叙词表。尽管该词表因故未能实现,但是词表编制过程中所积累的经验和资料,对受控词表的兼容互换的理论与实践有着重要的贡献。
集成词表是一种较为理想的实现互操作的工具,但这种集成词表的编制也要建立词汇的等价联系,需要耗费大量的人力和时间。
(5)叙词词库
叙词词库是将多部叙词表的词汇汇集存于计算机。它的思想是把现有的各种叙词表的词汇连同词间关系全部都收集在一起,以便在这些现有的概念及概念关系基础上编制新的叙词表,并作为实现各种专业叙词表之间互操作的工具。叙词词库如同一个“采石场”,将为新叙词表的编制、旧词表的兼容与互换提供有关数据。
1.3.2 受控词表互操作的方法
受控词表兼容的实质是要实现不同语词、不同分类标识之间的互操作。语词兼容性问题并不是新近提出来的,早在电子时代到来之前,图书馆和信息领域就想出各种方法来减少在同一系统中使用不同叙词表的冲突问题。但早期的方法过多地依赖智力劳动,靠人工完成,需要耗费大量的时间和经费。随着计算机技术和信息处理技术的发展,改进了语词互操作的方法。综合国内外的研究和试验,实现语词互操作的主要方法有:自动匹配转换、直接映射、间接映射、派生法、翻译法等23,24。
(1)自动匹配转换
匹配转换使两词表间相互对应的词可以直接转换。当词汇以机器可读形式存在时,有一部分词汇可由机器自动进行匹配转换。这部分词汇包括完全相同者,拼写上略有不同者,词的形式正倒置秩序不同者等。另外,在某种特定的条件下,还可以以参照系统为依据作出泛指词与专指词、全称与缩写等的匹配转换。通常,两词表的结构越相似,学科覆盖重合率越高,可自动转换的词就越多25。
(2)直接映射
直接映射,也可称为静态映射,其基本的特征是词表间映射的关系由人工判断确定。这种映射方法在国外应用非常的广泛。其基本思想是:事先确定不同词表间映射时存在的概念关系,然后由专家判断类目、词汇之间的关系,并生成对应文件以二维表或元数据的格式保存。根据所映射词表的特征,映射关系存在多种划分标准,并不统一。在建立映射关系时,静态映射的方法一般也借用计算机来辅助,但确立类目、词汇之间的对应关系却是基于人的主观判定。静态映射完成的词表间的对应转换,具有准确性高的优点,但过多依赖于专家个人,主观性较大,映射成本相当高,完成所需要周期较长,并且不容易维护,任何一种分类法、主题法的修改更新,都需要专家重新修改映射文件表。
(3)间接映射
间接映射,类目间的映射关系一般不由专家直接确定,而是根据一定的统计或计算原理,由计算机自动完成。近年来,随着计算机技术的发展,计算机辅助映射正成为研究热点,很多项目的实施都是基于这种方法的。主要采用的方法有相似度、相关度计算,同现频次统计等。
相似度计算的基本思想是:根据事先确定的计算方法,由计算机自动计算需映射类目、词汇之间的相似度或相关度,然后根据语义相似度或相关度值,确立词表间的映射关系。计算语词间相似度算法有很多种,主要有基于单汉字的字面相似度算法、基于词素的语义相似度算法、基于《同义词词林》、《知网》等义类词典或词汇分类体系的语义相似度算法,还有基于语义向量空间、基于神经网络等方法,另外还有对这些基本算法进行改进或结合后的新算法。
同现映射的基本思想是:通过统计在同一元数据集或目录记录中表达不同主题的语词或分类号的同现频次,计算语词或分类号之间的相关度,这种方法主要是基于统计方法和计算机辅助完成。计算相关度的方法有互信息(MI)、Dice测度、LogL测度统计量、Cosine系数、Jaccard系数等。
(4)派生法
派生法是一种以现有完整的词表为模式,构建专门的或是简化的词表的方法。如《美国国会图书馆标题表》(LCSH)是迄今为止使用最为广泛的标题词表,其通用的受控词表已成为许多国家创建词表的模式。OCLC的FAST(Faceted Application of Subject Terminology)研究计划,旨在使LCSH的句法简单化,在保留LCSH丰富词汇的前提下,使词表更易理解、控制和易用。采用与LCSH向上兼容的方式,每一条有效的LCSH都能转换为FAST标题法26。
(5)翻译法
翻译方法是指将词表翻译为不同文种,主要是实现不同类型语言之间的互操作,将一种语言的受控词表经过修改或不经过修改而翻译成另一种语言的受控词表。如DDC作为世界范围内使用最广的图书馆分类法,已被译成30多种文字,许多国家已将美国国立医学图书馆编辑出版的《医学主题词表》译为本国语言。
参考文献
1 张琪玉,侯汉清.情报检索语言实用教程[M].武汉:武汉大学出版社,2004
2 孟宪学,杨从科,李雪.我国信息分类法的历史回顾与发展趋势分析[J].国家图书馆学刊,2007(3):35-36
3 仇滨,罗衍松.网络环境下分类法的独特作用[J].图书馆学研究,2000(6):57-58
4 邱君瑞.网络适应性改造对《中图法》未来发展的启示[J].情报理论与实践,2001(6):434-435
5 陈青苗.分类法在网络信息资源组织中的应用研究[J].情报科学,2000(12):1107-1109
6 邓均华.网络分类搜索引擎与传统分类法之比较分析[J].河南图书馆学刊,2001(5):60-61
7 戴维民.信息组织[M].北京:高等教育出版社,2004:113-114
8 张燕飞,傅晓燕.近五年来国内主题法研究综述[J].高校图书馆工作,2008(2):22-26
9 戴维民.中国情报检索五十年[C]//戴维民,赵建华,汪东波.面向21世纪的情报语言学:全国第三次情报检索语言发展方向研讨会论文集.北京:北京图书馆出版社,2000:30-33
10 李育娥.网络信息组织中的分类法与主题法[J].情报资料工作,2004(3):31-33
11 侯汉清,马张华.主题法导论[M].北京:北京大学出版社,1991:334-344
12 赵英莉.信息网络环境中情报检索语言兼容问题研究[J].四川图书馆学报,1998(4):14-18
13 黄晓芳.浅论情报检索语言的兼容化问题[J].图书馆学刊,2000(2):54-56
14 李群.网络环境下情报检索语言兼容性探究[J].国家图书馆学刊,2005(3):67-70
15 曾蕾.联网环境下的情报检索语言[M].北京:书目文献出版社,1996:79-82
16 张琪玉.情报语言学基础[M].武汉:武汉大学出版社,1997:15-17
17 王金夫.情报语言兼容互换论[J].上海大学学报(社会科学版),1998(2):105-109
18 张琪玉,刘湘生.中国分类主题词表教程[M].北京:华艺出版社,1994:7-9
19 戴维民.信息组织[M].北京:高等教育出版社,2004:155-159
20 张燕飞.信息组织的主题语言[M].武汉:武汉大学出版社,2005:122-128
21 Lancaster F.W.著;侯汉清,戴维民等译.情报检索词汇控制[M].上海:同济大学出版社,1992:96-114
22 侯汉清.当代分类法主题法索引法研究[M].北京:书目文献出版社,1993:262-279
23 Marcia Lei Zeng,Lois Mai Chan.Trends and issues in establishing interoperability among knowledge organization systems[J/OL].Journal of the American Society for Information Science and Technology,55(5):377-395,2004
24 Lois Mai Chan,Marcia Lei Zeng.Ensuring interoperability among subject vocabularies and knowledge organization schemes:a methodological analysis[J/OL].68th IFLA Council and General Conference,2002
25 曾蕾.联机多数据库检索环境中保证受控词表兼容能力的手段[J].情报学报,1991(2):151-157
26 司莉.知识组织系统的互操作及其实现[J].现代图书情报技术,2007(3):29-34
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。