数码链接关键词机检表及其编制——中文图书馆学、情报学文献主题检索最优化研究
陆宗城
一、关键词检索是大势所趋
(一)主题标引的发展
历史是呈螺旋形前进的。各时代的主题标引都受时代特征的制约,又随着时代发展而发展。主题标引的发展是:古代从书名中抽取关键词,又称主词(catchword);到19世纪严格控制的先组式标题;再到20世纪中叶比较灵活的后组式元词;然后在20世纪60年代初,为适应计算机在文献检索中的应用,出现了堪称“后起之秀”的叙词;随着文献量的激增和计算机的广泛应用,又促成了关键词这种自然语言的回归,但开始时关键词仅作为叙词标引的补充;当前,由于计算机的网络化和知识更新速度的加快,用规范的标题、元词和叙词来做主题标识已跟不上时代发展的步伐;随着数字化信息的海量化和文献信息资源的全球共享,关键词标引遂由配角变成主角,成为现阶段主题标引的主流。
(二)关键词标引的优点
关键词标引之所以逐渐取代叙词标引而成为当代主题标引的“骄子”,其主要原因是它具有如下突出的优点:①不必查表、选词,标引速度快,成本低,且适应人机结合标引和全自动标引的发展趋势。像Uncover每天新增文献5000多篇的情况下,靠人工用规范词表标引是极难胜任的。②不依赖专职标引人员,可由作者自行标引。作者最了解所著文献的主题概念,用词不受词表和题名的限制。他可以用与文献主题专指度相应的词来标引,有利于提高文献的查准率。③不存在人为性和滞后性。任何规范词表都难免有人为性。如Internet一词,1998年国家名词审定委员会公布其规范的中文译名是“因特网”,而《中文科技期刊数据库》(光盘版)1997年3号盘(以下简称3号盘)显示:1988年以来,用Internet及其大量同义词标引的文献共252篇,竟无一篇是用“因特网”标引的。又如:“院校图书馆”在《汉语主题词表》中为叙词,而其同义词“高校图书馆”在《教育主题词表》中则为叙词。若要排除人为性,规范词必须按各同义词的累积标引频率(以下简称词频)和检索频率的高低来确定,这就是文献保证原则与用户保证原则。但这样做会带来规范词难以避免的滞后性。不管是人为性还是滞后性,都会影响文献检索效果。而关键词却随文献的产生而产生,属自然语言,因而不存在人为性和滞后性。④用关键词标引的最大优点是用户不必在专业人员的指导下查表、选词、检索,这对最终用户检索而言特别方便。随着文献数据库的网络化和终端机普及到千家万户,用关键词标引无疑更加适应时代发展的需要。
(三)关键词检索的缺点
主题标引是手段,文献检索是目的。既然用关键词标引已成为现阶段主题标引的主流,那么就必须使关键词检索产生优异的效果。然而,长期以来关键词检索存在着如下缺点:①关键词之间存在着大量的同义现象。例如:采访(7)、采购(61)、采集(1)、藏书采购(2)、订阅(2)、订购(15)、收集(80)、书刊采访(2)、书刊采购(4)、图书采访(2)、图书采购(774)、图书采集(2)、图书馆采购(4)共13个,都是同义词(以上括号中的数字均为3号盘中各词的词频)。这些同义词中,词频最高的是774,最低的是1,总词频为963。如果不采取措施,从哪一个同义词检索都查不全这963篇文献。②关键词之间存在着不少近义现象。例如:“情报”和“信息”两词,它们的含义在我国还有些界定不清,但不宜作为同义词,以作近义词为好。若将近义词作同义词处理,势必降低查准率。③关键词还存在一词多义和同形异义现象,如不少首字母缩合词在不同专业中其含义截然不同。关键词必须通过上下文,或置于词族中才能明确它们的词义,防止用户误检。不过在专业数据库中,一词多义和同形异义的关键词已经受到某一专业的限定,造成误检的可能性极小。④关键词之间存在着等级关系,但各个关键词自身不显示这种关系,因此从单个关键词入手,无法进行扩检和缩检。⑤关键词之间存在着相关关系。如“期刊级别”与“期刊分级”,“情报检索”与“文献检索”等,它们之间应是相关关系,但任何关键词自身都不能显示这种关系,因而不能引导用户从一个词去查它的相关词,也就不能帮助用户扩大检索范围,去获取相关文献以提高其学习、研究和工作的质量。
(四)关键词检索的优化
1.编制后控词表
在信息海洋里,在网络环境中,关键词标引能做到快、易、省,又比较准,但在检索上存在难以查全、不能按需要进行扩检、缩检或作相关检索的问题,因而检索效果不佳。为此,1959年美国匹兹堡大学法律中心开始采用一种同义词表,来辅助其法律全文数据库的检索,这就是后控词表的雏形。我国从20世纪80年代开始从事这方面的研究,已经有所建树。后控词表类似于入口词表,是一种转换工具,是一种扩检和缩检工具,是一种罗列自然语言检索标识供选择的工具。在机检情况下,标引用关键词,检索也用关键词,再由计算机内的后控词表,将关键词自动转化为控制词(相当于叙词,属人工语言),实现查全;还通过后控词表的分类表或范畴体系来实现扩检和缩检,并进行相关检索。这是克服关键词检索缺点的一种有效办法,在保证自然语言标引和检索取得良好效果方面,处于国际先进水平。然而,控制词的选定也须符合文献保证原则和用户保证原则,且分类表和范畴体系的编制和更新并非易事,因而都会滞后于新概念的不断涌现,必然会影响关键词检索的效果。这种后控词表尚待改进。
2.编制数码链接关键词机检表(以下简称SGJ)
这种词表是后控原理与词号技术相结合的产物,是文献数据库的主题检索工具,是在我们课题组成员长期探索的基础上,于1997年上半年申报课题时提出设计方案,同年12月下达立项通知后,经两年半的试编和多次修改而产生的。与上述后控词表相比,它在编制上具有如下特点:①不设控制词,给每一个关键词一个词号;同义的关键词用同一词号链接,因而在数据库内,凡属同一主题概念的所有文献,不管用哪个同义词去检索,都能一次查全。②不编制分类表或范畴体系,代之以编制较简便的词族表。不同级别的关键词用相应级别的词号链接,以方便扩检和缩检。这样就免去从类目到控制词,再从控制词到关键词标识这种复杂的转换过程。③编列各种注释来指引用户检索相关的文献,更好地满足其需求。④不追求理论上的结构完整,讲究实用,做到面向最终用户,便于维护、更新,在查准、查全、便捷和节省费用方面力争最优。
二、SGJ的编制过程与方法
(一)关键词及其词频的搜集
我们从3号盘中套录近10年来的图书馆学、情报学文献所标引的关键词共16505个,连同它们的词频,作为编表的主要素材。
(二)关键词的排序和打印
将全部关键词借助计算机,按标点符号、罗马数字、非拉丁字母、阿拉伯数字和汉语拼音顺序,逐个排序,产生一份关键词字顺表,存储于计算机中,并打印一份作为编制关键词词族表的依据。
(三)初步确定词族
词族的确定是从字面成族入手的。①在关键词字顺表中,大部分前方一致的关键词已经字面成族。例如:在“图书馆”这个领头词(即族首词)之下,集中了“图书馆搬迁”、“图书馆办公室”、“图书馆保护”、“图书馆报”及“图书馆编目”等299个词(包括部分错词),构成一个大词族。②词族的归并。在字顺表中,有些字面成族的词,词频不高,词量不多(甚至只有两个词),就尽量按它们的上位概念归并到相应词族中去。
例:潜情报 1
转移性潜情报 1
准情报研究 1
上列词族已归入“情报类型”这一词族中去。其余,在概念上无合适词族可归的,就使它们单独成族。
例:贡献 1
贡献量 1
贡献率 1
③有些词相互之间存在着等级关系,应该成族,但无现成的族首词,就选用一个有组配意义,且今后也可能用来标引文献的词,作为它们的族首词,其词频为零。
例:港台 0
港台图书 14
港台资料 2
这样就构成了词量不一的大量词族,它们不仅在字面上成族,在概念上也是成族的。
(四)词族规模的控制
①词量的控制。每个词族的词不宜过多。在概念上可以单独成族的,特别是词频较大的,尽量从大词族中析出,另立词族。例如:“图书馆工作”、“图书馆管理”、“图书馆事业”及“图书馆学”等词,就作为族首词,连同它们的下位词,从“图书馆”这一词族中析出,另立词族,以利各词族的浏览并简化词号。②级数的控制。每个词族中,等级关系再多,理论上应该客观、全面地加以反映。但我们对级数过多的词族,采取从它们中适当析出下位词族的办法,使所有词族均控制在五级之内,借以简化词号和节省检索机时。
(五)字面不成族关键词的处理
①上述关键词字顺表中,有不少词概念相同而词形不同,因而分散在字顺表的各处,应按其中词频最高的同义词的所在,全部集中一处,按概念内涵归入已编列的各词族,并安排在相应的级次,以方便检索。②近义词原则上另行处理,不与上述同义词集中一处,以免降低查准率。例如:“计算机教育”及“CA I”两词是近义关系,不宜混在一起。③尚无词族可归以及概念内涵不明的词,均暂作无关联词处理。
(六)关键词的词号及其配置
1.词号的类别和性能
为了明确关键词之间的等级关系,我们采用混合号码:一级词(包括族首词及无关联词)用阿拉伯数字从1开始依次往下给号;从二级词开始,逐级均用一个大写拉丁字母,从A开始顺次给号(为免与阿拉伯数字中的0混淆,字母O不用);同级词不止25个,即A-Z不够用时,在Z后用A1、A2……A9配号;不足时用B1-B9,直至Z1-Z9配号;再不足时用A11-A19,依此类推。各级词均可无限扩展,以适应关键词不断增长的趋势。以下是一个词族的片段(关键词“科学精神”等的右侧是词号,左侧是词频)。
32Y科学精神 1 32A6科学生产率 1
32Z科学决策 13 32A7科学思维 1
32A1科学考察 1 32A8科学体系 4
32A2科学评价 1 32B1科学信息学 1
32A2A科学评价功能 1 32B2科学性 5
32A2B科学评价索引 1 ……
32A3科学期刊学 2 32B8科学预测 2
32A4科学区 1 2B9科学原理 1
32A5科学认识法 1
由于专业数据库中新词的增加量不会太大,而且不少新词会归入既有词族,或与目前的无关联词构成新词族;而且目前含义不明的“无关联词”,也将归入既有词族。所以,估计一级词的数量将长期保持在四位数之内;在二级词号中,字母后带数字的是极少数;三级词开始,还没有字母后带数字的词号。总的说来,词号等级分明地反映词的级别(数字后带一个字母的是二级词,带两个字母的是三级词……),而且词号有无限的容纳性。
2.词号的配置
在一般情况下,从数据库检索文献,其费用与时间成正比,词频与词的检索概率也成正比,所以在词号的配置上,必须考虑检索的便捷性。我们的配号原则是:词频高的词族,配号力求简短;词频低的也不能过于复杂冗长。具体地说:①词频在1000以上的甚高频词族,其族首词尽量配一位数。例如:“高校图书馆”及其同义词的词频在5000以上,其词号为1。②词频在100以上的高频词族,其族首词尽量配两位数。例如:“企业”这一词族的词号为36。③词频在10以上的次高频词族,其族首词尽量配三位数。例如:“图书分编”这一词族的词号为153。④词频在10以下的无关联词及低频词族的族首词,一般配四位数。例如:“藩府刻书”的词号为2313。⑤词频虽高但检索概率不大的,降级配号。例如:“第三版”、“第3版”及“三版”词频之和为1196。这些词基本上是《中图法》(第三版)的评论文章的标引词。由于《中图法》(第4版)的出版,今后“第三版”及其同义词的检索概率不会大,故配了一个两位数。⑥位数相同的词号,在配号上是随机的,就是说既不按关键词的字顺给号,也不按词频的大小配号。例如:
65AA规范标目 4
65AB标目规范化 2
65AC统一标目 4
65AD书名标目 2
65AE团体标目 1
65AF著者标目 2
这样做不仅不影响检索速度(位数相同的词号,计算机的处理时间是相等的),而且还为编表、维护和改号提供了方便。⑦酌留空号。就一级词来说,因一位数较挤,未留空号;两位数留了3个空号;三位数留了近40个空号;四位数一半以上皆为空号。这就为新词的增补、词号间按词频的调整,留有较充分的余地。二至五级词的词号,也均大有发展空间。
3.词号的排列
在各词族的构建过程中,词号的数字部分是按整数制排列的,字母部分则逐级按字母顺序排列。但在最终的研究成果SGJ中,各词族按族首词的音序排列;各无关联词也按音序穿插其中,不再按词号排列。
(七)建立SGJ的参照系统
在处理了各关键词之间的等同关系、等级关系之后,必须处理好各关键词之间存在的其他关系,还要在具有等级关系的词族间,建立必要的联系。这样,用户的关键词检索才能取得较理想的效果。SGJ的参照系统是用注释的形式编制的,共设置3种参照。
1.相关参照
这是引导用户同时从几个具有相关关系的关键词去检索文献,从而更全面地满足其需求的措施。例如,“信息”与“情报”之间,在概念上相互联系、相互补充,因此相互间必须建立参照。我们的办法是在“信息”之下注“情报 查12”,在“情报”之下注“信息 查14”(12是“情报”的词号,14是“信息”的词号)。
2.引见参照
这类似于单纯参照,但只引导用户从某一大词族去查从中析出的小词族,以免用户在缩检时漏检文献。例如,“文献检索”及其同义词下注“(参:68,297H,873,874)”,其中词号68是“情报检索”,297H是“信息检索”,873是“查找”,874是“查阅”。
3.一般参照
它概括性地引导用户从一个较泛指的关键词去检索较专指的关键词。例如,在“图书流通”及其同义词下注“(各类型文献及信息等的流通查相应词条)”。这样就可引导用户按其所需去查“期刊流通”、“情报流通”等词,从而检索到其所需要的文献。
三、SGJ的维护与更新
SGJ是机读的动态性词表,必须有专人维护和及时更新。
(一)解决遗留问题
①含义不明词的处理。3号盘上的关键词大部分直接来自题名和文摘,不少词含义不明。有些词经过查盘,有些词查了原始文献,已经按词义作了处理,但还遗留一些目前不易查清的词,需待查清词义,作适当处理。②补救3号盘上主题标引的缺陷。例如,3号盘的主题字段仅限标引7个汉字,因而将不少专有名词随意作了切分。像《中华医院管理杂志》有两篇文章,3号盘标引时将刊名部分作了不同的切分,一篇标引为“中华医院”、“管理杂志”,另一篇标引为“中华医院管理”、“杂志”,这就影响了查全率。同时,3号盘一律省略题名号,因而“情报科学”一词就产生了两义性,既是学科名又是刊名,这就影响了查准率。凡此种种,我们已经发现的,都用加入口词的办法加以补救;尚未发现的,只好留待日后处理。
(二)增补关键词
我们课题的研究是有期限的,但在图书馆学、情报学领域内,标引文献的关键词是不断增加的。因此必须及时增补,有些要归入相应的词族,有些则作无关联词处理。
(三)增补入口词
自然语言的使用因人而异。用户的检索用语若属于SGJ中某一关键词的新的同义词,用它来检索就会失败。虽然我们已在SGJ中加了不少入口词,但难免挂一漏万,遇此情况,专职维护人员应及时增补入口词,使之与同义关键词链接,从而满足用户检索需求。
(四)调整词族及词号
随着各级关键词和词频的增加,以及生僻词与热门词之间的更替,会出现词族规模过大,这就必须及时析出新词族;也会出现新的热门词或词族的词号过于繁复,这就要随时运用计算机的替换功能更改词号。
四、SGJ检索功能的扩展
SGJ在不断维护与更新下,虽已能用计算机进行文献的关键词检索,并取得了良好的效果,但它的检索功能还可以更好地发挥。主要的措施包括:
(一)专指词的切分与组配检索
涉及同一主题概念的文献,在作关键词标引时,有的用相应的专指词,有的则将一个专指词作字面切分标引。例如,有些文献用“图书馆情报工作”这一专指词标引,有些相同主题概念的文献却用“图书馆”和“情报工作”两个泛指词标引。所以,用“图书馆情报工作”一词来检索3号盘,可得两条文献记录;再用“图书馆”与“情报工作”这两个词作组配检索,又可得相同主题概念的另外6条文献记录。由此可见,用专指的复合词检索之后,将此词切分,试作组配检索,可能会提高查全率;若先用两个泛指词作组配检索,再将它们合起来试作专指检索,也可能取得类似效果。
(二)专用检索软件的编制
在优化关键词的检索效果方面,SGJ打下了较好的基础,但还必须编制一种专用的、能更好地实现SGJ各种功能的检索软件。它应该符合如下要求:①链接概念等同的关键词,做到从链上的一个词或它们的共同词号着手检索均能显示链上的各个同义词,并能一次查全数据库中分别用这些词标引的文献。②用户检索的词若是族首词,计算机应能提问“是否要缩检”,在答案为“是”时,须立即显示它的全部二级词,以供选择并检索。如需进一步缩检,可照此逐级进行。③用户检索的词若无下位词但有上位词,计算机应提问“是否要查上位词”,在答案为“是”时,应立即显示该上位词(上位词可能是单个词,也可能是几个同义词)。④用户检索的词若既有上位词,又有下位词,则应按用户扩检指令显示上位词,或按用户指令显示其全部下位词,供选择并检索。用户检索的词若无关联词,计算机应提示“此词无上、下位词”。⑥用户检索的词下面若有注释,应予以显示,以免用户漏检。⑦用户检索的词若是专指的复合词,则在完成检索任务时,计算机应提示“此词可适当切分并试作组配检索”。⑧若用户检索失败,计算机应及时将检索词登录,并显示“请稍候”;同时发出信号,使专职维护人员查明SGJ中是否有该检索词的同义词,若有,应予链接,并显示检索结果,若无,则显示“无文献”。
五、经验与体会
(一)SGJ显示的词间关系要进一步完善
受控语言从标引到检索都是面向专家的,像“计算机文献检索”这一主题概念,如用《汉语主题词表》,按叙词标引规则应作交叉组配,标引为“机器检索:情报检索”,检索时也一样。但这样来要求一般标引者和检索者,特别是最终用户,未免太苛刻。自然语言是面向用户的,尽管它既有优点又有缺点,但通过SGJ的横向、纵向和交叉链接,就可以扬长避短,其标引和检索效果肯定会超过规范词表。但关键词之间存在着一个错综复杂的语义网络,经过课题组10多个成员两年半的共同努力,SGJ显示的词间关系还只是这一网络的近似模拟,有待在不断维护中进一步完善。
(二)关键词标引须方便检索
关键词属非控语言,但标引时切不可简单地从题名、文摘或全文中抽取,而须考虑标引的关键词是否有检索意义,特别是用户会不会以此来检索文献。我们发现3号盘中有不少关键词是难以理解、用户不大会用来检索的,但它们却大大增加了编表的难度。例如:“H大学”一词类似于文艺作品中的隐喻,不查原始文献,谁也不知是“杭州大学”的简称,谁也不会以此来检索;又如:“FZZS”一词,由于笔者身在浙江,知道它是浙江工业大学编制的“分类目录主题字顺索引”的汉语拼音首字母缩合词,同本文中用的SGJ一样,其检索概率几乎等于零。对这类简称与缩合词,我们主要采取以下措施:①增设全称入口词并作同义链接。②置于相应的词族中,通过上、下位词和同位词来明确词义。这些措施基本上补救了标引上的缺陷,又防止了文献的漏检。我们认为,标引者必须牢固树立起标引为检索目的服务的观点,何况今天的标引主要是为了用户的计算机检索服务。因而关键词标引必须做到:①用词必须概念明确,有可检性,尚未被用户熟知的简称和首字母缩合词不宜用于标引。②用词力求专指,有易检性,专有名词不宜切分,不强求用户作交叉组配检索。③文献编辑、数据处理人员均须对文献已标引的关键词作审核,必要时作适当修改。
(三)副表和一级词的分类索引
主题检索属特性检索,专指性是其主要特征。分类检索是族性检索,浏览性是其主要特征。两者在检索功能上虽有互补性,但对用户来说,当以主题检索为主、分类检索为辅。SGJ既能满足用户按文献内容特性检索的要求,又能按各词族的等级体系和参照性注释,基本上已能满足用户的族性检索要求,因此为SGJ中的所有关键词和入口词另编系统的分类表是不大必要的。但我们准备编制一级词的机读分类索引,以加快新增关键词及入口词的处理;同时保留了在编表过程中自然形成的、按词号排序的副表,供增添和调整词号,以及防止重号之用。副表和一级词的分类索引将为SGJ的维护与更新提供方便,且将提高SGJ的族性检索效率。
(四)SGJ对文献数据库的适用性
SGJ作为一种自动转换工具,比较适用于专业文献库的关键词检索,但它不大适用于综合性文献数据库。这是由于关键词中存在一词多义、同形异义和词义不明等现象,词量又不受控制,因而编好综合性的SGJ难度较大,维护与更新亦很不易。好在文献数据库正在向专业化方向发展,像《中文科技期刊数据库》和《社会科学报刊篇名数据库》本来就是专业库,只是收录范围较大,所以它们的光盘版又采取分专辑发行的办法。因此我们选择图书馆学、情报学这两门我们熟悉的学科专业,并在文献的语种上加以限制,是符合文献库的发展方向的。我们认为各学科专业都可以试编SGJ,以改善关键词检索的效果,并在实践中提高其编制质量,使SGJ这一新生事物更加完善。
参考文献
[1]张琪玉:《张琪玉情报语言学文集》,北京图书馆出版社1999年版。
[2]侯汉清、马张华:《主题法导论》,北京大学出版社1991年版。
[3]陈光祚:《论“中国图书情报学书目数据库”的设计与实现》,《中国图书馆学报》1998年第4期。
[4]陆宗城、孙茗:《21世纪的情报检索与主题标引的优化》,见《21世纪大学图书馆的新使命——庆祝北京大学成立100周年国际研讨会论文集》,北京大学出版社1999年版。
[5]方小苏、陆宗城:《文献机检查全的新方案》,《图书馆杂志》1999年第2期。
[6]方小苏、陆宗城:《标引词间等级关系和相关关系处理办法的比较》,《图书情报工作》1999(增刊)。
[7]胡朝德、叶新明:《网络时代情报检索语言的路向》,《情报理论与实践》2000年第4期。
(原载《中国图书馆学报》2001年3月第27卷总第132期)
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。