首页 理论教育 兼容转换类型

兼容转换类型

时间:2023-02-27 理论教育 版权反馈
【摘要】:这一结论为检索语言之间的兼容转换奠定了理论基础,导致了一批分面叙词表和分类表——叙词表双向对照索引的问世。这种分面叙词表可以看做是最早实现检索语言兼容转换的工具。
兼容转换类型_情报检索语言的兼容转换

1.4.3 兼容转换类型

1.4.3.1 分类语言—分类语言的兼容转换

DDC首创于1876年,是世界上流行最广、影响最大的图书分类法,经过逐步地修订、补充、提高和完善,至今已出版到22版。1993年,DDC开发和出版了DOS版的“电子杜威”;1994年出版窗口版“视窗杜威”;1996年第21版DDC分印刷版和光盘版两个版本;2000年发布“视窗杜威”2.10版,建立了DDC网页。目前,DDC已被翻译为30多种语言,应用于135多个国家和地区的图书馆,以及MARC、OCLC和LIN等联机书目系统[23]

1987年,瑞典皇家图书馆完成了瑞典图书分类法(SAB)和DDC19的对照转换。2000—2001年,瑞典皇家图书馆采用人工方法来完成DDC21和SAB7间的转换,并将结果保存在小册子里或联机数据库中,成功应用到瑞典图书馆联合目录LIBRIS系统和网络检索[24]

1995年,纽约州立大学通过比较和分析美国数学协会的《数学主题分类法》(MSC)与《杜威十进分类法》(DDC20)510字段(数学类)的异同点,设计了一种面向对象的、基于框架分析的专家系统软件,实现两种分类法间的兼容转换。类目映射包括:准确匹配、专指到泛指、泛指到专指、多对一、循环映射、无匹配以及下位和上位映射。

分类法之间的自动转换一般利用书目数据库记录或分类文档,这些记录中的对应关系本身就是人工经验的集合。例如,OPACS以及其他一些分类数据库中的记录等,根据记录中分类号之间的对应关系、经计算机自动抽取形成对应表,为了优化分类号之间的对应关系,利用统计的方法或其他一些相关性算法来确定最佳的对应分类号。标引资源时,利用分类号对应表,只需要输入一分类号,便可以输出或变换成相对应的分类号或与分类号相关的主题词。例如LCC和Nederlandse Basisclassificatie(BC)之间的转换,由于事先建立好了LCC与BC的对应关系,当国会分类号LCC的记录进入到Pica OPAC时,系统能自动变换成BC分类号,与此类似的还有UDC和BC的转换。文献[25]采用了基于同现统计、神经网络等方法来实现不同情报语言自动转换。

1.4.3.2 分类语言—主题语言的兼容转换

20世纪60年代初以前称为“分类时代”。在叙词表诞生以前,人们就没有专门立项研究如何将不同分类法协调起来,也就是实现分类法与分类法之间的转换。60年代后期,也称为“叙词表”时代。叙词表开始大量出现,标引人员纷纷放弃分类标引。但人们很快就发现,原来使用同一分类表的系统由于改用了不同的叙词表,原来统一的情报检索系统不再协调[26]。为此,西方学者就分类法和主题法之间的共同点进行了大量的调查和实验,如英国Vickery等对《工程科学技术叙词表》(TEST)和UDC、DDC、CC等的比较,美国Steuart对《UDC原子能科学技术分类表》与《欧洲原子能联营叙词表》的比较,美国Wellish等对UDC与TEST、MESH等词表的比较。调查结果表明,标题表与分类表之间存在一定的对应关系。这一结论为检索语言之间的兼容转换奠定了理论基础,导致了一批分面叙词表和分类表——叙词表双向对照索引的问世。

1969年,英国分类法研究小组编制了《分面叙词表:工程及相关学科的叙词表和分面分类法》[27]。这种分面叙词表可以看做是最早实现检索语言兼容转换的工具。分面叙词表可以很方便地帮助主题标引查词和选词,而且分面叙词表结构合理,具有较好的适应性。这部词表问世后受到国际图书馆界、情报界的重视和好评,受该表的影响,在英、美等国相继出现了四五十种分面叙词表[28]

1972年,美国Williams等人用计算机辅助编制了两卷《分类的美国国会图书馆标题表》(Classified Library of Congress Subject Headings),把国会图书馆标题表中全部带有分类号的标题,按照国会图书馆分类表排列起来,并进行了抽样比较。其结论是:“可以看到在标题表和分类表之间有着一种非常密切的关系,几乎可以为每个类目都找到一个相对应的标题。”[29]该研究的重要意义在于改变了分类表与叙词表转换工具的传统编制方法,利用计算机程序将与各分类号对应的标题词集中起来,但并没有实现分类号与标题词对应的自动优选。

1981年,美国鲍克(Bowker)公司书目部根据美国国会图书馆1973—1981年180万种藏书的主题目录,编辑、出版了一部三卷本的《主题标准档》(Subject Authorities),实现了LCSH、DC与LCC三者之间的对应转换。其结构与1972年威廉斯编制的《分类的国会图书馆标题表》结构十分相似。之后,学者们为了调查研究UDC与叙词表之间的关系,编制了各种UDC与叙词表的对照索引,如TEST词表与UDC类号的对照索引,波兰格利维采有色金属研究所编制了UDC与有色金属叙词表对照索引等。其中,UDC与UNESCO叙词表之间的对照索引被认为是在这方面取得的“最重大的成就”。

20世纪90年代,随着计算机应用的普及和联机数据库检索的增多,人们越来越认识到建立适合于联机标引和检索的叙词表与分类号集成系统具有更大的实用价值。为此,部分专家开始探讨新的方法建立分类号与叙词表对照索引(或称对照数据库)。1997年,Beall撰文介绍了杜威分类法电子版。新版本的机读式杜威分类法采用统计匹配方法,将美国国会图书馆文献数据库的LC标题词对应到DDC类号之下,每个类号最多可对应五个标题词[30]。与以前的计算机辅助转换方法相比,这种方法的最大优点在于充分利用了已有的标引成果,采用频率统计方法进行标题词的优选。但是,由于只考虑文献数据库中每个标题词在某一类号的出现频次,筛选结果错误率较高。总的说来,采用统计方法建立的分类号与主题词对应转换系统,能够大大提高建立分类号——主题词对照索引的效率及准确性,在一定程度上方便标引人员和检索人员进行词汇查询[31]

1998年,Goetz进行了LC标题表和DDC对照数据库的研究,其目的就是要实现分类号与标题词之间的自动转换。首先,套录文献数据库中的主题标引数据(第一个主题词)与DDC类号,生成DDC类号与标题词数据库;然后,采用最大似然估计法计算每条记录中DDC类号与标题词的语义相似度值,并将数据库按值大小朝廷排序;最后,制定筛选标准,将相似度值大于平均值,标题词和分类号出现频次分别大于3,且共现频次大于分类号频次和标题词频次50%以上的记录保留下来[32]。一般情况下,相似度值越高,分类号与标题词的转换准确率越高。但是,在实际操作中,如何确定最佳阈值仍是一个需要解决的问题。该研究为建立适应机检系统的分类主题转换系统带来新思想。统计学与计算机技术的完美结合,使分类语言与主题语言之间的词汇自动转换成为可能。

1.4.3.3 主题语言—主题语言的兼容转换

20世纪80年代初以前,国外对多种兼容转换模式进行了理论研究和实验,如中介词典、宏观词表、微观词表和集成词表等。研究表明,集成词表是实现词表兼容转换的理想方法,既不需要对源词表进行深加工,也不需要在转换过程中进行大量的人工智力判断,可以充分发挥计算机的性能。因此,大多数应用项目都采用集成词表方式实现主题语言之间的兼容转换(参见本书1.3.4)。

从1990年开始,Northwestern大学主持的LCSH/MeSH项目,采用计算机辅助和人工判别相结合的方法,整合LCSH和MeSH两个受控主题词表,解决图书馆的在线编目中因采用不同受控词表而产生的不兼容性[33]

CAMed(Complementary and Alternative Medicine)是由哥伦比亚大学和肯特州立大学主持的一个国际合作项目。它包括一个集合词表管理系统和跨词表检索系统。其中,医学领域的4种叙词表经过规范化并存储在一个词表知识库中。数据库管理者通过网络界面来维护自己的词表,然后提交到肯特州立大学的总服务器存储和管理。跨词表检索机制允许用户输入一个检索词,同时检索到这个知识库中的所有或任何一个词表。目前这种检索机制扩展到了CAMed网上信息资源的全文检索。

MACS(Multilingual Access to Subject)项目由法国、德国、英国、瑞士的国家图书馆共同完成,其目的是把德语(SWD)、法语(RAMEAU)、英语(LCSH)三个主题标题表的标题词之间建立链接,并把这种链接关系存储到链接数据库中,使检索用户可以采用自己喜爱的语言检索利用四国主题标题表所生成的书目数据,克服检索词的语言障碍,实现图书资源的共享[34][35]

HEREIN(The European Information Network on Cultural Heritage Policies)项目,通过从欧洲关于文化遗产政策的报告中抽取主题词汇,创建一部国际语言的叙词表。词表的创建没有直接参照任何已经存在的词表语词或词表结构。首先,西班牙、法国、英国分别负责建立他们自己语言的叙词表。然后,通过比较三种叙词表中的词汇,确定词汇间的语义关系,从而建立三种语言对照的叙词表。该词表可以使用户更好地了解有关文化遗产的专业术语,有助于用户阅读专业报告及进行相关信息检索。

1.4.3.4 自然语言—主题语言的兼容转换

随着因特网的不断发展和各类数据库检索系统的不断涌现,越来越多的用户希望以自然语言的方式进行检索。但是,自然语言检索的性能显然不如受控语言。为了既满足用户对检索方式和检索速度的要求,又能满足用户对检索效果的要求,可以通过自然语言与主题语言的兼容转换,达到高质量的自然语言检索。

基本原理:用户通过系统的交互界面提供自然语言检索词汇,系统自动将这些兼容转换为受控检索词汇,然后系统再用这些受控词汇作为检索入口进行检索。由此可见,类似系统的核心在于自然语言词汇与受控词汇(在此主要指主题语言)自动转换系统的设计。换句话说,就是建立一个将自然语言词汇自动转换为具有同义、近义、等级和相关等语义关系的词汇集合。

国外最早对自然语言—主题语言兼容转换问题进行研究的是美国匹兹堡大学法律中心[36]。1959年,该中心的法律文本全文系统就把一系列同义词、近义词汇编成表,用来辅助用户检索。它是一种简单的自然语言—主题语言转换系统。由于该类系统对用户有着非常大的辅助检索作用,一些研究机构和数据中心相继对一些叙词表系统或类似的兼容转换系统进行了探讨和研究。主要包括以下几种方法:

(1)基于用户检索策略的兼容转换

20世纪60年代中期,美国国家医学图书馆建立了一个自然语言与主题语言的转换词表,把检索策略中难以构造的部分存储起来。这些片断穿过《医学主题词表》(MeSH)的树型结构,被称之为“树篱”。随着检索策略的不断增加和更新,片断不断积累和扩充,形成一个具有“逻辑或”关系的语词一览表。通过这个语词一览表,帮助用户优化检索策略。这种类似的“树篱”或“查询组面”也被美国教育资源情报中心(ERIC)数据库采用[37]。这种词表的特点是词表中的词随着检索策略的不断积累而增长,因此被称之为“不断增长的词表”。

存储用户检索策略生成兼容转换系统,是国外曾经比较流行的一种自然语言与主题语言的兼容转换方法。1971年,库克等人提出了通过存储完整检索式供再利用的方法[38]。兰开斯特认为:①通过捕捉用户“检索策略片断”(凡是具有逻辑或联结的词皆可以作为候选词)不断积累自动生成,但需要人工加以必要的判断编辑以避免混乱;②某一学科领域的兼容转换系统可人工编制,编制方式与普通叙词表相同;③可以通过计算机辅助处理各个相关数据库中出现的语词,导出不同级别的“统计相关”数据,简化编制工作。

后来,由于人工智能和专家系统的介入,存储用户检索策略生成词表的方法得到了进一步的利用,1988年Guntzer等人设计了一个基于用户检索策略的具有推理和学习功能的主题词汇自动构造系统TEGEN[39]。系统获取用户检索策略,从检索式的句法关系以及用户对系统推理结果的回答获得规则,联机提炼出可能的语义关系,经过系统分析,得出一系列概念关系,生成中间结果,用户进一步对这些概念关系进行核对,生成最终结果,存入词表。词表具有开放性,可以不断扩充概念关系。

基于用户检索策略的方式在很大程度上取决于用户构造的检索提问式。然而,用户在检索提问式中不可能列举出表示同一事物的所有语词,而且系统中词汇的规模也随用户检索次数而有所限制。所以,用这种方法建立的自然语言与主题语言兼容转换系统质量不高,规模也不大。

(2)基于词间相关性的兼容转换

在文本中共同出现的词之间一般都存在某种语义或句法上的联系,可以通过计算词与词之间的共现频率,将相关的词联结在一起,实现语词的自动聚类,构造自然语言—主题语言转换系统[40]。计算检索提问式中的词与检出文献的标识词之间的相关程度,也能实现语词的自动归类,构造用于检索的叙词表。1980年Salton利用这一方法进行了实验[41]。实验结果表明,用这种方法自动构造的自然语言—主题语言兼容转换系统,可以提高系统的查全率和查准率。一般说来,该方法较适用于全文检索系统。而对于一般的题录型的数据库,其作用则受到一定的限制。

(3)基于词汇构词特征的兼容转换

1972年,Lefever等人提出通过收录相同词根词的“概念群”来控制检索的方法[7],他们用这种方法编制成了以美国国家农业图书馆数据库(AGRICOLA)为基础的《农业词汇》以及由生物学文摘社出版的《生物学文献词汇指南》。这些词表中往往只收那些具有相同词根而不是同义词及准同义词的词汇,不是完整意义上的自然语言—主题语言转换系统。

Semture也提出与后控制词表近似的方法,即IBM公司情报存储与检索系统(STAIRS)中的叙词表和语言学集成系统(TLS)。收录词汇的构词特征,算法规则可以自动扩展词汇;通过使用一些被存贮起来的表,可以处理各种例外情况。STAIRS系统后来也被意大利国家研究中心的集成法律专家系统采用,创建了被称作是“关键词的结构化组织”的叙词表THES GIUR[42][43]。该词表由一系列的叙词及其同义词、上下位词、相关词组成,目的是辅助用户检索,提高信息检索的质量,并且这一词表还具有开放性,允许用户在词表中增加新的关系。

Reisner在讨论权威文档(Authority Files)建立时,曾描述一种不断增长的“叙词表”。在使用权威文档检索时,计算机显示出在这种“叙词表”中所有与检索词相关的词,用户可以根据需要选择其中某些词(或全部)进行扩检,也可以不选择而另外输入某些词,并由计算机自动存储起来,合并到“叙词表”中供以后检索利用。MEAD数据中心的NEXIS系统编制了一个供检索的同义词表,通过它可以查所有相关的等价词,如词的单数、复数,所有格,全称和简称,不同语言中拼写形式,而且通过其中的汉语规范化词表还可以查汉语词的等价词。美国两大法律全文数据中心(West-Law,MEAD DATA)均推出自然语言提问检索接口——“检索用同义词表”,通过系统可以自动查找使用了同义词的所有文献[38]

英国书目检索服务公司(BRS)的Term数据库,是一个系统检索词控制文档,由一系列受控词和自由词一览表所构成,每一受控词下详细罗列了一批相关的自由词。借助Term文档拟定检索策略,对系统数据库进行扩检,而且拟定好的检索策略亦可以存储起来供以后检索之用[7]

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈