首页 理论教育 兼容转换方法

兼容转换方法

时间:2023-02-27 理论教育 版权反馈
【摘要】:《美国国会图书馆标题表》是迄今为止使用最为广泛的标题词表,其通用的受控语言已成为许多国家创建词表的模式。OCLC的FAST研究计划,目标在于使LCSH的句法简单化。采用与LCSH向上兼容的方式,每一条有效的LCSH都能转换为FAST标题法[13]。DDC作为世界范围内使用最广的图书馆分类法,目前已被译成30多种文字。
兼容转换方法_情报检索语言的兼容转换

1.4.2 兼容转换方法

早期的情报检索语言兼容转换方法,过多地依赖智力劳动,靠人工完成,需要耗费大量的时间和经费。随着计算机技术和信息处理技术的发展,产生了自动匹配转换、直接映射、间接映射、派生法、翻译法等多种方法[20][21]

(1)自动匹配转换

当词汇以机器可读形式存在时,有一部分词汇可由机器自动进行匹配转换。这部分词汇包括完全相同者、拼写上略有不同者、词的形式正倒置秩序不同者等。另外,在某种特定的条件下,还可以参照系统为依据作出泛指词与专指词、全称与缩写等的匹配转换。通常,两词表的结构越相似,学科覆盖重合率越高,可自动转换的词就越多[22]

(2)直接映射

直接映射(也称静态映射),是通过人工判断来确定不同词表的词汇之间的映射关系。基本思想:事先确定不同词表间映射时存在的概念关系,然后由专家判断类目、词汇之间的关系,并生成对应文件以二维表或元数据的格式保存。根据所映射词表的特征,映射关系存在多种划分标准,并不统一。在建立映射关系时,静态映射的方法一般也借用计算机来辅助,但是确立类目、词汇之间的对应关系却是基于人的主观判定。静态映射完成的词表间的对应转换,具有准确性高的优点,但过多依赖于专家个人,主观性较大,映射成本相当高,完成所需要周期较长,并且不容易维护,任何一种分类法、主题法的修改更新,都需要专家重新修改映射文件表。

(3)间接映射

间接映射,是指类目间的映射关系一般不由专家直接确定,而是根据一定的统计或计算原理,由计算机自动完成。随着计算机技术的发展,计算机辅助映射正成为研究热点,很多项目的实施都是基于这种方法。主要方式有两种:

①相似度计算:根据事先确定的计算模型,由计算机自动计算需映射类目、词汇之间的相似度,然后根据语义相似度确立词表间的映射关系。计算语词间相似度算法,主要有基于单汉字的字面相似度算法、基于词素的语义相似度算法、基于《同义词词林》、《知网》等义类词典或词汇分类体系的语义相似度算法、基于语义向量空间和神经网络的机器学习方法。

②同现映射:通过统计在同一元数据集或目录记录中表达不同主题的语词或分类号的同现频次,应用互信息(MI)、Dice测度、LogL测度、χ2-统计量、Cosine系数、Jaccard系数等,计算语词或分类号之间的语义相似度。

(4)派生法

派生法是一种以现有完整的词表为模式,构建专门的或是简化词表的方法。《美国国会图书馆标题表》(LCSH)是迄今为止使用最为广泛的标题词表,其通用的受控语言已成为许多国家创建词表的模式。OCLC的FAST(Faceted Application of Subject Ter minology)研究计划,目标在于使LCSH的句法简单化。也就是在保留LCSH丰富词汇的前提下,使词表更易理解、控制和使用。采用与LCSH向上兼容的方式,每一条有效的LCSH都能转换为FAST标题法[13]

(5)翻译法

翻译法是指将词表翻译为不同文种,将一种语言的受控词表经过修改或不经过修改而翻译成另一种语言的受控词表。DDC作为世界范围内使用最广的图书馆分类法,目前已被译成30多种文字。许多国家已将美国国立医学图书馆编辑出版的《医学主题词表》翻译为本国语言。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈