首页 百科知识 档案检索语言的发展趋势

档案检索语言的发展趋势

时间:2024-10-01 百科知识 版权反馈
【摘要】:随着档案检索工作的发展,档案检索语言的类型逐渐多样化,各种分类表、词表不断编制使用,质量也逐渐提高,与一般文献检索语言相呼应,呈现出分类主题一体化、标注化、兼容化、计算机化和网络化的发展趋势。 有利于提高档案检索语言的编制管理水平。

第八节 档案检索语言的发展趋势

随着档案检索工作的发展,档案检索语言的类型逐渐多样化,各种分类表、词表不断编制使用,质量也逐渐提高,与一般文献检索语言相呼应,呈现出分类主题一体化、标注化、兼容化、计算机化和网络化的发展趋势。

一、分类主题一体化

分类法和主题法是当前最主要的两种检索语言,它们的结构体例、组织方式和标记系统各有不同,具有不同的功能及应用,但它们之间具有密切的概念对应关系,通过词汇控制手段,可以将分类号主题词之间隐含的概念对应关系显示出来,实现二者的一体化。

分类主题一体化,指的是分类法与主题法的有机结合,即对分类法和主题法的标识、参照、结构体例等实施统一的控制,将其有机地融合为一个整体,从而同时满足分类标引和主题标引的需要。档案分类法以系统性见长,适于族性检索;档案主题法以直观性见长,适于特性检索,如果将它们结合起来使用,就既能从分类的途径,也同时能够从主题的途径标引和检索档案文献,减少工作量,提高效率。

1.分类主题一体化的优势

(1) 只需要一次性的主题分析,就能同时完成档案分类标引和主题标引两项工作,大大减少工作量,提高标引的效率。

(2) 可在一个统一的检索系统内中进行系统分类检索和字顺主题检索,用户的同一检索提问可分别从分类和主题两条途径查到同一主题内容的档案,大大提高了检全率和检准率,节约了检索时间。

(3) 有利于提高档案检索语言的编制管理水平。分类主题一体化使得档案法分类表和词表的编制管理工作可以在统一的机构下集中进行,只要人工编出分类表,将必要的数据输入计算机,就可由计算机自动生成字顺主题表和各种辅助索引,大大节省人力物力,提高档案检索语言的编制速度和质量。

(4) 有利于我国档案检索体系的兼容化、标准化和计算机化。

国际上,分类主题一体化开始于20世纪60年代末70年代初,到现在已经取得了相当大的进展,出现了一批分类主题一体化检索系统。我国图书情报界从80年代初开始探索分类法和主题法结合的理论与技术,陆续编成了《常规武器工业分面叙词表》、《教育主题词表》、《中国分类主题词表》、《社会科学检索词表》等一体化的检索词表。我国档案界也进行了分类主题一体化的尝试,并取得了初步的成果,包括:《民国档案分类主题词表》(中国第二历史档案馆编制)、《清代档案分类主题词表》(中国第一历史档案馆编制)、《革命历史档案机检分类、主题词对照表》(河北省档案馆编制),等等。上述分类主题一体化词表的编制为研制全国通用的《中国档案分类法》和《中国档案主题词表》的一体化词表奠定了基础。

2.分类主题一体化词表的类型

按照兼容转换的方式,目前分类主题一体化词表的类型有3种。

(1) 分面叙词表

分面叙词表以1969年英国艾奇逊(J.Aitchison)等编制的世界上第一部分面叙词表《分面叙词表:工程及相关学科的叙词表及分面分类法》的名称而得名。我国编制出版的分面叙词表有《教育主题词表》、《社会科学检索词表》、《农业科学叙词表》、《音像资料叙词表》等。在结构上,分面叙词表由分面分类表和字顺叙词表两部分构成,叙词与类目名称具有等值对应关系。在功能上,分面叙词表具有分类法和主题法的双重功能,可以用于分类标引和主题标引,也可用于手检和机检。

分面叙词表的编制方式有如下几种:

①编制全新的分面叙词表

这种分面叙词表通常由一部分面分类表和一部字顺叙词表组成,类目和叙词一一对应,两部分用分类号相连。20世纪中后期出版的影响较大的检索语言都属于该种类型,如艾奇逊(J.Aitchison)的《联合国教科文组织叙词表》(1977)、英国标准化协会的《基础叙词表》(1981),等等。新编词表可以不受旧表约束,采用最新的理论和技术,完全从检索系统的要求出发进行设计,性能优良。但这种词表结构较复杂,编制难度大,要注意充分利用现有检索语言提供的词汇和词间关系资料。

②将叙词表的范畴索引和词族索引合并,改造成严格的分类体系

叙词表的范畴索引和词族索引仅仅是辅助查词的手段,不具备独立的分类标引功能。可以把叙词表的范畴索引进一步细分,并将其与词族索引合并、改成,将所有叙词都纳入一个严格的分类体系中,然后配上标记符号,并在词形、词义方面进行统一控制,就可同时满足从分类和主题标引和检索的需要,从而达到分类主题一体化的目的。

③将分类表的字顺索引改造成叙词表形式

在分类表的字顺主题索引款目中增加参照项,显示概念之间的关系,与此同时,对分类表类目进行严格的词形、词义和词间关系控制,这部分类表就既可用于分类标引又可用于主题标引。

(2) 分类主题词表

分类主题词表又称为分类法-叙词表双向对照索引,如《中国分类主题词表》就是典型代表。从标引查词(查类)和选词(选类)的方便性来看,分类法-叙词表对照索引优于单纯的分类表和叙词表,它可以作为中介词典用于两表的兼容互换,也可以作为独立的标引工具进行分类标引和主题标引。但这种对照索引有其局限性,在编制过程中存在一定的难度,表现在以下几个方面:

①对原表的依赖性大,其质量直接受原表质量的影响;

②由于参加对应的两表在先组度、专指度、选词等方面的差异性,使得类号和词难以等价对应,常常是一个分类号同几个主题词对应,一个主题词对应于多个分类号,如此互相迁就,易削弱索引的功能。

③由于编制对照索引时,需对分类表、词表的现有词汇进行分析对应,必要时还要对标识形式进行改造,因此编制一部对照索引的工作量往往不小于新编一部词表的工作量。如果被对应的分类表、词表一种是先组式语言,一部是后组式语言,编制的难度就更大。

④由于被对应的两表往往使用时间较长,使用范围较大,已形成一批固定的用户,因此,对照索引不太可能完全替代原表,而原表的修订必然影响到对照索引。

(3) 集成词表

集成词表(integrated thesaurus)是将某些特定主题领域的如干叙词表和分类法汇编而成的一种词表,可以用于联合分类标引和主题标引,实现分类法和叙词表之间的兼容和转换。如中国医学科学院编制的《〈中图法〉R类与医学主题词表、中医药学主题词表对照表》就是以《中图法》R类分类表为主干,与两部医学专业主题词表进行对应标引的。又如山西省图书馆主编的“对照索引系统”,就是一部包括《中图法》、《汉表》、《科图法》、《人大法》在内的大型集成词表。这些机读化集成词表的应用有助于中文文献的自动标引和自动分类的发展。此外,美国医学图书馆主持开发的《一体化医学语言系统》(UMLS)中的超级叙词表(Metathesaurus,又称元词表)收录有100多万个生物医学概念和500多万个概念名称,而所有这些都源自UMLS所收录的100多部受控词表和分类系统,对于克服不同医学信息资源在表达相同概念时所采用的不同方式的障碍和相关情报在不同信息资源中的分散性障碍方面,发挥了极大的作用,具有强大的兼容性。

我国档案分类法和主题法一体化的方式可借鉴《中国分类主题词表》的做法,在对《中国档案分类法》和《中国档案主题词表》进行修订完善的基础上,编制两表的对照索引。

二、标准化与兼容化

1.档案检索语言的标准化

档案检索语言的标准化主要体现在三个方面:

(1) 编制全国通用的标准化的档案分类表和词表并推广使用。《中国档案分类法》和《中国档案主题词表》实际上是作为档案分类和主题检索标准而编制的,它们作为全国统一的档案分类标引和主题标引规范,已经起到了国家标准的作用。

(2) 制订分类表和词表的编制标准并推广实施。我国已经制定了《中国档案分类法专业表编制规范》,作为编制专业分类表的准则。主题词表的编制规则可参照国际标准《单语种叙词表编制与发展规则》和《汉语叙词表编制规则》。分类表和词表的编制标准对其标识、款目格式、标识符号、概念之间关系的显示、结构体系、管理与修订等作了统一规定,根据这些标准编制的分类表和词表具有统一的格式,质量有保证,并可为今后各种分类表和词表的兼容提供了必要的条件。

(3) 著录、标引规则的标准化。已有的分类表或词表如果没有与之相配套的统一著录和标引规范,著录、标引的质量依然难以保证。因此,实现著录、标引规则的标准化也是非常必要的。我国已经颁布的《档案著录规则》、《档案分类标引规则》、《档案主题标引规则》,以及明清、民国、革命历史档案(资料)和军队等专业系统档案的著录、标引规则,与《中国档案分类法》和《中国档案主题词表》及各专业分类表和主题词表相互配套,大大推动了我国档案标引和检索的标准化进程和档案目录中心的建设,为建立联机档案信息检索系统创造了条件。

2.档案检索语言的兼容化

兼容化也属于标准化范畴,不同的是,标准化相对于兼容化更具强制性,统一的力度更强,往往难以彻底实现,而兼容化是非正式的,只是在某种程度上实现统一,容易实现。随着档案分类表和词表的增多,它们的体系结构、词汇上存在的差异逐渐扩大,而每一种分类表和词表都是根据特定的需要编制,适合特定的档案检索系统,导致它们之间缺乏互换性,给档案检索的网络化带来了障碍。因此,有必要采取兼容化措施。

检索语言兼容化的方式有以下几种:

(1) 词汇自动转化。通过一套转换规则实现检索语言标识的自动转换。

(2) 中介词典。中介词典是一种协调词表,不能用于标引,只能作为词汇的转换中心,连接一批需兼容的检索语言。

(3) 集成词表。它是某个特定领域若干分类法和词表的集合和汇编,形成一种集成式的词表,用于检索语言的兼容转换,必要时可用于标引,并可作为新编分类表和词表的源词表。

(4) 词库。将多部分类表、词表的数据汇集、保存,是众多受控词汇的集合,类似于集成词表。

(5) 综合性用语言与专业性语言的兼容。将一部通用综合性分类表或词表作为主干,在此基础上编制各种专业性的分类表和词表。专业表的结构、词汇、标记符号等都与综合表兼容。档案检索语言的兼容宜采用这种方式。

我国档案检索语言的编制和使用起步较晚,开始于20世纪80年代,因此,标准化和兼容化程度较高。各种专业分类表基本上是按照编制规范,在《中国档案分类表》的基础上编制而成的,与《中国档案分类表》是兼容的。各类专业主题词也在《中国档案主题词表》的基础上编制而成,如国家气象局的《气象部门档案文件主题词表》、中共中央纪律检查委员会的《纪检文件档案主题词表》、原国家教委的《高等学校档案通用主题词表》等,这些专业主题词表与《中国档案主题词表》也是兼容的。但在此之前编制的专业主题词表与《中国档案主题词表》的兼容问题则需要妥善解决。

三、计算机化

档案分类表和词表的编制和管理以手工为主,这需要花费大量的人力、物力和财力,而且编表周期长,质量难以保证,更新慢,采用计算机编制和管理,能大大提高编表的效率,利于分类表和词表的维护与更新。

我国图书情报界从20世纪80年代早期开始研制计算机词表编制和管理系统,相比之下,档案检索语言的机读化水平低,计算机辅助编制档案分类表和词表是今后档案检索语言的发展趋势。

计算机技术主要在以下几个方面辅助词表的编制和管理:

(1) 辅助排序。

(2) 自动生成词表的各个组成部分。人工输入各种数据后由计算机自动生成字顺表、分类索引、轮排索引、双语种对照索引等。

(3) 根据需要随时输出机读版或印刷词表。

(4) 管理和维护词表。自动进行词频统计,根据统计结果和标引需要随时进行词汇的增删改。

分类表、词表在计算机编制和管理的情况下,自然而然也就实现了电子化。与此同时,可将手工编制的分类表和词表输入计算机,创建电子版的分类表和词表。电子版分类表和词表除了可以作为各种形式的输出,便于完善和维护外,还可用于联机检索,提高档案信息检索系统的检索效率。

四、自然语言

自然语言是人们在日常交流中所使用的口头或书面语言。随着计算机检索技术和网络技术的发展和应用,出现了检索语言向自然语言的回归。在档案信息检索中使用自然语言,具有很多优势:对于档案标引而言,自然语言的应用可以取消费时、费力的标引工作,或大大降低标引工作的难度和成本;对于大多数未经过专门训练的用户而言,他们可以使用自己熟悉的自然语言直接查询各种数据库,提高检索效率。

自然语言用于档案信息检索的方式:

1.关键词法

所谓关键词,是指那些出现在文献的标题(篇名、章节名)、摘要和正文中,对表征文献主题内容具有实质意义,可以作为检索入口的语词。关键词法指用人工或计算机将这些对表征文献主题内容具有实质意义,具有检索意义的语词抽出来加以排列组织,提供检索途径的方法。

关键词法是自然语言用于文献检索的一种常见方法,用来编制关键词索引,也可用于联机检索。常见的关键词索引有题名关键词索引(包括题内关键词索引和题外关键词索引)、双重关键词索引、词对式关键词索引、单纯关键词索引等。如1987年浙江省档案馆开发的“档案信息管理系统”运用了自动抽取关键词的原理,实现了档案题名关键词自动标引。

2.文本检索

即对数据库中存储的文本(包括文献全文或摘要或篇名)不进行任何标引,检索时用检索者认为合适的关键性的字词来表达检索课题,借助各种检索方法,直接在文本(篇名、文摘、正文)中进行扫描匹配查找。如果数据库中存储的是文献的全文,则称为全文检索。文本检索最简单,是自然语言检索最普遍的方式。

3.采用“自由标引+后控词表”的方式进行档案检索

自由标引指不依据分类表和词表,而是从档案题名、文摘、正文中选择合适的词或用自拟的词进行标引。这种标引方式可以达到较高的专指度,避免档案文献主题在概念转换中失真,大大提高了标引速度。但由于在自由词标引过程中存在大量的同义词、近义词现象,如果在检索时不加以控制,极易出现漏检、误检现象,而后控词表有助于解决这一问题。所谓后控词表,实质上是将自然语言中的同义词、近义词、相关词联系起来的词汇集合,它只用于检索不用于标引。其作用是将相关的自然语言组建一个语言网络,检索者可以从任何一个词出发,在词表中查到一批同义词、近义词和相关词,减轻检索者寻找、确定检索入口、拟定检索策略的劳动,方便检索,提高检全率。可见,“自由标引+后控词表”的检索方式其实是一种前端不控制,而后端控制的方式,不加任何控制的检索难以达到理想的检索效果。

4.自动标引

它指由计算机自动分析档案信息内容,判别档案主题,自动归类或自动选定标引词的标引方式。具体的应用方式包括:

(1) 自动抽词标引。这是最早出现的一种自动标引方式。它是从文献的题名、文摘和正文中抽词,将抽出的词与禁用词表(非关键词表)对照,排除没有实质意义的词汇,并进行词频统计,将合乎要求的词作为关键词。

(2) 自动赋词标引。这是在自动抽词的基础上,根据自然语言与检索词的对应表,将关键词转换成检索词(规范词),建立倒排索引文档或编成书本式检索工具。它是自然语言与情报检索语言的结合。计算机检索时,既可从自然语言入手,也可从规范化的检索词入手。手工检索时,只能从规范化的检索词入手。

(3) 自动归类。这是在自动抽词的基础上,根据自然语言与分类号的对应表和自动分类规则,对抽取的关键词给出相应的分类号,建立倒排索引文档或编成书本式检索工具。

(4) 人机结合抽词标引。通过人工对计算机抽出的关键词进行甄别,或用人工对文本加插抽词标志,然后由计算机抽取整理。这种方式可提高抽词质量。

5.自然语言接口方式

即建立一种自然语言与情报检索检索语言的对应表(入口词表),进行概念或标识的对应转换,在规范化语言中吸取自然语言因素和手段。这种方式是使情报检索语言检索系统易用化的一种有效措施。由于自然语言大中量同义词、近义词的存在,一个主题词往往对应若干自然语言语词,采用专用的对应表(入口词表)能收录大量的入口词。比如,在词表中大量增加入口词,编制专用的入口词表等。所谓入口词,是词表中作为检索入口的非正式主题词,可供标引人员由自然语言语词向规范化词转换,从而降低标引难度,提高检索效率。检索者既可以用检索语言构造检索表达式,也可用自然语言构造检索表达式,通过自动转换程序,可将自然语言转换成情报检索语言进行检索。自然语言接口的对应表(入口词表)可在使用过程中不断增补,趋于完备。

6.同时使用主题词和自由词标引

所谓自由词,是指词表中未收的,取自档案本身,但作了适当控制的用于标引和检索的自然语言语词,主要是专有名词,其专指度高于词表中的主题词。同时使用自由词与主题词标引,即是指在标引档案时遇到主题词表未收录的表达新事物、新概念的语词或明显漏选的语词,可用自由词作补充标引。用自由词作补充标引,可弥补规范化语言不能及时表达新概念及其专指度偏低的缺点,是对主题词标引的一种补充。

由于受到计算机技术水平和自然语言自身特点的限制,在我国档案信息组织与检索中,自然语言还不能完全取代规范化的人工语言,自然语言与人工语言结合使用能用其所长,避其所短。

本章思考题

1.简述分类语言的类型及构成原理。

2.简述主题语言的类型及构成原理。

3.简述《中国档案分类法》和《中国档案主题词表》编制原理及结构。

4.简述档案检索语言的发展趋势。

5.如何实现档案分类法和主体法一体化?

6.谈谈你对编制档案分类法和主题词表电子版的看法。

【注释】

[1]中国档案分类法(第2版)[M].北京:中国档案出版社,1997:268-269.

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈