试论档案的主题标引
何嘉荪
在国际情报、图书、档案界,采用主题标引的方法来揭示文献内容、检索文献资料已相当普遍。在我国,这种方法也开始在情报工作和图书馆工作中得到了应用。随着档案利用的规模日益扩大,档案管理工作的日益现代化,主题标引法也必将在我国的档案工作中得到更广泛地应用。为此,本文试图从检索工具的性质和基本职能出发,阐述对档案进行主题标引的必要性,以引起对这个问题的研究和重视。
一
众所周知,要从卷帙浩繁的档案文献中,迅速、准确地查到需用的文献或资料,除了要求对档案文件进行科学地立卷整理外,还必须编制揭示档案内容和成分以帮助查寻档案文献的检索工具。
档案文献检索工具,是档案整理成果的具体反映和介绍,只有在对档案进行科学整理的基础上才可能编制。档案检索工具还是进一步累积档案文献线索的工具,它可以把分散在各卷、各类、各全宗甚至各档案馆(室)中的各种文献线索集中排列在一起,成为人们查寻档案文献的钥匙。因此,编制检索工具的工作是使档案便于利用的基础,是立卷、整理工作的继续和发展,也是交流档案文献情报的重要手段和衡量档案馆(室)工作水平的重要标志。
档案检索工具的基本职能包括两个方面:第一,把档案文件的特征著录下来,成为一条条的文献线索并将它们系统排列,这就是文献的存储过程(存储在检索工具中),是所谓的档案文献线索“由博而约”、由分散到集中、由无组织到系统化的过程。第二,向人们提供查寻检索的手段。人们随时可依一定的方法,从检索工具中检出自己需要的档案文献,这就是文献的检索过程。也就是说,任何种类的档案检索工具,都有存储和检索两个方面的职能。存储是检索的基础,检索则是对存储信息的反馈,是存储的目的。
正因为检索工具具有这样两项职能,所以编制检索工具的基本要求就应该是:存储必须广泛、全面,信息量丰富;检索必须迅速、准确,检出率、检准率高。
现实生活向我们提出的利用档案的要求是多种多样的。由于需要、目的不同,检索工具也呈现出了多种多样的形式和类型。从信息载体来说,有的检索工具是书本式的,有的则是卡片式的,还有的是缩微胶卷型的,或电子计算机磁带型的;从存储信息的种类来说,有的检索工具重点著录文献的外部特征,即文献的一些显而易见的特征,如文件或案卷的标题、日期、作者(通讯者)、文件名称、篇幅、收发文号、案卷号、全宗号等;有的则主要著录文献的内容特征,即文献的主题内容、文献所论述或涉及的事物和基本观点等;从排检方法来说,有的检索工具是按日期、著者字顺、号码系统排列的,有的则是按分类法或其他方法(如关键词法、主题法、概念组配法等)编排的。
我国档案界目前通用的检索工具,如案卷目录、重要文件目录、分类目录和卡片、专题目录和卡片等,其特点都是重点著录案卷(或文件)的标题及其他外部特征,并且采用分类法进行排检的。案卷标题虽是文献的外部特征,却也能反映档案的内容与成分,所以人们一般把案卷标题看作编制各种检索工具的基础和主要存储对象。而采用分类法排检文献线索,更是我国习惯使用的揭示文献内容的方法,它比较能体现专业分工的系统性,便于利用者从工作性质、专业分工的角度来查寻资料,既可鸟瞰全貌,又可触类旁通。在我国现阶段,档案工作实际上主要为现行工作近期查考利用服务,因此上述档案检索工具与这种状况是相适应的。因为机关工作的查考要求,往往是从作者、日期、文号或文件的标题、名称的角度提出来的,目标范围也极小,只要能查到一定的工作依据或成果就行了。
但是档案文件不只是现行工作查考利用的对象。它们作为人类真实活动的记录和智慧的结晶,将越来越多地成为科学研究的材料来源,成为科学文化事业不可缺少的宝贵财富。我国“四化”建设的发展要求,更促进了这一过程,来自科研工作的利用要求已经越来越强烈,呼声也越来越高。在档案文献的利用范围日益扩大的情况下,仅仅依靠案卷标题和分类法进行检索就显得不够了。
首先,案卷标题作为编制检索工具的基础,信息量较小,不能适应科研必须充分地占有材料的特点。
档案的最小保管单位是“案卷”。每卷档案中必然包括许多内容、许多问题,但各卷档案并不都是以问题为特征组卷的,有的是以共同的作者、通讯者、年代、地区或文件名称为特征来组卷的,因此案卷的标题往往不能将本卷档案中的主要内容、所阐述的问题都表达出来。
即使按问题特征组成的卷,案卷标题往往也只能笼统概括地反映卷中的主要问题,一些具体的小问题就无法在标题中一一得到反映。其实,就是单份文献的标题,也常常不能穷尽整篇文献的主要内容。所以,在检索工具中仅仅著录案卷(或文件)的标题,就会漏检没有在标题中得到反映、却又为科研所需要的信息。
其次,仅仅采用分类法排检文献线索,也不能适应科学研究发展的要求。
分类法虽然比较具有系统性,但这种系统性是有一定限度的。现代科学由于边缘学科、杂交学科的出现,各门学科互相渗透、互相结合,日益使直线序列的分类法难以反映多元性的知识空间,仅仅依靠分类法,就很难满足不同课题的研究工作者从不同角度查寻资料的需要。而且由于分类深浅程度掌握不一,同一性质的文献,有时可能分入不同的类,也可能会造成漏检。对检索者来说,必须了解档案形成时的具体历史背景和分类体系的状况,否则不容易找到恰当的类目进行查寻。如按年代分类的,几十年、几百年后,能否确切记住当时的年代呢?所以进行具体课题检索时,为了判断课题的归属,往往需层层分析探索,思路比较复杂,从而降低了检索速度。所以分类法检索体系不能不要,但仅仅依靠它则是不能满足需要的。
有鉴于此,我认为进一步扩大档案检索工具中储存的信息量,加快档案检索的速度,是我们当前必须进一步研究的课题。
二
为了达到使检索工具扩大信息量的目的,国际上通常采用的是主题标引法。
如果一篇文献在检索工具中只有一个标目,那么它在检索工具中就只有一个位置。如果通过分析文献的内容或其他方法,使该文献在检索工具中得到多次的反映,那么文献被从各个角度检索到的可能性就增大了,文献被检索到的比率就提高了。因此,当前世界上许多国家在编制检索工具时,都致力于标引的深度(即每篇文献能够被查寻到的途径的数目)的加大,往往把一篇文献的内容分成几个、十几个以至几十个主题,著录在检索工具中。这样,既可增加信息量,又可降低由于检索者检索文献时的角度不同而造成的埋没文献的可能性。这种把文献内容分成多个主题进行标记和索引的方法就是主题标引法。
所谓主题是指文献内容所表达的全部问题,它不是指文献的篇名、书名或标题,而是指代表文献全部内容的几个基本单词。如《关于旅游业对××市经济发展影响情况的调查报告》,其中谈了旅游业对该市开发建设、扩大就业、赚取外汇、增加生产门路的作用和对社会风气、文化生活带来的消极影响等问题。经过分析这篇调查报告,我们就可以看出:“旅游业”、“××市”、“经济影响”、“开发建设”、“赚取外汇”、“扩大就业”、“增加生产门路”、“旅游污染”等词汇最能够代表文献的全部内容。
每篇文献中必然都可以分析、选录出一个或多个,甚至几十个具有一定检索价值的、表明文献主题内容的关键性词汇来,我们把这种工作称为文献的标引。但表达一个事物的词汇,往往有许多同义词、多义词及近义词。如“自行车”,又可称为“脚踏车”、“单车”,“电动机”有人又称作“马达”。为了使大家对同一事物所选择的词汇一致起来,以避免造成漏检,就有必要对这些词汇进行规范化。为此,就必须制定统一的检索词汇表,以作为标引的根据。这种经过规范化的关键词,我们就叫做主题词,统一规范登录这些词汇的工具书就称为主题词表。
在文献的主要内容用主题词标识出来以后,就可将这些主题词按其字顺(汉语拼音字母或外文字母顺序)系统排列起来,这样就形成了另外一种检索工具——主题索引或主题目录,而这种将主题词按字顺排列的方法就称为主题法。首先,运用这种方法检索资料时,可像查字典那样,按字顺直接找到一定主题的资料,不必先考虑该项资料属于什么大类、什么小类。如查早年到国外当苦力的“华工”问题资料,直接根据汉语拼音或外文字母顺序查“华工”一词就行了。而不必像分类法那样,要先考虑“华工”问题属外交类,再考虑当年“华工”主要前往美洲,要查其中的“美洲”类,又考虑华工主要分布在古巴、秘鲁等国,查其中各相关国家的类别,再考虑此系侨务问题,故又查其中的“侨务领事”类,最后才查到华工问题的案卷,要绕一个大圈子。
很显然,这种方法也可以运用到档案工作中来。每份档案中都包含着一定的内容,因而也能分析成一个或数个主题,并按其字顺进行排检。这样,文献中标题里没有揭示出来的内容就得到了揭示,甚至文献中很次要(但却可能对某项科研课题具有重大价值)的内容也可得到反映。同时,同一篇文献在检索工具中的标目也就增加了许多,使信息量和检索深度都得到了扩大,而这正是我们的主要目的。
其次,主题标引还能成为进一步巩固和反映立卷成果的重要手段。
档案案卷无非是一组具有某种共同特征的档案文件。相对于自成单元的图书和情报资料来说,它实际上是一组具有一定历史联系的、比较松散的、互相独立的文件集合体。我们在立卷过程中,是用卷皮、装订线等物理手段和卷内目录、备考表等,把它们组装在一起的。在案卷中,真正能从实际意义上把这组文件牢固地联系在一起的纽带是案卷标题。案卷标题突出反映了本卷文件间共同的历史联系,因此是立卷成果的重要标志和总结。可是,前面讲过,案卷标题本身要求文字精练,无法将立卷成果都反映出来。然而,如果在立卷过程中进行了主题标引的工作,并且把主题词作为单独的项目标记在卷皮上,列在案卷标题之下,那么,就可以把立卷者在组卷过程中对该卷文件进行分析后所发现的各种历史联系及内容特征都揭示出来,从而把本卷中原来分散的个别文件,更紧密地联系在一起了。因此可以说,每个案卷中标引出来的主题词,实际上就是对立卷成果作了进一步的、更加完善的总结,是立卷工作的继续和发展。
这项工作做了以后,就减轻了拟写案卷标题的任务。标题只需揭示卷中最主要的共同特征,其他较次要的、并非所有文件共同具有的特征,都可以由主题词来表达。这样,即使标题比较简单或立卷质量不高,对利用工作也影响不大。正是从这点出发,我认为进行主题标引对档案来说,其意义比对图书和情报资料更加重大。因为主题标引将不仅是揭示档案文献内容的工具,而且也是辅助案卷标题、巩固立卷成果、维系原来分散的档案文件的纽带。
再者,主题标引法的应用,还能加快档案检索速度,提高其检出率和检准率。
检索工具按主题法进行排检与按分类法进行排检相比较,是从另一角度揭示文献内容的方式。分类法主要揭示文献中所论述的问题、所研究的对象属于什么类别体系。它从文献内容出发,将揭示的对象置于一定的门类体系之中,这些类别是相互关联、层层展开的。它们之间的隶属、平行、派生关系,有严格的秩序。主题法则只注意揭示文献中所论述、研究的对象本身,以对象作为主题。各个主题是相互独立的,它们之间的排列是按字顺,即基本是形式上的顺序,因而便于确定某个主题在整个系统中的特定位置。因此,如果说分类法是以概念逻辑体系为中心,它的主要特征是系统性,那么主题法的主要特征就是直接性,它是以语言为中心、建立在文字基础之上的。主题法直接用文字作主题,不论主题的专门化程度怎么高、名词怎么新都能直接表示出来。因此用主题法标识文献内容比分类法更精确、直接,也更灵活。在分类法中,某些高深的问题只占极小的部分,容易被上级类所掩蔽,使该项主题被埋没。而主题法却不受级位的限制,相对地能突出某些高深的主题,减少漏检。如果需要在主题词表中新设一个主题词,只需考虑字顺就行了,不必像分类法那样,要新设一个类就必须瞻前顾后、慎重从事,才能确定其适当的位置。另外,主题法的一个重要优点就是它能把属于一个问题而又属于不同类的资料,全部集中在一起,如关于铁路事故问题的案卷,可能在客运、货运、机务、车辆、工务、电务等类中都有。在主题索引中,这些案卷就都集中在“铁路事故”这一主题词项下了。正是因为主题法具有这些分类法所没有的优点,所以利用它进行档案检索就会提高速度和准确率。
此外,对档案进行主题标引,也是应用电子计算机检索档案文献的基础。
电子计算机是现代科学技术发展的重要标志,利用它检索档案文献,是使档案管理工作现代化最重要的内容之一。但是要利用计算机参加检索工作,就要事先将一定的检索信息存储进去。那么,向电子计算机输入什么样的信息才最符合计算机检索的要求呢?
第一,揭示档案的内容必须准确、广泛、全面,信息量丰富,检索深度大。如果不具备这样的条件,许多档案文件检索不出来,各方面利用档案的要求得不到满足,那就失去了使用电子计算机的本来意义。第二,这种检索信息使用的语言必须定义精确,具有单义性,能清楚表达档案文件的内容和查询要求,并且有组配能力,便于计算机处理而又最大限度接近自然语言。
很显然,对档案进行主题标引所得到的信息就符合上述两点要求。对于第一点,前面已经论及,不再赘述。关于检索语言问题,则需再加说明。如前所述,对文献作主题标引时,必须对所使用的词汇进行规范化,制订统一这些词汇的主题词表。我们说,这种主题词表,不但是进行主题标引时的语言规范,是表示档案主题词之间语义关系的规范化词典,而且是计算机检索语言的核心。在制定档案检索主题词表时,就规定了每个主题词必须词义明确、单一,表意清楚,在档案工作中有一定的使用频率并具有一定的组配能力。组配指的是概念组配,文献检索理论认为,各种完整的、复杂的概念,都可以通过更为一般的、单元的概念的组合或组配来构成,所以任何文献所阐述的一定的问题都可以解析为一些单独的概念单元,在检索时可根据各种检索命题的需要,把有关的概念单元自由地组配成各种问题方案。所以完整地说,主题词就是以概念为基础的、经过规范化的、具有检索意义和组配性能的单词和词组。这正符合电子计算机处理的需要,因此可以说,对档案进行主题标引正是档案工作现代化的第一步。
综上所述,对档案进行主题标引,是档案工作现代化的基础工作之一,也是在现阶段尚不具备使用电子计算机、仍然依靠手工的条件下,扩大检索工具的信息量和检索深度,巩固发展立卷成果,提高档案检索速度和检出率、检准率的重要手段。
三
从世界范围看,一些经济比较发达的国家,包括第三世界一些国家的档案界,都早已开始对档案文献进行主题标引了。看来这是一种必然的趋势,我国迟早也会走上这条路。当然,要在目前就全面推广这种方法是不现实的。但是,现在就开始做些准备工作,并且重点从理论上进行探索,则是可能的。
为此,首先必须尽早制定全国统一的《档案主题词表》(或称《档案检索词表》)。《档案主题词表》是对档案进行主题标引的必要前提,应该及时制定。目前,中国科技情报所和北京图书馆联合主编的《汉语主题词表》(试用本)已经由科技文献出版社正式出版。它虽然是为了处理情报图书资料、从学科专业角度制定的,但仍为档案主题词表的编定打下了良好的基础。笔者建议国家档案局集合各方面力量,在《汉语主题词表》(试用本)的基础上进行研究、修改、补充,以发展成适于档案标引的档案主题词表。此项工作工程巨大,绝非易事,不是一朝一夕能够完成的。也可以先委托各中央级专业部、委、总局的档案管理部门,会同本部门的专业力量,参照《汉语主题词表》(试用本)制定本专业范围内的《档案主题词表》,然后再汇总,制定出全国统一的总表来。
与此同时,应选择条件较好的档案馆(室)及一定数量的文书处理部门,实地进行主题标引的试验工作。标引可以案卷为基本单位,也可以文件为基本单位,但一般应以案卷为主,因为案卷是档案的最小保管单位,如都以文件为基本单位,工作量就会太大,非现在人力之所能及。如果文件很重要,人力时间也允许,当然也可以文件为单位标引。
标引工作最好在文件立卷过程中,由有关的专业人员与文书、档案人员一起进行。因为组卷时必然要对卷内的文件进行分析,反复考虑其各种特征和内容,在这时就把相关的主题词标识出来,显然最合适。
建议今后案卷封面上应该添加主题词作为单独的一项。主题词填写时,可以不考虑其相互间的语法关系和逻辑联系,只按其在卷内文件中出现的先后次序排列(或任意)排列。
对于已经组过卷的档案,则可由档案部门会同有关专业人员,在人力条件允许的情况下,逐步对它们进行主题标引,并把重点放在较为珍贵的历史档案上。
在进行上述工作的同时,还应对每卷档案制作卡片,卡片上除了标明案卷的外表特征,即标题、年代、案卷号、全宗号以外,还要将所有的主题词全部标上,并且有几个主题词就做几张卡片,以便按照每个主题词进行轮排,组成主题目录和主题索引。
与其他工作相比,进行主题标引将是档案工作中较为复杂、学术水平要求较高的一项工作。从事主题标引的人,必须具备较高的有关专业水平和档案学知识,所以国外从事这项工作的,都是具有一定学位的专业人员。但是,水平不是从天上掉下来的。更高的要求只能是激励我们前进的动力,而不应该成为拦路虎。只要我们努力学习,虚心求教,刻苦钻研,是没有克服不了的困难的。
当前,我国档案学界已经开始注意到了档案的主题标引问题,但多是从电子检索的角度出发,并没有考虑它对档案工作更广泛的意义。正是有鉴于此,笔者不揣冒昧,抛出管见,希望能借此引起从理论上对这个问题的讨论。
笔者不是档案工作者,许多情况或者还不明,只能从理论上进行推导,难免说了许多脱离实际的外行话,望各行家批评指正。
(原载《档案学通讯》1981年第5期)
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。