第六节 《中国档案主题词表》
《中国档案主题词表》是一部档案叙词表,也是中国第一部通用的档案主题词表。档案主题词表是进行档案主题标引的依据,它是将档案主题概念转换成主题标识、编制主题目录、主题索引及建立计算机主题文档的重要工具。《中国档案主题词表》按照档案论述和涉及的主题及事物集中档案材料,用规范化的自然语言语词作标识来直接表达档案主题概念,用参照系统间接显示概念之间的关系,并用字顺序列对档案信息进行系统化组织,提供按字顺主题检索的途径。
(一) 《中国档案主题词表》的结构
《中国档案主题词表》由主表、范畴索引、词族索引、附表(人名表、机构名表),以及首字笔画检字表和附录等构成。
1.主表
主表是词表的正文,由全部正式主题词(叙词)和非正式主题词(非叙词)按汉语拼音顺序排列而成。《中国档案主题词表》的选词范围包括20世纪初叶以来反映党、政管理工作的词汇,及档案中经常涉及的政治活动、科学研究、生产技术、经济建设等方面的专业词汇和反映新事物、新概念的词汇。具体来说,主要包括以下方面的词汇:中国各民族、各民族文字与语言的名称,世界上其他重要文字、语言的名称,主要宗教名称;行政职务与专业技术职务名称,军职与军衔名称;部分国家法律和规章名称;节目、节令名称,具有特殊意义的会议名称和有重大影响的历史时间名称;学科名称及反映学科具体内容概念的部分词目,重要的、常见的化学元素、矿物、合金、化合物名称;小说、戏剧、曲艺、诗歌、绘画等文学艺术作品的泛称及其使用频率高的下位词;田径运动、水上运动、冰上运动和体操等体育运动项目名称及其直接下位词;常见的动物、植物、疾病、医药及各类工农业产品的名称;枪械、火炮、弹药等武器及其下位词。
主题词表中的词分为正式主题词和非正式主题词两类,正式主题词用于标引和检索,非正式主题词也称为入口词,不可用于标引和检索。词的款目结构如图3-2所示。
图3-2 档案主题词表款目结构图
款目项主要起排列和检索入口的作用,其中的范畴号是该词在范畴索引中的分类号。参照项的作用是显示词间关系,其中“代”项(用参照符号“D”表示)显示等同关系,说明“游水”是“游泳”的同义词,在此作为非正式主题词,用来指引和查找正式主题词,不能作为标引和检索词使用,其对应的参照项为“用”项(用参照符号“Y”表示);“分”项(用参照符号“F”表示)、“属”项(参照符号“S”表示)、“族”项(参照符号“Z”表示)显示等级关系,“分”项中的主题词是款目词的下位词,“属”项中的主题词是款目词的上位词,“族”项中的主题词是款目词的族首词(最上位词),其后注以“*”号;“参”项显示相关关系。
此外,为了明确主题词的含义,主表中还设有限定词和注释。限定词用圆括号“()”注于主题词之后,作为主题词的组成部分。如:
Wangji
旺季(商业)
注释是对主题词的含义所作的简要说明,用圆括号“()”注于主题词之下,不作为主题词的组成部分。如:
Wuaijiaoyu
五爱教育(爱祖国、爱人民、爱劳动、爱科学、爱护公物)
2.范畴索引
《中国档案主题词表》范畴索引的类目是参照《中国档案分类法》主表的类目并结合主题词的特点而设置的,所有类目不超过三级,共有20个一级类,103个二级类,37个三级类。其标识符号采用汉语拼音字母与阿拉伯数字混合制,一、二级类目用字母标识,三级类目用阿拉伯数字标识。当一词具有两个类目的属性时,在有关类目重复出现。如:
G文化、教育、卫生、体育……………………一级类目
GA文化………………………………………………二级类目
GA1文学………………………………………………三级类目
八股文
白话诗
Y新诗
报告文学
传记
传记文学
传奇文学
春联
词(文学)词人
用诗人
3.词族索引
《中国档案主题词表》的词族索引由主表中具有属分关系的全部正式主题词编制而成(共收词族1 233个,入族主题词11398条)。同一词族的词在索引中是用缩格的形式显示其等级关系的,其中概念外延最广的主题词称为族首词,其右上角缀以“*”号,族首词之间按汉语拼音音序排列。从最上位词(族首词)到最下位词的层数称为词族的等级数。族首词为一级词,其下分词前一个点“·”为二级词,两个点“··”为三级词,三个点“···”为四级词,以此类推。如:
Dianqigoujian
电器构件*
·电器元件··电容器··电子管
···电子束管
····电视摄像管
显示管
······彩色显像管
词族索引能增强词表的族性检索功能,是实现自动扩检、缩检及上位登录的重要手段。具有属分关系的主题词,一般以一个词入一个词族为原则,少数主题词按其属性须跨两个或两个以上词族者,分别在不同词族中显示。同一词族内,有少数主题词按其属性须跨两级者,则在两级下重复显示。
词族索引与主表之间通过缀以“*”号的族首词联系,在主表中看到带有“*”号的主题词,可在族首词目录中先查到该词在词族索引中的页码,便可在词族索引中查到该族词。
4.附表
《中国档案主题词表》设有两个附表,即人名表和机构名表。设置附表可以避免主表体积过于臃肿,又可以方便利用者查找专有的人名和机构名。人名表和机构名表中主题词款目的著录事项、著录格式及排列顺序与主表完全相同。
人名表和机构名表分别收录明清以来11771位名人和1900个中央级党、政、军、社团、企业事业机构名称。
人名表的收词范围是:清时期各榜进士、三品以上命官及全国范围的知名人士;民国中央政府及执政党正部级官员(含代职),其他党派、团体主要负责人,上将、军长以上军职人员,全国范围的知名人士;中华人民共和国中央人民政府及中共中央部委局办级机构正职以上领导(含代职),其他党派、群众团体主要负责人,上将、正军级以上军职人员,全国劳动模范、战斗英雄,政治、经济、工商、教育、文学、艺术、科技、体育、宗教等各界著名人士,著名华侨与国际友人;与中国重大历史事件有关的著名外国人。
机构名表的收词范围是:明清中央政府机构名称以及著名工矿、学堂名称;辛亥革命以来,中央政府及其直属机构(不含司局级内部机构)和派出机构,中央立法、司法、军事机构及大军区,执政党中央机构和派出机构,其他政党、团体中央机构,有影响的全国性学会、协会、宗教团体,中央级企事业单位以及与上述机构有相同级别的临时机构。
5.主表拼音音节索引、词目首字笔画检字表和附录
主表拼音音节索引将主表中的款目词首字的汉语拼音音节按音序排序,在每个音节后指出该音节在主表中的起始页数。首字笔画检字表包括词目首字笔画检字表、机构名首字笔画检字表和人名首字笔画检字表,按款目主题词首字的笔画字顺排列而成,字后注明了该字在主表或附表中最先出现的页码。首字笔画检字表可帮助使用者按字顺迅速查找有关款目词,提高了查词的速度。
《中国档案主题词表》的附录有《档案著录规则》、《中国历史纪年表》、《韵目代日表》、《干支次序表》和《化学元素周期表》。
(二) 《中国档案主题词表》第2版对第1版(试行本)的修订
《中国档案主题词表》于1988年12月出版试行本,是我国第一部通用的综合性档案主题词表。该表选词范围广泛,符合档案特点,在编制过程中遵循了国际标准《单语种叙词表编制规则》(ISO2788)和国家标准《汉语主题词表编制规则》(GB13190-91),并注意与其他词表尤其是《汉语主题词表》的兼容,规范化、兼容化程度较高。但该表存在不少问题,主要体现在结构、词汇、词间关系显示等方面。该表结构简单,只有主表和范畴索引,功能略嫌不足。选词偏重于文书档案中涉及的词汇,对于科技档案和其他专门档案中的专业词汇收录不多,因此,主要适用于普通档案的标引,而不适用于科技档案及其他专门档案的标引。该表的词间关系显示不够完整、严谨,参照度低。因此,《中国档案主题词表》试行本经过3年的试行之后,从1992年3月起开始对其进行修订,并于1995年正式出版第2版。修订情况如下:
(1) 对词汇进行了增、删、改。对试行本中27288条主题词进行逻辑校验,订正错误405处,新增词2134条,删词3531条。修订后的主表共收词25891条,其中正式主题词21785条,非正式主题词4106条。
(2) 修改补建词间关系1.5万余多处。将凡是具有属种关系、整体与部分关系、包含关系的主题词,尽可能地建立属分关系,修改了不合适的参照项。
(3) 部分调整了范畴索引的二级类目。同时对一些范畴划分不合适的词目作了调整,全表共改动范畴号2 769个。
(4) 编制了词族索引和附表。
(5) 编制了人名和机构名首字检字表,调整优化了词目首字笔画检字表的编排顺序。
(6) 改写了前言和说明,并将款目词依音序结合字形笔画排序,更便于查词。为了方便使用,修订后的词表分装上、下两册,上册为主表,下册为辅助索引(范畴索引、词族索引)和附表、附录。
经过上述修订,《中国档案主题词表》的结构更趋合理,词汇水平得到提高。《中国档案主题词表》的编制和修订,有力地推动了档案主题法的推广和应用,对档案主题检索体系的建立,档案计算机检索的发展以及档案信息的报道与交流,具有重要的意义。
展望《中国档案主题词表》的未来发展和应用,可以《中国档案主题词表》为源词库,编制一批与之兼容的篇幅较小而又切合专业档案部门需要的系列专业词表(分表),这样能够弥补《中国档案主题词表》对科技档案和专门档案词汇收录较少,无法满足专业档案部门档案标引和检索的不足。另外,应成立一个常设的《中国档案主题词表》管理机构,负责管理和修订词表,密切关注主题检索语言的发展趋势,开发《中国档案主题词表》电子版,促进档案主题词表和分类表的一体化,加强自然语言与主题语言的结合应用。
(三) 档案主题词表的评价指标
为了提高档案主题词表的质量,有必要对其结构及词汇水平进行评价,为今后进一步修订奠定基础。
1.词表结构的评价
对词表结构评价总的要求是结构简明,使用方便,功能齐全。具体可从以下几个方面进行评价:
(1) 词表结构的严密性
主要指词表的各个组成部分相互对应、相互指引的程度。主表和辅助表各司其职,功能互补,提供不同的查词途径,又相互联系,构成一个有机整体。
(2) 词表结构与功能的成本效益
用尽可能简明的结构达到尽可能齐全的功能。功能齐全但结构复杂、不便使用或结构简单但功能单一,都是不可取的。
(3) 词表的易用性
它指词表的结构模式、排检方式是否易于标引和检索,如有无详尽的使用说明,是否提供了多种查检手段或辅助工具等。
2.词汇水平评价
(1) 完备性
词汇量是词表完备性的重要指标。一般来说,词汇量越大,词汇的完备性就越高。词汇量受词表性质、专业范围、档案数量、先组度等多种因素的制约。词汇量并非越大越好,应以能基本满足标引需要为限。
(2) 专指度
专指度是表达档案主题概念的确切程度,可通过词汇的使用频率来衡量。若词汇的使用频率过高,说明专指度偏低,需要增加下位词,若使用频率过低,说明专指度偏高,应予以合并或删除。
(3) 等同率
等同率指非正式主题词与正式主题词的比率。非正式主题词也称为入口词,是在规范化处理过程中落选但保留在词表中作为检索入口的词,主要是一些具有共同关系的词如同义词、准同义词、过于专指的词。等同率越高,检索入口越多,查询就越方便。国外词表的等同率平均在50%左右,而我国几部档案主题词表的等同率就低很多。等同率的计算公式:
(4) 参照度
参照度指词表中主题词间等级关系和相关关系的显示程度,它是衡量词汇相关性的主要指标,参照度越高,相关性越强。参照度的计算公式:参照度=词表中有等级、等同关系的词数/词表中正式主题词总数×100%
(5) 关联比
关联比指词表中有关联词的词数与词表总词数的比率,它反映了词表显示概念之间相互关系的充分程度。词表有关联的词越多,关联比就越高,词表的性能就越好。关联比的计算公式:
(6) 先组度
先组度指词表中复合词(先组词)与主题词总数的比率。先组度的高低直接影响到词表的词汇量及其组配性能,以适中为宜,既不能过高,增加词表体积;又不能过低,增加组配误差产生的可能性,降低标引的准确性。先组度的计算公式:
《中国档案主题词表》(第2版)出版至今已经使用了15年,词表结构和词汇都有待再次修订、补充和更新。在词表结构方面,可配置轮排索引、双语种对照索引,以增加词表的功能。在词汇方面,应增补反映新概念、新事物的主题词和入口词,删除或合并使用频率过低和重复多余的主题词,将它们作为非正式主题词保留在词表中,用参照指向正式主题词。进一步完善词表的参照系统,提高词表的等同率、参照度和关联度,控制词表的先组度,保持适当的专指度。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。