第四节 计算机档案著录与档案机读目录格式
在建设档案目录数据库时,需要制作标准化和规范化的档案目录数据,便于计算机识别和数据的交换。遵循标准化的档案机读目录格式是档案信息资源共享的基础,档案信息资源的集成管理、有效配置和开发利用都以档案机读目录数据格式的标准化和规范化为基本前提。2006年,我国出台了国家标准《中国档案机读目录格式》(GB/T20163—2006),使我国的档案机读目录格式有了全国统一的标准。在此之前,各地和各行业的档案部门已经制定了档案机读目录格式的地方标准和行业标准,它们对于本地区和本行业档案目录信息的交换与共享起到了积极的推动作用。但是,各地区、各部门都按自己的固定格式来生成档案机读目录数据,造成了档案目录数据的“信息孤岛”现象,难以进行跨地区、跨部门的数据交流,无法实现档案目录数据在国家范围内的资源共享。这些档案机读目录格式的地方标准和行业标准自身存在一定的缺陷:它们基本没有遵循国际标准和国家标准的交换格式,而仅仅是各种简单的、专门的固定结构格式生成的计算机档案目录记录。主要体现在:没有设置头标区,致使机读目录数据没有自我说明能力;普遍采用机读目录的固定格式,缺乏灵活性,不能反映档案目录数据各种变化和类型多样的特点;由于没有采用统一的标准格式,数据的生产和保存依赖于特定的计算机应用软件,难以实现对档案目录数据的长久保存和利用。因此,有必要在各地和各行业推广实施国家标准《中国档案机读目录格式》,促进我国档案目录数据资源在全国范围内的共享。
一、机读目录(MARC)及用于档案和手稿的机读目录(MARC AMC)
计算机著录的框架格式是对构成机读目录记录的目录数据的总体组织和安排。统一的框架格式有利于目录数据的交换和信息资源的共享。所以,计算机著录的框架格式又通常被称为交换格式。国际标准化组织(TC46)1996年发布的《书目信息交换用磁带格式》(Format for Bibliographic Infor-mation Interchange on Magnetic Tape,国际标准ISO2709)规定了国际上通用的文献目录数据交换格式。以ISO2709为依据,20世纪60年代后期在手工著录的基础上产生了机读目录(Machine Readable Cataloging,MARC)。1968年美国国会图书馆研制出了MARCII机读目录系统,1977年国际图书馆协会联合会制定了国际通用机读目录格式即UNIMARC。UNIMARC得到许多国家的认可,各国以UNIMARC为基础制定了自己的MARC格式。例如:英国的UKMARC,法国的InterMARC,加拿大的CAN/MARC,美国的USMARC,日本的JMARC,中国的CNMARC等。为了适应网络环境的需要,在结合加拿大机读目录格式(CAN/MARC)与美国机读目录格式(USMARC)的基础上,产生了MARC 21。MARC21参照国际标准Z39. 2,对原有的MARC格式进行了重新定义,以增进其检索功能,它有五种执行格式:书目格式、权威格式、馆藏格式、分类格式及社会信息格式。
MARC格式最初只用于图书编目,后来才用于手稿和档案文献的计算机著录。1973年美国国会图书馆初次发表了用于手稿管理的机读目录格式,由于该格式在制定过程中没有档案界的参与,所以一发表就遭到反对。此后,美国档案学会成立了国家信息系统工作组(National Information Systems Task Force,NISTF),与美国图书馆协会的机读目录信息委员会(MARBI)等合作,在1973年发表的手稿机读目录格式的基础上修改成MARC AMC (MARC Format for Archival and Manuscripts Control),作为机读档案目录数据的著录格式标准,成为建立档案二次文献数据库的基础。世界上的其他国家如加拿大、英国、俄罗斯等也建立了本国的档案计算机编目的MARC格式标准。
MARC的逻辑记录格式采用的是典型的目次方式。一条MARC记录分为四个区即头标区、目次区、数据区和记录结束符,并设置了多种功能模块全面描述文献信息特征。MARC与传统文献编目相比,具有不少优点,表现为:具有较强的自我说明能力;字段数量多,著录详尽;多字段、多途径检索;定长与不定长字段结合,灵活实用;保留主要款目及传统编目的特点;扩充修改功能强;便于机读目录数据的规模化生产和机读目录数据库的建设,促进了书目资源的共享;极大地推动了书目信息加工组织的标准化和图书馆自动化。
但是,MARC所具有的优点也成为其沉重的负担,具体表现为:字段设置重复、结构复杂、数据冗余、生产制作要求高而效益差,发行时效慢,等等。在网络环境下,MARC对于非结构化的、类型多样的网络信息资源的描述和著录更显得力不从心,其格式和标识符号复杂、呆板,字段设置不能反映网络资源的特点。
二、中国档案机读目录格式
中国档案机读目录格式分为框架格式和执行格式两个方面。框架格式是机读目录在组织结构上的总体划分。《中国档案机读目录格式》(GB/T20163—2006)在框架格式上采用的是国际标准《ISO 2709信息与文献信息交换格式》。按照这一标准,中国档案机读目录的框架格式分为4个区:头标区、目次区、数据区、记录分隔符(见图4-4)。
图4-4 档案机读目录逻辑分区
1.头标区
固定长24个字符,从记录的第0位起,到第23位结束,无字段结束符。头标区是对一条记录的总体说明,一条记录有了标准化的头标区,那么这条记录在任何计算机系统中都可以被识别、被处理。历经数十年甚至百年,人们都可以凭借记录的头标区来识别和确认这条记录。它主要提供如下信息:①给出了一系列指令性数据:如记录长度、数据基地址、目次说明等,供计算机识别与处理记录时使用。②给出了一系列说明性数据:如记录状态、记录类型、著录级别、著录等级、著录格式、档案著录控制等,对记录本身起自我说明作用,同时也供计算机识别与处理用。
2.目次区
由若干目次项和位于目次区末的字段分隔符组成。每个字段都会在目次区中有一个对应的目次项,因此,目次区内目录的数量取决于数据区内字段的数量。每个目次项的长度为12个字符,数据区中的每个字段在目次区中都对应有一个长度为12个字符的目录,目次区的总长度为12N(N为数据区内字段的个数)。在这12个字符中,前3位是字段标识符,中间4位表示该字段长度,后5位表示该字段起始位置。如图4-5中第1条目次项是001000800000,其中001是“档号”的标识符,“0008”表明了该字段的长度,“00000”表明该字段的起始位置。同理,“200”是题名标识符,“0025”表明了题名字段的长度,“00008”表明了题名字段的起始位置。
图4-5 档案机读目录目次结构
3.数据区
数据区是著录目录数据的区域,由若干数据字段如档号、题名、责任者等组成,是MRAC记录的核心部分。数据区字段设置的依据主要是《档案著录规则》。数据区中的每条数据字段相当于手工著录的每个著录项目。
为了反映档案的内容和形式特征,数据区包含了不同的功能模块,这体现为档案机读目录的执行格式。《中国档案机读目录格式》(GB/T20163—2006)在执行格式上采用的是《国际通用机读目录格式》(UNIMARC),其执行格式主要由10个功能模块构成,针对不同的档案特征信息赋予相应的功能模块。这10个功能块是:
0—标识块
1—编码信息块:由描述档案各个方面的编码数据,如一般处理数据、语种等编码字段构成。
2—著录信息块:包括《档案著录规则》等所规定的全部著录项目,由档号、题名与责任者、时间等字段构成。
3—附注块:包括对档案各方面的文字说明,由一般附注、内容附注、提要、采访信息附注等字段构成。
4—记录连接块:主要包括以数字和文字形式对其他记录的标准连接。
5—相关题名块:主要包括作为检索点的该档案的其他题名,由并列题名、其他题名、编目员补充的附加题名等字段构成。
6—主题分析块:主要由分类标识、主题标识等字段构成。
7—文件责任块:主要包括对档案负有责任的个人及团体的名称。并区分为第一责任者、第二责任者等字段构成。
8—国际使用块:主要包括对负有责任的机构的标识,由记录来源字段构成。
9—国内使用块:主要设置馆藏信息字段,如馆藏号、分类号、年代范围等字段。
为了便于计算机识别不同的数据字段,必须在每个字段之前冠以相应的标识符,包括3位数的字段标识符、子字段标识符($a、$b),以及字段之间的分隔符(@)等。每个字段(00-字段除外)均由两个指示符以及随其后的任意数目的子字段组成,结构如图4-6。机读目录用三位数字来标识字段,因此,每条记录最多可有999个字段。计算机增删字段很容易,只需要在目次区中添加或减少一个目次项,在数据区中增加或删除一个数据字段即可。
图4-6 档案机读目录数据结构
4.记录分隔符
记录分隔符标识一条档案机读目录的结束,有助于计算机确认一条机读目录记录。
三、档案机读目录的功能
(1) 作为数据交换的媒介。可以在系统间交换档案目录信息,可用来建立标准的二次档案文献数据库,建立全国的档案机读目录中心或全国的档案机读目录联合数据库,在一定程度上实现档案编目的社会化和档案信息资源共享。
(2) 可以集中生产卡片式和书本式目录,编制联合目录,提高目录生产的效率和质量。
(3) 可以用来生产各种机编索引,提高索引生产的自动化程度。
(4) 可以缩微形式输出目录信息,利用计算机缩微输出设备(COM),将机读目录信息直接转换为光电信号记录在缩微载体上。
(5) 可以提供多途径检索。MARC记录中的每个数据单元都可作为检索入口,检索途径比手工著录的目录多得多。
(6) MARC记录是具有良好自我说明能力的结构化数据,具有独立于计算机硬件和软件的特点,这有利于档案目录数据资源的长久保存和利用。
《中国档案机读目录格式》(GB/T20163—2006)的推广和应用,将提升我国档案机编目录标准化的层次,促进档案信息资源的共享。各地、各行业档案部门应对照国家标准,在尽可能的范围内,对已经建立的档案机读目录格式地方标准和行业标准进行修正。
本章思考题
1.档案著录的含义是什么?档案著录在档案信息检索中具有什么作用?
2.档案著录的内容有哪些?根据档案行业标准《档案著录规则》(DA/T18—1999)应采用什么格式?
3.试述国家标准《中国档案机读目录格式》(GB/T20163—2006)所规定的机读档案目录格式的特点和要求。
【注释】
[1]国际档案理事会著录标准委员会于2000年第14届国际档案大会上正式通过了《档案著录国际通用标准》(ISAD(G))第2版。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。