第二节 档案数据库
档案数据库是以一定的组织方式存储在一起的机读档案数据的集合。“记录”是档案数据库的基本单元,是对某一份文件或案卷的题名、责任者、来源、页码、分类号、主题词、摘要等进行描述的结果,每条记录相当于一条著录款目。一个档案数据库由若干条记录组成,这些记录可以被组织起来以供检索和显示之用。一条记录的各个项目称为字段(相当于著录项目),在长度上可以是固定的,也可以是可变的。档案数据库的结构分为物理数据库、概念数据库和逻辑数据库三层。档案数据库是档案计算机检索系统的核心,其性能往往影响到整个系统的功能效率。
一、档案数据库的特点
(1) 集成式。档案数据库对档案数据实行集中化控制,可将各种有关数据集中在一起进行统一的控制和管理,保证了数据的一致性、完整性。
(2) 结构化。档案数据具有复杂的数据结构,它将各应用系统的全部数据合理地组织起来。
(3) 低冗余度。数据库中的档案数据重复少,数据的冗余度被控制在最低限度,节省了计算机存储空间。
(4) 可靠性。数据库系统采取各种手段加强了对数据的保护,保证了数据的安全可靠。
(5) 共享性。数据库系统内的各应用程序可以共用,数据库还可以出售,供不同用户、不同系统使用。
二、档案数据库的分类
一般将数据库所含信息内容作为档案数据库的基本分类标准,根据此标准,档案数据库可分为:
(1) 目录数据库。包括各种机读版的文摘、索引、目录等,又称为目录数据库。其作用在于指引用户找到合适的档案信息源,即档案原文,从而满足其检索要求。
(2) 事实数据库。又称为文本-数值数据库,是同时包含文本信息和数值信息的数据库,它提供经过加工的一次情报,利用者可直接从中查找自己所需的档案信息。
(3) 全文数据库。存储机读化的档案全文,可用来检索档案原文中的任何字、句、段、章、节等。
事实数据库和全文数据库的特点在于它们本身含有一次情报,即用户所要求获取的数值、事实或文本,可直接向用户提供所需的档案信息。相对于二次文献数据库来说,事实数据库和全文数据库是在更深层次上对档案信息进行加工的产物。
此外,按数据形式分,档案数据库还可以分为文字型数据库、数值型数据库、图像型数据库,以及多媒体数据库等。
三、档案数据库的生产
1.档案数据库生产过程
档案数据库的生产,包括档案材料的收集、鉴选、摘要、数据录入、校对、计算机处理等环节。
(1) 档案材料的收集
确定档案的收集范围和来源,按要求全面收集档案材料,作为建库的原始材料。一般以馆藏丰富的档案馆(室)为基地。
(2) 档案材料的鉴选
应以利用者需要为准则,根据数据库的目的、范围选择有价值的档案材料。
(3) 档案文摘的编写
将收集来的档案材料一一作摘要,以便进一步加工处理。文摘的编写应当标准化,遵循国家标准GB6447-86《文摘编写规则》。
(4) 数据准备
将档案的内容特征和形式特征著录、标引出来,为数据库提供经过加工的数据。著录标引须达到标准化的要求。
(5) 数据录入
将著录标引结果转化成机读数据。数据录入工作可以用计算机键盘根据工作单来完成,也可以用文字处理设施进行,以后再作成批转换。
(6) 校对
计算机自动对录入的数据进行审核,如审核字段的数据形式是否正确,字段长度是否符合,各种标识符号是否有误等。
(7) 计算机处理
通过特定的计算机程序,进行记录的装配与格式转换。各个检索系统内部的数据格式可以不同,为了便于系统间的转换,国际上有通用的标准化格式,即ISO2709《书目信息交换用磁带格式》。
2.档案数据库对档案著录标引的要求
对于档案著录的要求:
(1) 必须采用机读目录格式进行著录,应采用国家标准《中国档案机读目录格式》(GB/T—20163—2006)。
(2) 采用标准的项目标识符。
(3) 采用详细著录级次,必要时可增加一些项目。
(4) 填写著录工作单,保证数据录入准确无误。
对档案标引的要求:
(1) 进行深度标引。采取全面标引方式,对档案的整体主题和局部主题,只要有较大检索意义的,都可标引出来。一般来说,一份档案标引深度可达到5至15。
(2) 用自由词作补充标引。对一些新概念和词表中未列出的专有名词,如人名、地名、机构名、工程代号、产品代号、会议名称等,可作为自由词经一定规范后直接标引出来。
(3) 标引具有两个或两个以上主题的档案时,采用关联符号,以避免误组配。同一个主题的标识采用相同的关联符号,置于文献号后。例如,对《钢的硬度和铝的强度分析测试报告》,标引为:
钢 0124a 硬度 0124a 测试0124a,b
铝 0124b 强度 0124b
在这里,0124是文献号,a,b是关联符号。检索比号时,不仅文献号须相同,关联符号也须相同。
(4) 加注机编主题目录标题符号。数据库可用来生产供手工检索用的机编目录和索引,供手工检索用的标引词是先组散组式的,对标引深度和组配次序有一定的限制。为此,须加注标题符号。
标题符号一般由两部分组成,位于前面的符号表示是哪一条款目,后面的符号表示标题的级别。例如:
钢 S1A 硬度 S1B 测试S1C,S2C
铝 S2A 强度 S2B
S1、S2分别表示第一、二条款目,A、B、C分别代表主题标题—子标题—次子标题。根据此标题符号可做成两条款目:
①钢————硬度————测试
②铝————强度————测试
(5) 进行上位登录。即在给出一个检索词或分类号的同时,给出所标引档案所有的上位词或上位分类号。其作用是方便扩检,提高检全率。上位登录可通过程序由计算机自动进行,也可人工进行。
(6) 填写标引工作单。工作单所列栏目和项目视具体的档案计算机检索系统的建库要求而定,一般包括:档号、缩微号、密级、时间、作者、题名、文摘、文件类型、分类号、主题词、自由词、标题符号、文档单位等。
3.档案数据库的性能指标
(1) 数据收录的完备性
这是评价数据库质量的首要指标。数据库覆盖面的大小、收录数据的完备程度,关系到它是否能全面满足用户的检索要求,是取信于用户的基本前提。
(2) 数据的准确性
数据库中收录的数据是否准确可靠,是保证档案检索系统检索效率的重要因素,数据的任何差错,如格式的不一致、字符的出入、拼写的失误,对计算机处理数据和检索结果都有很大影响。尤其在数值型和事实型数据库中,数据的不准确将会造成严重后果,可能导致用户对数据库的彻底否定。
(3) 信息含量的充分性
它指档案数据库揭示档案信息特征的充分程度,如对一份档案著录项目的详细程度;有无摘要;摘要的详略如何;标引深度的大小等。数据库的信息含量越充分,就越有助于用户判断档案的价值及其切题程度,从而帮助他们迅速准确地找到自己所需要的档案。
(4) 数据更新的及时性
主要指一份档案从形成到纳入数据库之间的时差。如果用户先看到原始档案,然后才从数据库中检索到该档案的有关信息,就会认为数据库所提供的数据不及时。数据库的及时性对于现实效用较强的科技档案尤其重要,数据库的时差越短,其价值就越大。
(5) 数据库的成本效益
建立数据需消耗大量的人力、物力,租用或购买数据库的花费也不小。因此,经济成本是衡量与选择数据库的重要指标,应尽可能地选用最低的成本达到较大的效益。计算数据库成本的指标包括每个字段、每条记录的平均费用,每次检索、每条命中记录的平均费用。
四、档案数据库的文档类型及结构
一个档案数据库一般至少由一个顺排文档和多个倒排文档构成。
1.顺排文档
按档案记录的输入顺序(即记录的顺序号)排列的文档。记录按顺序一个接一个存放,一个存取号对应一条记录,存取号越大,对应的记录就越新。由于它存储了所有记录完整的信息,所以,又把它称为主文档(Master File)。在顺排文档中进行检索,计算机就要对每个检索提问式逐一扫描数据库中的每一条记录,存储的记录越多,扫描的时间越长,检索速度慢,效率较低。顺排文档相当于检索工具的主表部分。
2.倒排文档
这是将主文档中的可检字段(如主题词、责任者)抽出,按某种顺序重新排列起来所形成的一种文档。以不同的字段作为标识,组织成不同的倒排文档(如主题词倒排文档、责任者倒排文档等)。倒排文档可以按主题词的字顺排,也可以按分类号的大小排。倒排文档只有文献的标识、文献篇数及文献存取号。因此,检索时必须结合顺排文档使用,先在数据库的倒排文档中查得文献篇数及其记录存取号,再根据存取号从顺排文档中调出文献记录。倒排文档类似于检索工具中的辅助索引。
例如,查找同时含有主题词A和F的文档,可先检索主题词倒排文档,获得同时含有A和F的文档存取号003,然后再在顺排文档中获得该文档的完整著录信息(见图7-1)。
图7-1 顺排文档与倒排文档结合使用示意图
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。