档案数据库建设是档案信息化建设中应用最早、最为广泛的一项基础性工作,是数字档案资源建设的首要任务。无论是传统载体档案的数字化,还是电子文件的接收,最后往往体现为档案数据库的成果形式。
按照数据库理论并结合档案特点,可以将档案数据库定义如下:档案数据库,是按照档案管理规律组织在一起,彼此之间相互独立而又相互联系的、可共享的档案数据集合。广义的档案信息库是指档案数据库系统,包括各类档案数据、数据库管理系统、软硬件支持环境,以及数据库管理维护人员和最终用户等。其中档案数据是主体,包括档案目录和档案全文;其他则是管理和应用档案数据主体的保障和支持因素。档案数据主体和其他保障、支持因素相辅相成,共同构成档案数据库的系统体系。
狭义的档案数据库专指不同类别或数据形式的档案数据集合。根据档案数据库的数据形式和数据类型,可分为档案目录数据库、档案全文数据库和多媒体档案数据库(后两者又可统称为档案内容数据库),其中档案目录数据库又可分为文件级档案目录数据库、案卷级档案目录数据库、专题档案目录数据库等,档案全文数据库可分为电子文件数据库、纸质档案全文数据库、缩微档案全文数据库等,多媒体档案数据库可分为照片档案数据库、音频档案数据库、视频档案数据库等。
档案数据库有着一般数据库的共性,又有以下鲜明特点:
(1)规律性。档案数据是档案实体信息在计算机上的映射和反映,档案数据库的组织和建立应遵循档案管理的一般规律和内在联系。
(2)共享性。和其他数据库一样,档案数据库具有共享性的特点,而这一特点对档案管理来说尤为重要。档案工作的重要目的就是加快档案信息资源开发利用,实现档案信息的社会共享。建设档案数据库,是实现档案信息资源共建共享的有效途径。
(3)专业性。档案数据库的专业性体现在档案数据之间具有独特联系和相互独立性,如不同全宗的档案数据应相对独立,案卷和对应文件之间具有一对多的联系,文件之间具有一定历史联系,等等。档案数据库的设计和管理应体现档案专业要求,在数据分类、检索、约束条件、索引排序等方面应根据档案专业特点进行设计。
(4)多样性。档案数据包括目录、文本、图形、图像、音频、视频等不同形式,应根据不同数据形式,采取不同数据库技术和方法进行管理。
档案数据库的设计应遵循数据库设计一般原则,并根据档案特点组织实施。在数据库设计过程中,需要将档案实体从现实世界向机器世界转换,即将现实世界中的档案目录、案卷、文件、著录项目等概念,转换为反映在人们头脑中的概念世界,再从概念世界转换为机器世界中的数据库、数据表、记录、字段等数据库对象表示。
档案数据库的设计过程可分为五个步骤,即数据库需求分析、概念设计、逻辑设计、物理设计和加载测试,每个过程都是回溯性和迭代性的,需要在每一阶段末尾进行评审检查,发现问题时应及时返回并纠正。下面对档案数据库设计步骤简要介绍如下:
(1)需求分析。其主要任务是从档案相关用户和实际档案业务工作流程中收集档案信息内容、处理要求、安全性和完整性要求等,分析问题域所有相关名词,经过梳理和筛选,形成针对单位实际的档案数据库设计需求。
(2)概念设计。其主要任务是根据需求报告,实现由现实世界向概念世界的转换,形成不依赖于某个数据库系统的概念数据库模型。一般采取“实体—联系”方法(即E-R方法)建立概念模型,通过E-R图(ERD)来反映实体集、实体、属性,以及实体之间的联系。
(3)逻辑设计(又称实现设计)。其主要任务是针对具体数据库系统(如SQL Server、Oracle等),建立数据模型。数据模型通常用数据定义语言(DDL)表示,存储在数据库管理系统的数据词典中,也称数据库逻辑结构,常见的数据模型有层次模型、网状模型、关系模型等。目前在档案数据库设计中采用比较多的是关系模型。
(4)物理设计。其主要任务是选择数据库的物理结构,得到一个完整的、可实现的数据库结构。具体任务包括:确定数据表的字段名称及其属性(如类型、字段长度、约束值等),建立数据库和数据表,添加主键和外键,建立数据表之间的关系和过程函数、触发器等。
(5)加载测试。即通过输入一批实际数据,通过实际运行和测试,最后得到一个既客观反映实际档案数据存储和组织需求,又在适应性、合理性等方面经过检验并满足设计要求的档案数据库。
在以上五个过程中,除需求分析和概念设计与具体数据库系统无关外,后面三个步骤都与实际数据库系统密切相关。
下面以某机关单位的档案借阅数据库为例,说明数据库的设计和建库过程。
首先,分析档案业务流程和需求,确定相关档案实体和数据结构。如针对该机关单位的档案借阅工作,可通过档案业务分析,找到案卷、文件、全文影像页(或电子文档)、借阅者、登记簿等现实中的概念和实体。
其次,采用E-R图,描述实体及其关系。下面为档案借阅数据库的E-R图(图5-3):
第三,用某一数据模型(一般采用关系模型),实现以E-R图描述的实体和关系(一般用二维表格形式表示),再将实体和关系转化为某一具体数据库管理系统的数据表、字段(包括名称、属性和约束值)等,并根据实体间的一对一、一对多等关系,设置主键和外键。下面是浙江省省直单位的文书档案案卷级目录数据库结构示例(表5-1):
图5-3
表5-1 案卷级目录数据库结构一览表
在设计档案数据库的数据表和字段时,应注意以下几点:一是尽量采用字符型替代日期型、备注型等字段数据类型,以利于不同平台和数据库系统之间数据转换,避免数据描述歧义。二是字段长度应适当留一定余地,以满足实际应用需要。三是数据表和字段名称应尽量采用简短的英文命名(一般用中文拼音的首字母表示),以适合各种类型的数据库系统。四是字段之间应避免重复,内容重叠的字段应进行拆分,以简化录入,提高数据的准确性和一致性。五是主键和外键字段尽量采用自动序数和整数类型,尽量避免采用多个文本字段组合的方式,以提高主从表关联的性能。六是应尽量在数据表设计时就考虑字段约束条件和索引等,而不是依靠应用系统编程实现,以提高数据准确性和检索性能,减少编程复杂性。
最后,研发档案借阅登记管理系统,以用户熟悉的界面实现档案借阅和归还登记、全文浏览、利用者维护、借阅登记簿打印等功能,输入数据并测试。
目前数字档案的利用方式主要有两类:目录数据服务和全文数据服务。目录数据服务是通过建立反映馆(室)藏内容和成分的目录检索体系,获得档案文件信息著录项目的一种利用方式;全文数据服务是通过直接提供档案文件或其复制品的一种利用方式。目录数据服务主要通过档案目录数据库实现,全文数据服务主要通过档案内容数据库实现。
1.档案目录数据库
档案目录数据库是档案数据库的基本形式,是实现档案计算机管理的基础。目录数据库是数字档案资源管理的基础,它是将反映数字档案特征的规范数据,依照一定的字段要求存入计算机中,通过系统的排序等处理,形成由计算机检索的目录数据体系。档案目录数据库一般参照原有手工的档案目录检索体系建立,如案卷目录、卷内文件目录、分类目录、专题目录、人名目录等。其中,文件级档案目录数据库和案卷级档案目录数据库是最基本的档案机读目录检索工具,通过两者能较准确、完整、快速地实现档案检索利用。文件级档案目录数据库以文件条目为著录单位,它能具体揭示每份文件的主要内容和成分,满足利用者查找具体文件内容信息的需求。而案卷级档案目录数据库以案卷条目为基本著录单位,能概括地介绍和反映全宗内档案的内容与成分,记录档案实体的存放位置和排列顺序。档案目录数据库的建立一般通过人工录入方式实现,也可通过计算机自动采集生成。
2.档案内容数据库
档案内容数据库是数字档案资源建设的主体,它是通过数据库、数据仓库等技术方法将档案全文按照一定的分类、排序方式排列形成的集合。档案内容数据库包括档案全文数据库和档案多媒体数据库,档案全文数据库一般通过电子档案接收或纸质载体档案扫描、加工、组织而形成;档案多媒体数据库一般通过多媒体数据采集或录音、录像、缩微胶片等传统载体档案转换、加工、组织而形成。加快档案内容数据库建设,目前主要有两种途径:一是存量档案数字化,即对馆(室)藏原有保存的各类传统载体档案,通过数字化扫描等方式转换成数码形式而建立全文数据库。二是增量档案电子化,即通过各类电子文件规范归档和电子档案有序接收而建立全文数据库。两者可以通过与档案目,录数据库挂接的方式,整合在统一应用平台上,实现各类档案信息的一站式服务。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。