首页 百科知识 元数据与文件档案管理

元数据与文件档案管理

时间:2023-10-01 百科知识 版权反馈
【摘要】:元数据可对数据对象进行全面、详尽地描述,指引用户查找、识别、确认、选择和获取信息对象,同时,能帮助信息管理者更好地管理信息资源,以及对资源的长期存取。因此,元数据可视为一种描述和反映信息对象的三个方面特征的数据集。其后研制的电子文件元数据研究项目,如美国印第安那大学的《文件管理元数据说明草案》、澳大利亚国家档案馆的《政府机构文件保管元数据标准》等都将匹兹堡大学的元数据模型作为参考。

第三节 元数据与文件档案管理

一、元数据与文件档案管理

元数据(metadata)这一术语最早出现于计算机技术领域,一般被解释为“关于数据的数据”(data about data),在不同的专业领域对其有具体的定义和应用。在图书情报界和信息界,元数据是指对信息对象结构化、编码化的描述,描述信息对象的结构、内容、形式特征及其他相关特征。我国的《电子文件元数据标准》(征求意见稿)对电子文件元数据的定义简单而明确,即“元数据是描述电子文件内容、背景和结构信息及整个管理流程的数据”。元数据可对数据对象进行全面、详尽地描述,指引用户查找、识别、确认、选择和获取信息对象,同时,能帮助信息管理者更好地管理信息资源,以及对资源的长期存取。一般来说,所有的信息对象都具有如下三个方面的基本特征:内容、背景和结构,它们都可以通过元数据反映出来。因此,元数据可视为一种描述和反映信息对象的三个方面特征的数据集。

随着计算机和网络技术的迅速发展和普遍应用,元数据已经广泛应用于多个专业领域,如空间地理、法律、生物(动植物、微生物)、地质、海洋、气象、社会科学、艺术作品、人文科学、数字图像、电子商务、电子政务等领域都在利用元数据来管理、维护和利用本专业的数据资源。20世纪90年代以来,许多元数据标准在各个不同领域出现,著名的有:都柏林核心元素集(Dublin Core Element Set,DC)、艺术作品著录类目(Categories for the Description of Works of Art,CDWA)、电子文本编码与交换(Electronic Text Encoding and Interchange,TEI)、档案编码描述(Encoded Archival Description,EAD)、政府信息定位服务(Government Information Locator Service,GILS),以及专为描述科技文献的BibTex、EELS、EEVL、RFC 1807;专为描述人文社会科学资源的ICPSRSGMLCodebookInitiative;专为描述地理空间资源的CSDGM,描述数字图像的MOA2 metadata、CDL metadata、VRA Core,等等。

传统的档案著录卡片、文件登记簿、文件处理单、案卷目录、全引目录、全宗名册、索引和文摘等都属于元数据,它们不仅描述和反映了文件和档案的内容特征,而且揭示了其保管处所、外形特征和结构,包括馆藏位置、编号、数量、载体形式、规格、密级、保管期限等。但传统的档案著录和档案信息组织方式不能全面、动态地反映电子文件的各方面特征。电子文件形成、捕获、登记、分类、存储、保管、利用、跟踪、处置、传输、归档移交及长期保存等过程都需要通过元数据方式加以控制,以确保电子文件的真实性、完整性与有效性。电子文件元数据具有其特定的含义和内容。20世纪90年代初期,美国匹兹堡大学的David Bearman在其发表的研究电子文件的论文中,首次将元数据引入到电子文件管理领域。由David Bearman和Richard Cox等人在其“保证电子文件凭证性的功能要求”的研究项目(1992—1996年)中提出的六层次文件元数据模型在国际上产生了重要影响,这六个层次是:指示层、期限与条件层、结构层、背景层、内容层和利用历史层,具体见表9-1。其后研制的电子文件元数据研究项目,如美国印第安那大学的《文件管理元数据说明草案》、澳大利亚国家档案馆的《政府机构文件保管元数据标准》等都将匹兹堡大学的元数据模型作为参考。

表9-1 匹兹堡大学的元数据模型[4]

img41

续表

img42

二、我国电子文件元数据标准

我国于2008年出台了《电子文件元数据标准》的征求意见稿,它的制订遵循了如下文件管理的国际标准:按ISO15489 《信息与文件—文件管理》规定的文件管理过程要求定义电子文件管理元数据,采用ISO/TS 23081《信息与文献—文件管理流程—文件元数据》定义的电子文件管理元数据概念模型、实体及关系模型;采用ISO14721 《空间数据和传输系统—开放档案信息系统—参考模型》定义的信息包(SIP、AIP及DIP)数据模型,实现电子文件内容、背景、结构信息的封装,以确保在分散与集中管理过程中电子文件的真实性、完整性、有效性,确保电子文件在不同应用系统间的安全传输;采用ISO14721定义的数字信息长期保存模型,实现电子文件的长期保存与利用。[5]

该标准以文件连续体理论为基础定义元数据模型,从文件档案管理业务流程出发,规定了如下5个实体(entity):文件实体、责任者实体、业务实体、关系实体、长期保存实体。其中,文件实体、责任者实体和业务活动实体,是确保文件真实性、完整性、有效性,实施档案化管理最为关键的因素。以这5个实体为框架,该标准总共规定了112个元数据元素(详细到3级元数据元素)。根据元数据类型,可将元数据分为:关于文件自身的元数据、关于责任者的元数据、关于业务工作或过程的元数据、关于业务规章制度、政策以及法规的元数据和关于文件管理过程的元数据。表9-2是电子文件元数据元素简表(含1、2级元数据元素)。2009年12月16日国家档案局发布了档案行业标准《文书类电子文件元数据方案》(DA/T 46—2009),2010年6月1日该标准开始实施。该标准参照ISO23081,结合我国电子文件管理实际,将文书类电子文件元数据从概念层次上区分为文件实体元数据、机构人员实体元数据、业务实体元数据、实体关系元数据四个域,每个域包含了相应的元数据元素,总共有88个元数据。

表9-2 电子文件元数据简表

img43

续表

img44

一个完整的元数据体系可以作横向的分析和纵向的分析。横向上,一个完整的元数据体系一般可分为描述型元数据、管理型元数据、结构型元数据和保存型元数据等。纵向上,一个完整的元数据体系应该包括三部分内容:语义、结构与语法(句法)。语义指的是元数据元素的定义,如题名、日期元素的含义。结构描述了元数据各元素之间的相互关系,如上位类与下位类之间的关系,元数据元素与修饰词(元素限定词和编码体系)之间的关系。语法(句法)则规定了元数据体系是如何被表达与描述的,如是否采用XML (可扩展标记语言)或更进一步的RDF (资源描述框架,采用资源-属性-属性值的“主谓宾”结构,提供一种框架器,并通过XML定义了一套形式化的方法,为机器语义理解的结构基础)进行描述,或直接采用其他方式等。

三、档案编码描述EAD (Encoded Archival Description)

EAD是国际标准通用标识语言SGML (Standard Generalized Markup Language)在档案界的具体应用,SGML和XML (Extensible Markup Language,可扩展标记语言)是EAD的两大技术支柱。SGML提供了如何标识文献内容的规则,是创建标识语言的元语言,而不是一种适用于某类具体文献的标识语言标准。根据SGML所确定的原则,可进一步生成某一类型文献所需的标识语言标准,这些特定的标识标准就被称为文件类型定义(Document Type Definition,DTD)。例如,HTML就是作为SGML DTD的一种超文本标识语言而被用于万维网(Word Wide Web)的编码标准。同理,SGML作用于档案文献描述而形成的DTD,即为EAD DDT (EAD),中文翻译为“档案编码描述”。XML与HTML一样,也是依据SGML而产生的,是SGML的一个子集,但XML比SGML简练、易推广。相对于HTML,XML的数据结构和数据本身是分离的,这可使人们在不改变数据本身内容的前提下,自由地改变数据的显示格式,以多种格式输出。EAD在制订和修改过程中,吸收了XML的优点。

(一) EAD的产生与发展

1.EAD的提出和EAD1.0的产生

EAD的发展始于加州大学伯克利分校图书馆于1993年主持的伯克利检索工具项目(Berkeley Find Aid Project,BFAP)。该项目的目的是,研究是否有必要以及有可能为机读检索工具(例如档案馆、图书馆、博物馆编制的目录、登记簿、索引以及其他文献等)制定一种非专用的编码标准,使之可以支持各种馆藏资源的有效利用,并逐步发展为基于因特网的档案资源描述格式。

检索工具的编码标准必须反映并符合档案界和对其提供支持的机关团体的共同利益。对此,BFAP的首席研究员Daniel V.Pitti提出,机读检索工具的编码标准应符合以下5项标准和要求。

(1) 能够表达档案检索工具中广泛而又相关的著录信息;

(2) 能够保留不同著录级别的层级关系;

(3) 能够表现某一著录层级从另一著录层级那里继承来的信息;

(4) 在著录信息的层级结构内部能够灵活移动;

(5) 支持对文献中的各个具体元素进行详细标引,实现全文检索。

根据上述要求,Daniel V.Pitti及其同事最终选择用SGML对伯克利和其他机构的各类档案检索工具进行编码试验。

1995年7月22日,Daniel V.Pitti及其领导的小组成员在密歇根的Ann Arbor集会。在这次会议上,他们对检索工具编码标准的设计原则达成共识,形成了“安艾伯协议”(Ann Arbor Accords)。会议期间,Daniel V. Pitti修订了“安艾伯协议”中的数据模型和检索工具DTD,并将其命名为EAD (Encoded Archival Description),EAD即由此正式提出。

1995年9月,EAD的研制工作得到了美国档案工作者协会(SAA)的支持,成立了专门的EAD工作组,由SAA下属的档案信息交流委员会(CAIE)管理,负责EAD的开发、审查、完善等工作。工作组成员包括来自国会图书馆(LC)、图书馆研究小组(RLG)、OCLC和SAA的代表。SAA正式提议EAD经终审成为一项标准后,由美国国会图书馆的网络发展与MARC标准办公室(ND/MSO)负责EAD的维护。目前,该工作组由SAA和ND/MSO共同领导。

EAD初版即Alpha版于1996年2月由ND/MSO完成并以电子方式发布。1996年4月召开的伯克利会议重申了EAD DTD设计的基本原则,确定了新增的EAD DTD的修订内容,并讨论了EAD DTD支持文件的内容和格式,首次将EAD标识的设计问题纳入会议议程。在上述工作的基础上,EAD Beta版于1996年9月最终定稿,并于1996年12月在互联网上公布。EAD1. 0版本的诞生始于1997年10月SAA召开的华盛顿会议。在此次会议上,EAD工作组审议和讨论了EAD用户提出的修改意见,彻底修改了当时的Beta版标签库,使之能够更精确的反映1. 0版本的预期结构。为使EAD DTD与XML这一新兴的标准在更大程度上兼容,EAD工作组将EAD1. 0版的正式发布推迟至1998年8月。[6]

2.EAD2002

EAD1. 0版本正式发布之后,工作组就开始了对其的修订工作。隶属于SAA的EAD工作组通过用户在EAD网站上填写并提交意见表的方式,收集到了67条用户提出的对EAD DTD修改和增补的意见和建议,EAD工作组于2001年4月在华盛顿举行的一次特别会议上对此进行专门讨论,并对EAD DTD进行了修订,最终在EAD1. 0版的基础上形成EAD2002版本。为了保持EAD DTD与国际通用档案编码描述格式标准(The General Interna-tional Standard Archival Description,ISAD (G))的兼容性,EAD工作组对EAD1. 0版的8个元素提出了异议,添加了一些新的元素,调整了有关元素的级别和位置。EAD2002以XML为基础,对整个EAD DTD及其参考实体文件都进行重新设计,同时还对DTD的结构进行调整,使之对信息的逻辑组织更方便和实用。显然,只有当越来越多的用户使用XML标识来取代SGML标识时,EAD 2002的有效性才能真正体现出来。[7]

(二) EAD标准的构成及EAD元素

1.EAD标准的构成

EAD选择XML作为编码语言,并以XML DTD (文件类型定义)形式表示EAD内容与结构。EAD标准文件由4部分组成:

(1) EAD文件类型定义(EAD DTD):对EAD内容和结构进行定义,是EAD的主要部分;

(2) EAD标签库(EAD Tag library):一份按字母顺序排列的EAD标签名(Tag names),并对每一标签功能进行简短的描述;

(3) 使用指南:介绍最基本的EAD标签的使用;

(4) 实施概要:由EAD工作小组制定,针对不同馆藏的图书馆档案馆提供相关的EAD元素组合和合适的标识层次。

2.EAD元素

EAD 2002为最新的版本,共计包含146个元素,其中有EAD标目<eadheader>、前面事项<frontmatter>、档案描述<archdesc>3个高层元素(high level elements),每一个高层元素下可分出若干子元素,子元素下还可再细分出若干元素,而所有元素都包含在最外层的封装元素————编码档案著录格式元素<ead>中。

(1) EAD标目

EAD标目<eadheader>为必备项,记录检索工具本身的书目性和描述性资料,而不是对档案资料所做的描述。其下属元素项有:EAD识别<eadid>:对EAD检索工具文件给定的唯一编码;文件描述<filedesc>:包括一组有关检索工具的书目信息,包括检索工具的作者、题名、副题名、赞助者等(都在<题名叙述>内)以及版本、出版者、出版丛刊和相关附注(分别标目);背景描述<profiledesc>:记录检索工具编目版本的相关记录,包括代理人姓名、编目地点及日期,以及检索工具的主要及次要语言;修订描述<revisiondesc>:记录有关检索工具的修订信息。

(2) EAD前面事项

EAD前面事项<frontmatter>为可选项。该项以题名页为主,说明<档案描述>之前的前言文字,主要叙述检索工具的产生、出版与使用,而非描述资料的信息。

(3) EAD档案描述

EAD档案描述<archdesc>为必备项。用来记录整个EAD档案的封装元素,包括描述档案资料的内容、背景和范围,也包括一些有助于资料使用的管理和补充信息。其下属元素项主要有:描述识别<did>:在<档案描述>及<构件>下,内含其他识别描述资料的核心信息;编排<arrangement>:描述资料归档顺序相关信息,例如内部结构的主要特征,或是资料在实质上或逻辑上的顺序;传记/历史<bioghist>:提供档案生产者的信息,给予相关的背景说明;数据对象<dao>:用属性(属性参考)和超级链接来连接检索工具信息及其电子形式;附注<note>:提供解释性的简短陈述;其他描述数据<odd>:提供难以并入其他命名元素中的描述数据;组织<organization>:有关描述资料细分为更小单位的信息;范围描述<scopecontent>:提供数据的主题覆盖范围;附属成分描述<dsc>:描述有关信息层级群组的信息;附属描述资料<add>;管理信息<admininfo>;访问控制<controlaccess>,等等。

(三) EAD属性

EAD属性包括一般属性、连接属性和表格样式属性。连接属性和表格样式属性各自独立,列在一般属性的后面。

大多数的EAD元素都有其属性。属性可用元素所标志的内容命名,也可以根据被标志的内容赋予不同的属性值。属性可以是一个或多个,属性名称及属性值必须放在元素标志的后面,一起放在同一组尖括号内,格式如下:

<[元素][属性]=“[属性值]”>

或<[元素][属性一]=“[属性值一]”[属性二]=“[属性值二]”>

EAD属性按其使用规范分为三类:①选用(#IMPLIED):非必须属性。若无特定属性值,处理程序可自行推定其值;②必须(#REQUEST):标志后面必须填入特定的属性值;③指定(#FIXED):必须在DTD规定的属性值中选择一个属性值。EAD属性共有72个,与EAD元素共同作用,完成文献资料的著录标引工作。

(四) EAD的特点

(1) EAD可以对档案全文信息进行置标,能适应任何长度的目录和记录,并能够描述在各种媒体上的所有类型的档案,包括文本文档、电子文档、可视材料和声音记录等。

(2) EAD基于SGML标准和XML标准,具有强大的嵌套功能,能够实现对档案检索工具“全宗-类别(或系列)-案卷-文件”等级结构的层级式描述。即可对档案文献进行从全宗到类别(系列)、由类别(系列)到案卷、再由案卷到文件的从总到分的多级著录,或者说是对一个全宗内各个级别目录信息的全文著录。

(3) 检索功能强。EAD以XML查询语言(XML-QL)为基础,除了具有一般的检索功能,如布尔检索、截词检索之外,还可以在目录中查找单个款目和离散的数据项。

(4) 具有较强的独立性。EAD相对独立于处理程序、系统和设备,即独立于计算机软件和硬件,在Unix、Windows等操作系统中可以被很好地识别。

(5) 可伸缩性。使用EAD既可以形成新的检索工具,也可以将已有的检索工具转化为EAD编码的机读格式,同一部文档可以选用一些简单的标识符著录,也可以选用复杂的等级化的标识符著录。

(6) 易读性。由于EAD采用自然语言构成置标标识符,所以置标的语义从字面上即可看出,而MARC的标识符则不具备易读性。

(7) 易用性和兼容性。XML和SGML具有易用、直观、透明度高、使用灵活,不依赖任何软、硬件平台等特点,因此,以XML和SGML为技术基础的EAD具有易用性特点,可以建立与其他元数据(如DC、ISAD (G))的映射,实现文献信息的共享。

总之,EAD由SGML标准制定而来,而SGML又是支持网络协议HTML、XML的元标准。因此,遵循EAD的档案电子检索工具可通过互联网实现档案信息资源共享。

(五) EAD在档案编码描述领域的应用

在EAD的发展过程中,涌现了大量的EAD研究和实验项目。美国、英国和加拿大对于EAD的研究和应用最为积极。在EAD研究早期,加州伯克利(Berkeley)大学图书馆、杜克(DUKE)大学、国家数字图书馆采用EAD编译检索工具,以测试其理论与技术的完善程度。耶鲁大学和哈佛大学在1996年初EAD初版发行时,就开始把它应用到工作中,加利福尼亚大学、圣地亚哥大学成功地把EAD检索工具用于数据库的建立。EAD发行后,英国的利物浦大学、牛津大学、达拉姆大学、格拉斯哥大学,也开始了EAD项目研究。

1. EAD早期应用

(1) 美国遗产虚拟档案计划(CHP)

美国遗产虚拟档案计划(CHP)由美国国家人文科学基金提供部分资助,是加利福尼亚大学、加州大学伯克利分校、斯坦福大学、杜克大学以及弗吉尼亚大学的合作计划。该计划的目的是探索制作及维护EAD检索工具的分享式联合数据库所涉及的各种因素,包括知识、政策、技术以及经济方面的因素。通过该项目研究,证明在同样记录美国文化遗产但检索工具种类不同的四个合作档案馆中EAD都可适用,并依此建立一个联合虚拟档案馆。在参与机构的网站上可获得的资料包括《EAD实施指南》以及《标签库》的草案、范例,以及其他有关此计划的信息及工具。[8]

(2) 加利福尼亚博物馆和联机档案计划(MOAC)

加利福尼亚博物馆和联机档案计划(MOAC)的目的是制作一个“实际博物馆档案”的原型,能将标准的博物馆及图书馆原有的“检索工具”整合成为一个单一的资源,用于检索全加州的档案室、博物馆及图书馆的馆藏。此计划会测试EAD在博物馆环境下的使用状况,探索EAD应用于图画式及对象式馆藏的特定问题,以及调查博物馆、档案馆、图书馆馆藏的整合检索方式。博物馆、图书馆合作计划由加利福尼亚数字图书馆的“加利福尼亚联机档案”计划(先前的UC-EAD)赞助。在其网站上列有关于此计划的完整描述、参与机构的名单,并可联机目前用EAD编码的博物馆及其馆藏。

(3) 核心执行项目(CEPP)

核心执行项目(CEPP)由英国皇家委员会发起,目的是对英国中央政府1916年至今的部分文件的检索工具提供网上利用。其检索工具采用EAD编码,有两个版本,一个是用INSO的动态文本/动态网页(Dyna Text/Dyna Web)从SGML转化而来的HTML版,一个是SGML版,通过SGML浏览器如Panaorama来看。

(4) 加利福尼亚联机档案计划(OAC)

加利福尼亚联机档案计划是一个为期两年的先导计划,目标是发展以加利福尼亚大学(UC)为研究对象的联合数据库,使用EAD著录30 000页的档案检索工具数据库,并使UC系统通过Internet普及各类用户。为了促进此原型数据库的发展,该计划的参与者已确定了著录的一般模式和特定模式。

2.EAD1. 0版应用实例

台湾“中央研究院历史语言研究所”对其所收藏的明清内阁大库档案进行著录格式的转化,是EAD1. 0应用实例中较为完善的一个版本,显示了EAD在中文档案著录中的应用进展。附录一是其源编码(见附录一)。

从该实例源码中我们可以看出,EAD对档案资料的描述,提供了被著录对象精确的内涵和多元化的检索入口。例如,实例中的<背景描述>、<文字部分>、<相关资料>元素提供了较为详尽的对档案材料内容和相关背景等信息的描述,有利于利用者更好地理解和使用自己所需的档案文件。<正题名>、<副题名>、<作者>、<赞助者>、<出版者>、<日期>、<单元识别>、<单元题名>、<单元日期>、<索引>、<主题>、<题名>等元素为利用者提供了尽可能多元的检索入口,可以帮助利用者最大限度地在整个档案资料库中检索出目标文件。

3.EAD2002版应用实例研究

2002年12月发布的EAD2002版本为目前最新的版本,应用案例见附录二。EAD2002版本在EAD1. 0版本的基础上形成,添加了几个新的元素。为了符合XML以及目前正在应用的其他相关技术的要求,EAD工作组对整个EAD DTD及其参考实体文件进行了重新设计,对DTD的结构也进行了调整,使之对信息的逻辑组织更方便和实用。

EAD在我国尚处于初步应用阶段。吉林大学管理学院王萍教授主持的国家社会科学基金项目“电子档案著录标准(EAD)的应用、评价与实证研究”对促进EAD在我国的应用具有积极的作用。该项目对EAD元素及属性进行了全面的分析,并将EAD与DC、MARC及TEI进行比较,探索它们之间的互操作等问题;对档案馆藏特性和利用者需求进行考察,探索EAD在我国档案信息资源著录工作中的应用问题;分析了EAD应用成本、检索效率、EAD在我国应用的局限性,并提出了我国历史档案馆藏EAD开发应用规划模板。

该项目对EAD进行了实证研究,其内容包括:设计项目网站;创建全宗级EAD在线著录模板;EAD从XML格式转换为HTML格式的技术实现;展示“吉林桑蚕局全宗(部分案卷)指南”(SCJEAD)。详细信息可登录该项目网站:http://www.jluead.org.cn/index.html。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈