图书情报数字化的相关标准

时间：2023-03-05 理论教育版权反馈

【摘要】：在国外，已经有大量的图书馆用元数据来著录书刊和电子信息，并使元数据成为广大非图书馆专业的网络使用者逐步掌握的著录方式。为此，中小型高校图书馆同行要了解图书馆网络化、数字化，就必须了解元数据这一新型的、以非书文献和网络信息著录为主要对象的著录方式。由于书籍是源远流长的主要知识流通形式，自然成为图书馆最主要的馆藏内容。

4.5.2　图书情报数字化的相关标准

标准化的原理是：统一、简化、协调和优化，其中最重要的是统一。下面就其主要的方面加以说明。

（1）有关机读目录格式的标准

如国际《文献目录交换用磁带记录格式》（ISO2709）、通用机读目录格式（CNMARC）、美国机读目录（USMARC）、《书目信息交换用格式》（GB2901—92）、中国机读目录格式（WH/T0503—96）等。

（2）通用标记语言标准（SGML）

SGML是国际标准化组织于1986年10月颁布的信息描述与处理标准（ISO8879：1986）。该标准的最初作用是为印刷出版领域制定计算机排版符号体系标准，目的在于克服早期排版标识方式的模糊性和对人工干预的依赖性，使排版中的标记工作实现自动化。但由于其描述功能强大，信息编码灵活和通用性强，后来被广泛地应用于办公室自动化、商业数据管理以及其他更为复杂的应用领域。

为了在万维网上使用，还在SGML下制定了一个子集“扩展标记语言”（Extensible Mark up Language，以下用缩写“XML”），目前已得到初步应用。另外，在万维网上应用SGML的还有超文本标记语言（HTML），HTML应用得非常广泛，是万维网上服务器和客户浏览器之间朴素沟通的语言，但它的功能较XML弱。

（3）都伯林核心元素集（简称“都伯林核心”或“DC”）

随着科学技术的迅猛发展，人类社会进入了一个网络信息化的时代，大量的电子读物正以几何级数膨胀。尽管印刷型资料仍呈现快速的增长速度，可是据美国微软公司的预测，十年后50％的阅读材料将是电子读物和网络数字信息。

那么，图书馆在向网络化、数字化方面发展的道路上应该怎样去吸收和利用日益庞大的信息资源呢？我国图书馆界对计算机自动化管理中的前沿技术之一的元数据的需求呼声越来越高。在国外，已经有大量的图书馆用元数据来著录书刊和电子信息，并使元数据成为广大非图书馆专业的网络使用者逐步掌握的著录方式。为此，中小型高校图书馆同行要了解图书馆网络化、数字化，就必须了解元数据这一新型的、以非书文献和网络信息著录为主要对象的著录方式。

●元数据的成因和特点

自印刷发明以来，书籍可以说是知识记载和流通的主要形式。直到近代各种专业组织和学会的兴起，才有会议或是期刊论文的大量出现，与书籍分庭抗礼形成两大文献主流。由于书籍是源远流长的主要知识流通形式，自然成为图书馆最主要的馆藏内容。为了能有效管理馆藏书籍和提供高效率的服务，制作目录一直是图书馆技术服务的核心工作，也是图书馆为读者服务的主要基础。自从实现图书馆自动化管理后，为了要利用计算机来处理书目资料，使用的书目记载格式变为机读编目格式，我们国家用CNMARC格式。

我国近二十年来，信息传媒发展迅速，加之各种专业组织和学会的兴起，刺激了学术研究的迅猛发展。为了加快知识的流传速度，最新的研究成果并不主要以书籍形式呈现，因为厚达数百页的书籍，不但因制作耗时，时效性较差，而且发行成本昂贵。因此一般的最新研究成果是采用会议论文集或是期刊论文方式流传。而最近五六年来，我国相当一部分科技期刊的内容都已数字化和商品化。期刊题录索引及全文数据库几乎把最新的学术信息通过光盘和网络及时地呈送到读者面前。

由于科技期刊和会议论文的汇集和整理，多数以数据库的形式用光盘和从网络上发行，并且掌握在少数机构和数字化公司手上。而这些公司机构往往是以谋求利润以维持企业持续生存为主，因此其数据库是具有付费和封闭性质的。同时为谋求利润的最大化，以避免单纯的价格竞争，他们必须强调产品的差异性。因此其处理模式，本质上是差异化取向。由此观之，不难体会到为何每家数据库公司的数据呈现方式均不一样，而使得各种数据库产品的使用方式、字段与接口呈现多样化特点，因此图书馆常常将很多财力用在购买数据库上。

同时，全球信息网（Web）透过兼容性强的多媒体使用接口、易写作的超文本标示语言（HTML）格式和使用超链接来串接多个不同文件，在短时间内形成一股风潮席卷全球，不但使互联网走入一般人的日常生活，也无形中改变了人们搜寻资源的习惯和期望。其中最主要的就是利用搜索引擎（Search Engine）。通过自动抓取程序在互联网络上抓取网页，然后使用全文检索的技术，以自动拆字（或词）做索引的方式来建立其数据库。这种运作方式固然可满足部分的检索需求，但是无法有效的筛选和过滤冗余资料，这是其最大的弊病。

如我们写信给某人，信写完了应该寄出去，如在信封上只写：南京路77号，某某收。当收寄局收到这样的信时，不知道应该往那儿发。因为，在全国大中城市中南京路实在太多了，南京有一条、上海有一条……所以这封信是根本发不出去的。在这个例子中，“南京路77号”就相当于用户要检索的目标，而邮政收寄分发枢纽就相当于搜索引擎，当用户发出检索指令后，它就按照用户要求检索出所要的结果，往往会令人大吃一惊，因为它把成千上万的信息都罗列在用户面前。又比如，我们想从网络上搜索2002年人民教育出版社高一语文（实验修订本）中鲁迅《拿来主义》一文的多媒体课件。如果所有的课件均未著录。那么用搜索引擎的“高一语文”或“拿来主义”去搜索。就会出现成千上万条的题名“高一语文”“拿来主义”和内容中含有“高一语文”和“拿来主义”词语的信息，叫你无所适从。这样一来，用户只能从这些“垃圾”数据占95％的信息中再大海捞针般地检取和分离出自己所要的信息数据。

由于这些原因使研究者意识到，为了资料检索和管理的需要，对资料的适当描述仍是必需的。虽然如今计算机的运算速度惊人，但是检索的有效率仍是亟待解决的问题。也就是说，用一种凡是使用和输出数字信息的用户和提供者都能掌握的基本方式，对光盘和网络上各种媒体形式的数据加以著录。因此从不同角度描述信息特征的新型著录格式元数据也就应运而生。

元数据最常见的英文定义是“Data about Data”，可直译为描述数据的数据，主要是描述资料属性的信息，用来支持指示存储位置、资源查寻、文件记录、评价、过滤等功能。从图书馆的角度来看，就其本义和功能而言，元数据可以说是电子式目录，因为编制目录的目的，即在描述收藏资料的内容或特色，进而达成协助资料检索并提高检索效率的目的。

在众多的元数据种类中，都柏林核心集是近年来在国际上相当受注目的一种。都柏林核心集（Dublin Core）是1995年3月由国际图书馆计算机中心（OCLC）等联合赞助的机构在美国俄亥俄州哥伦布市的都柏林镇召开的研讨会推出的研究成果。根据研讨会的报告，都柏林核心集的处理，将限于“类文件对象”，意思是可用类似描述传统印刷文字媒体方式，如描述的电子档案。一般图书馆的馆藏，绝大部分都是属于它的范畴，所以非常适合使用都柏林核心集来处理。

DC元数据的著录是由15个基本元素构成，由DC修饰词对这15个基本元素的语义进行奠定和修饰。这15个基本的元素是：题名、创作者、主题、说明、出版物、其他责任者、日期、类型、格式、标识符、来源、语种、关联、覆盖范围、权限。

那么，元数据是以什么方式来进行著录和管理的呢？

传统的基于手工及印刷的资料著录，一般来说是将对文献资料的描述按照一定的规则或摘要形式记录在另外的手写或印刷载体中（卡片、书本式目录或索引等）。对于元数据来说，它有三个方面与普通著录不同：

I．它们描述的对象发生了变化

不仅是书目资料，随着网络发展的速度加快，已经扩展到了电子图书、Web网页、数字多媒体资料等。

II．网络环境的影响

现在数据体系往往应用于网络环境中，它们描述的对象不再是本地或某一具体的数据资源。

III．标记语言的兴起

计算机应用跨入网络化及标准化时代，作为一种管理和应用各种资源的有效方法，标记语言也就是在这样的背景中得到了大量的应用和发展。其中XML（可扩展标记语言）几乎成为信息处理的一个新的基础。

元数据很多是直接利用标记语言或电脑数据库等进行制作的，使用标记语言制作的好处是保证了元数据的结构化，易于被计算机处理和交流，对人类来说具有很好的可读性。使用标记语言的另一个优点是可以将数据与资源对象整合在一起，方便管理与交换的可用性。

元数据在网页著录方面也有独特的构思。图书馆是以制作目录（或是书目资料）为核心工作的，对于网络信息技术的高速发展，越来越多的网页资料同样也变成图书馆收藏管理的一部分。但是图书馆的工作人员不可能一直在网上收集那些未经标准格式描述的散落的资料信息，这样一来，元数据就成为了收集这些信息的主要手段。因为，网页处理目前唯一有效的方式为作者著录。作者著录方式是以让网页作者在制作网页时，也顺便对所创作网页加以简单的著录，而所产生的原资料，其产量和品质都介于计算机和专业资料著录人员之间。

从上面所讲的几点来看，元数据的应用是将来图书馆和非图书馆信息之间交流及资源共享的发展方向。

●DC元数据与MARC的关系和比较

那么，有人会问，这几年来，我们正在推广文献的MARC著录，为什么又出现这种新的文献著录格式呢？由于书籍是文献知识的主要载体，图书馆是收藏各种文献的重要基地，有效管理馆藏书籍和提供高效率的服务是图书馆的主要功能，制作目录一直是技术服务的核心工作，也是图书馆为读者服务的主要基础。为使用计算机来处理书目数据，使用了记载格式为机读编目格式（MARC），从1966年到现在，计算机逐渐取代卡片目录成为主要的处理工具。

但是，由于MARC编目的复杂性，使得书目资料的制作成本高，其使用和流通成本却极低，无疑是阻碍了它的继续发展的步伐。随着互联网络的日益普及，网络资源的整理和检索也日益重要，MARC在此方面也显得力不从心。就设计结构不合理而言，MARC以前给非图书馆专业人士的第一印象是复杂且深奥难懂，至于对计算机科技有较深刻认识的人，则会惊讶地看到机读编目格式中有很多资料重复的现象。

●元数据在图书馆自动化、网络和数字化进程中的具体作用

I．信息资源的共享

目前大多数学校图书馆、公共图书馆的资源共享都是通过MARC标准：ISO2709的方式来实现的。由于MARC是计算机可读及处理的数据，对读者来讲，这样的数据可读性比较差。再说，由于MARC数据处理方法的原因，使得对硬件与软件平台的依赖性很强。所以对网络发达的现今来说，已不是唯一的使用方法。而元数据是直接利用标记性语言进行制作的，所以能更好地保证数据的结构化，易于被计算机处理和交流，对读者来说有很好的可读性。从软硬件方面来说，由于标记语言采用了最简单的文本格式，使得它具有很强的兼容性和不依赖软硬件的独立性。另外，引文元数据描述与被描述的对象整合在一起，大大提高了内容管理与交换中元数据的可用性。加上元数据可以跟Z39.50结合在一起使用，使得它在信息资源的共享方面显得得心应手。

II．易于普及

由于MARC著录的复杂性，对于一般的图书馆编目管理人员来说，学习它是一件很困难的事。而元数据，由于它的著录项目相对MARC来说要少很多，也比较容易弄懂，所以只要一般的培训就可以上岗工作。在国外和中国香港及台湾，有关专家又把它称作“著者著录”，即凡在网络上产生和输出信息的人，都可以利用元数据的格式来著录他自己的作品和数字信息。对于图书馆来说，一是可以将原来的回溯书目数据转成DC元数据，二是对新文献信息采用元数据来进行著录，这样不但节约了成本，而且可以更好地发挥各类文献信息，特别是新兴的网络资源在图书馆中的作用。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈