3.3 数据库的类型和结构
数据库(database)是计算机技术和文献信息检索技术相结合的产物,同时它又反作用于信息检索,它是文献信息检索系统必不可少的组成部分,是计算机信息检索系统的信息源和核心,也是现代信息资源管理的重要工具。那么到底什么是数据库?数据库是为了满足某方面用户信息需求而被收集在一起的一组有组织(或有序)的信息单元。每个信息单元由若干个独立的结构单元组成,数据元存储在字段中,每个数据元描述一个特殊属性。
3.3.1 数据库的类型
数据库的类型有许多种,人们可以从不同的角度对其进行分类,如按存储介质分,按数据库的性质分等。目前在信息检索领域比较流行的分类是根据数据库所含信息内容作为基本的分类标准,根据这个标准,可以将数据库分为以下几类。
1.文献型数据库
文献型数据库,根据其存储的数据是文献题录或文摘还是全文又可分为书目数据库和全文数据库。书目型数据库是存储文献的题录或文摘等二次文献的数据库。它们是文献的外表特征和内容特征的描述与记载。书目型数据库只提供文献信息线索的查寻,而不提供原始文献的检索,其信息来源于公开发行的图书、期刊、报纸、科技报告等。如《中国科技期刊数据库》、《中国学术期刊文摘数据库》、《中国专利(CNPTA)文摘》、《CNPTA/图文》等均属于书目型数据库。
全文数据库,存储的是文献全文或文献的主要内容,如报刊文章、新闻稿、法律条文等,根据其存储内容的形式可分为直接原文型和摘录型。直接原文型直接存储全文,有的还包括正文外的信息,如著者、出处、关键词等。摘录型则是将原文经压缩提炼形成若干篇可以说明文献内容的文献摘录或原文片段。对全文数据库进行检索均无需经过二次检索,可直接得到检索原文或能解决问题的文献摘录。这也是全文数据库优于书目数据库之处,但它需要更大的存储空间。全文型数据库最早出现于法律领域,随后在文学、经济、新闻等其他领域也相继出现。如《中文科技期刊全文数据库》、《中国学术期刊全文数据库》、《法律法规全文数据库》、《中国日报全文数据库》等均属于这一类型数据库。
书目型数据库和全文数据库不仅在内容上有差异,结构上也有不同。书目数据库的每条记录通常由若干个描述文献特征的字段构成,在字段之间、记录之间还存在某种联系,它们构成文献的逻辑结构。这种结构通常根据文档的组织不同分为线性结构和树形结构两种。而全文型数据库在结构上也有其自己的组织方式,如有的数据库它由若干个文库组成,每个文库分为若干文档,文档又由若干文献组成,文献再往下分成若干个小片段,还有的数据库由若干数据库构成,数据库下不设文档,直接把文献分若干字段存储。
2.数值型数据库
数值型数据库是存储各种数值的数据库,其内容是机读型数据的集合。这一类型数据库数据是从文献中分析提取出来,或是经实验、统计、观测直接得到,经核实、检验、整理而成,内容涉及市场行情、经济信息、人口分析、天气预报、投资与股票等方面的数据。
数值型数据库根据其内容的不同可有单元形式和表册形式两种数据结构。单元形式数据结构是对原始数据的模拟,表册形式则是对统计数据的机读模拟。以单元形式存储的数据主要是一些相对独立的数据,如电话号码、化学分子式等。而表册形式存储的数据则是一些聚集式的数据,如股市行情、科学实验数据、气象数据等,它通常以多维矩阵或表格形式存储。
3.事实型数据库
事实型数据库也有人称其为字典型数据库,它是存储某些客观事物的指示性描述的数据库。它可提供人们查寻人物、机构、成果、产品或商品等的有关信息。因此根据其存储的内容又可分为人物传记数据库、机构名录数据库、成果数据库、产品数据库、基金数据库、旅游指南数据库等许多种。如中国信息所万方公司的《中国科学技术成果数据库》就属成果数据库一类,中国科技信息所的《中国企业、公司及产品数据库》则属产品指南库。
事实型数据库涉及的内容复杂,各字段内容长短不一,因此其结构也不可同日而语。对于主题领域较多、各主题综合型较强的数据库一般采用多子数据库和多文档形式存储,而对于单一主题、内容较专的事实型数据库则通常用单一主文档,不定长多字段的记录格式存储。
4.图像型数据库
图像型数据库是用于存储图像数据以及其说明文字等的数据库。这种数据库最初还只是作为文献型数据库和数值型数据库的辅助检索工具出现,文献型数据库一般只提供图形或图片的线索,而数值型数据库也只是存储一些简单的图形或图片数据。近年来,由于光盘技术的发展及广泛应用,出现了纯粹存储图片、图形的光盘数据库,这种图像型数据库主要存储建筑装饰、家具、灯具、生物资源等方面的图片。
除了以上所述的四种数据库外,近几年来,多媒体技术迅速发展,又出现了将文本文件、图像和声音等综合在一起的数据库——多媒体数据库。这种数据库与前面几种的不同之处在于它处理的数据对象发生了重大的变化。用户可以输入并查询的信息已不限于文本和格式化数据,而且能将声音加入并允许用户修改视频和图像等。这种数据库特别适合于医疗保健和保险工作等主要依靠视觉信息的行业,目前,X光透视和其他医疗高科技的有关多媒体数据库已有应用。
3.3.2 数据库的结构
不同类型、不同内容的数据库,由于数据内容及标引人员的不同,其文献记录标引方式、结构必然存在一定的差异,因而会提供不同的检索方法,因此对数据库结构的了解极其重要。下面就主要以书目型数据库为例具体介绍数据库的结构。
文献数据库大多是书目式的数据库,这种数据库里存储的并非是原始文献,而是经过加工的二次文献,即文献的题录、文摘以及索引字段。其结构类似于印刷型的检索工具。数据库是一个包含大量反映文献外表特征和内容特征的著录款目的集合。一个数据库主要由字段、记录和文档3个层次构成。
1.记录与字段
数据库通常由文档组成,而文档则由若干条记录构成。记录是数据库文档的基本组成单位,它在文档中是描述某一实体属性的数据集合,在书目型数据库中就是描述各文献的外部特征和内容特征的数据集合,如文献名称、著者姓名、发行日期、分类号、关键字等。
在数据库中,从内容上讨论,文献特征称为实体属性,如果从结构上说,则可称其为字段值或字段内容。字段是构成数据库的最小单位。对应于任一实体的某一属性有一字段值,因此在书目数据库中则有文献名称字段、著者姓名字段、发行日期字段、分类号字段、关键词字段等。
不同类型、不同内容的数据库,其文献记录标引内容与形式会有很大不同,但是每条文献记录基本上都有三个组成部分:存取号、基本索引字段、辅助索引字段。存取号是计算机按文献存取先后自动给予每条记录的一种顺序号;基本索引字段是用来描述文献内容特征的字段,它主要包括题名字段、文摘字段、叙词字段、自由标引词字段等;辅助索引字段则主要用来描述文献外部特征的字段,如文摘号字段、著者字段、语种字段等。
2.文档
文档(file)是由众多记录按一定方式组织在一起形成的,按记录组成形式的不同,文档可分为顺排文档和倒排文档,一个数据库至少包含一个顺排文档和一个倒排文档。
(1)顺排文档(linear file) 顺排文档就是将文献记录按存取号的顺序一个接一个存放起来形成的文档,是完整的顺序信息记录,它是一种顺序存储结构,存取号愈大的记录愈新。在顺排文档中存储了数据库中所有的记录,并且存储了每篇文献的最完整的信息,因此又称为主文档。由于顺排文档的这种存储结构特性也决定了对其进行检索时,只能顺序逐条读取其中的记录,要查找其中某一条记录,只有扫描完整个文档才能算结束,因此比较费时。
(2)倒排文档(inverted file) 倒排文档则是将主文档中的可检属性抽出重排而派生出的数据记录。在查找时必须读取每一条记录,因此我们有必要寻找另外的文献排列方式来解决这个问题,方便检索,节省时间。于是,我们想到像手工检索工具一样编制一种索引,对顺排文档(相当于检索工具的正文)再一次进行浓缩,倒排文档就是这样一种相当于索引的文档。它是抽取文献记录中一切可检字段按某种顺序排列而成的文档。不同的字段可以组成不同的倒排文档。例如,我们可以按文献出版年构成出版年倒排文档,还可有著者倒排文档,题名倒排文档等。另外,还可以将几个字段混合排序组成混合倒排文档,这也相当于索引中的复合索引。
下面可举一例来说明顺排文档与倒排文档的联系。
现假设有一个包含5篇文献的文献集合,分别为:
001向“电子图书馆”挑战:西方发达国家国立图书馆的现状与发展趋向(标引词:电子图书馆/图书馆/计算机)
002电子图书馆的终端读者管理(标引词:电子图书馆/读者管理/图书馆)
003台湾的图书馆自动化和数字图书馆建设(标引词:数字图书馆/电子图书馆/图书馆)
004数字化图书馆的研究及其关键技术(标引词:数字化图书馆/电子图书馆/检索)
005电子图书馆的信息资源管理模式(标引词:电子图书馆/信息资源管理/检索)
以上5个简化文献记录的顺排文档的形式为:
001向“电子图书馆”挑战:西方发达国家国立图书馆的现状与发展趋向002电子图书馆的终端读者管理 003台湾的图书馆自动化和数字图书馆建设 004数字化图书馆的研究及其关键技术 005电子图书馆的信息资源管理模式
相对应的主题词倒排文档的形式为:
数字图书馆003,004
电子图书馆001,002,003,004,005
计算机001
读者管理002
图书馆002,003
检索004,005
信息资源管理005
习题:
1.何谓计算机信息检索?并简述计算机信息检索原理。
2.计算机信息检索系统由几部分组成?有哪些类型?
3.信息检索用数据库一般包括哪两种文档?
4.按照内容来划分,数据库可分为哪几种?
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。