二、数据库的结构
文献数据库是以文档的形式组织起来的,文档的基本组成单位就是记录。下面,先从记录的有关内容开始,介绍文献数据库的结构。
1.记录与字段
记录(Record)是作为一个单位来处理的有关数据的集合,是对某一实体的属性进行描述的结果。在书目数据库中,被描述中的实体是某一特定的文献,实体的属性就是该文献的特征,例如文献的题名、作者、发表时间、语种、分类号、主题词等。可以看出,文献数据库中的一个记录就相当于书本式检索刊物中的一个文摘条目或题录,或相当于图书目录中的一个著录款目。
字段(Field)是记录的下级数据单位,用来描述实体的某一属性。在文献数据库的记录中,字段的划分与文献著录事项的划分相一致,一个字段一个著录项目相对应。所以,一个记录中通常含有文献号字段、题名字段、作者字段、出版字段、语种字段、文摘字段、主题词字段、分类号字段等各种必要的字段。每个字段的具体内容称为字段值或属性值。
子字段是字段的下一级数据单位。在有些字段中,它们的值往往由多个子项构成。
总之,一个记录包含若干个字段,每个字段又可能含有若干个子字段。它们之间存在一种层次关系。
常见的字段名称及代码如表3-1所示。
表3-1 字段名称及代码
2.逻辑记录与物理记录
由应用程序员根据需要,把某些逻辑上相关联的数据组织在一起的数据集合称为逻辑记录,简称记录。上面介绍的记录就是指逻辑记录,是面向用户的一级数据组织,与存储环境无关。
物理记录是指硬件设备上的一个基本存储单位,亦称为“块”。随着设备的不同,物理记录有不同的固定类型和长度。一个物理记录可含有一个或多个逻辑记录,而一个逻辑记录也可能存放在一个或几个物理记录中。计算机是按物理记录为单位存取文档中的数据的。即以块为单位将外存储器上的数据读入内存中,或将内存中的数据存到外存储器上。所以,物理记录就是内外存之间进行数据交换的基本数据单位。它的长度(简称坎长)由系统程序员决定,但受硬件制约。为了简化软件和硬件的复杂性,块都定义为固定长。计算机的操作系统一般将块长定义为256字节、512字节、1024字节、2048字节或4096字节等。而逻辑记录可以是固定长的,也可以是变长的,其中的字段也是如此。
3.文档
若干个逻辑记录构成的信息集合称为文档(File)。它是一个处理单位,可以存储在磁带或磁盘上,或内存储器中。文档是文献数据库和文献检索系统中数据组织的基本形式。有各种各样的文档组织方式,它们与检索系统的硬件和软件的功能和系统的效率有密切关系。
(1)顺序文档
顺序文档是文档在计算机存储器中的一种存放形式。文档中的全部记录按顺序一个接一个地存放,记录的物理位置通常由记录的键值决定,记录之间的逻辑顺序与物理顺序一致。它又称为链式文档或线性文档。这种存储方式决定了对记录的存取只能顺序进行。它使记录之间紧密排列在一起。文档的修改和删除操作比较简单,但插入操作较为麻烦,存取时间与数据的物理位置有关。顺序文档可以存放在磁带或磁盘存储器上,因为它们都可以支持顺序存取,其中,磁带只能支持顺序存取,是一种典型的顺序存取存储器。在信息检索系统中,顺序文档一般存储在磁盘上。
(2)随机文档
它是与顺序文档相对的另一种存储方式。文档中的记录按随机方式存放在支持直接存取的磁盘、磁鼓或内存中。在记录的关键码与存放该记录的地址之间建立某种关系,根据这种关系来确定该记录在文档中的位置以及对文档进行存取的方式。它的特点是:对文档中的记录可以随机存取,不考虑记录在文档中的排列次序,数据的存取时间与数据的存储位置无关。因而,对于多数记录来说,只要查找一次就可以实现存取,使文档的更新维护操作较为容易。
(3)倒排文档
如上所述,文献数据库中描述每篇文献的完整记录通常以线性排列方式存放在磁带或磁盘上。检索时,只能按其物理顺序读取这些记录及其中的字段。由于它存储有关于每篇文献的最完整信息,所以通常又把它称为主文档(master file)。正如书本检索工具的正文部分需要配备辅助索引才便于查阅一样,以文献为单位顺序排列的主文档也需要设置一种类似于索引那样的文档来支持人们按文献的属性特征去快速地检索出有关的记录。这种文档就是倒排文档,简称倒排档。
所谓倒排档,就是把记录中一切可检字段或属性值(如著者名、主题词等)抽出,按某种顺序重新加以组织后所得到的一种文档。既可以按不同类型的字段组成不同的倒排档(如著者倒排档、主题词倒排档等),也可以把所有不同的字段组成一个混合倒排档。值得注意的是,倒排档中的“倒排”两字的含义是相对于顺序排列的主文档而言的。其实,在计算机存储器中,倒排档也可以按顺序文档的方式存取。两者的主要区别是:主文档以文献的完整记录为处理和检索单元,倒排档则以文献的属性(即记录中的字段)为处理和检索单元。倒排档是从主文档中派生出来的一种文档。倒排文档类似于检索工具中的辅助索引。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。