首页 百科知识 计算机档案信息检索技术

计算机档案信息检索技术

时间:2023-10-01 百科知识 版权反馈
【摘要】:档案全文检索,又称档案原文存储与检索,是借助于光盘存储器与缩微设备联机实现的一种档案检索方式。全文检索系统的核心组成是全文数据库和全文检索软件。迄今为止,已有不少多媒体档案检索系统问世,如清华大学档案馆技术部研制的《THDA-MIS多媒体档案及办公管理信息系统》等。多媒体存储与检索技术能够使用户方便、直观、迅速地获得全方位的档案信息,保证了档案信息的完整性与准确性。

第四节 计算机档案信息检索技术

一、全文检索

全文检索技术是20世纪50年代末产生的一种信息检索技术,中文全文检索技术的研发始于20世纪80年代后期,全文检索技术与出版技术相结合,产生了各种类型的数据库,包括:全文期刊数据库、全文报纸数据库、全文专利文献、法律文献数据库,除此以外,全文处理技术还用于年鉴、手册、百科全书、参考书等参考工具的编制,以及古籍文献和经典文学作品全文数据库的研制。

档案全文检索,又称档案原文存储与检索,是借助于光盘存储器与缩微设备联机实现的一种档案检索方式。我国自从沈阳市档案馆于1991年最早开始光盘原文存储与检索的应用研究以来,档案全文检索已经逐渐由实验向实用化发展。

全文检索系统的核心组成是全文数据库和全文检索软件。全文数据库是将一个完整的信息源的全部内容转化为计算机可以识别和处理的信息单元而形成的数据集合。全文处理采用了“一次扫描技术”,即计算机索引程序顺序扫描文章全文,对每一个(字)词建立一个索引,指明该(字)词在文章中出现的次数和位置;用户查询时,检索程序根据建立的索引进行查找,并将查找的结果反馈给用户。这个过程类似于通过字典中的检字表查字的过程。应用全文检索软件,可以对文件全文,包括字、句、段、章、节等不同层次的内容进行编辑、加工和检索,将受控语言与自然语言检索相结合,采用布尔逻辑检索、截词检索、邻近检索、模糊检索等方法查找原文中任何细小单元的信息。

一般来说,全文检索需要具备建立索引和提供查询的基本功能,此外,还需要具备方便的用户接口、面向WWW的开发接口、二次应用开发接口等。在结构上,全文检索系统应具备索引模块、查询模块、文本分析模块、对外接口,以及外围各种应用系统等。在结构上,全文检索系统应具有建立索引、处理查询返回结果集、增加索引、优化索引结构的功能,以及外围各种不同应用系统的功能。

全文检索的方法主要分为按字检索和按词检索两种。按字检索是指对于文章中的每一个单字都建立索引,检索时将词分解为字的组合。按词检索是指对文章中的词即语义单位建立索引,检索时按词检索。英文的字与词是合一的,而中文的字与词有很大分别,中文全文检索系统的建立面临汉字词的切分问题。

自动标引技术和自然语言检索可用于全文检索系统的技术实现。采用自动标引技术能大大提高标引的专指度和标引的速度,而采用自然语言检索则能提高检准率和系统的易用性,但却容易出现假联系和误组配,降低检全率。为了提高自然语言检索的效率,可引进后控机制。后控词表综合了自然语言和常规的受控语言的长处,对于提高全文检索系统的检索效率有着重要的作用。

二、多媒体存储与检索

多媒体存储与检索技术是指将文本、数值、图形、图像、声音等多种类型的档案信息进行综合处理的技术。迄今为止,已有不少多媒体档案检索系统问世,如清华大学档案馆技术部研制的《THDA-MIS多媒体档案及办公管理信息系统》等。多媒体存储与检索技术能够使用户方便、直观、迅速地获得全方位的档案信息,保证了档案信息的完整性与准确性。本地区、本部门举行的重大活动,召开的重要会议等实况录像、录音均可录入计算机供随时调用,体现了档案的原始记录性。

多媒体检索系统是信息技术迅速发展的结果,与多媒体检索系统相关的技术包括:

(1) 数字信息处理技术

包括模拟信号与数字信号的相互转换,文本、数值、图像、数字语音信息的编码与解码技术。这些技术的发展使得图像和音像成为计算机可处理的数据。

(2) 计算机存储技术

全文本、图形画面和语音信息都要求很大的存储空间,海量存储技术的发展满足了多媒体系统对存储空间的要求。输入输出设备的发展(高清扫描仪、高分辨率显示和打印设备、图形工作站等)则为图像、语音的输入输出提供了有效手段,使用户能方便地、直接地生成和获取多媒体数据。

(3) 面向对象的数据库理论和技术

传统的数据库管理系统主要适应于格式化和结构化数据,而文本、图像、语音等都是非结构化数据,面向对象的数据库技术就是为了解决非结构化数据的组织和管理问题而发展起来的,它为多媒体检索系统提供了理论依据和方法、手段。

长久以来,大多数多媒体系统是将图与声压缩后当成一个文件甚至一个记录存储到计算机中,使用时即可与文本信息一样地使用,并且借助于附加在图形或声音旁的标引信息,如关键词来实现对图形与声音的检索。但利用关键词无法对多媒体的深层次信息进行详细深入的检索,因此,直接针对视频、声音和图像的内容特征进行检索日益受到关注。

所谓基于内容的检索(Content-Based Retrieval,CBR),是指直接根据描述媒体对象内容的各种特征进行检索,能从数据库中查找到具有指定特征或含有特定内容的图像(包括视频片段),融合了图像理解和模式识别等技术。它具有如下特点:

(1) 从媒体内容中提取信息线索

基于内容的检索突破了传统的基于表达式检索的局限,它直接对图像、视频、音频内容进行分析,抽取特征和语义,利用这些内容特征建立索引,并进行检索。

(2) 基于内容的检索是一种近似匹配

在建立数据库时,须使用模式识别的方法对图像库中的图像按不同索引特征分类,在检索的过程中,它采用某种相似性度量对图像库中的图像匹配获得查询的结果。由于对内容的表示不是一种精确描述,因此,CBR采用相似性匹配的方法逐步求精,以获得查询结果,即不断缩小查询结果的范围,直到定位于要求的目标。这一点与常规数据库检索中的精确匹配方法不同。

(3) 特征提取和索引的建立可由计算机自动实现,避免了人工描述的主观性,也大大减少了工作量。

(一) 视频检索

视频检索是通过对非结构化的视频数据进行结构化分析,提取视频内容的特征(包含语义特征),从内容上对视频进行检索。视频检索与传统的文本检索相比,存在较大的技术难度。这是因为,视频的内容特征特别是语义特征的提取存在较大的困难,在索引建立、查询处理以及人机交互等方面也与传统的文本搜索存在很大区别。视频检索采用的技术主要有:

(1) 结构化分析和检索

按视频主题或内容特点对一个视频对象进行结构分析和层次化处理,对视频流进行镜头分割、关键帧提取和场景分割等处理,从而得到视频的结构化信息。在结构层次上,视频可通过场景、镜头、帧来描述。帧是一幅静态的图像,是组成视频的最小单位,镜头是由一系列帧组成的一段视频,它描绘同一场景,场景是由一组连续的、同属于一个故事单元的多镜头所组成。镜头分割方法多以视频内容的不连续性为划分镜头的依据,可选取视频的某种特征来度量视频内容的不连续性,如颜色特征、运动矢量特征、边缘特征等。镜头分割后,对每个镜头可提取若干关键帧,并用关键帧来简洁地表示镜头,对已分割出的镜头进行聚类,将内容相近的连续镜头合并为一个单元组,从而得到场景信息。这样,在检索时,可采用基于关键帧的检索,用户一旦检索到目标关键帧,就可以利用播放来观看它代表的视频片断。此外,还可采用基于运动的检索,可以查询摄像机的移动操作和场景移动,以及用运动方向和运动幅度等特征来检索运动的主体对象。[1]

(2) 特征提取与特征描述检索

特征提取是视频检索的基础,实际上就是分析视频数据,提取描述特征,包括:视觉特征(如事物的颜色、形状、纹理、目标的运动情况等)、听觉特征(如视频中音频的频谱分布和变化规律、节奏、韵律等)、文本特征(如ASR文本、字母文本、Web文本等),以及其他特征等。特征描述检索建立在特征提取的基础之上,例如,用户可以选用系统提供的调色板,指出所需检索的镜头或关键帧的主色调,还可通过调色板调整其所需颜色。

(3) 浏览检索

层次化浏览是视频检索常用的方法。如利用分层场景转移图进行浏览,获取整段视频的场景图之后,再用分层方法对代表帧进行聚类,并将每类选取的代表帧作为浏览节点再依次向下一层推移。

(二) 声音检索

声音检索可通过声音文本进行检索,也可以采用语音识别技术对声音内容进行检索。

声音文本检索是将原始的声音以文本形式存储,通过对声音文本的描述,如题目、内容特征等提供对声音的检索。

语音识别与合成方式检索。由语音识别装置从语音信号中抽取相关信息转换成计算机可以理解的数据,存入语音数据库,将语音与文本信息统一,由数据库管理系统描述、编辑、加工、存储、检索,可以直接检索声音的内容。

(三) 图像检索

图像检索也包括基于文本的检索和基于内容的检索两种方式。

基于文本的图像检索沿用了传统文本检索技术,回避对图像可视化元素的分析,而是从图像名称、图像尺寸、压缩类型、作者、年代等方面标引图像,一般采取关键词查询,或者是根据等级目录浏览查找。

基于内容的图像检索技术是指通过分析图像的特征,如颜色、纹理、形状等特征,对其建立索引,存储在特征库中。用户检索时,从颜色、纹理或现状等方面描述自己所需图像的大体特征,就可在图像信息库中找到相应的图像。

图像检索原理包括如下三方面:第一,收集和加工图像资源,提取特征并分析标引,建立图像的索引数据库;第二,对用户需求进行分析和转化,形成检索提问;第三,根据相似度算法,计算用户提问与索引数据库中记录的相似度大小,提取出满足阈值的记录作为结果,按照相似度降序的方式输出。

图像查询的方法一般有:

①关键词查找。输入关键词对所需要查找的图像进行描述。

②浏览查找。通过等级式类目查找。图像按照不同的主题进行归类,用户通过点击层层类目的链接,找到自己所希望的类目下的图像。

③特征输入查找。对图像的特征参数进行设置,如希望图像中的色彩比例为“R∶128 ;G∶128;B∶64”,或者是对图像的明亮度在0~100%之间加以调节。

④草图查找。用户亲自动手绘制需要查找的图像特征,以用户描绘的草图为样本,查找与之相似的图像。

⑤示例查询。由系统随机给出一组图像样本,让用户对这组图像进行评价,选择与自己的检索需求相似的图像,然后根据用户选择的图像进行分析,检出与之相似的其他图像。

三、超文本和超媒体检索

普通的文本多为文字材料,其知识单元按线性顺序排列,只能进行顺序检索。而超文本(Hypertext)是用非线性方式把知识单元及其关系组合在一起的一种网络结构,利用计算机进行快速扫描、追踪、查询和交流。超文本是一种包含多种页面元素(文字、图片、音频、视频)的高级文本,它以非线性方式记录和反映知识单元(节点)及其关系(链路),具有直观性以及人机交互性等特点,并且可以深入到知识单元。超媒体(hypermedia)是超文本(hypertext)和多媒体在信息浏览环境下的结合。超文本主要是以文字的形式表示信息,建立的链接关系主要是文句之间的链接关系。超媒体除了使用文本外,还使用图像、图形、声音、动画或视频片断等多种媒体来表示信息,建立的链接关系是多种媒体之间的链接关系。

(一) 超文本和超媒体系统的特点

超文本和超媒体系统具有如下特点:

(1) 采用了动态、开放的设计方法。允许用户借助于链路从一个节点随时转换到另一个节点,可随时添加、删改和组建超文本的知识网络空间。添加新的信息,只需要键入并链接到其他的信息节点即可,无需重新设计记录格式。

(2) 采用了非线性的排列方式,可以揭示各种相关信息之间的内在联系。传统的信息系统对信息只作了简单的特征描述,采用的是结构化的线性组织方式,不能深入揭示知识单元及其关系。超文本系统按知识单元及其关系建立知识网状结构,可以根据知识片段及其关系进行非顺序性的浏览检索,符合人们的联想思维习惯。

(3) 可以将文字、图像、图形、声音及视频等多媒体信息进行综合处理,展示图、文、声并茂的立体信息。

(4) 它是一种人-机交互的用户友好系统。用户利用计算机可以增删信息,加注评语,修改或重建知识网络。

(5) 检索灵活,效率提高。将计算机存储、表现信息的能力与人脑筛选信息的能力组合在一起,可以随时扩大、缩小或改变检索范围,实现多途径检索,能提高检全率和检准率。

(二) 超文本系统的结构与原理

超文本系统建有专有数据库,采用人机交互的方式,实现对知识网络的检索。超文本数据库由节点和链路组成,节点表示知识单元,链路表示这些知识单元之间的关系,它将相关的知识单元连接起来,构成一个关系网络。超文本技术的本质是在文档内部和文档之间建立关系,正是这种关系给了文本以非线性的组织。超文本的格式有很多,目前最常使用的是超文本标记语言(Hyper Text Markup Language,HTML)及富文本格式(Rich Text Format,RTF)。超文本系统中的每个文档都包含了若干个被醒目显示的,用以指向别的文档的参照项,当某个参照项被触发时,通过数据库中的链路,系统马上就可转换到包含有该参照项的另一文档并显示出来。这种参照项是嵌入式的,不改变原文的顺序,用户既可以阅读完整的一份文档,也可以随时停下来,选择一个可导向某一新文档的参照项进行联想检索,并可以随时返回来继续阅读。

(三) 超文本检索的模式

超文本具有两种检索模式:浏览式的检索模式和提问式检索模式。

1.浏览式的检索模式

由于超文本对信息的非线性组织特点,用户可以通过链路进行非线性浏览,查看感兴趣的节点所存储的信息,从中找到自己所需要的信息。用户通过浏览不仅可以查找与检索课题相关的信息,而且在浏览过程中往往有意外的收获,能够受到节点信息的启发,不断调整检索目标,获得更为全面、确切的信息,或者通过浏览信息片段,建立新的查询路径。但浏览式检索模式最易产生的一个问题是网络“迷航”问题,即用户通过跟踪节点间的链路在网络中四处移走时,记不清楚自己浏览的线路和访问过的节点,无法清晰地判明所查信息的方向和位置,迷失了自己在网络中的位置。为了克服网络“迷航”问题,常用的措施是使用全局浏览器(global browser),帮助用户在网络浏览时进行定位,使用户能清楚地看到自己浏览的路径和方向。

2.提问式检索模式

用户进入某一网站或相关信息数据库,在检索框中输入检索词或提问表达式,点击搜索按钮,便可得到检索结果。与浏览式检索模式不同的是,提问式检索模式事先确定了一个明确的检索目标,并通过拟定检索词或检索表达式进行检索,直接获取信息结果,准确度高,而不是通过浏览一步一步查找和筛选信息。这种检索模式要求用户具备基本的检索技能,能够熟练构造检索策略。

四、联机检索

联机检索技术产生于20世纪60年代中期,20世纪七八十年代迅速发展,目前已经得到广泛应用。联机检索允许用户以联机会话方式直接访问系统及其数据库,具有不少优点。

(一) 联机检索的特点

1.交互式检索

联机检索采用检索者与系统的会话的方式进行。用户可以通过终端借助于通信线路与系统直接对话,可随时修改检索策略直到获得满意的结果为止,是一种交互式的检索方式。

2.实时检索

联机检索系统采用分时技术,即由计算机把处理机时间划分成很短的时间片轮流地分配给各个联机终端,即“分时”。由于计算机运算速度极快,使用户产生错觉,以为自己是唯一用户,检索是以实时进行的,从呼叫系统,到取得检索结果,片刻即可。一个设计优良的系统对一个询问或指令的响应速度快到1~2秒,几乎是即时的。消除了手工检索和脱机检索时间上的延迟现象。

3.启发式检索

联机检索系统可以帮助检索者选择合适的数据库,通报数据库的更新情况,显示系统词表,帮助检索者将课题的主题概念转换成检索标识,解释检索者不熟悉的作业指令及其使用方法,回答各种业务询问,并让检索者浏览检索的初步结果。由于系统的帮助,检索者可以边检索边询问,在得到启发和帮助的条件下逐步明确自己的检索策略,使检索得以顺利进行。

4.高检准率

联机检索是“对话”式的,允许检索者随时根据检索的实际情况修改检索策略,扩大、缩小或改变检索范围,避免检索失误,查到自己真正需要的答案,检准率较高。

5.对用户限制较严

在脱机检索系统中,用户不直接操作计算机,由检索人员代查档案,对用户没什么限制。但在联机检索系统中,用户直接与计算机打交道,由于系统数据库中档案信息并不是无区别地向所有人开放,不是人人都有权检索机密材料,这就必须采取保密措施。此外,联机检索一般是要收费的,为了防止盗用,系统给终端用户一个秘密代号,即口令字。每次开始检索时,系统要求用户输入口令字,检验该检索者是否为合法用户,口令字对上以后,系统才开始提供检索服务。合法用户的权限可以分级,有的用户可以检索整个数据库,有的只能检索其中的一部分。

(二) 联机检索系统的组成及检索过程

1.联机检索系统的组成

联机检索系统由3个部分组成:主机系统、通信设备和终端设备。

主机系统是联机检索系统的核心,它的处理速度快、具备多程序和分时功能,内存容量大,输入输出设备多样化,功能区全。

通信系统是指终端设备与主机系统进行通信的设备。通信设备分为两种:专用通信线路和通过拨号选择对方的交换线路。联机检索系统使用的是后一种通信线路,即使用电话网和用户电报网进行拨号通信。

终端设备是一种人与系统的接口设备,它将字符、声音以及人类的信息表现形式转换成系统的机器代码。反之,将系统的结果还原成字符、声音等形式,传送给终端用户。

2.联机检索系统的检索过程

检索者通过计算机终端,向系统发出呼叫,系统响应后对用户作保密审查,审查合格后用户就可开始检索,检索的具体步骤一般为:①利用主题法或联机选择法选择合适的数据库;②将课题分析结果分解成系统能识别的检索词;③采用布尔逻辑算符、位置算符、截词符等组织检索词,构造检索表达式;④进入数据库,输入检索表达式进行查找;⑤分析检索结果;⑥调整检索策略,直到获得满意的检索结果为止;⑦输出检索结果,退出联机系统。

(三) 联机检索的功能

联机检索系统除了提供一般的布尔检索、加权检索、截词检索功能外,还具有一些脱机检索系统所没有的功能:

1.帮助用户选择合适的数据库

由于系统拥有的数据库越来越多,检索者有时不了解自己该查哪一个数据库,这时系统可根据检索课题将含有该课题档案的数据库名单,按照所含档案数量的多少排序,向检索者显示,供其选择。

2.词表显示

选定数据库后,如果检索者不熟悉检索语言,可要求系统显示自己需要的那一部分词表或分类表,从中选择合适的检索词。

3.帮助检索者回顾检索历史

如果检索过程较长,检索者可能会忘记自己已经输入的检索表达式或选择的数据库,检索到了什么阶段。这时,系统可帮助检索者通过回顾检索历史,梳理检索思路,决定下一步如何检索。

4.保留检索语句或检索策略

当某些检索语句或检索策略以后还需要重复使用时,系统可为检索者短期保留它们,根据标识号即可召回,检索者在下次检索时就不用重新输入检索语句或检索策略了。

5.提供联机定题服务

用户根据需要订购联机定题服务,输入自己的检索表达式,系统将其纳入专门的用户提问档,予以长期保留。每当系统数据库增加新的纪录时,就为检索者进行查找,将符合用户课题需要的新纪录提供给用户。

6.支持个人文档服务

联机检索系统允许用户将自己的机读文档输入并保存在该系统中,以备自己检索之用。系统为这种个人文档保密,旁人无权存取。

(四) 联机检索系统的选择

各个联机检索系统所提供的数据库不同,收费标准各异,可提供的检索

功能和服务项目不同,系统的数据质量、响应速度、可靠性和方便性等也有差异。因此,选择合适的联机检索系统十分必要。一般来说,选择联机检索系统应考虑如下因素:

1.数据库因素

(1) 数据库的追溯范围

如果检索课题是普查性的,需选择追溯年代较长的数据库;如果检索课题只要求了解最新发展动态,则不需追求数据库的追溯性,因为追溯年代越长,检索时扫描的范围就越大,耗时就越多,检索费用也就越多。

(2) 数据库的文档划分

若在系统中有单独的大库,对普查式检索课题有利;如果按年代将大库断开,划分为几个文档,则对检索最新材料的用户有利。有的数据库既作为一个单独的完整的数据库存在,又有按累计期划分的若干个小文档,这种大小文档并列的方式既便于普查式的检索,又便于最新信息的检索,是最为方便的。

(3) 数据库的现实性

即数据库收入的最新资料与其发表的时差有多大,这与数据库更新周期的长短有关。更新周期越短,就越能及时获得信息。

(4) 数据库记录内容的完整性

对同一种数据库,各个检索系统对装入字段的选择会有所不同,装入字段越多,其内容就越完整。

(5) 系统对数据库的独占性

有的数据库是由某一检索系统独家提供的,这无疑能增加该系统的吸引力。

(6) 数据库群的存在情况

对某一学科主题范围而言,往往有一批相关的数据库,称为数据库群,这种数据库群是否存在及其完整程度,是衡量检索系统数据库资源整体水平的依据之一。对检索者来说,某一领域数据库群的存在,扩大了选择数据库的余地,也便于进行跨文档检索。

2.系统软件功能因素

(1) 系统的用户界面

用户界面包括检索模式、后处理的选择、说明提示等。有的联机检索系统针对无经验的检索新手和有经验的检索专家,分别提供菜单驱动和命令驱动方式,以及WWW方式的检索。能够适应不同水平级别的用户,比只有一种方式要好。

(2) 系统的软件功能

除了一般的布尔逻辑检索外,是否还具备加权检索、截词检索、字段限定检索等功能。系统软件功能与检索处理的深度和灵活性有密切关系。

(3) 系统所能提供的服务

系统提供的服务包括:原文复印件传递、在线咨询、电子邮件、系统说明材料提供、用户培训等。

(4) 费用因素

系统的收费标准、有无优惠等也是检索者非常关注的因素。

(5) 检索者对系统的熟悉程度及经验水平

检索者的素质和经验是保证检索质量和效率的重要条件,检索者应结合自身的情况选择对检索语言、数据库、软件功能、服务项目有较多了解的系统。

(五) Web环境下联机检索的发展

随着Internet的迅速发展,基于WWW方式的网络信息检索对传统的联机检索产生了冲击。世界上的许多联机检索系统,如DIALOG、STN、OCLC等都加入了Internet。利用者可通过Internet的远程登录功能(Telnet)和WWW方式进入联机系统。

Telnet是进行远程登录的标准协议和主要方式。通过Telnet,Internet用户可以与世界上的许多信息中心、图书馆及联机系统联系。使用Telnet协议进行远程登录时需要满足以下条件:本地计算机上必须装有包含Telnet协议的客户程序;必须知道远程主机的IP地址或域名;必须知道登录标识与口令。在使用Telnet登录联机系统系统时,应申请一个账号,进入主机系统时输入用户名和口令字,就可以进行远程登录,浏览或检索联机系统的资源。

从技术角度上说,WWW是Internet上那些支持TCP/IP协议、WWW客户或服务程序和超文本传输协议HTTP的客户机与服务器的集合,通过WWW方式可以存取Internet上的各种超媒体文件,包括文本、图像、声音、动画、资料库,以及各种软件。DIALOG在Internet上的网址是http://www.dialog.com。

五、光盘检索

沈阳市档案馆于1991年最早开始光盘原文存储与检索的应用研究,此后,光盘原文存储和检索逐渐由实验走向普及。档案原文存储与检索的发展主要依赖于光盘技术的支持。

(一) 光盘原文存储和检索的特点

光盘是一种海量存储载体,其信息存储容量极大,能满足一般磁盘所不能承受的存储要求。在多种多样的光盘载体中,只读光盘(CD-ROM)在档案自动检索中应用最多。

CD-ROM在物理规格和存储方式等方面都已形成一定的国际标准,通用的CD-ROM光盘是一种直径为120mm、厚度仅1.2mm的塑料(聚碳酸酯)圆盘,中间有一个直径为15mm的圆孔。CD-ROM存储量大,制作容易,成本低,可同微型计算机相连接进行随机检索,因此得到迅速普及。CD-ROM技术的采用,有利于建立分散式的、小型的档案检索系统,符合我国档案检索工作的实际,是一种理想的选择。具体而言,光盘存储有下列优点:

①光盘具有很大的存储容量,耐用,费用低。

②光盘系统可向用户随盘提供相当于联机系统功能的软件,便于自动化检索,检索速度快,且可随机存取。

③可避免使用联机检索所必需的电信设施,免除了联机检索中的电信费、联机系统使用费,还可避免远距离电信传输时可能出现的通信失误。

④一旦订购了光盘数据库,其使用量就没有限制,不必在使用时受到经费的压力。

⑤可以将文本、图像、声音等信息结合在一起,扩大档案数据库的用户范围。

⑥光盘系统的图像输出质量好,可改善字迹模糊的档案文件的可读性。

但不可否认的是,光盘存储也存在下列缺点:

①购买(或租用)光盘数据库,不管其中的记录是否被利用,都必须全部一次付费。因此光盘系统如果使用量太少,则显得十分昂贵。

②由一个单位建立的光盘系统,可供利用的档案信息资源十分有限。

③光盘数据库的更新是定期进行的,其时效性不如联机检索系统的数据库。

④光盘系统若为单用户性质,每次就只能由一个检索者使用。

⑤缺乏设备和软件的兼容性,标准化问题需进一步解决。

(二) 光盘检索服务的方式

CD-ROM可提供追溯检索、定题检索、套录子库、国际联机检索的预处理、检索人员培训等服务。

1.追溯检索(Retrospective Search,RS)

追溯检索是指在时间上由近及远,逆着时间的顺序,查找一段时期内有关特定主题信息的检索方法,比较适合于科研项目的文献检索。由于CDROM数据库的使用几乎不受时间限制,因此还可以为特定用户的指定专题(或特殊要求)提供专题追溯检索服务。

2.定题检索(Selective Dissemination of Information,SDI)

国际联机所提供的定题情报检索服务费用昂贵,一般的用户难以承受这笔费用,而CD-ROM数据库一般都是1~3个月更新一次,可利用其数据库更新提供SDI服务,长期跟踪国际先进技术的进展情况。启用CD-ROM数据库检索软件的“保留”和“执行检索策略”功能(即SAVE和EXECUTE指令),可方便的实施SDI服务,而且,保存的检索策略可用微机编辑软件加以修改和补充。

3.套录子库

套录(downloading或offloading)是指在联机情报检索过程中,利用微机终端从数据库中套取某一主题的文献记录,将其存储在磁盘上,脱机后进行倒置、合并、删除、格式转换等处理,建立本机上的专业或专题子库,供今后重复多次检索使用的一种情报检索与存储技术。CD-ROM数据库检索软件一般都具备套录检索结果的功能,可根据用户需求,套录数据库中的部分记录。对于无条件设置联机终端或专业范围较狭窄无需购置整套数据库的用户来说,可以采用套录子库的方法在本单位的微机上建立“自己的”专用子库。

此外,CD-ROM光盘检索还可提供国际联机检索的预处理和检索人员的培训等服务。在功能上,CD-ROM光盘检索与国际联机检索可取长补短、相辅相成。

(三) 光盘检索的发展

1.光盘网络化

CD-ROM技术在网络化方面的突破,促进了光盘资源的网络共享。光盘数据库通过与局域网或Internet的连接,可在网上通过光盘搭组、光盘阵列或将光盘数据库的内容先复制到硬盘上,供网上多个用户共享。CD-ROM光盘网络化实现从单光盘—单用户到多光盘—多用户的转变,对于计算机情报检索产生了重要影响。国内很多图书馆或文献信息中心是在Novell环境下,利用文件服务器、光盘服务器或专用网络文件服务器实现光盘的网络检索功能。

2.点对点远程检索

点对点光盘检索是通过拨号方式来实现对远程光盘数据库的检索。远距离的个人或单位借助调制解调器和电话线,以异步通信的方式对光盘数据库实现远程检索。这也是一种对光盘资源的网络共享方式,它的优点是对设备的要求不高,费用低,实用性强。

3.多媒体光盘检索

多媒体系统将文字、图像和声音信息集成处理,需要很大的存储空间和实时检索要求,而CD-ROM具有高密度、大容量、低成本、检索方便的优点,是一种理想的多媒体信息存储介质。随着多媒体技术的发展和系统功能的增强,多媒体光盘检索也将得到更多、更广泛的应用。

六、智能检索

档案智能检索技术是应用人工智能技术模拟档案检索的过程,实现档案信息的存储、检索和推理的一种先进的档案检索技术。从国防科工委档案馆等单位研制的实验性的智能化系统来看,这种智能检索系统可以部分实现自然语言检索,提高检全率和检准率,代表了档案检索系统的发展方向。

(一) 智能档案检索系统的特点

(1) 建立在知识库的基础上,具有很高的推理功能。这是它与一般档案检索系统的主要区别。

(2) 使用自然语言进行交互。采用高级的自然语言处理技术,来理解、分析用户的提问和向用户提供检索结果。

(3) 面向用户。能把智能性工作从用户身上转移到机器上解决,如描述情报需求,制定检索策略及分析结果等。

(4) 适用性广。适于不同类型的用户,尤其是无经验的用户。

(5) 具有学习能力。可以从用户与系统的交互中获取知识,使系统适应环境的变化而发展变化。

(二) 智能档案检索系统的结构与功能(见图8-3)

img40

图8-3 智能检索系统的结构功能图

1.知识库

知识库中包含了满足档案检索要求所需要的各种知识,如文献知识、专业知识、专家知识、语言学知识等。

2.数据库

存储大量事实型数据以及推理过程中的中间结果信息等。

3.检索推理机

综合应用各种检索策略和推理技术,利用知识库中的知识,按一定的推理策略解决用户的问题。

4.文本处理

利用计算机自动处理自然语言形式的文本信息,对文本进行语法、语义分析,并采用知识表示方法表达档案内容及其语义关系。

5.人机接口

理解、分析用户提问,产生适于用户的结果,并具有解释功能。

6.知识获取

利用机器学习技术,从各种知识源中获取知识。

本章思考题

1.试述计算机档案检索的过程。

2.计算机档案信息检索方法主要有哪些?

3.计算机档案信息检索技术主要有哪些?

4.如何构造检索策略,调整检索策略?

【注释】

[1]李国辉,胡晓峰.基于内容的检索[EB/OL].[2010-10-25].计算机世界网,http://www2.ccw.com.cn/1998/18/167416.shtml.

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈