第三节 档案信息检索系统和检索效率
档案信息检索系统由与档案信息检索密切相关的因素所构成,主要包括:档案信息检索系统的目标、数据库、检索语言、检索设备和装置、检索软件、检索方式等。
一、档案信息检索系统的构成要素
(一) 系统目标
明确档案信息检索系统的服务对象、专业范围、所包含的档案种类、档案载体类型、档案的时间跨度等,从而确立档案信息检索服务所要达到的基本目标和基本任务。
(二) 档案数据库
数据库是档案信息检索系统必不可少的要素,包括档案目录数据库、档案全文数据库和多媒体档案数据库等。档案目录数据库是对档案内容和形式特征的描述和表达,它反映了档案的情报特征,可以记录和识别一份档案,档案目录信息的有序集合构成了不同的档案检索工具。档案全文检索系统则以档案全文信息为检索对象,能够满足用户对一份档案中的任意一个字、句、段、章、节的检索需求。随着多媒体技术的广泛应用,在档案目录检索系统、全文检索系统的基础上,多媒体档案信息检索系统将逐渐增多。
(三) 档案检索语言
档案检索语言是表达档案主题概念及其相互关系的概念标识系统,是档案标引和检索的工具。检索语言是转换主题概念的依据,它的作用是将档案文献内容和检索课题的主题概念转换成检索系统可以识别和处理的标识,从而实现档案信息的检索。
(四) 计算机硬件
系统中采用的各种硬件设备和装置的总称。包括存储和记录档案信息的载体,用于档案检索的机具、装置和信息传递设备等,如卡片式、书本式、缩微式、计算机网络检索设备等。从20世纪70年代末至今,档案检索设备和装置的更新和换代反映了档案手工检索逐步走向计算机化和网络化检索的发展历程。
(五) 档案检索软件
档案检索软件是计算机档案信息检索系统的构成要素之一。档案检索软件可自行开发,也可以从市场上购买。必须事先分析本单位、本系统档案检索需求,以档案信息检索系统服务的目标定位为依据,开发或选择档案检索软件。
(六) 检索方式
检索方式是指档案信息检索系统操作和运行的方式,可分为文献单元方式和标识单元方式。所谓文献单元方式,是以一份文献为单元进行存储和检索,一份档案著录一个条目,并按检索标识的顺序进行排列,查到检索标识即可找到档案条目,并可查看条目中所记载的档案信息,文献单元方式又称为顺检方式或顺排文档;标识单元方式是以一个检索标识为单元,指明含有该标识的全部文献,一般只有标识和文献号(档号)两个项目。检索时通过查找检索标识,即可查找所需要的有关文献。在计算机检索中标识单元方式又称为逆检方式或倒排文档。
二、档案信息检索系统的功能
(1) 以档案条目和机读数据形式对档案机构所收藏的档案文件和案卷的特征进行文件级和案卷级描述,并对描述、著录信息按一定方式编排、存储。
(2) 通过规范化的检索标识对相同和相关主题的档案及属于同一机构、人物、地区、工程、产品的档案信息加以集中。
(3) 对大量原始档案信息进行特征描述和系统组织,通过排序使每个检索标识都被固定在特定位置上,可以缩小查找范围,提高检索速度。
(4) 提供多途径组合检索、关联检索,帮助用户迅速、准确地查到所需要的档案信息。
(5) 通过档案信息检索系统的反馈功能,使用户和系统之间进行交互,改进系统功能,满足用户的需求。
(6) 可输出、复制、打印或远距离检索书本式、卡片式、机读式的各类检索工具,实现信息报道、传递和交换,促进档案资源的共享。
三、档案信息检索系统的组织原则
(1) 档案信息检索系统所收录的档案信息应尽可能覆盖全部馆藏,利用检索体系中的档案检索工具或计算机档案信息检索系统应能查到任何一份馆藏案卷或文件。
(2) 在档案目录型检索系统的基础上发展全文型检索系统。检索工具应齐全、配套、实用,检索界面友好易用,检索途径多样,照顾不同层次用户的检索习惯和需求。
(3) 档案信息检索系统建设应实行标准化。标准化是提高档案信息检索系统的质量及建立计算机档案信息检索网络的基础。
(4) 对于特色馆藏、利用率高的馆藏档案应优先组织和开发,建立较完善的检索系统。
(5) 档案信息检索系统应具有动态性和开放性,能及时扩展其检索性能,采用新方法、新技术,不断提高其检索效率。
四、档案信息检索系统的检索效率
检索效率是反映档案信息检索系统质量和水平的重要评价指标。建立档案信息检索系统的目的,是为了获得好的检索效果,对档案信息检索系统的研究和改进,其根本目的是为了提高其检索效率,获得更好的检索效果。因此,检索效率的高低是衡量档案信息检索系统质量的重要标志,是对检索系统及其组成要素(检索语言、检索软件)的基本评价标准。
简而言之,检索效率可以从如下5个方面来衡量:全、准、快、便、省。“全”,指检全率,是指与检索课题有关的档案应尽可能被全部检出,不要遗漏;“准”,指检准率,是指所检出的档案要与检索课题相关,不要将无关的档案检出来;“快”,指检索速度快;“便”,指检索工具、检索系统方便易用,要求检索工具、检索系统的排检方法科学合理,便于利用。“省”,指成本低,能用较低的成本获得较大的效益。其中,检全率和检准率是两个最主要的评价指标。
检索系统具有某种过滤功能:输出所需要的文献信息,而对不需要的、不相关的文献信息阻止其输出。理想的检索效果是,所有收录在检索系统中的符合检索要求的文献信息都能被全部检出,没有遗漏;而且,所检出的全部文献信息都符合检索要求,没有不相关的文献信息,即达到100%的检全率和100%的检准率。但在实际的检索中很难达到这样的要求,一般情况下,总有一部分符合检索要求的档案文献未被检出,存在漏检现象;而在检出的档案中,总有一部分档案文献与检索要求不符或不相关,存在误检现象。
1.检全率
检全率与漏检率是两个相对的概念。检全率高则漏检率就低,漏检率高则检全率就低。如果检全率为70%,那么漏检率就为30%。检全率高意味着所需要的档案文献能大部分被检出,而漏检率高则表明所需要的重要文献被遗漏的危险性大。检全率表明档案检索系统避免相关档案文献信息漏检的能力,是评价检索系统效率的一个重要指标。保持较高的查全率是检索系统的一个基本目标。在档案文献检索中,总是力求提高检全率,降低漏检率。
2.检准率
检准率与误检率也是两个相对的概念。检准率高则误检率就低,误检率高则检准率就低。如果检准率为65%,那么误检率就是35%。检准率表示检索系统排除与检索提问无关信息的能力。提高检准率可以节省用户甄别、挑选有用信息所花的时间,对提高检索系统的实际使用效果具有重要作用。检准率也是评价档案检索系统质量的重要标志。在档案文献检索中,总是力求提高检准率,降低误检率。
检全率与漏检率、检准率与误检率这两对概念及其计算公式见图2-2所示:
图2-2 检全率、漏检率、检准率、误检率概念示意图
图中:
a:检准的档案 b:误检的档案 c:漏检的档案 d:无关的档案
a+b+c+d:系统中所有档案
a+c:系统中与某课题有关的全部档案
a+b:检出的全部档案
实践证明,在检全率和检准率之间存在互相制约的现象,即互逆相关性。提高检全率会降低检准率,反之,提高检准率会降低检全率。这是因为,提高检全率,必然会检出一些内容关联程度较低的信息,从而影响系统的检准率;反之,提高检准率,要求排除与检索提问相关程度较低的信息,从而影响到检全率。
检全率、检准率的高低与文献标引、检索以及检索语言都有密切的关系。例如,提高标识的专指度可以提高检准率,但会对检全率有负面影响;反之,降低标识的专指度会提高检全率,但会使检准率下降。不过应当指出,这种互逆相关性有一定的作用范围,在检索语言中,并不是为提高检全率和检准率所采取的一切方法和手段都会出现这种现象。
为了保证档案检索系统的性能,档案检索系统应力求达到较高的检全率和检索率,但要注意二者之间的制约关系。应根据检索系统的特点及用户的需求,保持检全率和检准率之间的恰当比例。用户在检索过程中可根据自己的实际需要,制定相应的检索策略,调整和选择检全率和检准率。
3.检索速度
检索速度指实施检索时获得检索结果花费的时间。检索速度快,可以及时检出所需要的档案信息,直接影响检索系统的使用效果。这一指标不仅与系统响应检索提问的速度直接相关,同时,也与档案信息资源的组织是否合理直接相关。检索速度的快慢直接影响到检索效率的高低,如果一个检索系统的其他性能都很好但检索速度过慢,则会使检索的时间成本过高,用户往往会放弃这个检索系统而选择其他的检索系统。
4.系统的易用性
对用户而言,系统的易用性是指检索系统是否易于使用,操作是否简单,是否需要预先学习和培训才能实施检索;检索界面是否友好,是否能提供检索提示、检索帮助等。此外,易用性还指容易获得信息的程度,包括:只能获得基本的描述信息、可以获得文摘、可以获得原文信息等不同的获取信息的程度。显然,既能提供描述信息,又能提供文摘信息和原文信息的检索系统具有很大的易用性。如果一个检索系统在其他方面的性能很好,但易用性差,就会使很多检索者或用户对此望而却步,其检索功能就不可能得到充分发挥。
5.检索的成本效益比
成本一般指购置检索系统的设备费用、标引费用、检索费用、检索软件开发费用等,效益则是指检索系统的性能及因此产生的效益,包括获取信息能取得的经济效益和社会效益。成本效益比是建立检索系统时不可回避的问题,一般情况下,应尽量降低成本,获得所期望的检索效益。
影响检索效率的因素是多方面的,包括:检索语言的功能、文献著录和标引的质量、检索软件的性能、检索策略的优劣、检索设备和检索方式的选择、检索途径的数量、检索人员的素质等,都会对检索效率产生影响。
本章思考题
1.档案信息组织方式有哪几种?
2.档案信息检索的内容和意义是什么?
3.档案信息检索系统的构成有哪些?
4.档案信息检索效率及影响因素是什么?
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。