2.1 信息检索概述
2.1.1 信息检索及特性
1.信息检索概述
信息检索(Information Retrieval),亦称情报检索、文献检索。通俗的说,信息检索就是信息用户为处理解决各种问题而查找、识别、获取相关的事实、数据、知识的活动及过程。作为人类社会活动必不可少的一部分,信息检索有着悠久的历史,而随着信息社会的到来,其重要地位日益突出。20世纪中叶以前,信息的存储和传播主要是以纸介质为载体,信息检索活动主要围绕着相关文献的获取和利用而展开,因此“文献检索”成为信息检索的同义词被更为广泛的使用。20世纪50年代以后,社会信息传播与存储载体呈现多元化发展,人们不再拘泥于载体研究信息检索,于是开始广泛“情报检索”一词。近年来,由于汉语中“信息”一词较“情报”一词的含义更为宽泛,Information可以概括为“情报”与“信息”,因此,人们越来越倾向于将文献检索和情报检索统称为信息检索这一更兼容性的概念。
信息检索包括两个层次的涵义:信息的存储和信息的查找,即包含了广义的信息检索和狭义的信息检索。广义信息检索包括信息的存储和查找两个过程,本章所讲的主要是狭义的信息检索,即信息的查找过程。信息的存贮就是将大量无序的文献信息进行搜集、整理、归类,采用规范的方法加以有规律的编排,编制出各种检索系统。信息检索必须先有信息存储,而信息存储就是为了更快捷地查找信息。信息检索则是信息存储的逆向过程,也就是人们根据特定需求,运用已有的检索系统,有序地查询并查找出符合要求的信息。
2.信息检索特性
(1)信息检索的相关性 前苏联情报学家切尔内认为:所谓相关性是指信息检索时规定的一篇正文与表示信息提问的另一篇正文的符合程度。福斯克特把相关性定义为:属于不拘于提问词的论文方面或主题领域的并由该领域的人们一致确认的文献。国内信息界认为:相关性表明用户是否认为一文献与一提问吻合。在信息检索中广泛地存在着相关性的问题。
(2)信息检索的不确定性 信息检索系统并没有直接处理原始文献和原始用户需求,它提供的只是文献表示和查询表示之间的关系,这就涉及标引和检索词选用的准确度问题。而实际上,在标引和检索词的选用中都存在不确定性。标引的不确定性是指不同的标引员在给同一篇文献进行标引时会选用不同的标引词,即标引词选用的不一致性。检索词选用的不确定性是指候选检索词集不只一个,而是多个,检索过程具有试探性;系统依次选用词集进行检索,直到检出或在失败中放弃查找。上述两种不确定性作用于检索系统,使得信息检索具有不确定性。
(3)信息检索的逻辑性 信息检索作为信息管理的核心,具有非常强的逻辑性。在检索语言方面,检索词表作为检索语言的典据性文本,其自身编排具有很强的逻辑性。在检索策略的研究方面逻辑性表现得更为明显。所谓检索策略是处理信息检索提问的逻辑与查找步骤的科学安排。正确的检索策略优化了检索过程,有助于取得最佳的检索效果,获得具有高相关度的文献。但是如前分析的,检索过程具有不确定性,这一点决定了检索不是一蹴而就的事。在检索过程中能否根据实际情况进行动态的反馈和调节以尽量减少检索失误,直接影响到检索的成败。其中系统——用户之间交互的接口功能与检索策略的逻辑性更是关键。
2.1.2 信息检索的类型
信息检索依据不同的标准可划分为不同的类型:
(1)按照检索对象的内容可分为文献检索、事实检索及数据检索。文献检索(Document Retrieval)就是以文献为检索对象,查找含有用户所需信息内容的文献。文献检索是一种相关性检索而非确定性检索,系统不直接解答用户所提出的问题本身,只提供与之相关的文献或文献的属性信息与来源信息供用户参考和取舍;事实检索(Fact Retrieval)就是存储关于某些客体(如机构、人物等)的指示性描述,或关于某一事件发生的时间、地点、经过等信息并将其查找出来的检索;数据检索(Data Retrieval)是将经过选择、整理、鉴定的数值数据存入数据库中,根据需要查出可回答某一问题的数据的检索。
(2)按照存储载体及检索手段方式可分为手工检索、机械检索及自动化检索。手工检索就是以手工操作的方式,利用传统的印刷型的检索系统,来查找信息的检索;机械检索(机电式检索)是指运用打孔机、分类机及光电效应等进行的检索;自动化检索(计算机检索)运用计算机和计算机网络等现代化手段进行的检索,计算机检索是目前主要的检索方式。
(3)其他分类标准:按照检索对象的信息组织方式可分为全文检索、超文本检索及超媒体检索;按照检索对象的形式可分为文本检索、多媒体检索;按检索要求可分为强相关检索和弱相关检索;按检索的时间跨度可分为定题检索和回溯检索。
2.1.3 信息检索的基本原理
信息检索是信息传播过程的一个重要环节,是指从信息集合中识别和获取所需信息的过程及其所采取的一系列方法和策略,广义的说包括信息存储和信息检索两个过程,而实施检索的主要方法就是利用各种检索系统,检索系统是打开信息资源宝库的钥匙,是连接信息用户与信息资源的桥梁。简而言之,信息检索的基本原理即检索者的检索提问词与存储在检索系统中的检索标引词进行匹配对比、取得一致,即为检索命中,命中结果可从检索系统中以各种方式输出。检索者可据此线索对原文进行判断、筛选,以获取自己所需要的信息。信息检索的基本原理如图2-1所示。
图2-1 信息检索的基本原理
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。