第一节 信息检索的概念和原理
一、信息检索的概念
所谓信息检索(information retrieval),是指将信息按一定的方式组织和存储,并根据用户的需要从中查找所需信息的过程及所采取的一系列方法和策略。信息检索包括信息存储和检索两个方面的过程。因此,广义的信息检索又称为信息存储与检索(information storage and retrieval),狭义的信息检索仅指查找信息的过程,相当于人们通常所说的信息查询(information search)。
信息存储是指在一定的专业范围内,对信息进行筛选,并对选中的信息进行特征描述、加工、组织和编码,产生信息记录及检索标识,并使之有序化,建立数据库。检索是指借助一定的设备和工具,采用一系列方法和策略从数据库中查找出所需要的信息。信息检索一般包括如下两个环节:①信息内容分析与编码,产生信息记录及检索标识,并将全部记录按文件、数据库等形式组织存储,组成有序的信息集合。②用户提问处理和检索输出。
信息检索最初应用于图书馆和科技信息机构,后来逐渐扩大到其他领域,并与各种管理信息系统结合在一起。与信息检索有关的理论、技术和服务构成了一个相对独立的知识领域,是信息学的一个重要分支,并与计算机应用技术相互交叉。由一定的设备和信息集合构成的,提供一定存储与检索方法及检索服务功能的服务设施称为信息检索系统,如穿孔卡片系统、联机检索系统、光盘检索系统、多媒体检索系统等。
二、信息检索的原理
信息检索的基本原理是:对大量、无序的各类信息进行搜集、描述、加工、组织、存储,建立各种检索工具或检索系统,并按照一定的方法和技术,从中识别、查找和获取所需的各类信息源。信息存储是检索的基础,其目的是对大量无序的信息进行加工、组织,使其有序化,检索则是从有序的信息集合中找出所需要的信息。存储与检索是相逆的两个过程,类似于“放进去”和“拿出来”的关系(见图1-1)。
信息检索的关键部分是信息提问与信息集合的匹配和选择,即对给定提问与集合中的记录进行相符性比较,根据一定的匹配标准选出有关信息。
图1-1 信息检索基本原理示意图
三、信息检索的类型
信息检索可以按不同的标准划分为不同的类型。
1.按检索对象的形式划分
(1) 文献信息检索。通常是指对二次文献信息(题录、索引、文摘)的检索,它们是文献信息的外部特征和内容特征的综合描述,包括文献题名、著者、时间、出版项、文种,等等。信息用户通过检索获取的是原文的“替代物”。与文献信息检索相对应的是书目型数据库。
(2) 数值信息检索。它是以数值或数据为检索对象的检索,如各种统计数据、自然现象观测数据、市场行情数据、企业财政数据、公式,等等。检索系统不仅直接提供有关的数据或数值,还能提供对数据的运算推导功能,以及制表和绘图功能,信息用户可用检索到的数值信息作进一步的定量分析。与数值信息检索相对应的是各种数值数据库和统计数据库。
(3) 事实信息检索。这是以某一客观事实为检索对象的检索,查找某一事件(事实)发生的时间、地点和过程(情况)等方面的信息,其检索结果主要是客观事实或为说明事实而提供的相关资料。例如:通过公司黄页检索╳╳公司的销售业绩、人员组成、工资情况、市场规模等信息。与事实信息检索相对应的是各种指南数据库和全文数据库。
另外,近年来,出现了一种以信息检索对象的形式为划分标准的新的三分方法,即文本检索、数值检索、音频与视频检索。其中,文本检索以各种自然语言符号系统所表示的信息作为主要检索对象,是传统文献检索方式的延续,目前在信息检索领域仍占据主要地位并得到新的发展,检索对象既包括早期的结构化书目信息,也包括越来越多的非结构化或半结构化的自由文本信息,检索方式包括关键词检索、概念检索及语义检索。音频与视频检索主要是针对各种数字化音频与视频信息而迅速发展的一种新兴的信息检索类型,随着媒体数字化技术和网络技术的发展,人们对数字音频与视频信息的分析和查找的需求越来越突出,基于内容的音频与视频信息检索成为信息检索研究领域的热点之一。
2.按系统中信息组织的方法划分
(1) 全文检索。检索系统中存储的是整篇文章或整本书,用户检索时可根据自己的需要,从中查找、获取任意的字、句、段、节、章等信息,还可以进行各种频率的统计和内容分析。随着计算机存储容量的增大和运算速度的提高,全文检索已经由最初的法学、文学领域迅速向其他学科和专业扩展。
(2) 超文本检索。超文本是由节点(Node)和节点之间的逻辑链路(Link)所构成的一种信息组织方式。节点与节点之间通过链路相互连接,形成了错综复杂的信息网络。超文本是一种非线性的信息组织方式,超文本检索能够提供浏览式的查询,通过链路的指引,信息用户可在浏览节点内容的过程中选择进一步阅读或查询的方向。
(3) 超媒体检索。超媒体系统的存储对象突破了文本,集成了图像、动画、声音等多种媒体的信息,信息的存储结构从单维发展到多维,存储空间范围在不断扩大。超媒体是对超文本的补充和发展。
3.按检索工具和检索方式划分
(1) 手工检索。手工检索对应于印刷型文献和检索工具。通过人工方式对文献进行著录和标引,建立著录卡片,并按一定方式编排,建立卡片式或书本式检索工具。在检索时,用手翻找著录卡片或书本式目录,眼睛查看其内容,并动用大脑思考,从而作出判断来完成检索过程。其特点是检索者可以边查边看边思考,并随时修改检索策略,但检索速度很慢,一次检索只能采用一种检索途径,检索效率低下,检索工具的更新慢。
(2) 机械检索。即机械穿孔卡片检索,是在手工穿孔卡片基础上发展起来的,依靠探针及其辅助设备,对代表检索标识(分类号或主题词)的穿孔卡片进行选取的一种检索方式。与纯手工检索方式相比,机械检索在一定程度上提高了检索效率。但由于设备笨重,操作复杂,适用范围较窄。
(3) 缩微品检索。它是以缩微胶片和缩微平片为存储载体,利用相应的光学或电子技术设备处理信息的一种检索方式。这种检索需要借助于缩微显示设备。
(4) 光盘检索。光盘是继缩微品、磁盘存储器之后的一种新型信息存储载体。它的原理是利用激光束改变存储介质对激光束的不同效应来识别和读出信息。按照数据存取方式,光盘检索可分为只读光盘、交互式光盘、一次写入式光盘、可擦写式光盘4种类型。按存储信息的类型可分为音频光盘、视频光盘、数字光盘和多媒体光盘等。光盘与其他载体相比,其显著特点是存储容量大、易保存、便携带、可套录、有限花费、无限检索。光盘检索特别适于开展专题检索和定题服务。
(5) 计算机检索。这是把信息及其检索标识转换成计算机可阅读的二进制编码,存储在磁性载体上。由计算机根据程序进行查找并输出结果。根据检索者与计算机之间进行的不同的通信方式和计算机信息检索的发展阶段,分为脱机检索和联机检索。
(6) 网络信息检索。网络信息检索是指互联网用户在网络终端通过特定的网络搜索工具(搜索引擎)或是通过浏览的方式,查找并获取信息的一种检索方式。网络信息检索以互联网基础设施、卫星通信技术、网络检索软件、网络标准通信方式等为基础。基于WWW的网络信息检索比传统的联机信息检索方便、快捷、低廉,但其稳定性、安全性、数据的准确性和权威性得不到保障,检索冗余度较大。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。