3.5.2 制订检索策略的步骤与方法
制订检索策略是计算机信息检索成功与否的关键所在,尤其对如何提高查准率、查全率及检索效率将产生积极作用。
制订检索策略的前提条件是明确数据库及整个计算机信息检索系统的基本性能。不同数据库收藏内容、标引方法和检索方法是不同的,不同检索系统配备不同的技术性能和操作符。在制订检索策略之前对数据库有几条检索途径,对检索途径标引所遵循的规则等必须有比较清醒的认识,如果提问式中列出系统没有的检索点,就不可能检出文献。
1.分析检索课题,明确信息需求
信息需求是人们客观上或主观上对各种情报信息的一种需求。这种需求是人们索取情报信息的出发点,也是联机信息检索时选择数据库、确定检索策略及评价检索效果的依据。不同类型的课题,其信息需求的范围和程度也不尽相同。例如,申请发明、申报成果奖励、鉴定及立项类的查新课题,往往需要全面地收集某一主题范围的文献信息,这类课题具有普查、追溯的特点,应着眼于查全;而对于科研、生产中为解决某一特定问题的攻关课题,往往只要求检出的信息对自己的研究有所帮助,而检索的文献范围不需要很广。因此,要弄清楚课题的研究范围、学科领域和专业性质,涉及哪些相关问题,需要解决哪些问题,还有哪些具体要求等,通常应该考虑以下几个方面:
(1)检索的目的和要求。
用户进行计算机信息检索的目的和要求是多层次和多种类型的。有的申请专利,有的著书立说,有的申报课题,有的进行技术革新和技术改造等。根据不同的检索目的,对计算机信息检索的要求也各不相同,因此,制订的检索策略的检索范围也相应不同,不管怎么说,用户对检索策略的效率要求是一致的,只不过对查全率或查准率要求存在差异。
(2)学科领域。
一个课题有时涉及一个学科,有时同时涉及多个学科,表现出交叉性、边缘性和综合性特征,这就要求弄清课题的学科领域,有针对性地选择信息检索工具、搜索引擎和合适的数据库。
(3)主题分析。
在进行计算机信息检索时,主题概念应当明朗化、具体化,进行主题分析时须对概念的专指度和泛指度提出一定的要求。切忌使用抽象的、泛指的概念进行检索,避免造成误检和漏检,以提高查全率和查准率。
(4)信息类型、语种及期限。
用户检索信息的类型包括文本、资料、符号、图像、音频、视频等。对于这些信息的类型、语种、期限、作者及其他文献外部特征,用户应当提出具体的要求。各种检索系统收录信息的着重点是不同的,即使是综合性检索系统也未必面面俱到,因此要选择与课题有关的、针对性强、适合课题需要的检索系统。
(5)所需的文献量。
规定所需文献信息数量的上限,对确定检索策略和控制检索费用是一个很重要的参数,同时,用户还可以对检索课题可能有的相关文献量作出估计和评价。
2.选择检索工具或搜索引擎
信息用户在分析检索课题、明确信息需求的基础上,综合考察计算机信息检索系统或搜索引擎的特点、学科领域、专业范畴、信息类型、链接方式、存储期限、检索费用和使用方法等项目,选择合适的检索工具或搜索引擎。
选择计算机信息检索系统时,用户应该了解:
(1)数据库收录信息涉及的学科范围和专业领域;
(2)计算机信息检索系统收录的文献类型,最好能进一步了解文献的主要来源;
(3)数据收录的时间范围;
(4)数据库的基本索引、辅助索引,系统提供的检索途径及检索标识的特点;
(5)信息检索费用,包括机时费和每篇记录的打印费及信息检索费等。
数据库选定以后,计算机信息检索系统提供的检索途径也随之确定,用户可根据自己的信息需求和已知条件确定一个或几个检索途径。
3.选择检索词及检索途径
弄清信息需求,了解了检索课题的主要内容后,确定其概念组成和检索标识是重要的一步。当检索课题包含较复杂的主题内容时,应明确组成课题内容的几个概念组面,并通过一定的逻辑组配形成一定的复合概念或概念关系来表达用户的信息需求。
检索词(或检索项)是指信息记录中的一个个信息特征标识,包括既可以反映信息内容的特征的主题词、自由词、分类号等,也可以包括反映信息外表特征的文献控制号、记录号、流水号、标题、作者、出处等。
由于计算机存储容量大和运算速度快,对比较多的检索字段建立了索引,不仅可以从手检中常用的主题词、分类号及作者等途径检索,而且可以从文献控制号、篇名、文摘的自由词、文献类型、期刊名称、日期等途径进行检索,并且还能利用各种途径的逻辑组配进行交叉检索。
确定检索词一定要参考计算机信息检索系统的有关使用手册或指南,特别选用主题词时一定要查阅所使用检索工具的专用词表。检索词既是构成检索策略的基本要素,又是进行逻辑组配和编写检索提问式的最小单位,检索词是否恰当,将直接影响检索效率。
确定检索词的基本思路有:
(1)对检索课题进行概念分析来决定检索词的选择。在选择检索词时,不仅要从字面去分析其意义,更重要的是要从主题和词义进行分析,并考虑检索词与信息概念之间的专指度和泛指度。
(2)根据计算机信息检索系统或搜索引擎的特征选词,有时需要根据数据库的词表特征选词,必要时需要用非规范化词(即自由词)进行补充。
(3)手工检索是计算机信息检索不可或缺的一个环节。通过大量的手工检索可以了解检索词的词义、词与词之间的关系,从而找到能正确表达概念的检索词。
(4)确定检索词的基本要求。检索词的所有拼写形式和方法(包括同义词、元素和元素符号、缩写和全称等);检索词的广义词、狭义词、相关词及多义词等;检索词的最佳截断部位;应包括的非主题词;参考有关的叙词表(汉语主题词表);对于泛指的主题概念词,应选用具有包容特性的具体内容来表达。
(5)明确检索标识。确定了课题的检索词,即概念组面后,须将概念组面转换成相应的能被计算机信息系统所能识别的检索标识。计算机信息系统检索标识应符合两方面的要求,一是切题性,即检索标识反映信息需求;二是匹配性,即检索标识和检索系统的存储特征标识相一致。检索标识一般有如下三种形式:
①规范词:词表是数据库标引和检索必须共同遵循使用的先组式检索语言。为了使检索提问标识与文献特征标识相一致,获得最佳的检索效果,用户可以从待检数据库的叙词表或主题词表中选取规范化的词或词组作为检索词。
②规范化代码:索引代码是计算机信息检索系统为某些主题范畴或主题概念规定的索引单元,即标准化代码。索引代码具有很好的专指性,是一种检索效果较好的文献特征标识。如国际专利分类号为IC=,PTS数据库的产品代码为PC=,标准工业代码为SC=等。
③自由词:使用自由词检索能够充分利用计算机信息系统的全文检索功能。规范词或索引代码的选择需利用词表或分类表等进行自然语言到规范语言的转换,而检索人员和标引人员的思路不一致时也可能影响检索效果,因此,用户可以分别用自由词在篇名、文摘甚至全文中进行检索,体现计算机信息检索系统的优越性。自由词直接、简明,是信息用户容易接受,较为常用的一种方法。
一般情况下,检索途径与数据库的倒排索引相对应,即有多少种倒排索引,就有多少种检索途径,数据库不同,倒排索引的种类和数量略有区别。实际检索中,确定了检索词,意味着选定了检索途径;反之亦然。如果一旦选定关键词(或主题词),也就决定了检索途径为关键词检索途径,如果要检索某出版机构出版的文献,检索词必须是该出版机构名称,检索途径确定为出版项检索字段。
4.编写提问检索式
提问检索式是指计算机信息检索中用来表达用户检索提问的逻辑表达式,由检索词和各种布尔逻辑算符、位置运算算符及系统规定的其他组配连接符号组成,是用来表达用户信息需求和检索策略的具体体现,也是决定检索策略的质量和检索效率的重要因素。编写提问检索式是在分析检索课题、选择检索工具或搜索引擎、确定检索词及检索途径的基础上,用布尔逻辑算符或位置运算符对各检索词进行组配,形成完整的检索概念,拟定检索顺序的最佳实施方案。
完成检索策略以后,即可上机检索,将检索策略输入计算机信息检索系统或搜索引擎进行检索,并将检索结果显示在本地终端上,用户可以充分利用“人—机对话”方式调整检索策略,直到得到满意的检索结果。
5.调整检索策略
在计算机信息检索中,常常出现文献信息过少甚至为零,或文献资料过多的情况。作为检索人员,应与用户进行分析,及时调整检索策略,使信息检索达到令人满意的效果。文献资源过多或过少,均可通过增加检索项,运用布尔逻辑的组配,扩大或缩小检索范围,达到减少或增加命中文献的目的。通常来说,逻辑与总是缩小检索范围,达到查准的目的;逻辑或总是扩大检索范围,达到查全的目的;而逻辑非总是排他检索,缩小检索范围,达到查准的目的。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。