一、信息检索语言基础理论
(一)信息检索语言的概念
检索语言是应文献信息的加工、存储和检索的共同需要而发展起来的专门语言,它是表达文献信息内容和检索课题内容的概念及其相互关系的一种标识系统。检索语言在文献信息、文献信息标引人员和信息用户之间起桥梁作用,它有助于准确、全面、迅速地从检索系统中获得所需要的文献信息。
检索语言由词汇和语法组成。词汇是指收录在类表和词表中的所有标识,如分类号、检索词、代码等,是可识别语词。语法是指如何创造和运用标识来准确表达信息内容特征,以有效实现信息检索的一整套规则。
信息检索语言必须具备的三个要素:
(1)有一定专用字符来构建词汇。
(2)有一定数量的基本词汇用来表达基本概念。
(3)有一套专用语法规则,用严格的句法手段和词法对词汇进行控制,以准确表达各种各样的概念。
(二)信息检索语言的功能和作用
检索语言在信息检索中起着极其重要的作用,它是沟通信息存储和信息检索两个过程的桥梁,也是沟通标引者和检索者的桥梁。如果没有检索语言作为标引者和检索者的共同语言,就很难使同一主题内容的信息取得一致,就无法从检索工具中快速而有效地寻找到文献信息,信息检索就不能达到预期的目的。
通过分析信息存储和检索的全过程我们可以看出,检索语言所具备的功能和作用主要有:
(1)标引文献信息内容及其外表特征,保证不同标引人员表述文献的一致性。
(2)对内容相同及相关的文献信息加以集中或揭示其相关性。
(3)便于将标引用语和检索用语进行相符性比较,保证不同检索人员表达相同文献内容的一致性,以及检索人员与标引人员对相同文献内容表述的一致性。
(4)使文献信息的存储集中化、系统化、组织化,便于检索者按照一定的排列次序进行有序化检索。
(5)保证检索者按不同需要检索文献时,都能获得最高查全率和查准率。
(三)信息检索语言的类型
世界上的信息检索语言有几千种,依照其划分方法不同具有不同的类型。
1.按照标识的性质与原理划分,信息检索语言可以分为分类语言、主题语言和代码语言三类
(1)分类语言
分类语言是指以基本类目作为基本词汇,以类目之间的相互关系来表达复杂概念,以数字、字母或字母与数字结合的方式作为基本类目标识的一类检索语言。分类语言是以知识属性来描述和表达信息内容的信息处理方法。
(2)主题语言
主题语言是指以自然语言的字符为字符,以名词术语为基本词汇,用一组名词术语作为检索标识的一类检索语言。以主题语言来描述和表达信息内容的信息处理方法称为主题法。主题语言按照主题词性质的不同,又可分为标题词、元词、叙词、关键词、引文语言5种。
随着检索技术的发展和检索实践的要求,检索语言的分类主题一体化趋势正在加强。分类主题一体化语言是分类语言与主题语言的有机结合。
(3)代码语言
代码语言是指对事物的某方面特征,用某种代码系统来表示和排列事物概念,从而提供检索的检索语言。常见的符号代码有化学分子式、元素符号、专利号、标准号、报告号、合同号、化合物登记号等。把这些在专业领域具有检索意义的符号代码编制成相应的索引,附在相应检索工具中,提供代码检索途径(也叫检索点或检索入口)。
2.按照表达文献的特征划分,信息检索语言可以分为表达文献外部特征的检索语言和表达文献内容特征的检索语言两大类
(1)表达文献外部特征的检索语言
表达文献外部特征的检索语言主要是指文献的篇名(题目)、作者、出版者、报告号、专利号、标准号、入藏号等。在实际中,常常将不同的文献按照篇名、作者的字顺排列,或者按照报告号、专利号的数字顺序排列,形成篇名索引、作者索引或号码索引,提供相应的检索途径。
(2)表达文献内容特征的检索语言
文献内容特征主要指文献正文所论述的主题、观点、见解和结论等。表达文献内容特征的检索语言主要是分类语言、主题语言和分类主题一体化语言。相应的,这类检索语言用在标引工作中,提供与分类和主题相关的检索途径。
3.按照检索语言在检索使用中的组配方式,信息检索语言可以分为先组式信息检索语言和后组式信息检索语言两类
(1)先组式信息检索语言
先组式信息检索语言指作为标引和检索标识的词之间的概念组配关系已经事先固定,并编制在相应的词表中,在标引和检索的过程中,必须按照词表规定的组配关系来标引文献或编制检索词或检索式。体系分类法与标题词法属于先组式信息检索语言。
(2)后组式信息检索语言
后组式信息检索语言与先组式信息检索语言正好相反,指在编制词表时,作为标引和检索标识的词之间的概念组配关系没有限定,在标引和检索过程中,根据需要,从词表中选择相应的词自行组配来标引文献或表达检索概念或主题。元词法和叙词法是典型的后组式信息检索语言。
4.按照规范化程度划分,信息检索语言可以分为规范化语言和自然语言两类
(1)规范化语言
规范化语言是指人为地对标引词和检索词的词义进行控制和管理的语言,又称为受控语言。简单地说,规范化语言是一种有主题词表或分类表控制的检索语言,包括主题语言中的叙词、标题词和分类语言。这些语言经过规范化处理,词和事物概念具有一一对应关系,排除了自然语言中多词一义、一词多义、词义含糊、语词与概念不一一对应的缺陷。
(2)自然语言
自然语言是直接从原始信息中抽取出来的未经规范化处理,用以揭示信息主题概念的自由词,如关键词语言。它除一般的事物名称、科学术语外,还包括俗名、口语、人名、商品型号和缩写等,具有不用编制词表,及时跟上事物发展,准确表达事物新概念,选词灵活方便,专指性强,标引和检索速度快等优点,便于计算机检索。但由于不同的作者用词习惯不同,因此易造成用词不统一的缺陷,影响查全率。
总之,检索者在实际检索时,应优先选用受控词,以利查全查准;同时,可根据课题要求,选择适当数量的自由词,以补充受控词的不足。两类检索语言的运用应取长补短,配合使用。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。