首页 理论教育 主题检索语言有哪些类型

主题检索语言有哪些类型

时间:2023-03-18 理论教育 版权反馈
【摘要】:描述信息的外部特征的检索语言是以信息的外表特征,如责任者、题名、代码、类型等作为信息存储和检索的标识而建立的索引语言。由人工控制使用的信息检索语言,主要有分类检索语言、主题检索语言和代码检索语言等。1.分类检索语言 就是用分类号表达各种概念,并将各种概念以学科性质为主加以划分和系统排列的检索语言。组配分类语言是在标引信息时进行组配的,因此也是先组式检索语言。因此,混合分类检索语言有较强的实用性。

检索语言就是一种检索标识系统,各种检索语言的基本原理是一致的,只是在表达各种概念及其相互关系时所采用的方法不同,才形成了不同类型的检索语言。检索语言从不同角度可以划分很多种类,按结构原理可划分为描述信息外部特征和描述信息内容特征的两大类型。

描述信息的外部特征的检索语言是以信息的外表特征,如责任者、题名、代码、类型等作为信息存储和检索的标识而建立的索引语言。常见的有题名索引、著者索引、引文索引等,其检索语言简单易懂,属于非主要检索途径,在此不予专门论述。而表述信息内容特征的检索语言,是常用的、重要的检索语言,这里将分别予以阐述。

(一)人工检索语言

人工检索语言亦称受控检索语言,是根据信息检索需要而由人工创制的,采用规范词(也称受控词)用来专指某个概念或网罗与之相应的一些概念,可将同义词、近义词、多义词、相关词及缩略语等规范在一起。由人工控制使用的信息检索语言,主要有分类检索语言、主题检索语言和代码检索语言等。

1.分类检索语言 就是用分类号表达各种概念,并将各种概念以学科性质为主加以划分和系统排列的检索语言。它主要有以应用概念划分与概括的逻辑方法构成的等级体系分类语言、以应用概念的分析与综合原理构成的组配分类语言,以及两者相结合的混合分类语言三种形式,并集中体现了学科的系统性,反映事物的从属、派生关系,由上而下,从总体到局部层层展开,构成一种等级体系,由类目或相对应的类号来表达各种概念,成为一个完整的分类的类目表。

(1)体系分类语言:是一种传统的分类语言,具有列举类目、分类符号标识、登记制结构、直线性序列等特点。由于在编制体系分类表时列举了所有类目,并加以固定组配,因此是一种先组式检索语言。

(2)组配分类语言:是在体系分类语言的基础上发展起来的一种检索语言,它克服了体系分类法中不能容纳主题概念发展的局限性以及直线性序列造成的集中与分散的矛盾。组配分类语言按照科学范畴分为若干组面,每个组面包括若干类目,每个类目又表示一个简单的主题概念,用分类符号作为组面和类目的标记。在标引信息时,按信息的主题概念,选择相应的类目进行组配,组配后分类号所表达的概念与信息的主题概念基本一致。组配分类语言是在标引信息时进行组配的,因此也是先组式检索语言。

(3)混合分类语言:是介于上述两种分类检索语言之间的检索语言,它是在应用概念划分与概括原理和概念分析与综合的原理的基础上编制的分类法。实际上,现代的信息分类法几乎都要应用概念划分与概括、概念分析与综合的原理,只是应用的程度不同而已。因此,混合分类检索语言有较强的实用性。

国内的分类检索语言主要有《中国图书馆分类法》(简称《中图法》)、《中国科学院图书馆图书分类法》(简称《科图法》)等;国外的分类检索语言主要有《杜威十进分类法》(DDC)、《国际十进分类法》(UDC)、《美国国会图书馆图书分类法》(LC)、《国际专利分类表》(IPC)等。

下面以《中图法》为例介绍分类检索语言。

中图法简介

等级体系分类法是图书信息界普遍使用的逻辑标识系统。等级体系分类语言也叫分类法或分类表,是使用历史最长的一种信息加工、处理方法。目前国内使用最为广泛的分类法是《中图法》,它被推荐为我国标准图书分类法,《中图法》是在北京图书馆的倡议下,全国各系统图书馆共36个单位以协作的方式编制的,1975年10月由科学技术文献出版社正式出版,原名为《中国图书馆图书分类法》,1999年3月由北京图书馆出版社出版第4版,更名为《中国图书馆分类法》,目前第5版已修订完毕,即将出版。第4版《中图法》共设5个基本部类和22个基本大类。

《中图法》标识符号采用汉语拼音字母与阿拉伯数字相结合的混合制代码,除“工业技术(T)大类”因其内容比较复杂采用双字母表示二级类目外,均用一个字母表示一个大类,以字母顺序反映大类的序列。字母后面的阿拉伯数字表示大类下类目的划分。数字的设置采用层累制,分类号码每三位后隔一小圆点,使分类号清晰易记。为补充数字号码表示类目的不足,采用了辅助符号增强标引功能,如“a”用作推荐号;“-”为总论复分号;“/”为起止符号;“[]”为交替类号;“:”为组配复分号;“()”为国家区分号;“=”为时代区分号等。如“R512.6”就代表“病毒性肝炎”,R512.603就是其下级类目“病毒性肝炎免疫学”的具体类目。

2.主题检索语言 就是采用规范化的描述信息主题概念的语词(主题词)标识并且按字顺排检的检索语言。它用规范化的主题词汇来表达各种概念,将各种概念忽略其相关关系而按字顺进行排列,这样表达的概念较为准确。主题词是指信息中所论述的主要内容及主要对象,它是经过规范化的、具有检索功能、能够表达主题概念的词语。主题词表中通过参照系统反映词汇之间的关系,具有较好的灵活性和专指性。根据结构原理可将主题检索语言分为标题词检索语言、单元词检索语言和叙词检索语言。

(1)标题词检索语言(subject heading):是最早出现的主题检索语言,所以也称其为传统式主题法,它是以标题词作为信息的标识和检索的方法。所谓标题词是指经过规范化的名词术语,能够直接表达信息所论述或涉及的事物主题,而不管信息是从何种角度、何种学科来论述该事物。在标题词检索语言中把表示事物本身概念的词作为主标题,把表示事物各个方面的词作为副标题,如“教学-设备”,“教学”就是主标题,“设备”就是副标题,主标题与副标题在编制标题表时就已预先组配好,所以属于先组式检索语言,专指度较高,多用于手工检索。

(2)单元词检索语言(uniterm):是主题检索语言中最早出现的一种后组式检索语言,多用于计算机检索。单元词又称元词,是从信息中抽取出来的最基本的、在字面上不能再细分的、具有独立概念的名词术语,如“细胞”和“凋亡”都是单元词,因为它们在概念上不能再进一步分解;而“细胞凋亡”则不是单元词,因为可以再分解为“细胞”和“凋亡”两个基本概念。单元词既可以是一个单纯词,也可以是一个合成词。采用单元词来标识信息,通过单元词的组配来检索信息,可以使信息检索从多角度进行。

(3)叙词检索语言(descriptor):是计算机检索中应用较多的一种语言,是主题词语言的高级形式。叙词是指具有组配功能、并经过严格规范化处理的、表示单元概念的名词或词组。在检索时可由多个叙词形成任意符合逻辑的组配,构成多种组合方式。由叙词组成的词表称叙词表(thesaurus)。叙词语言是在几种检索语言的基础上取各法之长,避各法之短发展而来的,它吸收了体系分类语言的基本原理来编制叙词的范畴索引(分类索引)和词族索引(等级索引),增强了族性检索能力;汲取了标题词语言处理科技语词的规范处理方法,并适当采用了标题词语言的先组式方法;汲取了标题词语言采用复合词和词组表达信息主题概念的方法,使主题概念的表达更符合现代科技术语;吸收并改进了标题词语言中标识系统采用的参照系统,使叙词的参照系统更能反映叙词之间的相互关系;汲取了单元词语言和关键词语言的组配功能;吸收了组配分类语言的概念组配原理并以概念组配取代了单元词语言的字面组配,达到了既能更准确地表达信息主题又可避免虚假组配的目的。因此叙词语言已经成为主题语言的主导,是一种结构完备、功能丰富的检索语言,具有专指性、直观性、多维检索性、适应性、网络结构性等特点,也是目前使用最广泛的主题语言。叙词语言是一种后组式检索语言,但在叙词表作为手工检索使用时,实际上它成了先组式检索语言。

国内外常用的主题检索语言主要有:美国《医学主题词表》(MeSH词表)、《美国国会图书馆标题词表》、《汉语主题词表》、《中国中医药主题词表》等。

下面以美国《医学主题词表》为例介绍主题检索语言。

MeSH词表简介

美国《医学主题词表(Medical Subject Headings,MeSH)》是医学领域权威的主题语言,在医学信息检索系统中得到了广泛的应用。MeSH词表是由美国国立医学图书馆(NLM)组织专业人员编制并于1960年出版发行的,其编制过程是按照词语在信息中出现的频率,在信息标引加工过程中将其提取出来,经严格规范处理后作为信息的标识,并进行有序编排,与其编制的《医学索引》检索工具配套出版发行的一套字典式工具,供检索《医学索引》时参考使用。MeSH词表主要由主题词字顺表、树状结构表及副主题词表组成。

A.医学主题词字顺表(Alphabetic List)是MeSH词表的主体,将全部主题词(目前约22500余个)按英文字母顺序依次排列,每个主题词下都附有树状结构号,有些主题词下还有历史注释和参照系统(包括用代参照和相关参照),如:

字顺表中的主题词一般均用正常的词序,但为了使概念相近的词汇集在一起,有时也采用倒置词序,以此种方式可起到族性检索的作用。

B.医学主题词树状结构表(tree structure) 也称范畴表,是将字顺表中的主题词按照每个词的词义范畴和学科属性,分别归入15个大类、101个小类以及约1.5万个子类目之中,每个大类的医学主题词用一个英文字母标识,分别是A~N,Z。多数大类又可以进一步细分。每一级类目用一组号码标明,级与级之间用“.”号隔开。主题词上、下级之间采用逐级缩进格式表现主题之间的隶属关系,每个主题词都有一个或两个以上的树状结构号,该号是联系字顺表和树状结构表的纽带。

C.医学主题词副主题词表(Subheadings) 目前MeSh副主题词表中共收录了83个医学副主题词。副主题词是辅助应用的主题词,与有关的主题词组配使用,对主题词作进一步的修饰、限定,使之所表达的意思更加专指和完整。每个副主题词只能与其后面括号内所标明的特定类目中的主题词组配。例如Drug Therapy(C1-23,F3),表示该副主题词只能与C1-23类和F3类下属的主题词组配。

此外,《医学主题词表》还有两种附表,即《年新增主题词表》和《年删去主题词表》。这两种附表对每年进行增减或修改的主题词进行说明。除这两种表外,在字顺表中对主题词的变更情况也有详细记录。

3.代码检索语言 是指对事物的某方面特征,用某种代码系统来表示和排列事物概念,从而提供信息检索的检索语言。如化合物的分子式索引系统、环状化合物的环系索引系统、有机化合物的威斯韦塞尔线型标注法代码系统等均属代码语言。例如根据化合物的分子式构成的化合物分子式索引系统,就允许检索人员从分子式代码出发,检索相应的化合物及其相关信息。

(二)自然语言

自然语言(nature language)的应用是以计算机检索为前提的,不使用计算机,自然语言检索就难以实现。在以往的手工检索条件下,在信息检索中应用自然语言是很困难的,信息检索语言正是为了克服这个困难而创制的。而如今在信息检索中应用自然语言却成为一个重要的研究方向和一种重要的发展趋势,这是由于信息检索计算机化的发展使自然语言的广泛应用成为可能。

自然语言反映的是原始信息本身特征的原词,它是通过文本中的概念来揭示信息内容的关键词语言。在信息检索中应用自然语言,其实质就是使用信息本身原有的语词,或标引人员自拟的而不是取自词表的语词来作为标识,进行信息资源的标识和检索。由此可见,自然语言是一种没有通过规范化的、主要应用于计算机检索的语言,其特点是直观性与专指性强、检索途径多、标引速度快等。

目前信息检索中常用的自然检索语言主要有关键词检索、自由词检索等形式。有许多学者将关键词归入主题检索语言,但从严格意义上讲,关键词语言是直接选自原始信息中具有实质意义的自然语言作为标引和检索信息主题概念的检索语言,它是未规范化的自然语言,因此是不属于主题检索语言范畴的,而只是在信息标引和检索中起着主题法检索语言的作用。自然语言在信息检索中的应用还有全文检索、自由标引、自然语言入口词检索和自动标引以及抽词标引等形式。

随着网络信息量的激增、网络信息技术和计算机技术的发展、自动标引技术的不断完善以及人们对信息需求的增强,高效方便、低成本的自然语言在数据库和网络信息检索方面越来越显示出了它的优势,并得到广泛的应用,目前大多数著名的网络搜索引擎如AltaVista、Excite、Hotbot、Infoseek、Lycos,以及一些多元搜索引擎等都支持自然语言检索,这正是非信息专业网络检索者普遍使用搜索引擎的原因。自然语言的方便性、快捷性、自由性,使其在网络时代里将成为信息检索的主要途径。但由于自然语言本身还存在很多缺陷,要得到高质量的检索效果,则必须在使用自然语言进行信息检索过程中加以控制,这也是自然语言研究领域的热点内容。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈