三、主题检索语言
主题检索语言又称主题词语言、主题法。它是以概念的特性关系为基础,以文字作为检索标识的检索语言。
(一)主题语言的分类
主题语言按照选词方式划分主要有标题词、元词、关键词和叙词四种类型。
1.标题词语言
标题词语言是最早使用的一种主题词语言。标题词是从文献中抽出的,能标识文献内容特征的规范化名词词组或短语。因此,标题词语言是一种经过规范化处理的受控自然语言。
标题词分为主标题词和副标题词,通过主标题词和副标题词的固定组配来构成检索标识。主标题词标引的是文献论述的主题事物,多为“事物”性的名词,如“单反相机”。副标题词标引的是主题事物的一个方面,是用来修饰、限定和细分主标题的词和短语,如“效果好”。主标题词和副标题词相组配构成了“单反相机效果好”这个复杂的主题概念。
标题词语言的特点:
(1)检索所用的标识是标题词,词表直接用事物名称列举出表达事物的主题,不像分类语言需要转换为分类号。因此,标题词语言使检索更为直接,直观性强,不存在语言转换导致可能发生的误差,查准率高。
(2)标题词语言是将与事物相关的所有文献集合起来,不考虑这些文献所属学科。适合从事物出发按专题进行特性检索,能检全各种学科中关于同一事物的全部文献。
(3)标题词在词表中是按字顺排列的,没有等级性,便于增加、删除或者修改标题词。先组定组式的标题结构固定,含义明确,所以,在标引和检索新事物的文献或主题概念比较狭窄的文献时,它的适应性很强。
标题词语言的不足:
(1)标题词作为最早的主题语言,缺乏按学科进行族性检索的特点。
(2)列举式方式造成收词范围大,难以表述专指度相对高的复杂概念,修订量大。
(3)先组定组式的方法,主、副标题的固定搭配不仅限制了标题词使用的灵活性,使标题词难以实现多途径、多因素检索和自由扩检,大大增加了标引和检索的工作量,影响检索效果。
2.元词语言
元词又叫单元词,指从自然语言中选择的、经过规范化处理、能够描述信息主题的最小、最基本的、从字面上无法再分的词汇单位。以单元词作为信息单元标识的主题词法,称为单元词法或元词法。
一般来说,单元词通过字面组配来表达主题概念,在概念上不能再分,否则便不能表达完整的概念。如“电脑主题”不是单元词,而“电脑”和“主题”才是单元词。“电脑”和“主题”都不能再拆分。
单元词是按照字面组配,采用后组方式的检索语言,从若干单元词出发,通过不同的组配方式,构成众多的表达复杂概念的标题。比如“多媒体音频控制器”这一主题,就是通过“多媒体”“音频”“控制器”3个元词进行标引。在标引时不组配单元词,在检索时才对单元词下所列的文献号进行比对,号码相同的就表示有组配关系。
单元词语言的特点:
(1)单元词词表体积比较小,编制、更新和修订的工作量较小。
(2)通过单元词的组配可以表达大量专指概念和新概念,适合对专指主题进行标引。标引专指度高,适应性强。
(3)单元词的后组式方式,具有相对的独立性,词与词之间没有隶属关系和固定组合关系,使每一个单元词都可以作为检索入口,增加了检索途径和检索的灵活性。同时,检索时可以通过增减参与组配的元词,自由地缩小、扩大或改变检索范围。
(4)单元词语言组配功能的充分应用,克服了标题词法的不足,适合用简单的标识和检索手段来标识信息,多用于机械检索,是机检系统中倒排档的基础,为叙词法等主题法类型所用。元词法目前已发展为叙词语言。
单元词语言的不足:
(1)单元词法的直观性和系统性较差。单元词法未建立完善的参照系统,难以满足族性检索的要求。
(2)单元词法的字面分拆和字面组配不够严谨,在字面分解与语义分解不一致时,容易出现错组配、假联系现象,造成语义失真。
(3)不适宜用于查找论述基本主题的文献,例如,不适宜对论述“电脑”“音频”等基本主题的文献进行查找。
3.关键词语言
关键词是从文献标题、层次标题、正文或摘要内容中抽出来的,对表达文献主题内容具有实质意义的词汇,它对能否检索到文献起着关键性的作用,故称为关键词。关键词法是指以关键词作为信息单元主题标识的主题词法。那些无检索意义的词汇,诸如冠词、介词、连词、感叹词、代词等,均不能作为关键词,编入“非关键词表”中。关键词语言也是主题词语言之一,但是和标题词语言、叙词语言不同,它是未经规范化处理的自然语言词汇。但是在实际应用中,需要对关键词进行极少量的规范化处理。
关键词语言的原理是:运用关键词语言编制关键词索引,按字顺排列关键词构成索引款目,所选关键词作为标引词在索引中进行轮排,作为入口词检索。所有具有实质意义的词都可以作为检索的入口,从多条途径对文献进行检索。关键词主要用于计算机信息加工抽词和编制索引,一般是通过各种索引来体现其整序原理,关键词索引类型有题内关键词索引、题外关键词索引、词对式关键词索引、简单关键词索引、单纯关键词索引、双重关键词索引等。
关键词语言的特点:
(1)关键词法直接采用自然语言进行标引和检索,表达主题直观,表达事物、概念准确,能及时反映新事物和新概念,并且符合普通用户的检索习惯。关键词来自文章标题或文摘、正文中,专指度高。用它们作检索词,查准率高。
(2)关键词法采用轮排方式,一篇文献有若干个关键词,就在索引中轮排成若干条索引,可以多途径检索文献,因而关键词语言的索引深度高。
(3)关键词采用的是各种科技词汇,未经规范处理,不受词表控制,不用人工标引,既简单方便又容易掌握,不但节省人力,而且可以降低对标引人员和检索水平的要求,适于用计算机组织和检索文献信息。
关键词语言的不足:
(1)关键词语言未经规范处理,不揭示关键词之间的等级关系和相关关系,标引人员和检索人员用词不统一,导致漏检可能性大,查全率一般很低。
(2)难以进行族性检索。
(3)由于关键词法采用机械抽词和轮排,使不少关键词款目失去检索作用,徒增篇幅。
(4)单纯关键词索引中,关键词之间无语法关系,表达含义不明确,对是否切题很可能判断错误或无法判断。
4.叙词语言
叙词是指以概念为基础,从文献题目、正文或摘要中抽取出来,经过规范化和优选处理,具有组配功能,用以表达文献基本内容的概念单元,并能显示词间语义关系的动态性的词或词组。叙词具有概念性、描述性、组配性、语义关联性、动态性和直观性等特点。叙词受词表控制,词表中词与词之间无从属关系,都是互相独立的概念单元。叙词法是指通过概念组配以叙词作为主题标识的主题词法。
叙词语言是以叙词作为文献内容标识和检索依据的一种主题语言,是以表示单元概念的规范化语词为基础,以概念组配为基本原理,对文献主题进行描述的后组式信息检索语言。它是在分类语言、标题词语言、单元词语言和关键词语言的基础上发展起来的,是主题词语言的高级形式,现已占据了主题词语言的主导地位,特别适用于计算机检索。
(1)叙词语言的概念组配类型
概念组配的类型主要有交叉组配和方面组配两大类。
交叉组配是指用具有交叉关系的若干主题词的组合表达某一复合概念。通常发生在同级主题词之间,亦称并列组配。组配后表达的概念是原来几个属概念的共有种概念。如“胃肠瘘”可用“胃瘘”和“肠瘘”这两个泛指概念的词来确切地表达叙词表中没有的专指概念。
方面组配是指一个表示事物的叙词和另一个表示事物某个属性或某个方面的叙词组配来表达一个专指概念。如“地高辛的化学结构”可以用“地高辛”、“化学”和“结构”三个词组配,即用事物的性质、过程、状态等方面的叙词来表达一个专指概念。
(2)概念组配的基本原则
在组配标引时,要遵循一定的组配原则:①词表中有能够充分表达专指主题概念的叙词时,不得采用组配标引。②概念组配时一般优先考虑交叉组配,然后考虑方面组配。③优先使用概念组配,避免字面组配。④要选用最直接(专指)的上位词组配表达。无上位概念时,选择近义词标引。⑤避免矛盾组配和重叠组配。
(3)概念组配的组配形式
叙词的概念组配形式主要有四种,分别为概念相交、概念限定、概念概括和概念联结。①概念相交:同级词组配,结果形成一个新概念,这个新概念是原来用以组配的两个概念的种概念。②概念限定:在一个表示事物的叙词和另一个表示事物某一属性或某一方面问题的叙词之间进行的概念限定的逻辑推演,结果可形成一个新概念。这个新概念表示事物的某一方面或某一特称。③概念概括:同级词相加或并列,组配结果可形成一个新概念,它是原来用以组配的两个或两个以上概念的属概念。④概念联结:这种组配表示两个概念之间的联系,并不形成新概念。
(4)叙词语言的标引款目
叙词语言的规范化工具是各种叙词表,叙词表是叙词语言的核心体现。目前,国内的叙词表已有七八十种之多。常用的有《汉语主题词表》《化工汉语主题词表》《机械工程主题词表》《电子技术汉语主题词表》《国防科学技术叙词表》等。
常见的国外叙词表有英国《科学文摘》(SA)的《INSPEC叙词表》、美国《工程索引》(EI)的《工程信息叙词表》(EI Thesaurus)以及美国《政府报告和索引》使用的《NTIS叙词表》等。
下面以《汉语主题词表》为例,介绍叙词表的一般结构和使用。
《汉语主题词表》是我国第一部大型的综合性的叙词表,分为社会科学、自然科学和附表3卷,共10个分册,由主表(字顺表)、附表、词族、索引、范畴索引和英汉对照索引、轮排索引组成。第一卷(2册)为社会科学部分,第二卷(7册)为自然科学部分,两部分均包括字顺主表、范畴索引、词族索引和英汉对照索引,第三卷为附表,包括世界各国政区名称、自然地理区划名称、组织机构名称及人物名称。全表收录主题词108568个。其中正式主题词91158个,非正式主题词17410个。1991年自然科学部分出增订本,增补新词8221条,删除不适用词5434条。该词表主要供电子计算机系统存储和检索文献用,亦可用来组织卡片式主题目录和书本式主题索引。《汉语主题词表》涵盖各个学科专业,收词量大,编制体例规范,对推动我国主题标引工作的开展和促进专业叙词表的编制起了重要作用。
《汉语主题词表》的基本结构包括:
①主表。主表也称字顺表,是《汉语主题词表》的主体部分。主表由全部叙词款目及其他相关的语义关系组成,按汉语拼音音序排列,是标引和检索科技文献,组织目录的主要工具。主表的叙词款目结构由款目主题词、汉语拼音、英文译名、范畴分类号、注释项和参照关系项组成。参照项的作用是用来说明主题词之间的相互关系。
正式和非正式叙词的款目一般由款目词项、标注项和参照项组成。但两者在参照项目上有差别。
正式、非正式叙词款目结构图分别如图2-3、图2-4所示。
图2-3 正式主题词款目结构图
图2-4 非正式主题词款目结构图
参照项的种类、作用和符号如表2-1所示。
②附表。附表是从主表中分离出来的专用叙词表,其叙词款目的构成大致与主表相同。它是将各学科领域中共同使用的一些具有单独概念性质的、有较强检索意义和组配作用的主题词,按照一定的范畴分别按字顺编排而形成的表。这样可以减少主表的篇幅,方便使用。附表包括4种专用词汇表:世界各国政区名称、自然地理区划名称、组织机构、人物。
表2.1 参照项的种类、作用和符号
注:Y是从非正式主题词指引到正式主题词;D是从正式主题词指引到非正式主题词;F是指明主题词有哪些下位概念;S是指明主题词的上位概念是什么;Z是指明主题词所在族系中的族首词;C是指明与主题词有相关关系的词。通过这些参照项可以指引读者根据需要扩大或缩小检索范围。
③辅助索引。辅助索引又称为辅助表,是将主表中的主题词,根据用户不同角度查词的需要,采用不同的方式、方法而编制起来的一些对主表起补充配套作用的索引。辅助索引又分为词族索引、范畴索引、英汉对照索引和轮排索引4种。
词族索引又称族系索引,是将主表中具有属分关系的正式主题词加以集中显示的一种索引系统。每个词族中的词按等级高低排列,等级次序用“·”表示,一个圆点表示族首词的直接下位词,两个圆点表示二级下位词,其余类推。词族索引的作用是揭示主题词之间的族系关系,便于在标引和检索中从词族角度查词或选词。
【例3】
GuominJingjiBumenGoucheng
国民经济部门构成
·非物质生产部门
··服务部门
··管理部门
···行政部门
·物质生产部门
··物质供应部门
范畴索引又称为分类索引,是将主表中全部款目主题词按学科范畴划类编排的词汇分类体系,以便从分类角度查找主题词,是主表的辅助工具。它的编制原理吸收了体系分类语言的思想。例如,范畴索引将社会科学主题词分为15个大类,在大类下,进一步展开为173个二级类目,311个三级类目。范畴索引的标记符号采用数字字母混合号码。大类用两位阿拉伯数字标识;二、三级类分别各用一位英文字母标识;二、三级类目下直接列出主题词。为使各类主题词与主表和词族索引取得联系,便于相互查找,分别在主表和词族索引的主题词后注明范畴号。
【例4】
英汉对照索引是一种通过英文译名检索汉语主题词的工具,按英文字母顺序排列,在英文译名后注明汉语主题词。该索引主要是为了标引和检索英文文献而编制的,既便于标引人员准确地选择汉语主题词来表达英文文献的主题,又便于读者从英文的角度准确地选择汉语主题词来检索文献。
轮排索引是《汉语主题词表》1996年新增的一个分册,与自然科学部分的前四分册构成配套系列。轮排索引将全部正式与非正式主题词采用题内关键词索引的编制方式,按其词素将具有检索价值的单元概念一一轮排,将有共同词素的主题词聚集在一起。它为主表中的主题词提供了18万条轮排索引条目,便于用户查找具有同一词素的主题词,扩大了检索途径。
叙词语言的特点:
①结构完备,词汇控制严格;采用概念组配,避免了字面组配带来的一些误差,保证了组配语义的准确性;设置了完善的参照系统,同时使用多种方法显示概念间的关系,有利于提高查全率与查准率。②组配准确,标引能力强,能准确、专指地标引和揭示各种主题内容;灵活的叙词组配,使叙词语言有较强的表达能力,能专指、及时地表达复杂、新颖的主题。③检索效率高,允许多因素检索、多途径检索,使检索具有灵活性。④对检索系统的适应能力强,能同时使用于标识单元方式与文献单元方式的检索系统,能较好地适应机检系统和手检系统的需要。
叙词语言的不足:
由于词汇控制严格,词表编制和管理的要求高,编制和管理成本高;文献标引需要在概念分析的基础上进行,增加了标引的难度。
(二)主题语言与分类语言异同
分类语言与主题语言都是人们为了收集文献、储存文献和检索文献而创立起来的人工语言,其揭示和检索对象均为马列主义、毛泽东思想、哲学、社会科学和自然科学等学科领域及常见概念;两者均是以学科分类为基础,采用概念划分与概括的逻辑原理,在揭示、描述文献主题内容及检索课题时均采用相同的逻辑概念与知识分类的原理和检索文献的基本方法建立的体系结构;两者具有相同的标引工作程序与方式,即都要对文献情报所论述的主题内容进行分析、概括从而确定主题概念,再以文献的题名页、提要及正文等方面作为信息资料源,然后在分类表或主题词表中选择与之相应的标识符号,对文献进行描述、标引;分类法与主题法在信息检索系统中均能妥善解决比较复杂的各类主题的标引和检索问题,都能满足文献信息的特性检索和族性检索。
分类法与主题法是两种不同的信息处理方法,两者的区别有以下几点:
1.揭示文献的角度不同
分类法是按学科体系揭示文献内容所属学科专业,分门别类检索文献的方法。主题法是按文献所论述的主题对象、事物揭示检索文献的方法,一般不涉及学科类别的判断。
2.使用的标识系统不同
分类法以汉语拼音字母与阿拉伯数字相结合的混合制号码组成标识符号——分类号,比较简洁,但是对不熟悉分类体系的人来说,难于理解,查找与检索文献极不方便。主题法是以规范化或未经规范化处理的词语标识作为标引与检索文献的依据,直观易懂。
3.概念组织方法和语法规则不同
分类法与主题法组织语言单位的方法区别在于:分类法以学科分类体系组织语言单位为主,以字顺组织为辅;主题法以字顺组织为主,以学科组织为辅。概念组织方法的不同,决定了文献情报按内容排列组织不同,检索效果也不同。
分类法是先组式语言,主题法是后组式语言,两者的标引(表达)和检索不同,同样也影响检索效率。
4.用途不同
分类法的类目是树型结构,比较适合图书馆图书资料的排架管理和检索工具的编制,以及目录组织、参考咨询、读者统计、藏书的研究与补充、文献报道、开架阅览等多方面的工作;而主题法是按字顺查找文献情报,比较适合于期刊论文、研究报告、会议论文等单片文献的组织和检索,在计算机检索方面更为适用,专指性强。一般不用于组织藏书。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。