8.2 知识组织系统在信息检索中的应用
知识组织系统在信息检索中的应用主要体现在三个方面:
(1)作为信息导航的知识框架;
(2)作为关键词检索的查询扩展和精化;
(3)作为交叉浏览和一站式检索的支撑。
8.2.1 信息导航
信息导航是在对信息进行深入分析与揭示的基础上,依赖知识组织系统概念的内在关联建立多种信息组织和流程控制机制,感知用户的需求,通过推理、分析等方法引导用户查找定位其所需信息。
现有信息导航策略主要有语义导航、社会导航、时间导航和空间导航,其中语义导航即基于知识组织系统概念关联的信息导航机制。目前,绝大多数分类聚类体系在网络环境中的应用都体现在作为一个信息浏览的知识框架,来组织和展示信息。
(1)基于粗略分类体系的网站分类导航
网站分类目录是一种粗略的分类体系,在一些综合性网站中作为一种导航工具,使得用户,尤其是缺乏经验的用户或者对某个主题及其结构、术语不熟悉的用户,能够通过浏览的方式查找到所需要的信息资源。如Google的分类目录,通过分类目录的导航,用户可以便捷地通过浏览的方式获取自己不够明确的信息。
(2)基于文献分类法的学科门户导航
规范的文献分类法经过改编后在网络环境中组织高质量的数字资源,效果显著。如OCLC的NetFirst数据库(DDC)、加拿大国家图书馆的“Canadian Information by Subject”(DDC)、英国的BUBL Subject Tree(DDC)、英国的NISS Information Gateway(UDC)、英国的社会科学信息网关SOSIG(UDC)、美国Iowa州立大学的CyberStacks(LCC)、瑞典技术大学的EELS(EI)等等。其中以DDC使用最多,利用它建立的综合性和专业性网络资源导航系统有近20个,而且相对于其他分类体系建立的系统,利用DDC建立的这些系统的使用范围和信息收录范围也较突出。
(3)基于叙词表的主题网关资源导航
目前,网络上的叙词表按功能和有用性分为两种类型:[5]
①独立叙词表。这种叙词表不附属于某个信息系统,不与任何资源相链接,仅供选择词汇使用。通过浏览叙词表,选择检索词,以选用的词汇作为检索入口词。如AAT叙词表,通过它的网络界面,可以直接浏览AAT的等级列表,也可以通过界面直接检索叙词和相关注释。每个叙词都包含相应的叙词、范围注释、上位词、下位词、相关词等信息。
②集成在数据库或信息检索系统中的叙词表。浏览或检索这类词表,可以直接链接到相关资源上,如与美国教育资源网关相关的ERIC叙词表、嵌入到Free Medline中的MeSH等。这种叙词表已经成为网络叙词表的主流,是叙词表与网络信息资源的整合,也是基于叙词表的主题网关资源导航的主要形式。
图8-7是美国教育信息资源中心主题网关,它提供了ERIC叙词表的浏览和基于其的主题网关资源导航。在ERIC教育资源网关的信息检索和浏览页面上,提供了ERIC叙词表的字顺浏览和分类浏览功能,通过浏览和选择相应的叙词,可以链接到ERIC主题网关中用该词标引的相关信息资源上。
图8-7 基于ERIC叙词表主题网关资源导航示例
概念图和主题图本身就是一个知识体系的图示系统,基于概念图和基于主题图的信息资源导航和知识导航在1.2.3节中已有介绍,此处不再赘述。
无论是基于何种知识组织系统的信息导航,其前提都要求对信息资源采用一定的知识组织系统进行过相应的描述和组织,知识组织系统在信息导航中只是作为一个知识框架来统领和展示信息资源。从目前各种知识组织系统在信息资源导航的应用情况来看,因为信息资源海量增长和滞后的信息表示和信息组织自动化技术之间的矛盾,真正利用知识组织系统来规范组织的资源并不多,且往往多是针对网络上高质量的学术资源。而对于其他生活类信息资源的描述和组织则催生了基于用户参与组织的大众分类法,这是一种新的、动态的、以用户为中心的信息导航方式。
8.2.2 检索扩展与精化
搜索引擎基于关键词字面匹配的低效率、高负担的检索一直为用户所诟病,所以人们又转而求向在传统环境和联机时代信息组织与检索中发挥卓越性能的分类法、叙词表等知识组织系统。利用知识组织系统的词汇控制功能来改善网络信息检索的效率,减轻用户信息筛选负担,从简单的字面检索向概念检索和语义检索转换。
(1)基于受控词表的语义扩展检索
借助于受控词表中的概念语义关系扩展和精化用户检索式是各种网络信息检索工具提供其检索性能的常用方法,其中以同义词环在搜索引擎检索中的扩展应用表现最为明显,如图1-5所示的Google中的同义扩检功能。
不受控的全文检索效率低下已经成为不争的事实,受控仍然是信息检索系统提高效率的不二法门。在信息检索系统的标引和检索两端都会涉及词汇控制与否的问题,根据词汇控制阶段的不同,可以将检索系统分为四种模式[6]:
①常规检索系统———在标引和检索的阶段均对词汇进行人工控制。这是一种预先采用词表对词汇进行控制的方法,采用诸如分类表、标题表、叙词表之类的“先控词表”对信息进行受控标引,检索时也采用词表中的类号和语词来表达用户的检索需求。这种采用人工方式进行两端控制的检索系统的检准率和检全率最高,但是,由于系统需要大量的人工控制,人力、物力资源花销最大,系统的响应时间也最长。
②自然语言检索系统———在标引和检索阶段均不对词汇进行控制。目前,绝大多数的网络搜索引擎都是采用这种模式,即采用全文索引的方式标引文献,对用户输入的自然语言词语进行字面匹配查找,将命中的结果返回给用户。很明显,这种检索系统由于不需要任何人工介入,因此在投入上是最少的,但这种系统的检索效率低下也是有目共睹的。
③后控检索系统———在标引阶段不实施控制,但在检索阶段实行不严格的控制。在这类系统中,采用“后控词表”或“自然语言词表”用于检索词的扩展,这种词表只用于检索,一般由同义词、准同义词、同根词、语义关联词组成。由于该种检索系统模式兼有自然语言与受控语言的优点,在网络环境下有一定的应用。很显然,这种检索系统模式有利于检全率的提高,但检准率则会下降;另外,建立一个后控词表也需要一定的人力、物力。
④在标引阶段对词汇进行控制,但在检索阶段不予控制。即在标引阶段,利用受控语言采用人工标引模式标引,在检索阶段,用户采用自然语言检索,或者利用入口词表将用户输入的自然语言语词自动转换为受控的检索语言。但自然语言的极其丰富使得编制一个完备的入口词表几乎不可能,因此,该系统的检索效率不是很高。
这四种模式都存在一定的缺陷。既要实施控制,又要降低控制过程的用户负担,那就必须依赖于各种智能化的知识组织系统提供相应的控制保障。因此,我们提出了一种“外壳非控,内核受控”的新型检索系统模式,即检索系统的“外壳”———标引和检索两端都不进行控制,采用自然语言标引和检索;在系统的“内核”———匹配过程中运用知识组织系统中的各种语义关系和映射关系,比如关键词与主题词、关键词与分类号、主题词与分类号之间的映射,来通过计算机自动进行语词的转换控制,将自然语言转化为受控语言,以实现概念检索和语义扩展。也就是说,标引员可以采用自由标引方式,用自由词、关键词进行标引,通过计算机转换为受控的主题词;用户可以用自然语言检索,包括拟写提问式,系统将用户使用的关键词或自然语言语句转换为受控的主题词,二者进行匹配[7]。其系统架构如图8-8。
图8-8 基于知识组织系统的信息检索系统受控模式流程图
此外,多语种受控词表还能实现跨语言或多语言检索扩展,这也是多语言受控词表的一个应用。
(2)基于本体的语义检索
传统的信息检索方法或搜索引擎,无论是关键字匹配还是结合布尔逻辑运算提供更为复杂的查询表达方式,都是以关键字匹配为基础的。这种方法有两种缺陷:①检索结果只是在字面上符合用户的要求,实际内容往往偏离用户的需求;②用户输入的查询稍有偏差,检索系统就无法确定用户的真正需要,因而无法提供正确的结果。
本体中描述了概念以及概念之间的各种关系,利用建立好的本体来标注文本信息,使文本中的词汇映射到本体的概念中,借助本体的帮助,词汇间就建立了语义关系,形成了知识库,可实现内容的语义检索和推理。
8.2.3 交叉浏览
由于网络信息资源往往采用不同的知识组织系统来标引组织;再者,各个信息资源系统收集信息的范围和原则等各不相同,相关信息会分散在不同的系统之中,同一概念在不同知识组织系统中会采用不同的标识表达。因此,用户需要一种交叉浏览(Cross-Browsing)的机制,即通过一种知识组织系统可以浏览和检索到用其他知识组织系统组织的信息。
对用户而言,理想的信息浏览和检索方式是“一站式”的,即用户在一个系统中可以自由地浏览和检索其他系统中的同一个概念的内容,一个提问式能够获取多个相关(全部)数据库中的数据。检索信息时,用户通过统一的界面提交检索要求,系统通过分布的学科信息门户中的交叉检索机制来实现跨库、跨系统、跨学科领域的检索,而用户并不需要知道提问式在后台与标引数据所采用的各种知识组织系统的匹配机制。
根据知识组织系统之间是否需要互操作,交叉浏览分为两种常见类型:
①基于同一知识组织系统的分布式信息资源整合,即多个信息资源集合采用共同的知识组织工具,不需要太多转换即可实现基于其的交叉浏览。
②不同资源集合采用不同的知识组织工具,通过知识组织工具的互操作,提供一个整合平台,即信息门户或主题网关,使用户只要通过一种知识组织体系即可浏览其他知识组织系统组织的信息。这是最常见的交叉浏览方式。
实现分布式资源集的交叉浏览一般采用分类系统,多采用通用型分类体系。如著名的Renardus项目,采用DDC作为交叉浏览的知识框架,将各个分布信息源中所采用的各种知识组织系统,如BC(Dutch Basic Classification,《荷兰基础分类法》)、UDC(Universal Decimical Classification,《国际十进分类法》)、EI分类法、MSC(Mathematics Subject Classification,《数学分类法》),甚至各种自编分类体系与其进行映射,形成基于DDC的交叉浏览界面,如图8-9所示。在用户交叉浏览界面中上部分为层级展开的DDC分类体系结构,下部分为对应的各分布式资源相应类目的链接,点开即可获得该资源下的相关信息,同时用Fully equivalent(完全对等)、Narrower equivalent(下位包含)、Broader equivalent(上位包含)、Major overlap(大部分重叠)、Minor overlap(小部分重叠)来表示DDC类目与分布式资源的知识组织系统的概念映射程度。
图8-9 Renardus交叉浏览界面
图表来源:http://old.stk.cz/elag2001/Papers/HeikeNeuroth/browse.gif
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。