本体在特色库智能检索中的应用研究
李学文[1]
一、本体的概念
在计算机领域目前比较公认的定义为“本体(Ontology)是共享概念模型的明确的形式化规范说明”。这包含四层含义:“概念模型(conceptualization)”指通过抽象出客观世界中一些现象的相关概念而得到的模型;“明确(explicit)”指所使用的概念及其约束都有明确的定义;“形式化(formal)”指能被计算机所处理;“共享(share)”指本体中体现的是共同认可的知识。本体的目标是捕获相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇(术语)和词汇间相互关系的明确定义。在构造特定领域本体的过程中,需要该领域专家的参与。
早期的本体研究工作是围绕词典、叙词表(主题词表)等资源展开的,面向的领域是机器翻译和初级的自然语言处理。在国外的研究中,叙词表与本体间异同的认识可以归纳为:叙词表有层次结构和分类等级,是初级本体;利用本体可以实现叙词表功能,并具备知识推理功能。叙词表与本体的密切联系在于二者都是知识组织体系,而且本体的构建通常是以叙词表作为基础和起点。
二、本体在信息检索中的应用
随着计算机、信息技术的发展,全文检索已成为目前信息检索研究的热点。全文检索是一种将文件中所有文本与检索项匹配的文字资料检索方法,全文检索按照匹配方式可分为基于字面匹配的全文检索和知识检索,很多专家将知识检索与全文检索划分为两种不同的检索类别,可见知识检索的意义。基于字面匹配的全文检索的特点是把用户的查询请求和全文中的每一个词进行比较,不考虑查询请求与文件语义上的匹配,目前许多数据库都提供对全文检索的支持(如:Oracle Text等),这种方式虽然可以保证查全率,但是查准率却大大地降低了。知识检索强调的是基于知识的、语义上的匹配,因此在查准率和查全率上有更好的保证,目前知识检索是信息检索研究的重点。本体的目标是捕获相关领域的知识,具有良好的概念层次结构和对逻辑推理的支持,因而在信息检索中有很好的应用前景。
文献检索作为信息检索的一部分,其检索对象主要包括联机公共检索目录——OPAC(Online Public Access Catalog)、电子图书、电子期刊等。OPAC作为国内图书馆最早开始进行建设的数字资源之一,是揭示和利用馆藏资源最基本、最直接的手段,然而国内许多OPAC系统却无法对这部分资源进行很好的揭示,也越来越无法满足读者的需求。笔者通过对某图书馆所用汇文OPAC (v4.5)系统进行“题名”为“枸杞”的任意匹配检索,命中13条,花费时间7s;通过读秀以关键字“枸杞”检索该馆馆藏纸质文献,命中227条,花费时间2s。汇文的检索结果中所有文献题名中包含“枸杞”,读秀的检索结果中有的是题名包含“枸杞”,有的是简介、主题词包含“枸杞”,还有的是目录中包含“枸杞”。传统的OPAC检索已经不能满足用户的需求,全文检索可以全面地揭示文献,而本体以其良好的概念层次结构和对逻辑推理的支持,能够全面而且准确地为用户展现所需文献。
目前,本体在信息检索中的应用越来越受到重视,在文献检索中的研究也越来越多,但是在文献检索中的应用很少,其难点在于本体库的建立需要领域专家的参与,而一般的文献检索涉及领域较多,本体库的建立难度太大,而且建立起这样的本体库数据量大,检索效率会受到影响。
三、本体应用于特色库系统中的意义
特色数据库(简称特色库)是各图书馆依据馆藏特点、重点学科及区域特色建立的主题文献信息资源数据库;本体的目标是捕获相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,二者对某领域的关注不谋而合。本体应用于特色库系统中具有以下意义。
1.提高特色库文献检索质量
本体具有在特定领域良好的概念层次结构和对逻辑推理的支持特性,它能通过概念之间的关系来表达概念语义,因此能够提高检索的查全率和查准率。
2.检索结果的智能化处理
利用本体的智能性,通过检索词与本体、本体与文献间关系的推理,能够提高检索词与文献间相关度的精确性,增强检索结果排序的合理性;通过本体与文献的关系所揭示的文献之间相关度,可以为用户提供准确的相关文献。
3.增强特色库人性化服务
通过本体推理功能,用户输入一个检索词可以获取与检索词相关的其他检索词所能获取的文献,用户甚至可以输入一段语句来获取与这段语句所蕴含义相符的文献。
4.丰富特色库内容
本体提供了对特定领域知识的共享和共同认识,利用本体技术构建的领域知识库不仅可以清晰地描述领域中的概念及其关系,还可以实现领域知识的共享和重用,且有利于领域知识库的管理和维护。本体在特色库的应用不仅可以提高文献检索的质量,同时其本身就是对特色库内容的完善。
目前,各图书馆都在如火如荼的建立自己的特色库,但是存在很多问题,其中利用率不高制约了特色库发展。特色库质量低是导致利用率不高的重要因素,本体在特色库系统中的应用,体现了以用户为本的理念,用户可以更方便、快捷地检索到所需资源。
四、基于本体的特色库系统建设步骤
基于本体的特色库系统建设可分为如下步骤(以关系数据库为例)。
1.在领域专家的帮助下,建立领域本体库
领域本体库的建立须注意三点。
(1)以词典、叙词表作为基础本体来源。本体库的建立可以以词典或叙词表作为基础和起点,有不少本体都是围绕词典、叙词表等资源展开的(如WordNet、DB-pedia、Cyc等),但是由于本体自身的复杂性和严格的建模要求,使得它的构建离不开专家的参与。
(2)本体库可以动态扩充。本体的目标是捕获相关领域的知识,在设计本体库时要考虑到本体的可扩充性,以保持本体对领域知识的描述的全面性和完整性。
(3)本体库的每一次扩充都要对特色库本体索引表进行更新(也可以定期集中更新),以保证索引表的完整。特色库本体索引表是特色库文献与本体库的对应表,保存本体在文献全文(全部元数据信息)中出现的频次、位置等信息。
2.建立特色库或参照已建立的本体,把特色库数据映射到特色库本体索引表
3.对用户检索界面获取的查询请求,分析模块按照本体把查询请求转换成规定的格式,并进行扩展,从特色库中匹配出符合条件的数据集合
4.检索的结果经过整合、相关度计算、排序后,返回给用户
5.对用户选中的文献,提供相关文献链接
叙词表到本体库的转换可采用在领域专家参与下的自动转换方式。传统叙词表通过“用、代、属、分、参”表达其语义关系,这种语义关系比较模糊,界定不严格,本体作为语义推理的基础,必须有严格的语义逻辑关系,现有的半自动/自动转换方法都是先通过各领域专家分析词表,制定一个精确调整语义关系的规则,在此基础上设计程序实现叙词表到本体的自动转换。
需要注意本体与叙词表之间有很多方面的区别,不可将二者混为一谈,具体有:一是组织结构存在区别。叙词表中知识点的分布一般是线性的,而本体中概念的分布是立体网状的、多维的。二是系统开放性存在区别。本体是一个开放集成的体系,它的概念集与底层知识库随学科领域的更新和发展可随时进行修改和更新,而叙词表则是相对封闭的体系。三是语义关系存在区别。本体中概念间的关系被描述得更为广泛、深入、细致和全面。四是学科分类体系存在区别。叙词表的学科分类体系相对稳定,结构保守而单一。对词表进行一次全面的修订是一件复杂艰巨的系统工程,需要耗费大量的人力、财力和物力。本体系统的集成性和开放性则保证了它的知识库和概念集的更新,虽然现在这种更新依靠大量手工劳动,但是随着计算机及信息技术的发展,自动技术必然会被广泛应用。
五、本体在特色库检索中的应用分析
基于本体的文献检索实际上就是在用户检索词与特色库中间加一层本体库,本体在特色库检索中的应用可分为两个部分。对用户检索词的扩展和对文献信息的揭示。
1.本体对用户检索词的扩展
查询扩展是采用计算机语言学、信息学等多种技术,将与原查询相关的词或者词组与原查询重新组合成新查询,以便更完整、更准确地描述原查询所隐含的语义或主题,帮助信息检索系统判断更多相关的文档,从而改善和提高信息检索系统的查询性能。基于本体的语义查询扩展就是借助本体的语义关系、层次结构和推理机制对用户的查询实现语义上的扩展。
当前本体论的一些方法研究大多处于理论研究方面,而归属初级本体的同义词概念的相似匹配正好提供了对用户检索词扩展的途径,它是当前一些检索系统或搜索引擎所采用的较为实用的方法。中文同义词可以根据字(词)典、叙词表在专家的参与下手工完成,也可以采用自动识别。词间关系包括同义、反义、上下位等,本体库需要将这些关系全都反映出来,而且要进行量化,纯手工完成这些关系的匹配工作量非常大。目前,自动识别中文同义词的方法主要有两种,即以单汉字(语素)为单位的字面相似匹配方法和以词概念(词素)为单位的语义相似匹配方法。以语素为单位的字面相似匹配从理论上讲可以对任意两个语词进行计算,但是其结果的精度难以保证;而以词素为单位的语义相似匹配可以保持相当高的精度,但对尚未收录的新词的相似计算却很困难。关于中文同义词的自动识别方法陆勇在其著作中进行了详细论述。
2.本体对文献信息的揭示
本体从语义层面揭示文献,根据特色库中元数据信息及文献摘要、目录等计算出文献与本体的相关度,可以反映出文献所涉及领域及主要内容,同时可以进行文献之间相关度的研究。本体是对概念模型的规范,将文献已有信息反映到本体,就是对文献信息的计算机说明,让计算机可以通过计算机语言认识文献。
本体应用于特色库系统后,系统检索流程如下图(见图1)。
图1 基于本体的文献检索流程图
图1中虚线表示本体库扩充数据流和特色库本体索引表生成数据流,实线表示检索数据流。对本体库和特色库数据的维护都会引起特色库本体索引表的更新,通过特色库本体索引表可获取本体在文献中出现的频次、位置等,其作用不仅可以提高检索效率,还可以提供文献与检索词的相关度信息。
作为智能检索,用户可能有多个检索词或者是一段语句,首先对用户检索词进行分析。如果是多个检索词,直接根据空格或标点符号切分即可获取用户检索需求;对于检索词是一段语句的,先根据本体库对这段语句进行自动分词处理,可采用最大匹配法(Maximum Matching Method,简称MM法),该算法的基本思想是:事先建立词库,其中包含所有可能出现的词。对给定的待分词的汉字串s按照某种确定的原则(正向或逆向)取s的子串,若该子串与词库中的某词条相匹配,则该子串是词,继续分割剩余的部分,直到剩余部分为空;否则,该子串不是词,则取s的子串进行匹配。利用本体可以实现叙词表功能,发挥词库的作用,MM法是一种得到广泛应用的机械分词方法。由于MM法计算量大,需要与数据库进行大量I/O操作,在自动分词前先利用禁用词表去掉检索词中的虚词以及对检索作用不大的词、数字、字母、标点符号,并以这些元素对检索词进行切分,切分后的词再以MM法进行分词处理,获取用户真正的检索需求。
经过分析模块处理后的用户检索词与本体库进行匹配,匹配成功的,进入本体关系表,对该检索词进行同义词扩展,不能匹配的进行分词处理,直到单子词也不能匹配时,将用户检索词放入新词表,新词表等待专家进行处理,符合标准的将其加工后加入本体库,以促进本体的完整性。新词表数据的另一个来源是:添加特色库数据,对特色库和本体库进行映射时,不能匹配成功的词也流入新词表。
本体间有多种关系,同义本体表保存本体间量化的同义关系,量化同义关系取值范围0~1,0表示不存在同义关系,1表示完全同义,对匹配成功的检索词进行同义扩展须先设置好一定阀值,将大于等于此阀值的所有本体取出,小于此阀值的丢弃,碰到检索词中有互为同义词的,在彼此的同义词集中排除。因为每个同义词所能代表用户检索需求的程度不同,所以需要对每个同义词分配权值。
设R{r1,r2,…,rn}为经过分析模块处理后与本体成功匹配的检索词集,每个检索词分配相同权值(1),Oi{oi1,oi2,…,oim}(i=1~n)为经过阀值筛选后ri的同义词集,求这里所有同义词的权值。
有的同义词在O1,O2,…,On中会重复出现,对于无重复的直接取其同义关系量化值作为该词权值;对于重复出现的,如:okx=oly=…=omz=p,进行去重并计算其权值,去重可以减少后面同义词与文献进行匹配的计算量,同时也有利于文献相关度计算的准确性。令q1为p词与rk的同义关系量化值,q2为p词与rl的同义关系量化值……,qj为p词与rm的同义关系量化值,可以直接取q1,q2,…,qj中较大的作为p词权值;p词与rk、rl、…、rm都有同义关系,因此最好采用一定算法将其同义关系放大,下面给出一个算法:
其中v表示权值,其取值不能大于1,当大于1时按等于1处理;Σ求和时不必计算max()已取值,故i的范围为从1到j-1;n表示与本体成功匹配的检索词数量;k为机动系数,用来调节对该同义词进行放大的程度,取值范围最好小于0.1。
将匹配成功的检索词也合并到同义词集中,定义其为同义词本体集。然后,通过特色库本体索引表获取特色文献。每一个同义词对应一批文献,需要对这些文献进行去重及相关度计算,计算检索词与特色文献相关度应考虑到同义词权值及其在文献中出现的频次等信息。
设O{o1,o2,…,on}为同义词本体集,V{v1,v2,…,vn}为各本体权值,Bi{bi1,bi2,…,bik}(i=1~n)为oi对应的特色文献集,Fi{fi1,fi2,…,fik}为oi在Bi中出现的频次,求这里所有特色文献对检索词的相关度。
令Di{di1,di2,…,dik}为Bi与oi的相关度,则dij=fij vi(j=1~k)。
实际应用中,根据本体出现在文献中的位置不同其权值可区别对待,如出现在题名、主题词中,权值可以高点,出现在摘要、目录等信息项内,权值低些。另外,一个词在一篇文献中出现的次数越多,它对于表达文献内容来说就越重要,但是随着出现频率的持续增加,这种重要性的增长会越来越慢,最后达到一个极限值;并且一个词相对于一篇文献的重要程度不仅和词频有关,也和文献的长度有关,需要针对文献长度进行修正。根据实际情况可对该算法进行修正。
计算出所有本体与对应特色文献间的相关度后,再对B1,B2,…,Bn中有重复出现的文献(如:bix=bjy=c,则c书对检索词的相关度为dix+djy)进行去重,即去重后文献对检索词的相关度为文献对应各本体相关度的和,然后将检索结果按照相关度从大到小顺序返回给用户。
一个完整的检索系统还需要对用户选择的文献提供相关文献链接,基于本体的相关文献揭示的是文献在知识、语义层面上的关系。
基于本体的文献间相关度计算以下图所示为例(见图2)。
图2 文献b与文献a的相关度计算
(1)由特色库本体索引表获取与文献a相关的本体及其频次信息,如果不考虑本体在文献中的位置等信息,那么本体权值为本体频次值除以与该文献对应的所有本体最大频次值。
设O{o1,o2,…,on}为a文献对应的本体集,F{f1,f2,…,fn}为各本体在O中出现的频次,则各本体权值V{v1,v2,…,vn}为:
(2)对本体进行同义扩展。同义词的获取同样以一定阀值为准,碰到O中有互为同义词的,在彼此的同义词集中排除,如:o1 与o2为同义词,则o1的同义词集中排除o2,o2的同义词集中排除o1。每个同义词对应a文献的权值为:该同义词对应本体权值乘以其同义关系量化值。
设Pi{pi1,pi2,…,pik}(i=1~n)为oi对应的同义词集,Qi{qi1,qi2,…,qik}为Pi对应oi的同义关系量化值,则各同义词权值Wi{wi1,wi2,…,wik}为:
对同义词进行去重,如图2中p1j同时是本体o1和本体o2的同义词,需要对其去重,去重方法同公式①,然后将O合并到同义词集。
(3)检索出每个同义词的相关文献集(文献集中排除a文献)并计算该同义词在这些文献中的权值,计算方法同式②。检索出的文献与a文献对应于某同义词的相关度为该同义词与此二文献相关度之积,如图2文献b为同义词p2k检索出的相关文献,那么p2k在b中的权值与p2k在a中的权值之积作为b对应p2k与a的相关度。
(4)对检索出的文献进行整合。各同义词对应相关文献集中会有相同文献,如图2文献b是对应于同义词p2k的相关文献,同时又是对应于同义词pil的相关文献,因此需要进行去重,去重后文献b与文献a的相关度为文献b对应于各同义词与文献a相关度之和;然后根据文献相关度从大到小排序返回给用户。
在第一步加入经过分析模块处理后与本体库匹配成功的用户检索词(将其权值设为1),检索出的相关文献将更符合用户需求。这里权值的分配只考虑了关键词的局域权值,主要基于出现的频次,未考虑其广域权值,局域权值用来衡量特征项在一篇文献内部的重要程度,广域权值用来衡量特征项在整个文献集中的重要程度,根据需要可对上面的算法进行修正。
图书情报领域正在经历从信息服务到知识服务的转变,本体应用于特色库文献智能检索,可以提高特色库质量,对于特色库的发展必将起到积极的推动作用。
但是本体技术目前不够成熟,本体库的建立需要大量的人力,而且文献检索需要与数据库进行大量的I/O操作,当特色库与本体库数据量过大时,特色库本体索引表会迅速膨胀,影响到系统性能。对本体库进行合理的规划,如常用词表的使用、采用一定的分级策略等,将会提高系统的性能。同时,计算机技术的发展,如:自动分词、中文同义词自动识别等将促进本体在信息检索领域的应用。
参考文献
1. Studer R,Benjamins V R,Fensel D.Knowledge Engineering,Principles and Methods[J].Data and Knowledge Engineering,1998,25(1-2):161-197
2.邓志鸿等.Ontology研究综述[J].北京大学学报:自然科学版,2002,38 (5):730-738
3.Guarino N,Masolo C,Vetere G.OntoSeek:Content-Based Access to the Web[J].IEEE Intelligent Systems,1999,14(3):70-80
4.白如江,于晓繁,王效岳.国内外主要本体库比较分析研究[J].现代图书情报技术,2011(1):3-13
5.贾君枝,卫荣娟.叙词表转换为本体的方法分析[J].情报科学,2009 (9):1363-1366
6.王兰成,李超.结合两种相似度计算的主题信息检索方法研究[J].现代图书情报技术,2009(11):53-58
7.冯平,黄名选.特征词抽取和相关性融合的伪相关反馈查询扩展[J].现代图书情报技术,2011(1):52-56
8.Martinez-Trinidad JF,Beltran-MartinezB,Ruiz-Shulcloper J.A Tool to Discover the Main Themes in a Spanish or English Document[J].Expert System with Applications,2000,19(4):319-327
9.陆勇.面向信息检索的汉语同义词自动识别[M].南京:东南大学出版社,2010
10.刘迁,贾惠波.中文信息处理中自动分词技术的研究与展望[J].计算机工程与应用,2006(3):175-182
11.王军辉,胡铁军,李丹亚.相关文献检索研究综述[J].现代图书情报技术,2011(1):39-45
原文刊载于《科技情报开发与经济》2011年第30期,该文系北方民族大学2010年度科研项目《北方民族大学图书馆特色数据库开发研究(项目编号:2010Y034)》的研究成果之一。
【注释】
[1]李学文(1979—),男,汉族,本科,高级工程师。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。