首页 理论教育 叙词本体演化的基本方法

叙词本体演化的基本方法

时间:2023-02-26 理论教育 版权反馈
【摘要】:本体学习作为本体演化的主要手段,它能够以自动或半自动化的机器学习方式从多种不同的数据源中获取本体。这两方面在国内外的研究情况在傅魁、聂规划的《面向文本的本体学习方法综述》中如下所述:概念的领域性判断。
叙词本体演化的基本方法_多语种叙词本体

5.3 叙词本体演化的基本方法

本体学习是为了解决领域本体的匮乏对本体理论研究与实际应用所造成的困扰而产生的。本体学习作为本体演化的主要手段,它能够以自动或半自动化的机器学习方式从多种不同的数据源中获取本体。按照本体学习的内容来分,主要包括概念的学习和关系的学习。如果进一步细分,还能从概念和关系的学习中进一步来分析。下面,我们来分析从文本中自动半自动化获取领域概念、继承关系、其他领域关系和公理的主要方法。

5.3.1 本体概念的抽取方法

大多数的本体学习方法和本体学习系统直接将术语识别为概念。大体上可将术语的获取方法分为三类:基于语言学的方法、基于统计的方法和混合的方法。

基于语言学的方法的基本思想是采用浅层解析技术(Shallow Parsing Technique)或模板方法获取术语。浅层解析技术是在已进行词性标记的文本中,探测句子中词语边界、发现词语间语法关系(如主谓、动宾关系)的技术。在Missikoff,M.的Integrated Approach for Web Ontology Learning and Engineering一文中提到了采用浅层解析技术获取术语。国外著名学者Bourigault认为术语单元有一个固定的词法形式,如名词短语,在他描述的LEXTER系统中,在“表面语法分析”基础上第一次抽取出了最大长度的名词短语。Justeson等进一步扩充了术语的词法形式(即术语的构成模式)。此外,为消除术语的歧义性,Smeaton开始了对语义知识的利用。模板方法则是从领域术语的特殊词法结构或模板出发,寻找和抽取结构符合这些特定模板的字符串。基于语言学知识的术语抽取方法在术语消歧、准确率上有着显著的优点,但大多数情况下,这种方法是与具体语言相关的,因此这类方法具有较高的语言依赖性。

基于统计的方法的基本思想是根据领域术语与普通词汇在语料中拥有不同的统计特征来鉴别领域术语。常用的统计方法有词频逆文献频率(TFIDF)、互信息(M I)、信息熵(Entropy)、术语相关频率(RTF)和C值/NC值方法等。对于大规模文本的处理基于统计的方法十分适合,但是这类方法缺乏必要的语义逻辑基础。目前,基于统计的方法是国内外相关研究的热点。Salton等提出通过简单地加权两个相邻的字来抽取术语。Damerau使用互信息来测量两个字之间的联合强度。Cohen利用对数似然参数来避免一些低频词的遗漏,从而较有效地弥补了互信息的不足。FrantziL提出的C/ NC—Value的方法,结合了语言学和统计学方法。Ellen提出了一种基于语料库的方法提取给定类的词汇。Patrick将互信息和对数似然两个参数相结合进行术语提取。基于统计的术语自动抽取方法,不考虑句法、语义上的信息,所以实现起来较简单,并且这种方法不局限于某一专门领域,也不依赖任何外部资源。

事实上,大多数本体学习系统往往采用语言学和统计方法相结合的混合方法来获取领域术语。在混合方法里,抽取候选术语主要用语言规则,抽取前或抽取后的过滤则主要用统计方法,从而更有效、更准确地得到领域术语。如在本体学习系统Text-To-Onto和OntoLearn中均采用了浅层解析技术从文本中获取候选词语,然后再采用统计方法对术语进行过滤。对中文领域概念的自动抽取研究起步较晚。2003年,东北大学的陈文亮等人提出利用Bootstrapping的机器学习技术,从大规模无标注真实语料中自动获取领域词汇。梁健等研究基于种子概念的术语获取方法。华南理工大学的方卫东等人采用统计分析与自然语言规则相结合的方法实现了术语抽取。

此外,在概念的抽取中,还要注意以下两点:概念的领域性判断和同义词消歧。这两方面在国内外的研究情况在傅魁、聂规划的《面向文本的本体学习方法综述》中如下所述:

概念的领域性判断。抽取术语可能是领域内概念,也可能不是领域内概念,因此需要对术语的领域性作判断,这一工作被称为领域术语的过滤。一般而言,领域术语的过滤可以通过分析术语在领域相关文档集中和普通文档集中的统计特征来实现。Paola等提出了术语的领域相关度和领域一致度的概念用于判断术语的领域性。领域相关度是术语与特定领域的相关程度的度量,它可以通过计算术语在特定领域文本集中出现的概率值与其在不同领域文本集中出现的概率值总和的比值来计算。领域一致度是术语在其特定领域的所有文档中分布的一致性的度量,它可以通过术语在特定领域文档中的分布使用的熵值来计算。在领域文档集和对比文档集质量较高的情况下能够较为准确地判断术语的领域性,实现领域术语的过滤。

同义词消歧。术语并不等同于概念,概念是语义层面的处理单位,而术语只是语法层面的处理单位,因此在大多数本体学习系统中直接将抽取的术语作为概念并不完全恰当。多个不同的术语可以表达同一个概念语义,这些术语之间构成了同义词关系,如术语“电脑”和“计算机”实际上表达是同一个概念,它们互为同义词。同义词的实现可以通过基于术语相似度的方法、基于语义解析的方法、基于语境的方法或基于统计的方法。基于术语相似度的方法首先计算术语之间的相似度,相似度越高,则术语之间构成同义词的可能性越大。术语相似度的计算方法有字面相似度计算、词素相似度计算或基于词典的语义相似度计算,如WordNet、HowNet、同义词词林。OntoLearn系统借助WordNet对获取的术语进行语义解释,构造概念森林,较好地解决术语和概念间关系,OntoLearn是少数能够区分术语与概念的本体学习系统之一。除了可以使用基于术语相似度的方法、基于语义解析和基于语境的方法识别同义词外,还可通过潜在语义分析(Latent Semantic Analysis,LSA)方法、逐点互信息的信息检索法和术语相关熵等统计方法进行识别术语之间的同义词关系。

5.3.2 本体概念关系的抽取方法

(1)概念间继承关系的获取

概念间继承关系的获取在傅魁、聂规划的《面向文本的本体学习方法综述》中如下所述:

概念间继承关系,又称为分类关系或上下位关系,它是领域概念之间的一种最基本的重要关系,它和领域概念一起构成了领域本体的骨干。继承关系也是本体学习中研究的最为广泛的一种概念关系,常见的继承关系获取方法可分为:基于语境的方法、基于语言学的方法、基于统计的方法、基于词典的方法和混合方法。

基于语境的方法。基于语境方法的基本思想是通过分析领域相关文本,总结出一些频繁出现的语言模式作为规则,然后判断文本中词的序列是否匹配某个模式——如果匹配,则可以识别出相应的关系。Hearst利用手工构造了“such NP as{NP,}*{(Or| and)} NP”,“NP{,NP}*{,} or other NP”等6个,上下位关系的词汇句法语境从百科全书的英文语料中提取了152个概念间上下位关系。基于语境的方法的缺点是准确度较低,因为大量无用的概念往往也会匹配这些模式,另外语境的完备性对于获取效果影响较大。很多研究人员从不同的角度,如附加语境、采用提问语料、基于Web的语境匹配、精度及覆盖度的改进、语境学习等,对Hearst的方法做了扩展以概念间获取继承关系。国内的研究人员方卫东等人作了类似研究,通过语境“<某些>NO<如>N1[N2,……,<及|或>Ni<等>]”来提取概念间的显式的is-a关系。方卫东等人还使用了分布语义假设来发现概念间潜在的继承关系,其基本假定是:两个在语义上相近的概念,与它们共同出现的词的规律(主题签名)和它们所处的上下文(上下文签名)也必定相似,分布语义模型可被看做一种基于统计的方法。

基于语言学的方法。基于语言学的方法通过语形分析、句法分析、依存结构分析以及语义分析等来获取概念间继承关系,其特点是抽取概念间继承关系准确率高,但不够强壮和效率低。本体学习系统OntoLT、OntoLeam及Text2Onto中均用到了基于语言学的方法。0ntoLT系统的研究人员Buitelaar等人对语料进行语言学分析与标注,然后通过定义的映射规则将标注得到的语言学实体映射成概念和关系,其中规则“HeadNounToClass—ModToSubClass”能够将标注实体中的主要名词映射为类(对应上位概念),将主要名词及其修饰词的组合映射为子类(对应下位概念),该规则的基本思想是修饰词限定了被修饰名词的意义。例如“国际信用卡”是一个被标注实体,标注主要名词“信用卡”,修饰词位“国际”,由此可得到is-a(“国际信用卡”、“信用卡”)。OntoLeam系统中应用语言学启发式方法来获取概念间的继承关系,通过解析概念术语定义的句法词性规则抽取is-a关系。该系统中语言学方法是由Missikoff和Navigli等人提出的,他们提出利用机器学习技术基于已有的通用本体对抽取出来的术语进行语义解释,即为这些术语关联上明确的概念标识符;然后,基于这些语义解释来确定概念之间的继承和相似关系,生成一个领域概念森林。与其他方法相比,该方法的主要特点是对术语进行语义解释,然后使用这些语义解释来获取除继承关系以外的其他概念间的关系,而其他方法都是将术语等同于领域概念。

基于统计的方法。基于统计方法的共同的主要思想是词语的语义特性由它在不同上下文的分布来反映,因此词语的含义可以通过共现词语及共现频率来描述。目前研究较多的概念聚类方法和关联规则方法本质上都是属于统计方法的范畴。

基于概念聚类的统计方法就是通过概念间的相似度或其他准则对概念进行聚类,同一类族中的概念具有相近似的关系,它可用来发现概念间的继承关系和其他关系,当使用层次聚类方法进行概念聚类时得到的结果就是概念间继承关系。概念间相似度可以有多种度量,比如余弦距离、几何距离、相对信息熵、互信息、语义距离等,相似度的度量一般是通过统计信息计算而来的。通过概念层次聚类方法获取概念间继承关系的研究有很多,例如,Fisher提出的一种基于矢量的聚类方法; Erode等人提出的基于FOL的聚类方法。The MoK workbench采用无监督机器学习的聚类方法从文本中获得概念层次。这些方法不足之处是只能得到概念间严格的层次关系,然而在本体中一个概念却可以有多个父概念。Faure等人采用宽度优先的方法对概念进行逐层聚类,该方法的特点在于它在进行每层聚类的时候都要考虑除当前族的父族外的所有族,而不管这些族所在的层次,能够较好地解决一个概念有多个父概念的问题。形式概念分析(Formal Concept Analysis,FCA)是应用数学的一个分支,它建立在概念和概念层次的数学化基础之上。FCA使用二元关系来表达领域中的形式背景(Formal Context),从中提取概念层次结构,即概念格,从数据集中生成概念格的过程实际上是一种概念聚类的过程。Cimiano等人提出了基于形式概念分析的概念聚类算法,并与层次合并聚类算法和二分K均值聚类算法做了比较,在给定的数据集上实验结果,要优于后两种算法。

基于关联规则的统计方法的基本思想是:如果两个概念经常出现在同一文档中,则这两个概念之间必定存在关系。Text-To-Onto中采用关联规则学习算法来发现概念之间的非分类关系。Stephens首先采用一种词汇关联度的方法来提取含有潜在关系的基因对,然后利用同义词词典来给出基因对之间的关系。

此外,Sanderson等人提出了术语包含的概率统计方法,基本思想是:对于两个术语t1和t2,如果t2出现的文档集合是t1出现的文档集合的子集,那么t1包含t2,然后利用这种包含关系来获取术语间的继承关系。Fotzo等人作了更进一步的扩展,认为如果两个术语t1和t2满足以下条件: P(t1| t2)>Θ且P(t2| t1)<P(t1| t2),其中Θ为阈值,P(t1| t2)和P(t2| t1)可以根据条件概率和极大似然估计法,利用术语在文档中出现的频率进行计算,进而抽取术语间的泛化/特化关系(即概念间继承关系)。

总体而言,基于统计的方法具有语言依赖性低、普适性强等特点,是目前研究的主流,但最大的缺点就是容易产生数据稀疏现象。

除了上面介绍的三种基于语境、基于语言学和基于统计的方法外,还可以采用基于词典的方法获取概念间的继承关系,它往往从一些现有的词汇词典中定义的同义词、近义词和反义词等知识来获取本体中概念间的关系。例如,Nakaya等人使用WordNet来获取概念间的继承关系。混合方法往往是上述若干种方法的综合使用,以期得到更好的结果。

(2)概念间一般关系的获取

概念间一般关系的获取在傅魁、聂规划的《面向文本的本体学习方法综述》中如下所述:

在领域本体中除了存在继承关系外,还存在其他一般性关系,例如属性关系、部分整体关系、因果关系及其他领域关系等。与继承关系获取研究相比,概念间一般关系获取研究则要少得多。

属性关系获取。概念内涵是属于这个概念的所有对象所共有的属性集,因此属性关系对于概念理解至关重要。Guarino认为属性分为两类:关系型属性和非关系型属性。关系型属性包括性质(如颜色、位置等)和关系社会角色(如儿子、配偶等)。非关系型属性包括部件(如车轮和发动机等)。Pustejovsky在通用词法理论中也对属性作了分类,认为属性分为四类:外观角色、构成角色、目的角色和施事角色。外观角色指明对象是什么类型,以书为例,书有属性、形状和颜色等。构成角色对象的由什么材料或部件构成,如纸张、章节是书的构成角色属性。角色对象的目的,如读是书的目的角色属性。施事角色指明该对象如何被创建,如写是书的施事角色属性。

目前,国内外关于属性关系学习的相关研究并不多见,从公开可查阅的文献中,仅有英国Essex大学的Poesio和Al-muhareb对属性学习做了研究。他们首先采用基于模板的方法从Web网页中抽取含有候选属性的实验数据。结合上面两种属性分类知识,认为实验数据分为六类:性质、部件、相关对象、活动、施事者和非属性,并使用语形信息、属性模型、问题模型和属性使用模型四类信息构造了分类器,对实验数据进行自动分类。总体而言,Poesio和Almuhareb在英文属性学习的研究中取得了一定的成果。但是其不足之处在于上述关于属性分类是广义上的,其范畴大于本体中关于属性的理解,因此不能完全满足属性关系学习的需要。

部分整体关系获取。部分整体关系的获取主要采用模式匹配方法。Charniak等描述了在大量语料中发现部分与整体关系的模式。Text2Onto系统中开发的JAPE模式,通过计算部分与整体关系的模式共现率指示概念术语之间部分与整体关系的概率。有些学者也对概念间的部分整体关系做了研究。另外可借助通用本体如WordNet中的语义关系推理概念术语间的部分与整体关系。董振东先生设计的中文知识库——CNKI知网中,也包含有大量的部分整体关系。

其他关系获取。其他领域关系一般是专门存在于特定领域中的关系。例如在商品销售中的购买者与商家之间的购买关系,在新闻报道中的原因事件关系等。其他领域关系可通过语言结构分析法、关联规则的方法获取。例如在OntoLearn系统中定义SubjToClass-PredToSlot-DobjToRange的规则发现领域关系,其思想是将主语映像为类,谓语映像为该类的相应属性,直接宾语映像为属性的范围值。Text-To-Onto系统中通过次范畴框架获取的方式发现领域关系,比如由“爱(男人,女人)”、“爱(小孩,母亲)”、“爱(小孩,父亲)”可推导出人与人之间存在爱的关系,即“爱(人,人)”。国内的方卫东等利用关联规则方法获取领域关系。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈