首页 理论教育 本体学习工具

本体学习工具

时间:2023-02-26 理论教育 版权反馈
【摘要】:张囡囡等在《主要本体学习工具的比较分析》中对这些工具进行了一一介绍及比较。
本体学习工具_多语种叙词本体

5.4 本体学习工具

目前,国外对本体学习的研究很活跃,已经尝试将各种自动化技术和数学方法融合到一个系统工具中,以完成对不同结构化程度数据源的充分而准确的本体学习,并且已经取得了一定进展,出现了如Text-To-Onto、OntoLearn、Hasti、OntoBuilder、OntoLiFY等具有一定实用价值的本体学习工具;在中文本体学习研究中,也出现了GOLF等实验性系统工具。张囡囡等在《主要本体学习工具的比较分析》中对这些工具进行了一一介绍及比较。

5.4.1  OntoLearn

OntoLearn是University of Rome开发的一个基于文本的本体学习工具。为构建本体得到合适的概念及概念间的关系,它利用自然语言分析和机器学习技术从文本中提取相关领域的术语,系统学习分三个过程:①系统从应用领域中可利用的文本中提取领域术语,然后用自然语言处理技术和统计分析技术过滤,并通过在不同领域和不同文集中对比分析来鉴定主要领域的术语。②系统选用Word-Net和SemCor词汇知识库,对获取的术语进行语义解释,然后根据分类学和语义关系将相关的概念生成一个领域概念森林,使用WordNet和诱导的学习方法提取概念间的关系。③利用WordNet生成的领域概念森林创建一个经过净化的领域本体。

OntoLearn是在本体获取中对术语应用了语义解释,从而确定术语的分类和其他关系。它的工作是基于WordNet,虽然WordNet并不提供语义Web的本体标准,但它是使用最广泛的通用在线词汇数据库和英语词汇资源领域的标准,因此某个领域本体和Word-Net之间的明确关系可以用于支持不同领域本体之间的互操作性和一致性。

5.4.2  OntoBuilder

OntoBuilder是Mississippi State University开发的一个从半结构化数据中获取本体的工具。它分两个阶段来构建本体:初始阶段和完善阶段。在初始阶段,建立一个初始的领域本体;在完善阶段,使用者浏览了包含相关领域信息的其他网站,使用辞典从每一个网站中抽取候选本体并与初始本体合并。

系统主要由使用者交互模块、观测模块和本体模型模块组成。使用者通过使用者交互模块与系统交互,访问一系列感兴趣的网站并将信息反馈给系统。在观测模块中,收集了使用者交互阶段的信息,这些信息提供给本体模块,为创建目标本体或将一个候选本体完善成目标本体,该模块应用了词频统计和模式匹配方法执行它的功能。该系统也有使用者的编辑词典,一旦本体被创建,这个词典将随着信息自动更新。

OntoBuilder提供了一个较容易创建本体的环境,并提供了方便使用者的交互界面。它最大的优点就是在解析过程中表现的自动性,语义的异构,包括同义字和设计者的错误,都能突出地显示出来,而且在确定正确的映射情况下能够选择最佳结构。OntoBuilder是从半结构化数据中获取本体,它支持的数据源只有XML和HTML,且在整个学习过程中都需要人工帮助,而且在实际中,它并不能适用于所有的网站(例如带有scripting的网页)。

5.4.3  Text-To-Onto

Text-To-Onto是University of Karlsruhe开发的一个整合的本体学习工具,从初始的核心本体中建立领域本体,它从语言资源中使用知识获取技术和机器学习技术发现概念的结构。开发了各种语言层次间的相互约束来发现新概念和确定概念之间的关系,通过学习和发现概念结构来防止知识获取的瓶颈。

Text-To-Onto支持半自动化的本体开发,其中定义的本体是基于某个组织内部的相关文档,这种方法的好处是本体创建和使用与文档生成和使用之间有可选的反馈。系统包含四个主要的组成部分:

①本体管理组件。本体工程师使用本体管理组件来手工处理本体。

②资源处理组件。这个组件包含用于发现、输入、分析和转换相关输入数据的广泛技术,它的任务是生成一系列的预处理数据,作为算法库组件的输入。

③算法库组件。这个组件是整个框架的算法骨架,提供了一些算法,用于抽取和维护本体模型中的本体部分。为了能够组合不同学习算法得到的抽取结果,必须将输出规范化,必须使用统一的输出结构。因此它提供了所有学习算法的公共结果结构。

④协调组件。本体工程师使用协调组件与本体学习组件交互以便于处理资源和使用算法库。

Text-To-Onto可以从多种数据源中获取本体,如自由文本、半结构化数据、词典等,还支持英语和德语的数据源。它能够发现分类和非分类关系,使用基于概念层次聚类法获取分类关系,基于关联规则法获取非分类关系。本系统的核心是使用平衡协作模式的范例(balanced cooperative modeling paradigm)来支持知识工程,有利于本体知识发现。

5.4.4  Hasti

Hasti是Amir Kabir University of Technology开发的基于波斯文本一个本体学习工具。系统从一个小的本体内核出发,通过文本理解来自动构建本体。Hasti是一个用于实现和测试自动本体构造方法的项目,它从波斯语文本中抽取词汇和本体知识,输入的是波斯文本而输出的是可扩展的词典和本体。

Hasti的词典起初几乎是空的,是通过学习新单词逐渐增多的。初始的本体是一个小的核心本体,它包括了概念、分类和非分类的概念关系及公理。Hasti从文本中学习新的本体元素,在现存的核心本体的基础上建立它的本体。在Hasti中,输入的文本转化成本体和词典需要经过:形态学分析和语法分析,提取新单词的特征;建立句子的结构;提取概念—关系知识(初始概念);将初始的概念增加到本体中;本体重组。

Hasti的结构主要由六部分组成:①自然语言处理器;②工作存储管理器;③知识抽取器;④知识库;⑤词典管理器;⑥本体管理器。

Hasti将多种本体学习方法应用到不同的组成部分。逻辑方法应用在知识抽取器的推理引擎中,它通过执行一些知识库上的逻辑推理推导出新知识(概念之间的新关系和新定理),还可以通过关系的某些属性发现相关的单词;基于语言学的方法应用在自然语言处理器中,它执行语素的构造分析,处理输入的文本并抽取案例角色;基于模板的方法应用在句子结构和本体元素生成器中;语义分析方法应用到知识抽取器和本体管理器中。学习方法中还使用了启发式学习来减少假设空间,消除不确定性。因此Hasti使用的是一种启发式、混合的本体学习方法。

5.4.5  GOLF

GOLF是浙江大学刘柏嵩博士开发的一个基于分层循环技术的通用多策略的实验性本体学习系统。其基本思想是:针对Web中存在的半结构化数据(包括HTML和XML文档),基于“术语-概念和实例-概念分类体系-概念间非分类语义关系-规则和公理”的分层学习技术路线,采用模式匹配、关联规则、层次聚类等技术,自动构建本体。

GOLF系统的体系结构主要分为4个部分:

①通用本体学习模块:包括文档的收集和预处理、领域术语及概念抽取、语义关系获取及优化、构建分类层次体系等子模块及相关的算法库和词典库;

②通用本体库:存放本体的基本概念及其分类关系和非分类语义关系;

③本体修剪和评价模块:在本体工程师和领域专家的参与下,评价本体学习算法的性能,推断系统对本体构建的作用,并通过与标准本体的比较评定基于GOLF获得的本体的领域覆盖度;

④本体的形式化表示模块:将本体概念及其关系以OWL形式加以描述。

在与Text-to-Onto的比较中,GOLF系统呈现出较好的实验结果。

5.4.6 各种工具的比较

以上仅介绍了五种具有代表性的工具,还有其他许多特色的本体学习工具。目前对本体学习工具仍没有统一的评价标准。针对以上本体学习工具的介绍,现将这五种工具进行如下总结,几种本体学习工具都有自己的特点:

①从工具的目标和范围来看: OntoLearn利用概念和关系来丰富领域本体; OntoBuilder建议在现有本体的基础上,将新生成的概念增加到本体上; Text-To-Onto能够获取分类关系和非分类关系; Hasti主要特点是能够获取本体的公理,目前对获取公理的工具比较少。

②从学习的技术和方法来看:这五种工具使用了不同的学习方法,但使用的学习技术也是互相关联的,并且这些学习技术也是今后本体学习研究的核心。

③从支持的数据源来看: OntoLear和Hasti只支持纯文本的数据源,OntoBuilder只支持半结构化的数据源(仅XML和HTML),Text-To-Onto支持的数据源较多。但目前没有一个工具能支持所有数据源,这也是本体学习研究的一个重点。

④从支持的语言来看: OntoLearn、OntoBuilder和Text-To-Onto都支持英语,其中Text-To-Onto还支持德语,Hasti支持的是波斯语。

⑤从开发工具的研究地点来看:国外在本体学习技术的研究比较热,而国内仅仅处于起步阶段,目前还没有能支持中文的本体学习工具。

除了上述具有代表性的系统外,国内外其他多种实用性或实验性的本体学习系统还包括基于文本的LTG、ASIUM E、MoK Workbench、Welkin、HOLA、OntoGen、OntoLancs等;基于词典的SEISD、DODDLE等;面向中文的有OntoSphere、SOAT等。

到目前为止,还没有一个本体学习工具能完全自动地获取本体。有些工具是在使用者的帮助下从预处理的文本中获取概念和关系,有些工具主要是获取语义的词汇知识,但对于获取公理的研究还不是很多,并且没有一个工具能比较使用不同学习技术所获得的结果及准确地评价学习方法。因此,本体学习工具仍需要不断地加以完善。

总之,本体学习技术是实现语义网的关键技术,也是今后构建本体的核心技术。国外现已有许多本体学习方法,并开发了相关的本体学习工具,但在国内本体学习的研究才刚刚起步,很多问题有待探索研究。因此,根据中文语言的特点,开发支持中文的本体学习工具显得尤为重要和迫切。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈