4.1 古农学本体自动构建的困难
本体构建目前面临的困难和过去20多年里知识工程师定义知识库以及研究知识获取的方法论中所面临的问题非常相似。知识工程师把知识获取和机器学习技术相结合,给知识获取带来了极大的便利,这给本体的构建提供了很大的启发和借鉴[1][2][3]。利用人工智能领域所取得的成果,自动或半自动的构建本体,可以有效加快构建进程,节省人力和时间。
关于本体的自动构建尚处于不断摸索研究中[4][5][6][7][8],目前还没有一套可行的方法。而领域本体的自动构建还与其所在的学科领域有关。例如,概念关系明确的理工科类,如生物技术、计算机技术[9]等,由于其概念关系明确、严格,等级关系以及领域概念关系的获取会相对易处理。农史是一门综合了农学、历史学、经济学等多个领域的交叉学科,学科交叉性较大,概念的分类和界定存在很大的困难。
综合来看,农学本体的半自动构建过程中主要的困难有两方面,一是来源于本体半自动构建中的技术困难,如概念关系的计算,句法的分析等;二是来源于农史论文的撰写文风,如论文中语言的灵活性以及有些农史论文半文言半现代文的写作风格。
(1)自然语言的复杂性
人类经过长期的发展形成了自己的语言,其句型结构复杂、不规则,上下文关系复杂,这给机器自然语言理解带来了很大的困难。同样一句话,可以采用多种不同的句法进行表达,汉语的极其灵活的语法特点,给自然语言的处理带来了巨大的挑战,这也是目前所有自动知识获取工具研究中的最大困难
(2)需要建立大量的规则知识库,且规则的匹配并不是完全正确
目前很多的知识获取工具以规则和句型匹配为基本获取方法,但在实际的农学领域知识获取中,研究发现,自然文本其句型不仅数量可观而且十分复杂,与之完全对应就需要建立大量规则从而形成庞大的规则库,但在实际应用中相当一部分规则的使用效率很低。
在农史知识领域,因其极强的交叉学科特点带来的复杂性,使得基于规则匹配在不同的子领域中效果也有所不同,甚至出现不一致的情况,即使在同一个子领域,由于计算机不能理解上下文的关系,同样可能造成错误匹配。
(3)存在有争议的知识难于描述和界定
史料记载和不断的考古发现是进行历史研究的基础,由于诸多的原因,使得很多的史料保留和记载的并不十分明确,造成了许多历史问题尚处于不确定状态,例如:某些作物起源的争论,《南方草木状》的作者之争等等。此外,随着新的考古发现,仍可能推翻前人的历史定论。本文中农学本体的构建是建立在机器统计学习的基础上,其基本思想离不开频次的统计,也就是对于尚处于有争议的历史问题,我们采取的原则是以大多数论文认定的情况为依据。因此,这部分有争议的历史问题,其准确性和逻辑性还难于界定和描述。
(4)农史学科研究论文的写作风格
农史研究需要依赖大量的农业史料作为基石,因此在农史研究论文的撰写中,需要引用大量的农业史料中的文字来说明问题。在研究过程中,我们发现大量的论文中有至少含有1/3的古汉语句子。此外,还有些论文属于半古文半现代文的撰写风格。目前的自然语言处理技术以及机器统计学习技术都是针对现代文进行的,对古汉语的语言处理研究尚处于探索状态,因此在农学本体的构建过程中,农史学科的这种论文撰写风格和特点,使得农学领域知识的获取和处理变得尤其困难。
(5)不能很好的处理过程性知识
过程性知识在知识领域中较为特殊,因为其包含了大量的上下文关系,并且广泛的出现在各个领域中,在相关自然语言理解技术不成熟的情况下,让计算机去代替知识工程师理解上下文关系就显得不太现实,因而在过程性知识的处理上,是目前的一个难点。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。