9.3.1 语义注释和形式化知识
1.语义注释内涵
语义Web是在Web内容上增加形式化语义(元数据、知识),以达到更有效的存取、管理、开发与利用。语义Web的生命力依赖于大量元数据的产生,对于语义Web来说,Web内容元数据的获取是一个主要挑战。应当说,手工获得清晰的语义并不是一个可行的方法,从手工到自动的转变应当首先研究和开发完全自动的语义注释方法。因此,应当面对和解决必要的设计和建模问题,提供必需的资源和基础设施。
在自然语言处理(Natural Language Processing,缩写为NLP)和特定的信息抽取(Information Extraction,缩写为IE)中,命名实体(Named Entities,缩写为NE)被认为是:由名称指定的人、机构、地点等,在广义的解释中,还包括数量值(数字日期、钱的数量)等。命名实体的理解和管理需要更多的特定知识。
这里所讨论的语义注释是一个特定的元数据产生和使用模式,目的在于促使新的信息存取方法,并扩展现存的方法。所提供的注释体系基于这样的一种理解:文本中提到的命名实体构成了语义的重要部分。另外,使用不同种类的冗余、外部知识或背景知识,那些实体可与形式化描述链接起来,因而提供Web内容的更多语义和链接。[29]
简而言之,语义注释将到语义描述的链接分配给文本中的实体(见图9-5)。这类元数据同时提供有关实体的类和实例信息。自动语义注释推进了许多新的应用:突出显示(highlighting)、索引和检索、分类、更高级元数据的产生、非结构化文本与可获得的相关知识之间的平滑转换。语义注释可应用于任意种类的文本——Web网页、规则的(非Web)文档、数据库中的文本字段等。另外,知识获取可基于更复杂的依赖(实体、事件和形势描述之间的关系分析等)的抽取而得到执行。[30]
2.语义注释的表示和存储
(1)分布式异构知识
对于语义注释表示来说,存在以下基本的必备条件。
①定义实体类的本体,并有可能指向这些类。
②允许区分和链接到语义描述的实体标识符。
图9-5 语义注释
③具有实体描述的知识库。
注释表示可以嵌入或者不嵌入到Web内容中。尽管嵌入的注释看起来更容易维护,但很多证据认为语义注释必须与所指向的内容分离,以促进动态的和特定用户的语义注释,因为嵌入的注释成为内容的一部分,不可能根据用户兴趣或使用环境而改变。另外,嵌入的复杂注释使得内容容量剧增,维护困难,如很难对具有语义注释的网页在保持一致性情况下进行更新。因此,应当将语义注释与Web内容分开。[31]
在语义注释表示中,另外一个需要考虑的问题是:语义注释是否与本体和知识库集成?集成多少?集成容易将注释与类和实体描述保持同步,然而,对于是否集成还必须考虑以下问题:
①注释的基数和复杂性不同于实体描述。注释可以简单,但其数量通常比实体描述的大得多。甚至对于中等大小的文档集,注释也会非常多。假设10M注释和1M实体描述存储在RDF存储库中,还假设每个注释和每个实体描述用10个陈述表示,则对于能够有效地推理和存取10M陈述知识库和110M(100M+10M)陈述知识库来说,在推理方法和硬件上存在很大的区别。
②如果本体和知识库独立于与文档相关的元数据,则对于一个相同的文档来说,不同的抽取、处理或创造(authoring)方法将能够方便地提供不同的指向相同的知识库的元数据。另外,这种独立有可能区分元数据和知识库的拥有者及其责任,以便不同的团体分别开发和维护Web内容、元数据和知识库。
根据以上分析,最有效的方法是对文档、元数据(注释)和形式化知识(本体和实例数据)进行分开的表示和管理,见图9-6。[32]
图9-6 分布的异构知识
(2)语义注释的存储
元数据必须以一种允许进行有效管理的格式加以存储;在语义注释中,这种格式应当满足以下的原则和需求:[33]
①允许文档的非嵌入注释根据其位置、特征和对知识库的引用进行存储、管理和检索。
②至少对一些格式来说,允许注释的嵌入。
③允许不同格式中注释的输出和交换。
3.形式化知识及其功能分析
一旦具有在本体中编码的实体类型、关系和属性,语义注释表示的下一个方面是实体描述。应当有可能以一种通用的、灵活和标准的方法识别、描述和相互连接实体。这里将有关实体的形式化知识体称作知识库(Knowledge Base,缩写为KB)——这个词语最好地反映了除本体之外的形式化知识的表示,KB主要包含实例知识或数据。
本体定义所有的类、关系和属性,以及未来的限制和依赖,是KB的一种模式,两者应当保存在语义库中(semantic store)。语义库是形式化的知识推理和管理系统,能够提供根据所选形式的语法和语义进行存储和检索的基本操作。语义库可提供推理,它可以实施不同的推理战略。语义库还存在更高级的不视为必需的管理特征如:版本(versioning)、存取控制、交易支持、锁定、客户缓存。[34]
KB可以具有两类实体知识。
①预先移植的(Pre-populated)——导入或从信任源中获得的。
②自动抽取的——在语义注释过程中发现(如通过IE),或使用其他知识发现和获取方法如数据挖掘。例如,Armadillo是一个从大存储器(如Web)中抽取和集成信息的工具,在Sheffield得到开发。Armadillo能够:从无监督的方式学习中抽取事实和实体;处理非结构化文档如半结构化和自由文档。当前集成到Armadillo的学习算法是在Amilcare得到实现的(LP)。[35]
KB是否有或有多少预先移植的知识依赖于特定的实施。例如,有关具有一般重要性的实体的信息(如公司、人、地点的名称及它们的别名)能够极大地帮助IE用于自动语义注释。另外,特定领域和任务的知识能够帮助语义注释应用的定制——在扩展本体以匹配应用领域后,KB可以用特定的实体预先组装。例如,有关特定市场、客户、产品、技术和竞争者的信息对于商务智能来说具有很大的帮助。通常,简化在实际环境中没有应用的一般信息并构建一个更集中的KB是有益的。
因为IE(特别是命名实体识别:NER)允许识别新的实体和实体间的关系,所以可以用来充实和扩展KB。但由于这些方法内在的不精确,通过它们积聚的知识与预先组装的知识会不一样。因此,新的元数据的抽取通常可根植于一般的可信任知识,当然,积聚的实体对于索引、浏览和导航来说也是可用的。通过半自动评估过程,某些识别出的实体可转换为可信任的实体。KB扩展的一个重要部分是实体关系的模板抽取,根据正在处理的文本,KB的可识别部分会产生相应的变化。[36]
利用形式化知识,可针对文本中的重要知识点进行注释,并有效地提高机器处理文本内容的能力。图9-5是一个简化的语义注释图。在图中,上面方框内是一段文本,其中的“张三”和“北京”可看作是重要的知识点,它们被突出显示,并通过箭头分别链接到图中方框内形式化知识(本体与知识库)中的“张三”和“北京”。通常认为,人通过学习和记忆已具备了相关的背景知识或环境知识,假设某人在阅读该段文本时,已知道“张三”和“北京”,则他在阅读时会很容易地联想到“张三”是男的,是一名武汉大学的教授,“北京”是中国的首都。在这样的背景知识下,这个人可以很容易地理解这段文本的内容。机器在遇到字符串“张三”和“北京”时,如果没有形式化知识的支持,会如同一个不认识“张三”和不知道“北京”的人一样,只是将“张三”解释为字符串“张三”,将“北京”解释为字符串“北京”,而无法明白其中的语义信息。如果有了图中形式化知识的支持,机器则能够与一个认识“张三”和知道“北京”的人一样具有相关的背景知识。机器能够借助文本中的突出显示,顺着链接找到形式化知识中的实例,并利用形式化知识(如同人的大脑知识一样)“联想”到:张三是男的,是一名教授,他的电子邮箱是zhangsan@ hust.edu.cn,他所属的单位是武汉大学,武汉大学位于武汉,武汉是湖北的一个城市,湖北是中国的一个省;北京是一个城市,是中国的首都。在形式化知识的支持下,机器所“联想”到的这些信息,比起人的联想来说,会更精确、更全面。
形式化知识所带来的有利之处如下。
①所有类型的资源可以一种更标准和统一的方式得到管理。
②更容易在适当的一般层次上管理不同类型的语言知识。例如,适当结构化的实体类型层次将允许实体及其在文本中的引用以更精确的方法得到分类,但仍然能够以更通用的模式得到容易的匹配。例如,某山脉可能具有特定的注释,但仍然可以在一个期望位置的语法规则中进行匹配。
③任意可获得的知识将直接通过来自元数据的对语义库的引用而得到存取。信息抽取中新增的处理层能够在知识库中产生和存储新发现实体的描述,当相同的实体在文本中再次遇到时,可以直接链接到知识库中已产生的描述。
形式化知识能够提供Web内容的计算机解释标记,与机器代理技术一起,有望使得目前很多手工完成的任务变成自动执行。形式化知识具体定义和解决的基本任务如下。
①在文本文档中注释和链接命名实体。
②在考虑到参考实体的情况下索引和检索文档。
③促进语义Web挖掘和知识推理。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。