7.1 叙词本体中的概念词
7.1.1 概念词的定义
知识中的概念是用词语表示的,概念是没有歧义的,它能够唯一地、准确地指向现实世界中的实体或对象。概念获取其实就是从词汇到概念的映射过程,本质上是能代表概念的词汇的获取,尤其是新词语和未释义词的获取。
同时,概念词和术语、新词语等是既有区别又有联系的。术语是在特定的专业领域中使用的,是一种具有很强的领域特征的词语,因而术语抽取的处理对象是大量的领域文本,而概念获取并不限定某个具体的领域,所以概念获取的处理对象是开放的文本语料;新词语识别的目标是那些没有收录在词典中的新词,包括专有名称、复合词、派生词和数字型的复合词,对词典包含的已知词并不十分关注。而概念词既包括已知词,也包括一部分诸如命名实体之类的未知词,但不处理诸如时间、货币、数量等数字型的复合词。
7.1.2 概念词的模式特征
概念获取从本质上来说是能承载概念的词汇的获取,对于中文概念词而言,由于汉语的特殊性,其获取的困难在于:对于一些在语料库中出现频度低的概念词,很难识别;由于要获取的概念词不是某个专业领域的,也不是属于某个类型的新词语(如地名等),因此概念词边界很难确定;某些词或短语本身具有多种含义,要在一定的上下文中才能判断它所代表的含义。
因此,国内外学者普遍认为,为了更加准确地获取中文概念词,我们要综合利用概念词的3个模式上的特征:
(1)上下文模式特征
利用上下文模式,在第一次句型匹配得到的候选串的基础上,抽取里面含有的多个候选概念词,或者剥离概念词两边的附着成分。此外,候选串的上下文特征也可以用于概念词验证。
(2)词形-句法模式特征
利用概念的词形-句法模式特征(概念词构成规则),可以提取出概念词并给出一定意义上的概念词可信度。
(3)概念词构件统计特征
概念词内部存在着一些概念词构件,在大语料中它表现了一种比较好的统计特征,我们利用统计的方法获取了这些类似新词语的成分,然后利用词典里已有的词和这些概念词构件来进行概念词抽取。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。