7.3 概念获取的流程
7.3.1 已有概念词的获取
我们利用两种模式从文本中获取候选概念词,首先是在大语料库中进行模式匹配,利用上下文模式从文本中获取一个候选串,然后把候选串中可能含有的多个候选概念按照某种方式提取出来,并对这个候选概念词进行多层次的概念验证。概念获取的基本流程如下:
(1)模式匹配
从获取模式库中选取模式,在语料库中以句子为单位进行匹配,找到符合模式的句子,进行模式标记,然后从模式匹配句子中抽取出可能蕴含概念的部分,作为候选串,用于下一步的概念抽取验证。候选串有可能利用了概念左边界或右边界信息也可能同时利用了这两种信息。由于最终程序利用的匹配句型(上下文模式)只有一个,匹配得到的词串往往还不准确。
(2)概念词界定
概念词界定的主要任务是用分割词或分割符把候选串分隔成句块。我们对候选串分词后的词语查找分割词词典,目的是防止某些单字分割词是词语的一部分。具体步骤是:首先对候选串进行分词,并作简单的标注;在分词的基础上,对每一个词查找分割词词典;把这个候选串按照分割词词典分隔为若干句块。
(3)概念词抽取
在上一步,我们把候选串用一些分割词和分割符号分隔成了多个句块,这样每个句块中含有的概念个数一般都不会超过一个。所以接下来的任务就是从句块中把概念抽取出来并对概念做出评价。
具体的方法是,利用学习器获取的概念词构成规则(主要是词性规则)在句块中抽取匹配的概念词,并对概念词做出评价。
(4)概念词验证
有时通过一个概念的内部构词特征并不能确定某些候选概念是否是概念,或者本身一个短语就存在歧义,这时就需要结合概念的上下文信息和词间的关联度来对候选概念进行验证。如果某些语言单位经常出现在概念词的上下文环境中,那么这些语言单位可以作为概念词的左右边界,为上下文中概念词的鉴定提供依据。借助于大规模语料库和概念词库,可以获得围绕概念词各方面的统计特征,从而为概念词的判定与鉴别提供依据。
7. 3. 2 专业新术语识别
我们项目中的新术语可能存在两种情况,第一种情况是新涌现的专业术语,它在其他领域里也没有出现过,即是完完全全的新术语;第二种情况是在本领域属于新的专业术语,而在其他领域里面出现过。例如本体之前并不属于情报学甚至计算机科学领域的概念,而是属于哲学领域的概念,是后来才引进到计算机科学以及情报学领域的。对于计算机科学和情报学领域来说,本体就应该是一个新的术语。因此我们需要对这两种情况进行分别的处理。
●对于第一种情况
未登录词大致包含两大类:①新涌现的通用词或专业术语等;②专有名词,如中国人名、地名、机构名(泛指机关、团体和其他企事业单位)等。我们项目中的新术语即是第一种未登录词中的专业术语。虽然这种未登录词理论上是可预期的,能够人工预先添加到词表中,但这也只是理想状态,在真实环境下并不易做到。而且对于本项目来说这种方法是不现实的,因为就人为来说,我们也不知道有这样的专业术语。因此不能通过人工预先添加到词表来解决问题。
由于学术论文比较严谨,一般不会使用新涌现的通用词汇。因此对于专业新术语的第一种情况我们可以认为是未登录词的第一种情况。所以可以采用解决未登录词的第一种情况来解决专业新术语的识别。
识别专业术语的登录词的方法一般是在大规模语料库的支持下,先由机器根据某种算法自动生成一张候选词表(无监督的机器学习策略),再人工筛选出其中的新词并补充到词表中。鉴于经过精加工的千万字,甚至亿字级的汉语分词语料库目前还是水月镜花,所以在这个方面现有的研究无一不以极大规模生语料库中提炼出的n元汉字串之分布(n= 2)为基础。Sproat R.和Shih C.L.(1993)借用信息论中的“互信息”定量描述任意两个汉字之间的结合力。Sun M.S.和Shen D.Y.,et al.(1998)沿这个思路前进了一步,提出了汉字间t-测试差的概念作为互信息的有意补充。黄萱菁、吴立德等(1996)则引入经典统计论中的“四分联立表”及检验联立表独立性的皮尔逊x[2]-统计量,对长度分别为2字、3字和4字的任意汉字串做内部关联性分析,继而获得候选词表。Nie J.Y.and Jin W.Y.,et al.(1994),刘挺、吴岩等(1998)的工作利用了相对简单的字串频信息。这里提到的几个统计量(互信息、t-测试差、x[2]-统计量、字串频)都是依赖于极大规模语料库的,孙茂松、邹嘉彦(1995)故而称之为全局统计量。这一步在分词系统中可以得到解决。
●对于第二种情况
已经分好的词包括通用词和专业词汇,首先将分好的词汇与通用词表进行比较,剔除通用词汇。剩下的为专业词汇,再与本专业领域的专业词表(这里是已存在的叙词本体)进行比较,专业词表中没有的术语即为新术语。对于这种情况在分词系统中不会得到解决。因此,需要将另外添加模块来识别专业新术语。
综合上述考虑,可以将具有识别未登录词的分词系统和识别专业新术语模块结合起来,既能很好地完成分词,又能很好地识别出新术语。
7.3.3 专业新术语规范性统计
叙词本体中的叙词是规范的,是能够表征文献主题的术语。因此识别出的专业新术语,并不意味着可以直接将该术语添加到叙词本体中。它必须是能够达到一定使用频度,并且通过专家评审之后才能作为叙词增加到叙词本体中。因此对专业新术语的频度统计是不可缺少的一步。
由于文献的标题、关键词以及摘要都是反映文献主题的重要特征信息。因此对标题、关键词以及摘要可以很好地揭示文献主题,出现在这三种信息里面的术语也能很好地反映文献的内容。但是这三种信息表示主题的程度不一样,标题是最能够表现文献主题的,其次是关键词,再次是摘要。因此,需要对出现在这三种信息中的术语赋予不同的权重。我们初步假定在标题中出现过5次或者在关键词中出现过10次或者在摘要中出现过15次的新术语可以将其候选新叙词。因此如果在标题和摘要中都出现的新术语,就应该按照这种比例折算,即标题∶关键词∶摘要= 1∶2∶3,也就是说在关键词中出现过两次相当于在标题中出现1次,在摘要中出现3次,相当于在标题中出现1次。在整个统计的过程中,我们以标题为基准进行统计。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。