首页 理论教育 中文叙词表自动构建相关研究

中文叙词表自动构建相关研究

时间:2023-02-27 理论教育 版权反馈
【摘要】:3.2.3 中文叙词表自动构建相关研究国内对汉语叙词表自动构建相关研究刚刚起步,虽然很少见到词表自动构建方面的研究和论述,但不乏相关技术研究和探索,主要集中于根据汉字构词字面相似性特点聚类词汇以及词间关系识别方面。在等级关系识别方面,周荣莲在调查多部汉语叙词表的基础上,分析了汉语叙词表的等级义场、范畴义场和相关义场构成特点,并提出了汉语叙词表语义场自动构建的思路。
中文叙词表自动构建相关研究_自然语言叙词表自动构建研究

3.2.3 中文叙词表自动构建相关研究

国内对汉语叙词表自动构建相关研究刚刚起步,虽然很少见到词表自动构建方面的研究和论述,但不乏相关技术研究和探索,主要集中于根据汉字构词字面相似性特点聚类词汇以及词间关系识别方面。

在等级关系识别方面,周荣莲在调查多部汉语叙词表的基础上,分析了汉语叙词表的等级义场、范畴义场和相关义场构成特点,并提出了汉语叙词表语义场自动构建的思路。经过统计,她发现词表中的叙词大多为偏正式结构叙词,《机械工程叙词表》中的比例能达到80%;不同词表中族内词和族首词词根完全相同的族比例也很高,所以汉语构词法与叙词表等级义场的构成密切联系[21]。张琪玉教授也曾提出,根据汉语字面相似性的特点,可以聚类相关词汇,辅助构造词族表和分面类表。但是字面相似聚类法不能达到概念聚类要求,一些具有等级关系的词汇并不具备字面相似的特点,所以只能作为一种辅助方法[22]

在同义关系识别方面,南京农业大学信息管理系集中研究了相关技术和方法。朱毅华在词素词典基础上,把词汇以义原的形式表示,通过义原之间的比较实现词汇的相似度计算,从而实现同义词的识别[23]。章成志则以《同义词词林》语义体系为参照,把词汇映射到该语义体系,通过计算语义路径距离来计算词汇之间的相似度[24]。二者均通过设置语义参照系统改进了纯字面相似性识别同义词的缺点,试图从语义上识别同义词。但是这种方法需要现成的语义参照系统,而现有语义参照系统如《同义词词林》、Word Net、How Net等收录的概念有限,多为通用概念,对语义的揭示并不完整,其质量成为这种同义词识别方法的瓶颈。而编制一套精良的语义参照系统需要大量时间和精力,并不现实。陆勇在其硕士毕业论文中,采用模式匹配方法和PageRank方法实现了汉语同义词识别[25],该方法简单易行,通过实验证明具有一定的实用价值。仲云云则综合运用以上方法自动构建了一部共青团电子政务主题词表[26]

另外,国内学者王军探讨了如何对现有词表进行自动更新和维护,以解决目前词表更新速度慢、维护费时费力的问题。他采用基于统计的方法,以文献书目数据为语料,从文献标题中抽取关键词,通过计算标题关键词对应的文献标引词集合的核心概念确定其所对应的叙词,并把该关键词作为该叙词的下位词添加到词表中,从而实现标题关键词在现有手工编制词表中的定位,完成词表的自动丰富,并通过试验证明这一方法的可行性[27]。台湾辅仁大学教授Tseng,Y.H.在2002年发表论文,首次讨论和实践了用于中文文献检索的叙词表自动生成方法[10]。他首先采用中文词切分和未登录词识别算法从全文库中采集自然语言词汇,然后通过改进的Dice关联度算法计算各个词汇之间的关联度:

img22

其中,Si表示文献i中包含的句子(或段落)数目,S(Tij)表示文献i中词汇Tj出现的句子数目。ln(1.72+Si)用于消减长文献中的词汇权重,因为相对短文献,长文献中的词汇关联度更弱些。把由此生成的词表嵌入到信息检索系统中,当用户输入检索词时,系统会根据词表查询到与输入词最相关的若干词汇并返回给用户,用户只需从中选择适合表达检索需求的词汇进行检索即可,这样在很大程度上减轻了用户的智力负担,使得检索更为成功[14]

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈