【摘要】:7.3.1 《同义词词林》简介《同义词词林》[21]是由梅家驹等学者编纂的一部对汉语词汇按语义全面分类的词典,收录词语近7万条。《词林》根据汉语的特点和使用原则,确定了词的语义分类原:以词义为主,兼顾词类,并充分注意题材的集中。《词林》语义结构可用树型结构来表示,如图7-1所示。本书进行同义词的挖掘,是利用《词林》语义体系,并且将《词林》作为同义词底表来实现的。
《同义词词林》简介_文本自动标引与自动分类研究
7.3.1 《同义词词林》简介
《同义词词林》[21](亦称《义类词典》,以下简称《词林》)是由梅家驹等学者编纂的一部对汉语词汇按语义全面分类的词典,收录词语近7万条。《词林》根据汉语的特点和使用原则,确定了词的语义分类原:以词义为主,兼顾词类,并充分注意题材的集中。它将词义分为大类、中类、小类三级,共分12个大类(A类为人,B类为物,C类为时间与空间,D类为抽象事物,E类为特征,F类为动作,G类为心理活动,H类为活动,I类为现象与状态,J类为关联,K类为助语,L类为敬语),94个中类,1 428个小类,小类下再以同义词原则划分词群,每个词群以一标题词立目,共3 925个标题词。《词林》语义结构可用树型结构来表示,如图7-1所示。
图7-1 《词林》语义空间
编纂《词林》的初衷是提供从词义查词的工具,以便从中挑选适当的词语。作为一个语义分类体系,它也存在一些局限,如词典收词数量有限、复合词收录很少、词典更新滞后等等。若直接采用它作为同义词词典,显然不能满足实际需要。本书进行同义词的挖掘,是利用《词林》语义体系,并且将《词林》作为同义词底表来实现的。这样不仅可以依据《词林》作为底表的功能,直接识别出大量的、以词素形式出现的同义词,还可以依据其作为语义体系的功能,挖掘出大量的复合词形式的同义词。
本书采用语义距离来计算词汇间的相似度。下面将依次介绍语义编码间的相似度计算、词汇间的语义相似度计算、词组(串)间的语义相似度计算。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。