首页 理论教育 分类词典条目轮排规律

分类词典条目轮排规律

时间:2023-02-27 理论教育 版权反馈
【摘要】:3.4.1 算法原理经过以上构造和补充,完成了一个含140 473条关键词的初始抽词词典。为此目的,本系统设计了一个约简算法,并对之进行影响度测试。笔者的词典约简也即是基于这样一个事实原理进行的,即通过自切分,区分出词典中的中心词,通过研究中心词与其限定词的关系密切度,来取舍词条,在不影响其主题表达能力的前提下,约简部分冗余词条。
算法原理_文本自动标引与自动分类研究

3.4.1 算法原理

经过以上构造和补充,完成了一个含140 473条关键词的初始抽词词典。对于这样一个条目数量庞大的词典,如果直接应用于分类系统,一方面增加了切分词算法的复杂度,另一方面也给后期特征向量降维增加了工作量。为此,笔者设想,如果在进行分类前先期对该抽词词典进行约简,保留其核心部分,是否会较大地提高分类系统的效率?为此目的,本系统设计了一个约简算法,并对之进行影响度测试。

(1)词典条目轮排规律

根据汉语构词法我们知道,在汉语复合词中,一种是由句法结构演变过来的词根,另一种是“句法+词法”的混合结构。多重复合词一般分为:①主谓、偏正语序,如“工人俱乐部”等;②述宾、偏正语序,如“压缩通货政策”等;③含联合、偏正语序,如“勘探设计院”等;④含偏正语序,如“激光打印机”等。而语序又分基本语序和边缘语序,前者指含主、谓、宾成分的语序,后者指偏正、述补和联合语序。就名词性复合词来说,无论是哪一种方法,基本上都是通过语素组合来表达某一种事物的。有些是将事物本身作为中心词,通过描述事物的某一方面进行复合词构造,如“彩电市场”;另一些则是对事物起限定作用,而中心词则变为事物的某一特称,如“传染病”等。经过对分类词典条目的分析我们可以发现,词典条目具有这样的轮排规律,而这种轮排规律确实能反映事物及其某一方面或特称。

其中基于正向轮排的示例如下:

传染

传染病

传染病防治

传染病学

传染病医院

DVD

DVD播放机

……

基于反向轮排的示例如下:

IT人才

复合人才

高级人才

中高级人才

科技人才

经济人才

高级管理人才

经理人才

专门人才

金融人才

……

可以看出,无论是基于正向或是反向排列,都存在一个中心词,如上面示例中的“彩电”、“人才”等,而该中心词一般作为其下属的扩展词的上位类而存在,其指代会更一般。这样就存在一个用“一般”代替“专指”或是用“专指”代替“一般”的问题。笔者的词典约简也即是基于这样一个事实原理进行的,即通过自切分,区分出词典中的中心词,通过研究中心词与其限定词的关系密切度,来取舍词条,在不影响其主题表达能力的前提下,约简部分冗余词条。

(2)互信息原理

基于互信息原理我们知道,互信息可以作为一种度量不同字符串之间相关性的统计量。对于字符串x和y,互信息计算公式如下:

img16

其中P(x,y)为字符串x和y共现的概率,P(x)和P(y)分别为字符串x和y出现的概率。

互信息MI(x,y)反映了字符串对之间结合关系的紧密程度:

①MI(x,y)>>0,则x、y之间具有可信的结合关系,并且MI(x,y)越大,结合程度越强;

②MI(x,y)=0,则x、y之间的结合关系不明确;

③MI(x,y)<<0,则x、y之间基本没有结合关系,并且MI(x,y)越小,结合程度越弱。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈