首页 理论教育 相关度度量方法介绍

相关度度量方法介绍

时间:2023-02-27 理论教育 版权反馈
【摘要】:6.3.2 相关度度量方法介绍度量两个事件相关程度的方法有很多种。Dice测度Dice测度的公式定义如下:利用Dice测度可估计关键词与分类号的并发概率。相对信息相对信息是事件A在事件B发生和不发生条件下的信息熵之差,其表达公式如下:利用CG可以衡量关键词与分类号的相关程度。
相关度度量方法介绍_文本自动标引与自动分类研究

6.3.2 相关度度量方法介绍

度量两个事件相关程度的方法有很多种。如信息论中利用熵值、混乱度、互信息(MI)、相对信息(CG)、信息增益(IG)来度量,统计学上有条件概率、并发概率、Dice测度、Log L测度、x 2-统计量、Ø2-统计等方法,下面就简要介绍其中的几种度量方法。

(1)互信息(Mutual Information,MI)

在信息论或统计学中,互信息MI(W1,W2)定义为:

img46

若A、B分别表示关键词和分类号出现的事件,则MI(A,B)可表示关键词与分类号的相关程度,即:

若MI(A,B)>>0,则表示A、B是高度相关的;

若MI(A,B)=0,则表示A、B是独立的;

若MI(A,B)<<0,则表示A、B是互补分布的。

可以看出,互信息与事件的并发概率、每个事件出现的概率有关系。

(2)Dice测度(Dice Measure)

Dice测度的公式定义如下:

img47

利用Dice测度可估计关键词与分类号的并发概率。它排除了零概率事件的发生。

(3)Log L测度

两个事件间的Log L值定义如下:

img54

为方便应用,将词汇A、B的各种可能出现频次转换为下面的联立表(表6-2):

表6-2 事件A、B的可能出现频次表

img55

则公式(6-9)可以转换成公式(6-10):

img56

其中:

[1]表示并发事件,即事件A(关键词出现)与事件B(分类号出现)同时发生;

[2]表示事件A发生,但事件B不发生;

[3]表示事件B发生,但事件A不发生;

[4]表示事件A和B都不发生;

[5]表示事件A发生;

[6]表示事件A不发生;

[7]表示事件B发生;

[8]表示事件B不发生;

[9]表示数据库规模。

(4)相对信息

相对信息是事件A在事件B发生和不发生条件下的信息熵之差,其表达公式如下:

img57

利用CG可以衡量关键词与分类号的相关程度。

除此之外,还有其他的一些度量方法,如相关系数法、夹角余弦法、最大-最小法、几何平均法、算术平均法、Jaccard系数法、覆盖系数法、反相似系数法、Hamming距离法等等[9],在此不再详细介绍。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈