6.3.2 相关度度量方法介绍
度量两个事件相关程度的方法有很多种。如信息论中利用熵值、混乱度、互信息(MI)、相对信息(CG)、信息增益(IG)来度量,统计学上有条件概率、并发概率、Dice测度、Log L测度、x 2-统计量、Ø2-统计等方法,下面就简要介绍其中的几种度量方法。
(1)互信息(Mutual Information,MI)
在信息论或统计学中,互信息MI(W1,W2)定义为:
若A、B分别表示关键词和分类号出现的事件,则MI(A,B)可表示关键词与分类号的相关程度,即:
若MI(A,B)>>0,则表示A、B是高度相关的;
若MI(A,B)=0,则表示A、B是独立的;
若MI(A,B)<<0,则表示A、B是互补分布的。
可以看出,互信息与事件的并发概率、每个事件出现的概率有关系。
(2)Dice测度(Dice Measure)
Dice测度的公式定义如下:
利用Dice测度可估计关键词与分类号的并发概率。它排除了零概率事件的发生。
(3)Log L测度
两个事件间的Log L值定义如下:
为方便应用,将词汇A、B的各种可能出现频次转换为下面的联立表(表6-2):
表6-2 事件A、B的可能出现频次表
则公式(6-9)可以转换成公式(6-10):
其中:
[1]表示并发事件,即事件A(关键词出现)与事件B(分类号出现)同时发生;
[2]表示事件A发生,但事件B不发生;
[3]表示事件B发生,但事件A不发生;
[4]表示事件A和B都不发生;
[5]表示事件A发生;
[6]表示事件A不发生;
[7]表示事件B发生;
[8]表示事件B不发生;
[9]表示数据库规模。
(4)相对信息
相对信息是事件A在事件B发生和不发生条件下的信息熵之差,其表达公式如下:
利用CG可以衡量关键词与分类号的相关程度。
除此之外,还有其他的一些度量方法,如相关系数法、夹角余弦法、最大-最小法、几何平均法、算术平均法、Jaccard系数法、覆盖系数法、反相似系数法、Hamming距离法等等[9],在此不再详细介绍。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。