首页 百科知识 信息对数量度原理

信息对数量度原理

时间:2023-10-20 百科知识 版权反馈
【摘要】:当X和Y统计独立时,Y=yj的出现对事件X=xi的发生不提供什么信息。满足这些条件的一个合适的度量是条件概率:除以概率Pr=p的对数,由于事件Y=yj的出现所提供的关于事件X=xi的信息量可定义为:当X和Y为统计独立时,p=p,因此,IM=0。另一方面,当事件Y=yi的出现唯一决定了事件X=xi的发生时,则IM反映了事件X和Y的可能结果,也可用联合事件出现的概率p或频次对IM进行简单加权,则IM可理解为xi和yj之间的关联程度。
信息对数量度原理_情报检索语言的兼容转换

4.2 信息对数量度原理

令x和y是两个离散随机变量,它们的可能结果分别是xi(i=1,2…n)和yi(i=1,2…m)。假设我们观察其中的某个结果Y=yi,并希望定量的求出由于Y=yj的出现所提供的关于X=xi(i=1,2…n)的信息量。当X和Y统计独立时,Y=yj的出现对事件X=xi的发生不提供什么信息。当X和Y相关(不是统计独立)时,即Y=yj的出现决定于X=xi的发生,那么信息量就由事件X=xi来确定[4]。满足这些条件的一个合适的度量是条件概率:

Pr(X=xi|Y=yj)=p(xi|yj)  公式(16)

除以概率Pr(X=xi)=p(xi)的对数,由于事件Y=yj的出现所提供的关于事件X=xi的信息量可定义为:

img72

公式(17)

其中,IM(xi,yj)称为xi和yj之间的互信息(mutual infor mation)。

当X和Y为统计独立时,p(xi|yj)=p(xi),因此,IM(xi,yj)=0。另一方面,当事件Y=yi的出现唯一决定了事件X=xi的发生时,则

img73

此时,IM(xi,yj)为X=xi的自信息。

IM(xi,yj)反映了事件X和Y的可能结果,也可用联合事件出现的概率p(xi,yj)或频次对IM(xi,yj)进行简单加权,则

img74

为方便应用,可以构造两个事件的出现频次表(见表4-7)。假设:

X代表事件A,Y代表事件B;

a代表xi和yj共同出现的频次;

b代表xi出现而yj不出现(即yj′)的出现频次;

c代表xi不出现(即)而yj出现的出现频次;

d代表xi不出现(即XI′)和yj不出现(即yj′)的出现频次;

a+b=Yj在样本中的出现频次,c+d=Xi在样本中出现的频次。

表4-7 两个事件的出现频次表

img75

则IM(xi,yj)定义为:

img76

IM(xi,yj)可理解为xi和yj之间的关联程度。IM(xi,yj)值越大,二者的关联程度就越大,其值反映了xi和yj两个联合事件的出现可能性大小。

假设在YBK1中,总样本量为181023,设X代表事件分类号,Y代表事件标引词,标引词“金融”的出现频次为80,分类号“F83”的出现频次为300,分类号“F83”和标引词“金融”同时出现的频次为30,则标引词“金融”和分类号“F83”的互信息量(IM)为5.42。

img77

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈