贝叶斯定理是英国学者贝叶斯于1763年提出的。
从本质上来讲,贝叶斯定理是对于随机事件A和事件B的条件概率的定理,属于条件概率推理问题。与经典概率不同的是,经典概率反应的是事物的物理属性,而贝叶斯是一种主观概率,反应的是人们事物发生概率的主观估计。
贝叶斯的基本理论如下:
假设随机事件A和B发生的概率分别是P(A)和P(B),在事件A和事件B相互独立的情况下,P(AB)=P(A)P(B);在事件A和事件B不独立的情况下,P(AB)=P(A)P(B|A)=P(B)P(A|B)。在事件A和事件B不独立的情况下,贝叶斯公式如下:
其中,P(A)指的是先验概率,P(A|B)指的是后验概率,P(B|A)指的是条件概率,也就是似然函数。需要说明的是,A为离散的分类型变量,可能取值有k个。
贝叶斯网络是劳瑞茨恩和斯皮吉尔霍特尔于20世纪80年代提出,通过图的方式,直观地展现事物之间的因果联系,进而有利于对相关的问题进行分类预测。
贝叶斯分类方法主要包括三种:①朴素贝叶斯;②TAN贝叶斯;③马尔可夫毯。
朴素贝叶斯(Naive Bayesian,NB):指的是学习和归纳训练样本集输入变量和目标变量之间的规律,结合现实对新数据的目标变量进行分类预测。需要说明的是,朴素贝叶斯的假设条件是输入变量相互独立。同时,由于该理论的中的独立性假设,导致朴素贝叶斯存在一个很大的缺点,那就是偏差很高。
TAN贝叶斯(Tree Augmented Naive Bayes):该模型通过在叶节点之间增加边,也就是每个叶节点最多可以有一条边,很好地解决了朴素贝叶斯由于独立假设而引起的偏差问题。TAN贝叶斯仍然存在这样子的问题,具体表现在其对目标变量的预测是基于所有的输入变量,而实际情况表明,并非所有的输入变量对目标的预测都有贡献,导致对部分问题预测效果不佳[9]。
马尔可夫毯:该模型在运算的过程中,通过寻找对目标变量有显著影响的输入变量,进而只是根据这些变量进行预测。马尔可夫毯与朴素贝叶斯和TAN贝叶斯不同具体体现在以下地方:马尔可夫毯不再要求目标变量作为所有输入变量的父节点,同时,也不再要求目标变量一定是根节点,它的上层可以允许存在根节点。简言之,马尔可夫毯的输入变量和目标变量地位完全相同。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。