首页 百科知识 模型方法介绍

模型方法介绍

时间:2023-07-22 百科知识 版权反馈
【摘要】:10.1.1 面板回归模型面板数据也称时间序列截面数据或混合数据,是指在时间序列上取多个截面,在这些截面上同时选取样本观测值所构成的样本数据。固定效应模型允许未观测到的个体影响与解释变量相关。但正交性并不影响固定效应模型的组内估计量的性质。在政策效果评估的研究中,实验处理或实验变项即指政策实施,受到新政策影响的样本即为处理组,否则为控制组。

10.1.1 面板回归模型

面板数据(Panel Data)也称时间序列截面数据或混合数据(Pooled Data),是指在时间序列上取多个截面,在这些截面上同时选取样本观测值所构成的样本数据。基于面板数据的回归模型称为面板数据模型。面板数据模型可以分为单方程面板数据模型和联立方程面板数据模型;也可以分为线性面板数据模型和非线性面板数据模型。

分析面板数据的基本框架是形如式(10-1)的回归模型:

其中,xit中有k个解释变量,不包括常数项;异质性或个体影响由表示,包含一个常数项和一组体现横截面个体影响但不随时间变化的变量;μit为随机项。

利用面板数据模型可以解决样本容量不足的问题,有助于正确地分析经济变量之间的关系,可以估计某些难以度量的因素对被解释变量的影响。

1)混合模型

混合模型假设常数项和斜率不随时间和个体而变化,模型设定形式如下:

混合模型假设所有横截面个体在各个不同时期的斜率和截距不变,这样就可以直接把面板数据混合在一起,用OLS估计参数,得到一致和有效的估计结果。由于混合回归模型假设解释变量对被解释变量的影响与横截面个体及时间无关,这在实际数据样本中很难成立,故该模型使用较少。

2)固定效应模型

如果zi不可观测,但与xit相关,由于遗漏了相关变量,β的OLS估计量是有偏和不一致的。在这种情况下,式(10-3)包含了所有可观测的影响,并且设定了一个可估计的条件均值,这就是固定效应模型。

其中固定效应模型将αi视为回归模型中每一个体各自不同的常数项。从模型的设定可知,固定效应模型假设允许不同的横截面个体截距不同,但每一个体的截距在各个不同时期则保持不变。

如果对不同横截面个体的差异感兴趣,可以用F检验来检验每个横截面个体的常数项是否都相等,即假设α12=…=αn,检验的F统计量为:

R2R为受约束模型(即混合模型)的决定系数;RSSR受约束模型的残差平方和,RSS为最小二乘虚拟变量模型的残差平方和。在给定的显著性水平下,如果拒绝了原假设,则将模型设定为固定效应模型;如果接受原假设,则模型设定为混合模型。

固定效应模型可分为三类:①不变系数模型在横截面上无个体影响、无结构变化,可将模型简单地视为横截面数据堆积的模型,只要随机扰动项服从经典基本假设条件,就可以采用OLS法进行估计,该模型也称为混合模型。②变截距模型在横截面上存在个体影响,不存在结构性变化,即解释变量的结构参数在不同横截面上是相同的,不同的只是截距项,个体影响可以用截距项的差别来说明,故通常把它称为变截距模型。③变系数模型在横截面上存在个体影响,又存在结构变化,即在允许个体影响由变化的截距项来说明的同时,还允许系数随个体成员的不同而变化,用以说明个体成员之间的结构变化,故通常称为变系数模型。

3)随机效应模型

如果未观测到的个体异质性可以被假定与包括在模型中的变量无关,则模型可设定为:

式(10-5)称为随机效应模型,εi是一个反映横截面个体影响的随机元素。这是一个带复合扰动项的线性回归模型,可用OLS法估计,得到一致但非有效的估计量,需采用广义最小二乘法(GLS)进行估计。

固定效应模型和随机效应模型的关键区别是未观测到的个体影响是否包含与模型中解释变量相关的元素,而不在于这些影响是否随机。固定效应模型允许未观测到的个体影响与解释变量相关。如果个体影响与解释变量严格不相关,那么在模型中将个体的常数项设定为跨横截面单元随机分布,是比较恰当的。如果横截面个体是随机地被选择出来以代表一个较大的总体,则采用随机效应模型比较合适。随机效应模型与固定效应模型一样,通过允许截距变动来处理横截面个体之间的差异,但截距变动的量是随机的。采用随机效应模型的好处是它大大减少了要估计的参数,但是,如果关于随机常数项的假设不恰当的话,得到的估计值可能不一致。

4)豪斯曼检验

豪斯曼检验(Hausman Test)的思路是,在随机效应模型中,如果E{xitεi}≠0,即随机效应与解释变量之间没有正交性,则GLS估计量是有偏和非一致的。但正交性并不影响固定效应模型的组内估计量的性质。于是,通过检验模型误差项与解释变量的正交性就可解决面板数据模型的设定问题,如果模型误差项与解释变量之间是正交的,即GLS估计量是无偏的,则应将模型设为随机效应模型,否则设为固定效应模型。其原假设与备择假设分别为:

H0i与Xit不相关

H1i与Xit相关

检验统计量为:

其中,

k为解释变量的个数,如果拒绝原假设H0时,模型设定为固定效应模型,否则,模型应设定为随机效应模型。

10.1.2 双重差分模型

1)双重差分法

双重差分法的理论框架建立在“自然实验(Natural Experiment)”基础上,没有自然实验,所谓的“双重差分法”研究只能称作针对两个虚拟变量交叉相乘项的实证研究。要进行自然实验,首先要进行随机或近似于随机的样本分组。第一组是进行了“实验处理”的处理组(Treated Group),第二组是不实施实验变项的控制组(Control Group)。在政策效果评估的研究中,实验处理或实验变项即指政策实施,受到新政策影响的样本即为处理组,否则为控制组。假设样本的分组虚拟变量为treated,处理组treated=1,表明该组样本受到了政策冲击;控制组treated=0,表明该组样本没有受到政策冲击。假设时间虚拟变量为post,实验处理前post=0;实验处理后post=1,表明政策冲击已发生。时间虚拟变量post与分组虚拟变量treated乘积即为双重差分估计量post*treated (Difference-in-Difference Estimator),是实验处理(政策实施)对实验因变项(被解释变量)的影响是否显著的判别依据。双重差分计量模型一般可表达为

yi,t01posti2treatedi3postt*treatedi+λXi,ti,t (107)

其中,yi,t为第i个个体的被解释变量,Xi,t为考察个体差异的控制变量,εi,t为随机扰动项,β0、β1、β2、β3和λ是回归系数。β3是研究者关注的政策效应。

2)倾向得分匹配法

倾向得分匹配(Propensity Score Matching,简称PSM)使用非实验数据或观测数据进行干预效应分析,是非随机化研究中控制偏倚的一种新的统计方法。具有研究步骤标准化程度高、易于理解等优点,近年来备受研究者的关注,被广泛应用于各领域的非随机化研究中。随机实验能保证处理组和控制组之间的数据平衡。而对于非随机实验,往往由于缺乏随机性,而导致处理组和控制组不仅仅在干预统计量上存在不同,还在第三方变量X上存在区别。这时,我们必须要考虑到这些区别以防止出现潜在偏倚。这时就要采用匹配的方式进行干预效应分析。匹配的目的在于确保干预效应估计是建立在可比个体之间的不同结果的基础上。最简单的匹配方式是将处理组和控制组中第三方变量X的值相同的两个个体进行配对分析。但是,如果X并不是某一个变量,而是一组变量时,最终简单的匹配方式也就不再适用,而是采用倾向得分匹配方式进行匹配。

倾向得分的概念最早由Rosenbaum和Rubin(1983)提出,定义为个体在其特定的属性下接受某种干预的可能性。倾向得分匹配法制造了一个“准随机”试验,在试验中,只需有两个倾向得分相同的试验对象,其中一个在处理组,而另一个在控制组,可以认为处理可能性相同的两个试验对象被随机地分到了处理组与控制组。倾向得分是所有协变量的一个函数。倾向得分匹配法可以将多个协变量共同作用的结果表示出来,即将多个协变量变成一个变量,实质就是“降维”,通过调整处理组和控制组之间的协变量均衡性来控制选择性偏倚。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈