首页 百科知识 理工科博士升学意愿的分析方法

理工科博士升学意愿的分析方法

时间:2023-07-13 百科知识 版权反馈
【摘要】:一、数据与样本(一)数据来源本研究的资料有两方面的来源。“R&D汇编”有不同学科的R&D统计,也有按行业分别进行的R&D统计。匹配当中,一些专业没有对应学科的R&D统计口径,本研究分别采取了两种处理方式。留学意愿的形成可能与海外科技劳动力市场收益及教育成本有关,而本研究较难获得这一资料。

一、数据与样本

(一)数据来源

本研究的资料有两方面的来源。用于分析的数据主要来自2008年由北京大学教育学院所开展的《首都高等教育质量与学生发展状况调查》(简称“首都学生调查”)的研究生样本。该调查是对北京高校研究生进行的独立调查,问卷考察了研究生教育入学机会、升学选择、日常收支与学生资助、学习投入和学业发展、教学生活服务评价、学业成就与能力素质等多方面的问题。本研究的分析样本包含了理学、工学、农学和医学四类研究生。

研究资料的第二个来源是2009年国家统计局展开的《第二次全国R&D资源清查资料汇编》(简称“R&D汇编”)。该汇编的调查对象是国民经济中R&D活动相对密集行业的法人单位,涉及的范围包括:农、林、牧、渔业,采矿业,制造业,电力、燃气及水的生产和供应业,建筑业,交通运输、仓储和邮政业,信息传输、计算器服务和软件业,金融业,租赁和商务服务业,科学研究、技术服务和地质勘查业,水利、环境和公共设施管理业,教育,卫生、社会保障和社会福利业,文化、体育和娱乐业等十四个行业。调查的内容包括:综合(主要指标情况)、R&D活动人员情况、R&D活动经费情况、R&D项目(课题)情况、R&D活动产出情况、研究机构情况等。调查涉及的“政府属研究机构”包括县以上政府部门属科学研究与技术开发机构、科学技术信息和文献机构,但不包括转制院所。“高等学校”包括全日制普通高等院校及附属医院。“工业企业”为年主营业务收入在500万元及以上的工业企业。

本研究将“R&D汇编”数据库中不同学科或行业R&D相关的统计与“首都学生调查”数据库的专业进行了对应(参见表4-1)。

表4-1 专业与学科/行业配对表

续表

续表

注:代表对应的R&D市场信息搜集来自行业统计资料。

“R&D汇编”有不同学科的R&D统计,也有按行业分别进行的R&D统计。由于学科与学生所在地专业分类基本一致,因此本研究主要将学科与学生所在专业进行配对,来反映可能对学生博士升学意愿产生影响的市场因素。一些基础学科,如数学、物理等领域的R&D资料来自政府部门及高校研究机构的R&D统计;一些应用性学科对应的行业数据则是对政府部门、高校及工业企业的R&D统计汇总计算而得。匹配当中,一些专业没有对应学科的R&D统计口径,本研究分别采取了两种处理方式。一种方法是参考相应专业的研究生培养计划,将其与一些行业相匹配,采用不同行业R&D的数据加以对应,这些专业包括:地质学、仪器科学与技术、建筑学、土木工程、地质资源与地质工程、石油与天然气工程、林业工程。另外,一些专业既无法找到对应学科的R&D统计,也没有对应行业的R&D统计,包括兵器科学与技术、农业工程、生物医学工程、生物工程、管理科学与工程以和设计学。这些专业除管理科学以外,所占比例不高,所以本研究将这些专业按照缺失值处理。专业与学科/行业配对情况参见表4-1。

(二)样本

2008年《首都高校学生发展调查》采取分层抽样的方法,分三步进行。第一步,课题组将北京高校分为“985”高校、“211”高校、一般本科院校和高职高专院校四类。从全部高校中共抽取样本高校54所,其中“985”高校9所,“211”高校17所,一般本科院校24所。其中部分一般本科院校没有或只有较小规模的研究生教育,因此没有进行研究生的调查,调查了研究生的高校共39所。第二步根据学科门类,将在校生分为文史哲类、政法经管类、工学类和理工农医类,在各高校分别抽取1—4个学科门类。第三步是根据在校生的学年分布进行抽样,调查组向每一个被选学校派送研究生问卷100—800份。各高校可以根据需要对调查问卷数量进行适当增减。调查总共包含了8117名有效样本。来自39所高校,其中“985”高校9所,“211”高校16所,普通高校14所。各校研究生问卷回收率平均为93%。在研究生样本中,硕士生占90.8%,博士生占9.2%,男性占46.5%,女性占53.5%。其中来自城市的生源比例为45.7%,其余54.3%来自县镇、农村地区。研究生样本中央属院校占82.2%,市属市管院校占17.8%。从样本的专业分布来看,约有14%的学生属于文史哲专业、29%属于经法教管专业、41%属于工学专业,其余17%属于理学、农学和医学专业。

根据OECD和欧盟统计局最狭义的概念界定,本研究选取了研究生样本当中理学、工学、农业科学和医学专业的研究生。研究只选择2007年入学的研究生样本,一是考虑到2008年入学样本缺失了硕士阶段的资助数据,二是考虑到2008年入学的研究生还处于硕士一年级,距离毕业还有1—2年时间,因此可能对市场及博士阶段财政信息掌握较有限。

在以上筛选条件基础上,本研究只选择了毕业后有意愿在国内就业及在国内读博的研究生群体,而剔除了那些有留学意愿、自我创业及不清楚毕业意愿的群体。原2007年入学的理工科研究生样本当中,约有64.8%的学生选择就业,10.1%的学生选择在国内读博,9.28%的学生选择出国留学,3.4%的学生选择自我创业,11.7%的学生不清楚,0.7%的学生选择其他。之所以剔除了有留学、创业意愿的样本,主要原因是这些毕业意愿对应的科技劳动力市场信息具有特殊性。留学意愿的形成可能与海外科技劳动力市场收益及教育成本有关,而本研究较难获得这一资料。创业学生毕业后可能从事企业管理,不一定从事R&D研发工作,其收益信息也难以通过统计资料获得。为了考察国内科技劳动力市场因素的影响,本研究剔除了这些留学、创业及不确定毕业意愿的样本。这样处理的好处主要是能够更加准确的估计科技劳动力市场相关因素对理工科研究生博士升学意愿的影响。最后,研究采用简单个案删除法,剔除有遗失变量的样本后用于本研究分析的样本共2398个。样本的基本特征见表4-2。

表4-2 样本特征描述表

理工科研究生样本当中,女性比例约为40.7%,男性为59.3%,男性比例略高于女性。学生所在高校类型当中,“985”高校学生比例最高,约占41.7%;“211”高校研究生占38.1%,一般普通高校学生比例为21.1%。虽然在我国,一般普通高校的数量较多,然而在研究生阶段,“985”和“211”类高校招生规模所占比例较高,2012年占总计划招生数的55%,因此样本中有较高比例的“985”、“211”高校学生也较为合理。从学生的学业成就指标看,有23.2%的学生排名在前10%,21.1%的学生有科研论文发表。从学生的家庭收入情况看,来自低收入家庭的学生比例较高,有近38%的学生家庭年收入低于1万元。

本章主要采取量化方法来考察理工科生的升读博士意愿,将使用描述性的统计了解研究相关的变量特征;利用相关分析对影响博士升学意愿的市场及财政因素进行初步探索;采用Probit回归方法考察市场因素对学生入学选择的影响;运用工具变量Probit模型来检验硕士阶段的资助对学生入学选择的作用。以下对变量和分析方法进行说明。

(三)主要变量

本章的因变量为学生的博士升学意愿,自变量包括学业成绩、个人及家庭的社会经济背景、外部性、人力资本的“低技能”和财政资助五方面,描述统计见表4-3。

表4-3 主要变量描述统计表

续表

1.学生博士升学意愿

本章中,学生博士升学意愿来自问卷当中以下问题:

•请问您在毕业之后,希望选择以下哪个发展方向?(限选一项)

(a)就业;(b)继续升学或深造;(c)留学;(d)自我创业;(e)还不清楚;(f)其他。

本研究中剔除了所有选择留学、自我创业、不清楚毕业选择和其他选择的样本,将该变量转化为二分变量。0代表就业,1代表继续升读博士学位。在2398名分析样本当中,有322名学生选择博士升学,占13.45%;2076名学生选择就业,占86.57%。

2.学业成绩

根据入学选择理论,学业成绩较好的学生一般具有更强的升学意愿。一般采用标准化的考试成绩能较客观准确地反映学生的学业成绩,然而问卷没有提供这一指标。本研究采用的替代指标,包括学生的学业成绩排名、科研发表情况及所就读的研究生高校层次,问题及其选项如下:

•您上一学年(2007年9月至2008年7月)的学业成绩情况:

(a)前10%之内 (b)11%—25% (c)26%—50% (d)51%—75% (e)后76%—100%。

•您读研期间是否在学术期刊或书籍中发表过论文?(a)否 (b)是

•您读研期间是否发表过研讨会论文?(a)否 (b)是

•目前就读的高校名称:________________________

由于本研究希望考察成绩最优秀的前10%学生在博士教育当中的选择,因此将学业成绩排名转化为二分变量,1代表成绩排名前10%,0代表其他。学生的科研发表也是一个二分变量,将有学术期刊、书籍或会议论文发表的学生赋值为1,其他为0。最后,将学生所在地高校分成了三类:0代表“985”高校,1代表“211”高校,2代表一般普通高校。“985”高校是获得了中央政府“985”及“211”工程专项拨款的高校,其经费较为充足,是我国综合质量最高的一批高校;“211”高校只获得了“211”专项拨款,这些高校一般在某些学科领域较为突出,是质量水平较高的一批学校。一般普通高校则主要依靠北京市政府的财政拨款,质量水平相对低于前两类高校。学生所在高校的质量水平可以一定程度上反映学生学业水平。样本中,有23.2%的学生在研究生阶段成绩排名前10%,21.1%的学生有科研成果发表。院校分布方面,41.7%的学生来自“985”高校,38.1%来自“211”高校,21.1%来自一般普通高校。

3.家庭社会经济背景

学生的社会经济背景指标通过性别及家庭社会经济背景两个指标来衡量,涉及问题如下:

•性别:(a)男 (b)女

•您父母的文化程度:父亲(请根据以下选项填入序号)

(a)不识字或识字很少 (b)小学 (c)初中 (d)高中 (e)中专、技校(f)大专 (g)本科 (h)研究生

•父亲的职业:

(a)国家机关、党群组织、企业、事业单位负责人 (b)专业技术人员 (c)办事人员和有关人员 (d)商业、服务业人员 (e)农、林、牧、渔、水利业生产人员 (f)生产、运输设备操作人员及有关人员 (g)新增职业(军人、个体、中层领导等) (h)不便分类的其他从业人员 (i)未就业

•您的家庭平均年收入(含奖金补贴等)为:

(a)5000元以下 (b)5000元至1万 (c)1万至2万 (d)2万至4万 (e)4万至6万 (f)6万至10万 (g)10万至20万 (h)20万以上

本研究对学生父亲的文化程度、职业类型及家庭平均年收入三个因子进行主成分因子分析,以方差最大正交旋转合成了个人的社会经济背景(SES)因子。性别变量采用二分变量,0为男性,1为女性。样本中,女性占40.7%。

4.外部性

本研究对外部性的衡量以学科为单位。根据定义,学生进行博士教育投资的外部性是指其教育投资收益当中不能被个人所获得,而使其他个人或组织受益的部分。阿罗(Arrow)对技术创新对经济发展的影响进行分析时指出,创新活动的外部性产生的一个主要原因是新知识和信息具有公共品属性,创新者可能无法全部获得新知识产生的社会收益(Social Benefits)。[1]各个学科发表的论文对相关学科领域而言具有公共品的特征,它可以使得学科内或整体经济领域受益,因而视为外部性的衡量指标。本研究采用2008年《中国科技统计年鉴》当中对各个学科在《科学引文索引》(Science Citation Index, SCI)、《科学技术会议录索引》(Indexto Scientific&Technical Proceedings, ISTP)以及《工程索引》(The Engineering Index,EI)中发表的论文数量作为衡量学科外部性的指标。分析样本中,平均发表论文数量为11827篇,其中理学类专业发表论文数量较多,平均19166篇,反映出基础学科相对应用学科有较多知识贡献。

由于外部性需要控制私人收益,因此本研究中加入了各个学科研发人员预期收入这一指标。它的原始资料来自《第二次全国R&D资源清查资料汇编》中对2008年各个行业和学科的研发劳务费、博士、硕士和本科及以下研发人员规模的统计。预期收入的计算为总劳务费除以该行业全部从事R&D人员的规模。平均研发人员的劳务费为78059元,标准偏差为46106。

5.科技人力资本投资的“低技能”均衡

“低技能”均衡是指R&D投入和人力资本投资同时维持在较低水平的状况。这一低水平均衡的发生机制可能是某行业当中初始的R&D规模较小,因而从事R&D活动的科技劳动力市场狭小或增长缓慢,从而私人进行科技人力资本投资后预期收益较低,从而不倾向在这种领域进行较长期的教育投资。本研究由于资料限制,虽然不能直接验证“低技能”均衡的存在,但可以考察“低技能”均衡发生的必要条件,即R&D劳动市场的低技能状况是否会减少学生的博士教育投资意愿。如果这一条件存在,则说明对应的学科领域发生“低技能”均衡的可能性较高。

本研究采用了两个指标衡量“低技能”。一是学科领域科技研发人员当中硕士对博士的相对比例,第一个指标可以反映一个学科R&D劳动力市场技术的高低,一般技术水准较高的领域,硕/博比例相对较低。然而,仅仅用这一指标来衡量博士升学选择当中的“低技能”均衡存在一个缺陷。因为学科领域本身的技术差异,一些理工科行业领域对R&D的需求并不高,比如建筑业,资金可能更多用于设计而非研发创新。这些领域因此也并不需要较多人才进行博士教育投资,维持较低的博士比例也不能说明它就是“低技能”均衡的领域。为了解决这一问题,本研究又加入了第二个反映“低技能”均衡的指标,是从事R&D博士相对硕士比例在2000—2008年期间的变化值。当控制了学科本身的R&D人员学历构成时,如果一些学科领域在过去博士比例增加较慢,理工科学生根据过去的博士劳动力需求预测未来博士教育投资收益不高,可能不倾向在这些领域进行科技人力资本的投资,从而造成这些领域未来高层次科技人才的增长放缓。由于这些学科领域与其他学科对高层次R&D人才的需求基本一致,如果存在博士教育投资意愿偏低的问题,可以认为这些领域满足“低技能”均衡的必要条件。

这两个指标的原始资料来自2008年和2000年两次《全国R&D资源清查资料汇编》对各个学科R&D人员博士规模和硕士规模的统计。描述性统计分析表明,全部学科领域硕士相对博士研发人员的比例为3.26,标准偏差为2.36。博/硕比例增加的均值为0.18,标准偏差为1.25。

6.财政资助

本研究所涉及的财政资助相关资料来自2008年《首都高等教育质量与学生发展状况调查》当中关于学生经济状况的问题。相关问题如下:

1)您在2007—2008学年(2007.9—2008.8)的主要经济来源合计元,其中(无则写0):

2)您在2007—2008学年的总支出合计元,其中(无则写0):

在缺失值处理方面,将所有未填资助金额的记为0。学费减免的缺失值则采用了其他变量替代的方法。首先,计算无缺失值的各个学校平均学费。其次,将所有学费减免缺失样本中,学业成绩排名前20%的样本挑选出来,并将这些样本的学费减免值替换为平均学费。这样处理是考虑到我国对研究生学费减免资助主要根据学生的成绩排名来分配,通常排名前20%的学生可以获得大部分的学费减免。其他缺失值的学费减免则记为0。

本研究中的奖学金包括研究生普通奖学金及学校提供的其他赠予型的奖助学金及学费减免,涵盖问题1)中第(2)、(6)、(15)、(17)以及问题2)中(3)。助理津贴则包括助教、助研和助管等自助形式的资助,涵盖问题1)中的(5)、(7)、(9)。总资助是将奖学金和助理津贴汇总计算而得。其描述性统计特征见表4-3。总资助平均约5958元,覆盖率平均81.4%;奖学金金额平均4600元,覆盖率平均68%;助理津贴平均1358元,覆盖率平均54%。

二、分析方法

(一)描述性统计方法

本研究将对影响理工科生博士升学意愿的各个因素进行描述分析,列出样本当中个人及家庭社会经济背景、科技研发市场相关因素及财政资助的均值、方差。其次,研究还将采用均值比较、方差分析、频数分析、相关分析等方法探讨各个不同的影响因素下,理工科研究生的博士升学差异性,并重点考察市场及财政因素与学生博士升学意愿之间的关系。

(二)Probit回归模型——入学选择的影响因素分析

通常对学生升学意愿的回归采用的是Logistic回归模型,[2]但本研究采取Probit回归方法分析理工科生博士升学意愿的影响因素。主要原因是考虑到对学生资助效果的分析会采用工具变量,通常采用的是IVProbit模型。为了与IVProbit模型有一定的对比,所以本研究采用Probit模型。回归模型设定如下:

其中yij表示专业j的学生i博士升学意愿的二分变量,1代表有博士升学,0代表没有博士升学意愿;yij*是yij的潜变量,当yij*大于0时,yij等于1;当yij*小于等于0时,yij等于0。潜变量yij*的条件概率服从正态分布。自变量包含以下三类:Xij代表学生个人及社会经济背景因素,包括学生的成绩排名,科研发表,所在高校的层次、家庭社会经济背景因子和学生的性别。Zij是学生i所在的专业j对应市场因素,包括研发平均收益、科研论文发表数量、专业对应行业的硕/博比例,2000—2008年博/硕比例增加;Aij是学生获得的资助金额,分析当中区分了总资助、奖学金以及助理津贴。

为了进一步了解市场因素及财政资助对社会经济背景较低,以及学业成就较高学生的影响,本研究将学生成绩以及家庭社会经济背景因子与市场因素犣及财政资助A分别进行交互。回归模型如下,犡1犻犼代表学生成绩或家庭社会经济背景变量。

(三)工具变量法——硕士生资助对学生入学选择的影响

对于硕士阶段的资助,如果直接放入模型(公式4.1)中可能存在内生性问题。内生性问题是指模型当中一个或多个解释变量与随机扰动项相关。它将使得参数的估计不能满足一致无偏的条件。产生内生性问题的原因有多方面,较常见的是由于变量遗失、测量误差和自选择(Self-selection)所导致的。[3]

本研究中,这三方面的因素都可能造成资助效果估计的偏差。首先,能力变量难以测量,可能造成估计的偏差。本研究缺乏标准化的考试成绩来衡量学生的能力,只能采用相对的成绩排名、科研发表、高校层次等因素来尽量控制学生的能力,但这些变量可能难以全面反映学生的能力。由于学生奖学金和助研津贴的分配并非随机,某些能力较高的学生可能获得的资助水平更高,而能力较高的学生可能毕业后有更多较好的就业机会,其博士升学意愿也较弱,这将造成资助效果被低估。其次,学生资助的衡量是根据学生自我汇报的金额,可能存在资助测量的误差。测量误差与模型误差相关,使得被解释变量与误差项的协方差小于零,从而可能造成资助效果被低估。[4]最后,学生的自选择性也可能造成估计的偏差。比如偏好经济独立的学生在资助获得方面更为积极主动,它们可能获得更高的资助,而这些学生毕业后可能希望尽快实现经济独立,而更不倾向读博。虽然本研究采用学生的家庭社会经济背景因素在一定程度与学生的经济独立偏好有关,然而研究生群体大部分为成年学生,因此即使家庭经济背景较好的学生也可能有较强的经济独立的偏好。这种情况下,资助的自选择性可能低估资助的效果。

由于以上内生性问题,简单采用Probit回归,可能低估学生资助对个人博士升学意愿的影响。本研究尝试采用工具变量来解决内生性问题。工具变量法需要寻找到随机解释变量的工具,用它和模型中其他变量一起可以得到一致无偏的估计结果。工具变量选择一般需要满足两个条件:一是工具变量必须与模型中的扰动项正交;二是工具变量必须与内生解释变量高度相关,否则会出现弱工具变量问题,导致估计量不一致。[5]

本研究选取了三个工具变量:第一个工具变量是学生所在高校平均学费。开始尝试研究生培养机制改革学校,通常有较高比例的自费研究生,学费水平相对较高。由于研究生的资助有一部分来自高校的学费收入,因此学费水平较高的高校也有相对较高的资助。然而高校的学费政策与学生能力、经济独立偏好等造成内生性的因素无关,可以认为与随机扰动项无关。第二个工具变量是学生对高校奖学金评定在公平性、透明性和对结果满意性的评价,三个评价问题都是5级满意度定序变量。研究将三个因素通过主成分分析合成了一个综合的“奖学金评价体系完善性”因子。这一因子值越高的学校,一般拥有更好的制度环境来支持更多的学生资助配置,因此学生获得的奖学金额也相对更高。这一因素反映的是机构的制度特征,它与影响博士升学意愿的学生能力、偏好等无关。第三个工具变量是学生自我评价的导师资金的充足性,该变量是一个5级定序变数。导师资金较充足的学生,通常可以获得更多的助理津贴。由于硕士生入学时通常研究方向未确定,导师分配可能是由院系决定。有部分学业动机较强的学生会提前与导师联系,但其选择标准也不一定是以课题经费为主要参考标准。因此可以认为导师资金的充足性与学生博士升学意的随机项之间没有直接的联系,但该因素对学生获得的助理津贴金额有直接的影响。

本研究采用工具变量Probit模型来考察资助对博士升学意愿的作用。考虑到学生资助存在一批为0的样本,具有截取数据(Censoring Data)的特征,因此采用伍德里奇(Wooldridge)所建议的三步来处理数据(参见公式4.3)。第一步以学生资助金额为因变量,以工具变量和其他所有外生变量为自变量进行Tobit回归。第二步,根据Tobit回归得到的方程,计算资助的估计值。第三步,以资助的估计值作为唯一的工具变量,采用Probit模型估计学生资助的效果。伍德里奇指出,该方法能够获得稳健的估计。[6]

[1] ARROWK J.(1962).Economic welfare and the allocation of resources for invention [M]//RICHARD R NELSON.The Rate and Direction of Inventive Activity.NJ:Princeton University Press,1962:609-626.

[2] MANSKI C F,WISE D.College choice in America[M].Cambridge:Harvard University Press,1983.

[3] ANGRISTJ D,KRUEGERA B.(2001).Instrumental variables and the search for identification:from supply and demand to natural experiments.The Journal of Economic Perspectives,2001,15(4):69-85.

[4] GRILICHES Z.Estimating the returns to schooling:some econometric problems[J]. Econometrica,1977,45(1):1-22.

[5] STAIGER D,STOCKJ H.Instrumental variables regression with weak instruments[J]. Econometrica,1997,65:557-586.

[6] WOOLDRIDGEJ M.(2002).Econometric Analysis of Cross Section and Panel Data. The MIT Press.

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈