首页 百科知识 大数据与社会科学量化研究

大数据与社会科学量化研究

时间:2023-03-27 百科知识 版权反馈
【摘要】:大数据研究将重构社会科学研究的方法论基础,对社会科学研究的未来发展形成重大影响,特别是将融合定性定量研究,为已有量化研究提供精准的数据支撑和全新的视角。美国哈佛大学定量社会科学研究院教授Gary King认为在过去十年间,社会科学量化研究对世界产生了史无前例的影响,主要原因在于社会科学对与“人相关的大数据的拥抱”。
大数据与社会科学量化研究_实证社会科学.第三卷

米加宁 李大宇 章昌平 林 涛*

* 米加宁,哈尔滨工业大学管理学院教授;李大宇,哈尔滨商业大学财政与公共管理学院讲师;章昌平,桂林理工大学人文社会科学学院副教授;林涛,哈尔滨工业大学高等教育研究所/发展战略研究中心讲师。

摘 要:社会科学量化研究从诞生至今,经历了实证主义的因果关系解决方案、非线性问题线性化的解决方案和基于主体的复杂系统建模解决方案。这些研究方案与大数据研究一同处于从通则论到个体论的连续统中,但上述既有社会科学量化研究方案存在生态谬误、内生性问题、偶然性因素及数据短板等缺陷。大数据研究将重构社会科学研究的方法论基础,对社会科学研究的未来发展形成重大影响,特别是将融合定性定量研究,为已有量化研究提供精准的数据支撑和全新的视角。大数据研究的发展急需解决数据的可及性问题,需由国家主导,有计划、分层次地构建有中国特色的大数据开放服务产业。

关键词:大数据;社会科学;量化研究;研究方法

社会科学从诞生至今始终没有作为一门严格的科学而得到大家的公认,其中最主要的原因就是社会科学缺少精确的量化描述(陶远华,1989)。当然,现有的社会科学实证量化研究在数学表达上日趋精审,但与真实世界的契合度有限。“一门科学只有在成功地运用数学时,才算达到了真正完善的地步”(拉法格,1941),照此标准,社会科学运用数学进行量化研究的程度远远没有达到完善的地步。社会科学“学术思想和研究的演变过程受到特定历史条件下研究方法和分析手段的深刻影响”(克鲁格曼,2000),其量化方法整体上还处在“相当初期和极其混乱的发展阶段”和“描写性、会诊性和学术性状态”(约翰·奇曼,1985;贝尔纳,2003)。近年来,随着混合研究方法以及信息化带来的社会测量水平的不断提升,社会科学研究的这种状况似乎迎来了改变的契机。美国哈佛大学定量社会科学研究院教授Gary King认为在过去十年间,社会科学量化研究对世界产生了史无前例的影响,主要原因在于社会科学对与“人相关的大数据的拥抱”。社会科学正“处于一个历史性变革”之中,“从用少量数据集的辅助研究,转向对数量不断扩大的各种高信息含量数据进行研究”是其重要表现之一,这将促使“大部分人文社会科学走向具有自然科学的特征”(Tony,Stewart and Kristin,2009)。这是继Jim Gray2007年在自然科学研究领域提出基于数据密集型科学研究范式之后,在社会科学研究领域对大数据将会带来革命性变革的预言。随着信息化不断深入发展,社会各领域将源源不断地产生信息,这不仅造成数据量的激增,也将同时产生“理解个体、群体、社会如何思考和行为的方法上的显著进步”(King,2014)。国内外学者都认为大数据的到来必然会对传统社会科学的研究方式产生巨大冲击(刘林平,蒋和超,2016),大数据研究不仅能够弥补长期以来人们对社会科学产出不足的诟病,而且还将推进社会科学自17世纪诞生以来对“科学”孜孜以求的探索,这无疑使社会科学研究迎来前所未有的机遇。

一、社会科学量化研究的三个解决方案

社会科学量化研究发展最早可以追溯到古希腊哲学家柏拉图基于“二值原则”区分知识真假性问题的“类型逻辑思维”,以及亚里士多德“四因说”中“质料因”、“动力因”等有关量化研究方法论及因果关系的哲学思想,这些原初思想是社会科学量化研究的哲学启蒙,“在希腊多种多样的形式中,差不多可以找到以后各种观点的胚胎、萌芽”(中共中央马克思恩格斯列宁斯大林著作编译局,1972)。17世纪下半叶开始,研究者们为改善社会管理水平开始转向对社会现象的量化研究,统计学创立并应用到古典政治经济学研究中。从此以后的300余年,量化研究在社会科学创立和发展过程中发挥了巨大的作用。通过量化研究,政治学、经济学等诸多传统社会科学学科获得了新的发展空间,特别是社会学得以创立并不断深化,社会科学学科分支逐步细化和延伸,学科理论不断深化,与社会实践的结合也更为紧密。直到近50年以来,包括社会学、经济学、政治学、管理学、教育学、人口学在内的社会科学总体向更为严格的科学主义取向、更为专业的方向发展,这在相当程度上是以统计学的广泛运用和量化研究为基础的。通过对社会科学量化研究方法的梳理,我们按照历史发展序列将其总结为三个解决方案:实证主义因果关系的解决方案、非线性问题线性化的解决方案和基于主体的复杂系统建模解决方案(详见图1)。

图1 社会科学量化研究的三个解决方案

(一)实证主义的因果关系解决方案

实证主义的因果关系解决方案的哲学基础是实证主义、逻辑实证主义和操作实证主义。基本脉络分为三个部分:一是假设检验成为主要量化研究方法论,在哲学基础上建立了以孔德、维特根斯坦为代表的经典实证主义与逻辑实证主义,进化论补充总体逻辑思维;二是在方法上,概率论引入社会科学研究,并与高尔登提出的生物统计学相关分析和回归方法结合,进一步发展成为一般统计方法,t检验、区间估值、方差分析等小样本统计理论和推论统计学得到了应用,如涂尔干的《自杀论》展现了“一个兼有正确性和精确性特征的经验性实证科学”(郭大水,2007);三是操作上,与实用主义相结合,提出了操作主义测量理论、实验设计原理,特别是统计技术和工具的不断改善促进了调查革命。这些进展使该解决方案在20世纪40—50年代推出一系列教科书和重要研究成果后,达到了鼎盛时期,成为社会科学量化研究的主流取向。

从孔德开始,实证主义的因果关系解决方案认为社会科学与自然科学性质一样,都是寻找和建立普遍规律(刘放桐,2000),主张以科学的经验研究排斥形而上学的思辨和臆测(吴晓刚,2014)。在研究中坚持归纳主义和价值中立,主张方法论的个体主义(认为社会现象均可还原为个人行为的合力),对经验的检验不依赖于主观的感觉,而是逻辑的检验(沃野,2005)。其基本研究路径是“提出假设—验证假设”,遵循“观察社会现象—发现研究问题—收集有关个体的个性资料和数据—进行统计和分析—发现共性的、普遍的规律”的研究理路。

20世纪20年代以来,随着自然科学研究的不断发展,机械决定论产生了动摇,经典自然科学中自然定律时间反演对称和“世界处于封闭的、唯一决定的因果链条中”被物理学、化学和生命科学的系列新发现打破了。对系统的综合研究重新开始重视集群效应和相互作用、整体结构和功能,在还原论指导下的学科划分重新走向综合,边缘学科、交叉学科纷纷出现。二战以后在数学和计算机科学上的突破也对社会科学量化研究的第一方案产生冲击。再加上基于科学实证主义的哲学基础开始动摇,这一方案在20世纪60年代以后逐渐受到质疑,随着定性研究方法和混合方法的兴起,实证主义因果分析研究不再是社会科学量化研究的唯一取向。

(二)非线性问题线性化的解决方案

非线性问题线性化的解决方案以系统动力学为代表,是在系统论、控制论、信息论、决策理论和计算机模拟技术基础上(李旭,2009),对复杂巨系统开展“定性到定量综合集成”研究的方法(钱学森,2005)。这一解决方案的方法论基础来自微分方程的数学原理,其广泛应用则依赖计算机技术在数学建模中的实现。在社会科学研究中,由于社会经济系统的非线性因素作用,高阶次复杂时变系统往往表现出反直观的、千姿百态的动态特征。系统动力学运用系统结构决定系统功能的原理,从系统的整体出发研究系统内部要素之间的因果关系及反馈环的动态行为特征,应用计算机模拟技术求得系统的宏观行为,建立各要素及其相互作用的流图与模拟模型,实施不同的政策调控,从而寻求解决问题的途径,实现系统的优化控制(张波、袁永根,2010)。其基本思路主要是将复杂的非线性问题转化成为大型差分方程系统(多阶微分方程),以趋势外推为研究方法,模拟变量随时间变化的轨迹,从而达到预测的目标。1972年,罗马俱乐部利用系统动力学方法建立的世界模型“WorldⅢ”,研究了世界范围内的人口、资源、工业、农业和污染等诸多因素的相互联系、制约和作用以及产生的后果的各种可能,提交了著名的《增长的极限》报告,对人类社会指数式增长的势头提出了悲观的结论,并提出达到世界平衡和稳定发展的决定性条件(Meadows and Rander,1972)。虽然该模型引发了激烈争论,但也证明了系统动力学在社会经济系统领域研究的可行性。罗马俱乐部把系统动力学模型推向了一个高峰,但模型预测的状况未能在真实世界出现,这也暴露出了系统动力学模型的内在缺陷,即模型不能随环境的变化而进化。20世纪90年代后,系统动力学方法被用于社会经济复杂系统研究,国家系统动力学、城市系统动力学、社会系统动力学得到不断发展和推广,为我们分析和研究这些复杂的巨系统提供了一种结构化的思考方法、有效的交流工具和“政策实验室”。

(三)基于主体的复杂系统建模解决方案

基于主体的复杂系统建模解决方案主要基于复杂适应性系统(CAS)理论,该理论由美国圣塔·菲研究所的Holand提出,同时他也提出了研究CAS系统的建模技术,即采用基于主体建模(Agent-Based Modeling,ABM)方法对社会经济系统进行仿真。CAS理论中最基本的组成元素是具有自主适应能力个体,简称主体,这种主体在与环境的交互作用中遵循一般的刺激—反应模型,所谓适应能力表现在它能够根据行为的效果修改自己的行为规则,以便更好地在客观环境中生存。由这样的主体组成的系统,将在主体之间以及主体与环境的相互作用中发展,表现出宏观系统中的分化、涌现等种种复杂的演化过程。ABM建模方法采用“多主体建模”和“非中心化思想”,借鉴非线性动力学和人工智能领域的技术,从社会科学研究的个体对象出发,采取自下而上的建模策略,通过对主体行为的刻画实现自下而上的宏观涌现。与系统动力学相比,ABM无法定义系统的整体行为,建模人员对各层级主体的行为进行单独界定,全局状态是由个体与个体之间、个体与环境之间互动作用的涌现结果,实现了从微观层次的主体行为到宏观涌现现象的过程。

二、社会科学量化研究的层次

(一)社会科学认识论的连续统

有文献在论述早期社会科学认识论的连续统时认为“社会科学关于社会知识的获取途径一直存在理性主义和经验主义之争”。理性主义的观点源于柏拉图,他在形式和理念中寻求确定性,并倡导确定性知识,主张通过先验推理来获得真理知识。而与柏拉图不同的是,亚里士多德虽然也强调确定性,却把感官所触及世界作为一种实在,并且不赞同柏拉图通过演绎性论证来获得知识。这种差异影响了文艺复兴时期科学的哲学思想及以后的社会科学研究。培根在建立实验科学时批判经验哲学,认为知识来自感性世界,感觉经验是一切知识的源泉。而笛卡尔则推崇演绎和先验推理,是唯理论者。此后,休谟提倡科学自然主义(彻底经验主义),认为世界的复杂程度远超个人有限的经验能力,因此导致超越个人实践水平的任何陈述都不确定。波普尔提出证伪主义,认为经验科学无法归纳验证,但演绎可以通过基本观测进行反驳,即可以证伪。19世纪,孔德和涂尔干认为,社会科学应抛弃所有形而上的思辨观念,遵循自然科学的实证主义,探寻社会领域的规律。马克斯·韦伯认为社会科学是社会行动的科学,价值存在于个案、经验细节和历史知识当中。在经济学领域,施穆勒和门格尔的历史学派与理论经济学的历史实践科学和理论科学之争也体现了这一分歧。

以定律、数学为基础的自然科学与历史学之间的差异也引起了康德和文德尔班的兴趣。康德不满于休谟的怀疑主义,在其《纯粹理性批判》中试图重新树立确定性知识的权威,他认为不是物在影响人,而是人在影响物,人在构造现实世界。康德认为人具有通过时空和因果性感知获得普遍知识的能力,但人类理性无法获得物自体的知识。他试图在两种对立的立场中寻求整合解决方案。他对自然科学知识和历史知识的看法也反映了这一思想,认为理性主义方法可以发现用以解释现象的必然和普遍有效的法则,但历史主义则因缺乏科学知识客体的必要性和一般有效性而不符合科学知识的标准。文德尔班和李凯尔特则建立了通则论和个体论术语。前者指自然科学知识,是寻找普遍规律和制定法则的;后者指历史知识,是个体主义的和描述性的。同时,文德尔班还认识到通则论和个体论的差异并非产生于客体的不同,而是认知目的和科学兴趣。至此,根据韦伯理想类型的概念形成方法,可将社会科学的认识论方法以在连续统中表示如图2。

图2 早期社会科学认识论方法的连续统

从这个角度来讲,以统计回归方法为主的实证主义因果关系解决方案通过简单因果链条解释和理解社会效果,并且倾向于从整体上解释社会,是对现实世界趋于通则化的解释和理解;以系统动力学方法为代表的非线性问题线性化解决方案则在对社会结构进行划分的基础上,用函数关系组成的反馈回路、流等来模拟社会结果,实现社会作用机理的宏观模拟;以基于主体建模的仿真方法为代表的第三方案则是通过封装主体规则仿真主体行为,通过多主体的内生互动,实现了自下而上的社会现象的宏观涌现。这三种社会系统仿真方法处于社会科学研究方法连续统的内部,其立场体现了由通则论向个体论的过渡(从整体解释到结构划分再到基于主体仿真,从系统的定性或定量分析一般规律到社会计算实验或对个体、个案的观察),如图3所示。

图3 社会科学量化研究方案的连续统

(二)社会科学量化研究的层次

在社会科学研究领域,按照因变量(Y)和自变量(X)所在的社会结构层次,可以将社会科学量化研究划分为四层:①自变量和因变量都处于宏观群体层次,从群体行为到群体结果的观察Yd=f(Xa);②自变量和因变量都处于微观个体层次,从微观个体行为到微观个体结果Yc=f(Xb);③自变量处于宏观群体层次和因变量处在微观个体层次,可以称之为社会化过程Yb=f(Xa);④自变量处于微观个体层次,因变量处于宏观群体层次,可以称之为涌现过程Zd=f(Xb,Yc)(陈云松,张亮亮,闵尊涛等,2016)。

这种社会科学量化研究的层次划分实际上来源于科尔曼从20世纪70年代开始建立的社会行动理论模型(Coleman,1986)。科尔曼的社会行动理论模型(见图4)重点在于解析宏观现象D的形成过程,解析的重点是个体的行为取向B(包括愿望、信念和机遇等)以及由行为取向引致的个体行为C,因此要分析宏观现象A与个体行为取向B之间的因果链条;然后解析个体的这些行为取向与其他个体和宏观环境之间的作用机制,即个体行为C的生成机制,明晰个体的行为规则,这些规则将表现为基于主体的模型中的主体行为,进而涌现出政策结果D(见图4箭头CD)。科尔曼的社会行动理论模型是宏观现象A和D间的微观分析,是对从宏观现象到微观行为再到宏观现象的“影响—作用—涌现”机制的解析,在方法论上主张个人主义,排斥整体主义,是社会行动理论的来源之一。

图4 社会科学量化研究的层次——基于科尔曼的社会行动理论模型

我们将上面社会科学量化研究的四种层次划分放到科尔曼的社会行动理论模型中,可以看出其与社会科学量化研究连续统的层次划分是对应的:Yb=f(Xa)和Yc=f(Xb)对应的是追寻宏观群体或微观个人层次规律性的认识,属于连续统中靠近通则论的方法,可以使用第一套量化方案,利用统计回归即能较好地解决这一问题,这也是目前社会科学量化研究的主流研究范式(如经济学),已有较为成熟的模型;Yd=f(Xa)则需要观察宏观群体行为到宏观群体的结果,类似于结构与功能的关系,需要采用系统动力学的方法,但并非在所有社会科学领域都是如此,在经济学研究中,可以使用统计回归等宏观经济计量模型研究该类问题;Zd=f(Xb,Yc)实现的是主体行为取向和主体行为对宏观系统的涌现结果,在社会科学中一直属于量化研究的难点, CAS和ABM方法是目前的主要解决方案,此外也可以通过社会计算实验或平行系统数据测算解决该类问题。

三、社会科学量化研究存在的问题

在目前的三个社会科学量化研究方案中,主要存在的问题如下:

(1)生态谬误,主要由于社会科学量化研究中群体层次的数据不能用于推断个体行为。这导致了在量化研究,特别是第一量化研究解决方案进入操作化阶段后,往往开展微观数据的调查,而在宏观层面的定量分析停止不前,导致了一些重大、经典理论问题难以得到实证检验。这也是对量化研究科学主义泛化进行批判的主要依据,认为一味推崇量化研究而忽视了总体经验或者个人感受的总结,量化研究往往在现有理论的基础上提出假设,收集数据进行验证,而无法对理论的发展做出贡献。同时,对量化研究的过度推崇,为追求学术的新颖性,而随意“借用”数学或统计学模型,对模型的使用条件不做具体分析,变量之间的关系也不作判断,结果就会出现经过复杂的数据分析仅仅证明了一个定性研究的基本常识,或者把两个没有关系的变量强制扯上关系的“拉郎配”现象。导致量化研究与社会现实之间常有脱节。美国社会科学家邓肯曾批评这一现象:“我们常常会看到一种我称之为‘统计学主义’的病症:即认为计算就是做研究的同义词,那种认为统计学是科学方法论的完整的充分的基础的天真想法,那种迷信统计公式可以帮我们评估各种不同理论的相对优点,或一个原因的重要性。”更深层次的原因在于,由于社会科学的统计单元(即作为自适应主体的个人)不具有同质性,信息条件的制约也使统计场景的设定不能做到穷尽所有重要的不确定性,这就在某种意义上导致社会科学“统计学主义”基础的脆弱性。

(2)量化研究第一解决方案中的内生性问题。由于社会系统的复杂性,变量之间的关系也往往十分复杂,这反映在变量层次难以划分,同一层次变量之间相互关联,以及从底层到顶层变量的涌现,这导致统计回归的方法十分不可靠,让人质疑是在用简单的数量关系来解决复杂的社会问题。邓肯认为解决这一问题有两条可能的途径:一是提高社会测量的水平,二是强调对社会过程的概念化,以及在研究设计中体现出这种概念化的社会过程。也有学者认为更高级的计量模型可以解决这一问题。但就目前来看,并没有取得足够的突破,加上社会系统描述的模糊性和社会关系的测不准问题,更使得“对于一些基本上是模糊的量,如果给以任何意味着准确的数值的内容,那是既无用处,也是不老实的,而任何想把精确的公式应用于这些不精确定义的量的企图,都只是胡闹和浪费时间”。同时,邓肯所说的第一条途径,如果不改变抽样调查方法的话,随着社会复杂程度不断加深,定量研究的成本也是难以承受的。

(3)后两个量化解决方案的问题。系统动力学排除了偶然性因素的影响,这种排除过程是不可控的、前操作化阶段的,如果一旦出现排除的偶然性因素是对系统功能做出重要贡献的要素(或是随着时间的发展,其作用会越来越大或发生作用性质的改变),则仿真的效果就会出现偏差。这也是罗马俱乐部世界三模型引起争议,与真实世界产生偏差的原因。20世纪90年代,罗马俱乐部重新调整了世界模型,并重新发布报告《超越增长的极限》,对其量化过程进行修正。而基于主体建模的仿真方法则受到个体行为取向与环境数据短板的影响,这种数据短板表现在两个方面,一是主体行为数据往往来源于主动采集,所以存在回答数据与真实主体行为取向的偏误;二是仿真环境数据往往来源于二次统计加工数据,无法保证数据质量。这两方面的数据短板直接导致封装在模型中数据的有效性问题,这也是基于主体建模仿真方法有效性受到诟病的根源所在。

四、大数据与社会科学量化研究方法

(一)大数据的方法论含义

事实上,以孔德实证主义和马克思唯物主义为分界,西方现代哲学已经很少关心本体等形而上学问题,而是转而专注于对现象的分析,用胡塞尔及其后继者的话来说,“现象即本质”。随着科学和技术的发展,在科学哲学领域,这种观念得到了压倒性的发展和继承。

但大数据时代社会科学研究能否像实证主义脱离形而上学那样再一次摆脱因果关系的束缚,取决于若干可能性。其一,大数据能否让我们看到社会物自体的全貌,至少是像马克斯·韦伯所认为的那样,能够让我们完整地看到与研究者的研究目的相对应的社会物自体的全貌(这一点我们深表怀疑,网络大数据是否能担此重任不仅与大数据技术有关,更重要的是社会相关的网络大数据对应的显示偏好类型的完整性及其话语体系的可用性)。萨缪尔森处理经济人行为的方式给我们的启示是用从网络大数据中提取社会人的显示社会偏好来替代社会行为,这些数据的可处理性以及能否完整呈现对象社会物自体首先决定了大数据能否在社会科学领域中超越因果关系。

其二,因果关系相当于对象结构判定的一部分,如果我们能够获得与研究目的相对应的完整的对象社会数据,我们能否在不使用先验的因果判断或结构判定的情况下实现社会建构(仿照先进的社会形态建构我们的社会形态吗?网络大数据如何能够提供完整的先进的社会形态,或者说未经结构分析我们怎么认识先进的社会形态,他们真的能够反映在网络大数据中吗?)。

其三,传统的社会科学都离不开基于因果关系的行为解析,这些行为的深度和广度都差异巨大,网络社会大数据能否替代对现实社会人或社会集团行为的深度和广度的观察?

其四,技术上如何解决网络大数据中社会数据的复杂性,包括异构性、数据格式、语义或行为解析、不确定性和涌现等。

尽管实证哲学从孔德开始与形而上学和神学分道扬镳,但后继者逐渐让我们看到沿着实证主义和形而上学传统以后的研究、社会实践和人类社会发展所遇到的前所未有的环境问题不仅没有使我们更加远离形而上学,反而让我们不断重新认识并更加靠近古典形而上学,特别是在经济学、政治学、社会学、法学等社会学科当中。在经济领域,哈耶克、弗里德曼和奥斯特罗姆继承了经济学的古典自由传统,孟德斯鸠以及清教传统的美国民主社会成功证明的政治哲学和实证哲学的法学,20世纪社会主义的失败、前所未有的环境灾难以及伊斯兰运动对基督教社会的挑战,20世纪和21世纪天体物理和粒子物理的新发现所提供的科学证明和对不确定性的反证,不断地提醒我们回到古典形而上学,回到休谟、康德、黑格尔,回到老子以及犹太教的古老教义。现在看来迪尔凯姆和马克斯·韦伯都没有错,世界和社会都遵循着一些基本的法则,而世界和社会也都处于运动发展的过程中。正如奥斯特罗姆所指,我们对成功实践的每一次深入剖析都将我们引向某些自然的决定力量。由此可见,大数据之前基于结构模型和因果的社会科学研究已经能够帮助我们开展相当深入而广泛的社会研究和社会建构,大数据能够在多大程度上突破上述若干限制和约束决定了大数据能够在多大程度上影响和颠覆社会科学研究的方法论范式。

当下,如果抛开上述普世的、宏大的社会科学研究和社会建构目的,抛开数据低效和对数据精度及充分性的过高要求,将社会建构和社会实践的范围缩小,并且将研究的目标放置于社会建构和社会实践中与自然物和工程相似的特定的连续的过程表象,而非对象社会的完整现象,例如有目的的社会群体行为的研究和监控,舆情的社会影响等等。网络社会大数据已经越来越多越深入地用于改进某些社会公共项目或社会公共过程。

我们认为以大数据为基础的数据科学的发展将重构社会科学研究的方法论基础,对社会科学研究的未来发展形成重大影响,并将因此重构国家间社会科学研究的竞争格局和国家间社会建构的能力格局。如果我们将大数据看作一项工程技术,在某些公共管理事务和商业过程中理解对象对于管理和运营就不是必要的,在类似的实践领域中,大数据技术为我们提供了管理和预测行为的工具,而不必理解社会现象背后的因果关系。

(二)本体论的延展

如果使用胡塞尔现象学对本体的概念性定义,现象即世界的本质,世界本体由无限延展的现象构成,而现象包括我、我思对象,以及从我到我思对象的过程“我思”。世界的本质在于现象的无限延展和运动变化过程。无论是在前方法论阶段还是在大数据和数据科学所开启的新方法论阶段,“我”因为都无法经由“我思”直接抵达表象之后全部无限延展的现象(世界本质),就都必须经由抽象结构对世界本质进行概念性判断并借由抽象的概念性世界结构进行建构操作(胡塞尔,1997)。

以科学和技术发展为依托的大数据和数据科学其特征在于通过直接抵达更多现象,从两个方向实现对世界的更广更深的认识,一个方向是以不断超越现有的方式直接抵达世界本质的直观显现,另一个方向是通过超大量级的数据反映出来的超维度现象奇点的相关性,反推世界直观背后的复杂结构,帮助人们不断修正抽象的结构模型,使其更加接近世界的自在本原或不确定本原。

大数据和数据科学让世界的变得更加透明,让我们更加接近世界的本质,大数据的本质依然是数据,但我思对象已不再是前方法论下的世界,因此世界不再是原来的世界。在新方法论的世界中,“我”与“我思对象”日益融合。在新的本体维度下,世界正在开启难以估量的本质多样性,使我和我思在广阔的维度上不断超越本我,重塑本我和我思,重塑我和我思相互交融的世界——对象社会。

从上述意义来说,大数据将在一个更为基本的层面改变我们的认识能够抵达的对象本体和本体深度,能够以大密度的数据将我们的对象从大粒度的抽象本体重新表述为更加精细直观而又不缺乏整体审视的对象本体,帮助我们建立了一种能够同时从微观和宏观两个视角同时观察对象本体的能力,是对从我到我思对象的双重加深。

大数据不仅作为科学和社会科学研究的基础性工具,更为重要的是它将传统认识能够抵达的对象社会孤立的数据流进行整合和连通,在科学家、决策者、专业工作人员和普罗大众之间建立集中共享的新的对象社会本体和环境图式,催生一个可供计算的对象社会本体(Thacker,Qualters and Lee,2012;Hesse,Moser and Riley,2015),它对创建一个一体化、有机的、速度更快、关联更紧密、响应更敏捷的可计算的社会体系提出了强烈的要求。

(三)方法论和认识论的转变

大数据和数据科学对社会科学研究将会带来深远的影响,这种影响深入方法论和认识论层面。首先,社会科学研究将从传统的“先验—经验—逻辑—理论—模型—数据—算法”单向度、单核心(迪尔凯姆、马克斯·韦伯、邓肯)的研究方法论和认识论发展出新的研究方法论和认识论形态。大数据研究前方法论阶段,人们通过建立结构模型和检验模型来达到对对象社会或群体行为的认识,而大数据最重要的贡献就是能够发现传统的人类评估所不能分析的数据集之间的相关关系,这些相关性能够引导我们分析数据集之间、与他人有关的个体之间、人类群体之间的关系,以及信息自身的结构。相关关系虽然并不意味着因果,建立在统计显著性检验基础上的判断虽然不能告诉我们相关背后的意义,但它至少为我们对原因的探索提供了有用的启示,此时大数据的作用是一个更加有效的计算工具,所以我们不必用严格的科学标准对其加以衡量(Lin,2015)。大数据在社会科学研究中的应用相当于在方法论的篮子里增加一个新的重要工具,它之所以重要是因为它指明了学术界和产业界正在上演的一种分析现象,它既是方法论的方法,也是分析的现象(Boyd and Crawford,2012)。

大数据分析的相关结果还可以用于与传统的数据进行对比,以便对新发现给出更好的解释,以加强对现有数据、理论和方法的解释,传统方法论阶段的定量研究将因此获得突破性发展,使有争议的重大结构性问题和经典理论因为使用充分和整体数据得以精细化再检验而发展得更加精密。早在2009年,哈佛大学的Gary King就预言,随着大数据的出现和使用,整个社会科学研究的实证基础将会出现重大变化,甚至会加速定性与定量研究的大融合。计算社会科学的发展以及整合来自不同学科的洞见和方法将成为社会科学研究方法论的关键议题。社交网络平台文本形式的数据将成为社会科学大数据研究的主要数据来源,意味着社会科学研究的数据获取的核心方式的变迁。例如,在一些算法的支持下,通过跟踪数据流和运用最新的算法,将源于Facebook、Twitter、Linked In及其他来源的社交媒体数据作为分析对象,在来自社交媒体的私人交互数据或数据源之间建立联系能够有效地增进我们对社会群体整体、个体行为及其关系的认知,尽管这会带来有关“隐私”的伦理问题(Bizer,2009)。这些对象数据主要由非结构化和半结构化信息构成,对于传统的方法来说,使用这样的数据开展因果关系的检验是不可能的。

数据科学将淡化、沟通甚至彻底革除学科边界,将局部的还原论下的专业性社会建构升级为广域的社会整体系统建构过程。大数据和数据科学可预期的社会价值仍在于驱动基于结构判断(或复杂因果关系)的经济社会决策。人们对整体性涌现规律的渴求从来就没有得到过有效的社会科学研究的回应,虽然基于主体建模仿真方法在解释复杂系统理论阶段初露端倪,但人们仍然无法在因果的框架下找到揭示涌现的有效方法。而基于更大范围大数据的跨学科研究拥有巨大的未来潜力(其约束在于数据的可及性,例如关于维基百科的编者和使用者的数据),但跨学科研究必须懂得大数据资产如何产生、获得、分享以及用于跨学科知识的进化。

大数据使社会或政策过程演进实时计算和可视化变得可行,社会研究和社会建构的时效性和精确程度将取得前所未有的进步,基于大数据的社会计算能够有效处理人们在网上的交流和互动并彻底变革人们对人类群体行为的理解。社会计算致力于研究大数据环境下个人、组织和社会的交往方式和相互关系,及其对人类社会不同文化群体和社会结构所造成的影响。大数据驱动的决策导向技术可以理解为基于计算和设计的高时效政策工具,这种动态数据格式的算法分析能够以高度个性化的方式算出目标个体的选择环境。大数据的数字导向技术被证明是个体所难以抗拒的,因为它通过微妙的说服而不是胁迫得以让个体改变其行为方式。当然,这同时带来大量伦理问题和社会秩序问题。新自由主义意识形态强化了大数据产业的快速增长,这些应用展示出诱人的魅力,提供无数的现代便利设施,提供定制、高度个人化的服务,通过算法旨在快速、动态、高效、尽可能无缝地对需求做出反应。因此,在大数据时代,数据所有权有可能成为焦点问题。各种社会和经济行为将以大数据的形态被采集和分析,社会成员正在变得愈加透明。

应用大数据研究社会科学,并不是要抛弃社会科学原有的研究方法,相反,社会科学的概念、理论和方法不可或缺,而且我们必须清楚,数据并不是自然发生的和无中介的,大数据是社会技术性建构的结果,产生于为特定平台设计的媒介物,这些数据的意义并不是自明的,必须通过使用者的采用、适配和至少来自社会科学的强壮方法论和理论框架彰显其意义所在。社会科学研究的此种进化要求研究人员必须在数据密集和科学网络化的时代重返方法论和认识论的基础,必须在方法论和认识论的若干方面达成一致,包括什么构成可靠的和有效的数据描述,用于组织数据的类型,获取、处理和结构化数据的必要的工具。社会科学研究的组织方式已不可避免地需要进行重新组织,以满足社会科学研究人员与计算机科学家及工程师之间开展合作的需要。另外,大数据分析还有一个自然特征,那就是随着数据体量的快速增加,选取的变量之间会普遍呈现为统计显著,因此,将大数据分析与基于结构的量化方法相结合有其必要性。将大数据与小数据结合,与各个独立领域的专业知识结合,就能够探索出更科学的大数据分析方法。

五、大数据对社会科学量化研究影响展望

(一)定性定量研究的融合

定量和定性研究是目前社会科学研究中的两大主流研究路径。大数据研究发展之前,研究者一般会选择其中一种作为社会科学研究方法。定量研究就是基于统计或调查数据,运用线性回归或非线性建模(如离散事件建模)等相关技术进行因果关系推断与解释的研究方法。规范的社会科学定量研究以研究问题为基础,基于已有理论做出学理上的因果假设,即对已有理论进行演绎假设,再通过选择样本及收集数据,最终对理论假设进行因果性验证。通常意义上的社会科学定量研究是指大样本研究,而定性研究则多指基于小样本或个案的扎根研究和对素材的深度分析;同时,定量研究的背后分析逻辑是以变量为导向的,即要从大量样本收集的数据中抽象出能够指代已有理论和理论假设内容的诸多自变量和因变量,继而用实证主义的统计方法来检测自变量和因变量之间可能存在的因果关系,而统计分析和检验流程至今已经发展成为程式化的易于重复的过程,且具有统计意义的科学性。对于一般社会科学问题,为了对理论假设的因果关系的普遍性进行检验,就要把研究议题放入大样本中来考察,否则无法保证统计有效性的要求。尽管定量分析在理想状态下对理论的一般性检验具有逻辑上的科学性,但在定量分析的过程中,从把构念概念化为变量,在大样本中进行统计计算,到找出变量间的相关性,进而推断出因果结论,每个环节都可能出现诸多问题,特别是由相关性做因果性的判断是容易为人诟病的。而小样本的定性研究可以弥补大样本研究的诸多缺陷,尤其是在因果关系的阐释与理论的建构方面。定性研究者认为,案例以及比较分析能够更为深入地对现象进行描述性解释,进而阐释或发现新的理论;更为重要的是,研究者对仅有的一个或几个案例数据能够更加容易地做到深入细致的分析,并找到其中真实的因果关系机制,真实因果关系机制的发现对新理论的创建和研究构念的拓展具有重要意义。这样,小样本的定性研究对于大样本定量研究中概念过度延伸、统计模型中因果机制展示相对缺失的问题都可以得到一定程度的弥补与克服。

大数据研究引入量化社会科学研究之后,理论上融合了上述定量和定性研究过程:对个案的大数据深度挖掘突破了小样本定性研究对个案独特性的理论来源局限,通过个案的大数据研究缓解了小样本个案定性研究的结论普适性问题;同时,具有“全样本”意味的大数据研究也突破了传统定量研究中关于从构念框架到因变量自变量设置的信度和效度的问题,因为大数据分析是直接面向研究对象的个体化数据的,不存在变量代理问题,而且大数据挖掘得出的数据相关性呈现的就是理论的本身表象,在直接面向应用的情况下,也不需要用定量分析方法对理论进行假设检验。因此,大数据研究通过直接从个体化数据中挖掘有用的相关性,打破了已有社会科学研究定量定性的界限,突破了定性定量研究的样本量和变量有效性的限制,在一定意义上对定量和定性研究进行了融合。

(二)大数据对已有社会科学量化方法的影响

大数据研究将为已有社会科学量化研究提供精准的数据支撑。大数据资源池来源于对独立研究客体的个体原始数据采集,而且大量数据不是像传统社会科学量化研究那样,针对理论假设和研究模型设计的变量数据需求,经由对研究客体进行统计抽样并通过“提问—思考—回答”路径产生的,而是直接由研究客体的行为生成并经由各类数据采集技术聚集的,因此大数据与传统社会科学量化研究所使用的数据相比具有“全样本”“自提供”的特性,这就能够避免传统社会科学量化研究中自变量数据的统计偏误。显然,大数据的这种特性能够为已有社会科学量化研究方法提供更精准的数据支撑。

大数据研究将为已有社会科学量化研究提供全新的视角。由于大数据是行为个体在网络环境中的产物,同时大量数据本身也构成了行为个体社会网络的节点,因此,大数据研究本质上依托于对复杂网络的挖掘和分析。凭借网络分析和数据可视化技术,大数据研究能够发现已有社会科学量化研究所忽视的及受技术方法制约无法完成的大量网络特征及相关性,这些网络特征及相关性将为已有社会科学理论提供全新的研究视角。

相较既有社会科学量化研究,大数据研究对跨学科合作网络有更高的要求。通过对大数据知识源的研究,社会科学与自然科学在大数据研究过程中实现了大学科交叉。对领域大数据的挖掘和分析,不仅需要本领域学者就领域内现有理论及分析框架进行问题导入和研究需求设置,还需要与计算机、心理学等不同专业领域学者组成合作研究网络,对领域大数据进行跨学科联合研究。

(三)大数据研究对数据可及性的要求

随着对大数据研究价值及知识外溢效应的重视,国家层面的旨在提高大数据可及性的行动越来越受到重视。2009年1月,美国总统奥巴马签署了《开放和透明政府备忘录》,提出要创建透明、参与和协作的开放政府,并要求提高政府开放程度,联邦政府所拥有的信息要向公众快速公开。同年12月,美国行政管理和预算管理局发布了《开放政府指令》,指示联邦各机构为美国公众提供政府数据,标志着美国开放政府数据走向政策层面。与此同时,全球许多国家也纷纷发起了开放政府数据行动,通过颁布政策促进政府数据的开放。2015年8月19日,中国国务院常务会议通过《关于促进大数据发展的行动纲要》,明确提出,“加快法规制度建设。修订政府信息公开条例。积极研究数据开放、保护等方面制度,实现对数据资源采集、传输、存储、利用、开放的规范管理,促进政府数据在风险可控原则下最大程度开放”“2018年底前建成国家政府数据统一开放平台”。这是我国第一个关于开放政府数据的宏观政策,这标志着我国的开放政府数据也正式走向政策层面。

我们之所以希望我国政府部门在促进优化大数据可及性的进程中起主导作用,是因为我国政府与其他国家政府相比,对大数据采集者和拥有者如互联网企业、通信运营商等有较强的数据请求权,更有能力将这些散布于不同大数据拥有者手中的不同类型、不同领域的大数据有机集成起来,将这些大数据作为社会科学研究和知识进步的必要资源,有计划、分层次地构建有中国特色的大数据开放服务产业。

相信在《行动纲要》颁布之后,我国政府应“有计划”地主导“大数据知识源集成网络”的构建,全面集成互联网、物联网和社交网络等不同生产方式的知识源,同时整合政府部门及事业单位的统计数据、社会民众的舆论以及企业的产销大数据,为不同用户“分层次”地提供数据支持服务,如可按数据需求的合法性及迫切性,分层次地对刑侦、公共决策、学术研究、商贸应用等不同需求主体提供大数据开放服务。

参考文献

Bizer,C,T Heath,and TBerners-Lee.2009.Linked Data—The Story So Far.International Journal on Semantic Web and Information Systems (IJSWIS).

Boyd,Danah and Kate Crawford.2012.Critical Questionsfor Big Data:Provocations for a Cultural,Technological,and Scholarly Phenomenon. In formation,Communication&Society15(5):662-679.

Coleman, J S 1986.Social Theory,Social Research,and a Theory of Action.American Journal of Sociology91(6):1309-1335.

Hesse,B W,R PMoser,W T Riley.2015.From Big Data to Knowledge in the Social Sciences.The ANNALS of the American Academy of Political and Social Science659(1):16-32.

King,G.2014.Restructuring the Social Sciences:Reflections from Harvard's Institute for Quantitative Social Science.Political Science&Politics47(1):165-172.

Lin,J.2015.On Building Better Mousetraps and Understanding the Human Condition:Reflections on Big Data in the Social Sciences.The ANNALS of the American Academy of Political and Social Science659(1):33-47.

Meadows,Donella H and J Rander.1972.The Limits to Growth:A Report for Club of Rome's Project on the Predicament of Mankind.New York:Universe Books.

Thacker,S B,and J R Qualters,L M Lee.2012.Public Health Surveillance in the United States:Evolution and Challenges.Morbidity and Mortality Weekly Report(MMWR)61(03):3-9.

Tony,H,T Stewart,and T Kristin.2009.The Fourth Paradigm:Data-intensive Scientific Discovery.The Science Press.

贝尔纳.科学的社会功能[M].桂林:广西师范大学出版社,2003.

陈云松,张亮亮,闵尊涛,等.大数据机遇与宏观定量社会学的重启[J].贵州师范大学学报(社会科学版),2016(6):35-39.

中共中央马克思恩格斯列宁斯大林著作编译局.恩格斯.马克思恩格斯选集:第三卷[M].北京:人民出版社,1972.

郭大水.社会学的三种经典研究模式概论[M].天津:天津人民出版社,2007.胡塞尔.纯粹现象学通论[M].李幼篜,译.北京:商务印书馆,1997:160.

克鲁格曼.发展、地理学与经济理论[M].北京:北京大学出版社,2000.

拉法格.忆马克思[M].北京:学术出版社,1941.

刘放桐.新编现代西方哲学[M].北京:人民出版社,2000.

刘林平,蒋和超,李潇晓.规律与因果:大数据对社会科学研究冲击之反思——以社会学为例[J].社会科学,2016(9):67-80.

李旭.社会系统动力学:政策研究的原理、方法和应用[M].上海:上海财经大学出版社,2009.

钱学森.一个科学新领域——开放的复杂巨系统及其方法论[J].城市发展研究,2005,12(5):1-8.

陶远华.理智的困惑:社会科学认识论[M].北京:东方出版社,1989.

沃野.关于社会科学定量、定性研究的三个相关问题[J].学术研究,2005(4):41-47.

吴晓刚.定量研究方法与现代社会科学[J].社会科学家茶座,2014(1):31-33.

约翰·奇曼.知识的力量:科学的社会范畴[M].上海:上海科学技术出版社,1985.

张波,袁永根.系统思考和系统动力学的理论与实践[M].北京:中国环境科学出版社,2010.

Big Data and Quantitative Social Science Research

Mi Jianing,Li Dayu,Zhang Changping,Lin Tao

Abstract: Quantitative research of social science has experienced three main Solutions. They are positivist causal solution, linearization of nonlinear problems and agent based modeling of complex systems. These three solutions together with big data research are in the continuum of epistemological approaches from nomothetic to ideographic. However, there are statistical errors, endogenous problems, accidental factors and data defects in these three social science quantitative solutions. Big data research will reconstruct the methodological basis of social science research, significantly impact on the future development of social science research, and will particularly integrate qualitative and quantitative research. Big data research will provide accurate data support and new perspectives for the existing quantitative research. The development of big data research needs to solve the problem of data accessibility, which is necessary for the government to build a large data open service industry with Chinese characteristics in a planned and hierarchical way.

Key words:big data;social science;quantitative research;research method

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈