首页 理论教育 大数据时代的融合新闻生产

大数据时代的融合新闻生产

时间:2023-04-22 理论教育 版权反馈
【摘要】:第七章 大数据时代的融合新闻生产在2013年中央电视台“3·15”晚会中,cookie这个互联网领域中的专业名词被推上了风口浪尖。目前,几乎所有世界级的互联网企业,都将业务触角伸至大数据产业。[5]由此可见,人们用“大数据”来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。大数据不仅是一个尺度的概念,也是一个变动的概念。

第七章 大数据时代的融合新闻生产

在2013年中央电视台“3·15”晚会中,cookie这个互联网领域中的专业名词被推上了风口浪尖。报道声称这些积聚人气的互联网企业可以通过cookie轻而易举地掌握用户的诸多信息,例如,你每天去了哪儿、买了什么东西、家里有几口人、有没有孩子、孩子有没有上学、每个月工资多少、每天花多少时间上网、浏览什么样的网页,互联网企业都可以做到了如指掌。而这个宣称在互联网中无所不能的cookie,是网景公司前雇员Lou Montulli早在1993年3月就开发出来的。

cookie可译为“小甜饼”,在互联网领域,也被称为HTTP cookie、网络cookie或浏览器cookie。“它是当您浏览网页时,网络服务器以文本格式存储在您电脑硬盘上的少量数据。海量用户的海量cookie信息构成了大数据,所以一定程度上cookie技术是大数据的基础。”[1]被央视曝光的几家企业均声称拥有大量的cookie(小甜饼)。在网络世界中,你一不留神可能就成为这些毫无关联的第三方口中的“小甜饼”。例如,“品友互动目前可以捕捉到互联网上5.7亿的cookie,易传媒号称拥有3亿多互联网用户cookie数据,悠易互通,艾维邑动,号称拥有5亿网民cookie数据,传漾公司号称拥有9亿cookie,亿玛在线,号称拥有9 亿cookie”[2]。这些互联网企业均宣称可以对数以亿计cookie数据进行挖掘分析,帮助企业快速找到消费者,而广告商则可以更好地进行低成本营销,获得可测的传播效果和营销效果的最大化,使得精准化营销和个性化推荐成为可能。

其实,我们不是即将迎来大数据时代,而是我们已经置身其中。正如记者李盛明所言:“电子设备日新月异,互联网技术无孔不入,你的一举一动都产生了大量的数据。”[3]也就是说,我们无意识中、不经意间生产着海量的数据,而这些数据可以被分享、可以被挖掘、可以被分析、可以被解读,当然也可以被利用,这些或许包含着个人隐私的大数据已经成为当下网络生活的一部分,成为可以被挖掘的资源。

第一节 大数据推动媒体转型升级

早在1980年,托夫勒在《第三次浪潮》中就曾预言:“如果说IBM的主机拉开了信息化革命的大幕,那么大数据则是第三次浪潮的华丽乐章。”在世界史上,人类第一次浪潮是争夺对胃的控制权,靠把功能专业化,实现生存主动权;第二次浪潮是争夺对钱包的控制权,靠把价值专业化,实现发展主动权;第三次浪潮则是争夺对大脑的控制权,靠把数据专业化,实现“意义满足”主导权。

因此,“大数据”不是一个新概念,而只是在2012年引起社会广泛关注的热词,媒体甚至将2013年称为“大数据元年”。目前,几乎所有世界级的互联网企业,都将业务触角伸至大数据产业。其他行业也都在思考如何将大数据转变为一种竞争优势,转变为未来发展的驱动力,各大媒体则在思考如何利用大数据推动产业转型升级。但是,大数据(Big Data)到底是什么呢?

一、大数据与大数据时代

2012年以来,“大数据”(Big Data)概念虽然成为这一时期的热点词汇,却没有一个统一的定义。它更多地被人们描述为一种现象或一种状态。2011年第一季度的Teradata Magazine中Gartner公司的工程师Merv Adrian就将“大数据”描述为:“超出常用硬件环境和软件工具在可接受时间内为其用户收集、管理和处理数据的能力。”[4]麦肯锡全球数据分析研究所的观点则认为:“大数据是指大小超出了典型数据库软件工具、存储、管理和分析能力的数据集。”[5]由此可见,人们用“大数据”来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。所谓大数据只是一个相对的概念,指的是相对传统数据而言,大数据在数据量的大小尺度上已经超越了传统意义上的尺度,到了一般硬件和软件无法承受的地步。

大数据不仅是一个尺度的概念,也是一个变动的概念。“这些定义暗示着大数据的界定会随着技术的进步而变化,以往的大数据或今天的大数据,在明天将不再是大数据。”[6]也就是说,大数据的“大”并不是一个在量的尺度上明确的、普遍适用的概念。也许在我们曾经使用1.44M容量的软盘年代里,一张700M容量的光盘就已经可以称得上是大数据,而在今天的大数据时代里,我们所用来计量数据的单位已经从G发展到T,并迅速地突破到P,直奔E、Z、Y等计量单位。数据存储单位之间的关系是以1024为换算单位,譬如,1G=1024M,1T=1024G,1P=1024T,1E=1024P,也就是说人类的数据存储和处理能力每上一个新的台阶,就意味着1024倍的数量级增长。

这样的数量级描述似乎还是有点过于抽象,《大数据时代》一书的作者打了一个更为形象且直观的比喻:“2013年人类存储的数据预计能达到约1.2Z字节,其中非数字数据只占到不到2%。如果把这些数据全部记在书中,这些书可以覆盖整个美国52次。如果将之存储在只读光盘上,这些光盘可以堆成五堆,每一堆都可以伸到月球。”[7]而根据国际数据公司(IDC)的估算显示,2020年全球数据总量将较目前增长44倍,达到35.2ZB,而年增长率将维持在40%以上。

大数据还是一个具有应用价值和战略意义的概念。解放日报报业集团社长尹明华曾说:“新媒体的本质就是数据分析。我们已经从信息时代走到了数字时代和智能时代,如果数据被赋予背景,它就成了信息;如果数据能够提炼出规律,它就是知识;如果数据能够借助于各种各样的工具在分析的基础之上为我们提供正确的决策,它就是资源。”[8]如果大数据不加以利用或者没有应用价值,那么它也就没有任何意义。

美国政府2012年3月发布了《大数据研究和发展计划》(Big Data Research and Development Initiative),认为大数据是“未来的新石油”,表示一个国家拥有数据的规模、活性及解释运用的能力将成为综合国力的重要组成部分,未来对数据的占有和控制甚至将成为陆权、海权、空权之外的另一种国家核心资产。美国政府声称要将大数据研究提升为国家意志,并宣布投资2亿美元拉动大数据相关产业发展。这是美国继1993年宣布“信息高速公路”计划后的又一次重大科技部署。联合国也在2012年发布了大数据政务白皮书,指出大数据对于联合国和各国政府来说是一个历史性的机遇,人们如今可以使用极为丰富的数据资源,来对社会经济进行前所未有的实时分析,帮助政府更好地响应社会和经济运行。

对此,李国杰院士认为:进入大数据时代,人们关注的重点将转向数据。“作为重要战略资源,大数据关系到国家的经济结构调整和产业升级。”“大数据还将引发科学思维与研究方法的一场革命。”“大数据是与自然资源、人力资源一样重要的战略资源,是一个国家数字主权的体现。”“在大数据领域的落后,意味着失守产业战略制高点,意味着国家安全将出现漏洞。因此,我国需要尽快制定国家大数据战略。”[9]用数据说话是数字化时代的重要特征。国家大数据战略应该能够覆盖包括政治、经济、文化、教育、传媒在内的各个重要领域。不论是从事传媒研究还是进行媒介产品生产,在未来也都需要建立大数据集聚、研究和共享平台,构建大数据良性发展的生态环境,形成全程的、立体的大数据产业链。

二、大数据3VS模型与4V特点

如果说互联网重塑了人类信息交流的方式,那么大数据则颠覆了人类思考世界的方式。随着时间的推移,互联网企业正在利用数据筛选工具,对海量数据进行集中挖掘、钩沉,以便向用户提供更有用的数据洞察和趋势预测。大数据既然作为一种区别于传统数据的概念而提出,那么它的模型和特点分别是怎样的呢?

2001年META集团的分析师道格·莱尼(Doug Laney)就率先提出:“数字时代下数据增长的三个维度,即增加量(Increasing Volume)、速度(Velocity)、类型(Variety)以及来源(Sources),这被称为大数据的3VS表述模型,在很长一段时间中被人们所使用。”[10]具体分析如下:

(1)数据增量巨大。无处不在的信息感知和采集终端不仅采集了海量数据,而且数据急剧增加且从不删除,但数据急剧增加其价值密度则相对减少。

(2)处理速度极快。大数据低密度的现实状况要求数据公司必须建有强大的数据分析系统,以便更迅速、更高效地完成数据的价值“提纯”,并及时做出预测和提出对策。

(3)数据类型繁多。大数据几乎无所不包,音频、视频、图片、文字、网络日志、兴趣爱好、收入支出、地理位置信息等,都会自动存储在数据库存。

(4)数据来源广泛。上至天文地理,下到鸡毛蒜皮,从公共事务到个人生活,庞大的数据感知和采集系统几乎都能无一遗漏地予以收取、存贮。

此外,从大数据运营管理方面来讲,也有人总结出了挖掘大数据价值的七种运营模式:模式①,数据存储空间出租;模式②,客户关系管理;模式③,企业经营决策指导;模式④,个性化精准推荐;模式⑤,建设本地化数据集市;模式⑥,数据搜索;模式⑦,创新社会管理。[11]

2012年国际数据公司(IDC)更新了大数据的观点:“大数据是一种通过高速捕捉、发现或分析,从大量数据中获取价值的新型技术架构。他们在3VS的基础上将大数据的特点概括为4V,即Volume(海量)、Velocity(高速)、Variety(多样)、Value(价值)。”[12]

1.海量(Volume)

海量显然是大数据最为显著的特征。数字时代中信息的快速膨胀已经成为一种常态,数据越来越多,存储设备的容量越来越大,我们曾经用“信息爆炸”“信息泛滥”来形容,但是今天这些词汇已经难以用来形容数据急骤膨胀的新发展。大数据海量信息主要来源于存量信息和增量信息两个部分。对于存量信息,《大数据时代》的作者之一维克托·迈尔-舍恩伯格在其另一本著作Delete中感慨:“数字技术已经让社会丧失了遗忘的能力,取而代之的则是完善的记忆。”[13]在他看来,不论是商业机构或是公共机构,它们都在大量地收集并稳妥地保管信息,这些信息不管是否真的有价值,从来没有被删除过。

另一方面则是越来越多的增量信息构成了大数据的重要组成部分。据统计,全球每天会有220万TB的新数据增加。这些庞大的数据自然不可能都是人类运用大脑智慧创造的增量信息,事实上90%的增量信息都是这两年人类依赖于机器自动生产的。“在新数据的产生过程中,并不会涉及人工参与,它们完全由机器自动生产。这就如同飞机引擎中的传感器,在没有任何人下达指令的情况下,它也会自动生成周围环境的数据”[14],飞机上的“黑匣子”则自动收集、记录和存贮这些数据。

通常,人们对增量信息比较重视,因为它能立即产生现实的利益。殊不知,这是短视。如果将中国5000多年的文化典籍和文化遗产作为存量信息数字化,加上生成和创造的增量信息,采用大数据处理方法加以合理运用,那么必将产生超出常规的巨大的生产力和创造力,使经济社会的发展突飞猛进。

2.高速(Velocity)

高速(Velocity)是大数据得以呈现的重要基础。高速传输数据既包括数据进入硬件终端的速度,也包括数据输出的速度,甚至包括数据在软硬件系统中运行、被检索和分析的速度。因此,没有数据传输速度的提升,也就不可能产生大数据的采集、存储、传递、检索、分析、预测等。今天,一方面互联网速度已经从最初的KB发展到MB再到GB,并且还在继续向更快的速度发展;另一方面软硬件终端中电子元器件间的传输速度也在经历着跨越式发展,而与此同时大量网络设备的增加也在推动着数据传输速度的提升,例如,不少城市正在进行的无线城市、智能城市项目,就直接将整个城市的无线传输速度提升到百兆的水平。时间就是生命,效率就是金钱。追求高速度正成为大数据时代许多互联网公司、政府、企业和媒体的重要目标。

3.多样(Variety)

大数据的多样性特点主要来自两个方面:首先是数据来源的多样性。我们今天所看到的大数据并不是来源于某一国家、某一地区、某一行业或某一家机构,而是来源于全球范围内数不胜数的采集主体,如搜索引擎、社交网站、新闻门户、购物系统、公共服务系统、信息接收系统和通信系统等,甚至那些被置于城市中的摄像头、设备中的传感器,它们无一不是大数据的来源,大数据也正是这些不同来源信息的总称。其次,数据格式的多样化。在大数据中主要包含了三种数据类型,即结构化数据、半结构化数据和非结构化数据。其中传统的标准化、结构化的数据只占到大数据的15%左右,“85%的数据属于广泛存在于社交网络、物联网、电子商务等之中的非结构化数据。这些非结构化数据的产生往往伴随着社交网络、移动计算和传感器等新的渠道和技术的不断涌现和应用”[15]

今天,这些非结构化数据在大数据中占比越来越大,对这些信息的采集、挖掘和分析的能力也正是大数据的特色所在。以Facebook为例,“作为目前最大的社交平台,坐拥数亿计的用户群,上传照片数达到3亿张,每半小时通过Hive扫描的数据就达105TB之多,而Facebook的工程总监Parikh解释了这些数据对于公司的意义:大数据的意义在于真正对你的生意有内在的洞见。如果你不能好好利用自己收集到的数据,那你只是空有一堆数据而已,不叫大数据”[16]

4.价值(Value)

正如Parikh所说,大数据的意义和价值还需要拥有着敏锐的洞察,否则大数据也就是一堆冷冰冰的数字。海量的原始数据只有经过分类、加工、整理、分析,才能满足人们个性化和专业化的需求,体现其价值。不断增加的庞大数据带来的不仅是风险与压力,也是挑战和机遇。从量变到质变,通过对海量数据的深入挖掘和科学分析,人们能够拨云见日,在碎片化的信息中发现事物的整体走向,在杂乱无章的困境中找到解决问题的出路,可以洞察原本极易错过的商机,可以预测一般难以发现的趋势。但是,只有不断更新、优化大数据处理分析模式和软件,才能具有更强的决策力、洞察发现力和流程优化能力。

大数据的价值无处不在。在医疗卫生行业,大数据具有流行病预测和防治的价值;在销售行业,大数据具有把握流行趋势和定位消费市场的作用;在金融股票市场,投资家可以利用大数据评估市场波动和预估股票走势;政治家们则可以通过大数据描绘公众的“情感地图”和测量不同地区的“舆情温度”,感知民众的政治偏向;文化学者还可以通过中国五千年历史典籍和文化收藏来分析和提炼文化基因,为文化走向世界提供助力;新闻业界已经可以根据大数据定期不定期地绘制新闻“今日图表”、经济“全球脉动”、时尚“流行趋势”。

在全球复杂网络研究权威、无尺度网络的创立者艾伯特-拉斯洛·巴拉巴西(Albert-L︶szlóBarab︶si)的眼中,大数据是观察人类社会的“显微镜”。他认为,人类正处在一个聚合点上,在这里数据、科学及技术都联合起来共同对抗那个最大的谜题——我们的未来。“人类跟悬浮在水中的花粉微粒其实没什么不同,受到某种跟左右花粉运动一样神秘的原因的驱动,人类大部分时间也是运动不止。随着手机、GPS以及其他手持设备的迅速普及,很多新工具能够追踪人类的活动。有了这些机器设备,如今我们的一举一动都在无数个‘显微镜’下现形。”[17]可见,大数据意味着不限量的样本数,意味着全方位的信息采集,也意味着人类的行为不再是小概率、不可预测的随机事件。这些看似凌乱的甚至充斥着垃圾信息的大数据中蕴藏着人类行为的基本规律,而对于这种规律的挖掘,以及不断提高它的精度,这是所有大数据的价值所在。

关于大数据特点,还有一些与国际数据公司(IDC)不同的观点。譬如,IBM就提出了自己的大数据4V特点或理论,以真实性(Veracity)替代了价值(Value),说明虚假数据不仅一文不值,而且极其有害。还有观点认为,大数据的特点也包括它的杂乱无章和自动生成,这也是有道理的。

三、大数据时代媒介新角色与新使命

在数字化信息无处不在的今天,大数据急剧膨胀,应用范围十分广泛,甚至在大数据的概念还没出现或没被人注意的时候,很多先驱型的企业就已经开始使用大数据来创造价值。譬如,耐克公司2006年便开始通过捆绑在iPod中的Nike产品建立了覆盖全球的跑步者数据库,通过大数据挖掘得到不同市场中用户的使用习惯,进而制订不同的市场策略;美国零售企业Target则通过对用户购买记录的数据分析,对消费者进行划分,从而制订了有针对性的营销推广方案。这样的例子很多,如金融服务行业、医疗卫生行业、保险行业、网购系统等,都利用大数据对客户市场进行细分,进而制订有针对性的服务项目和整合营销传播方案。

在媒介融合和大数据时代,各行各业都已经同大数据密不可分,它们一方面生产数据,另一方面又消费数据,大数据如影随形、挥之不去。融合新闻生产从信息采集、鉴别、加工、制作、传播到市场分析、经营管理等,都需要对庞大的传播者(记者、编辑、主持人、导播、摄影、摄像、编剧等)数据、内容(文字、声音、图片、图像等)数据、媒介(报纸杂志、广播影视、图书、网络等)数据、受众(读者、听众、观众、网民等)数据等进行挖掘、分析和整理,以进一步提高媒介经营管理的水平和新闻传播的效果,不断提高媒介的社会效益和经济效益。大数据时代呼唤大众媒介必须承担和履行新角色和新使命。

1.大数据的提供者

大数据的提供者来源于社会各部门数据的集合,这些数据中包括了结构性数据(即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据),也包括非结构性数据(包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频、视频信息等)。例如,金融服务领域中的证券、投资、信贷等提供了大量的结构性数据,而政府、学校、媒体等则可能提供了大量的非结构性数据。麦肯锡公司下属的全球研究院(McKinsey Global Institute)在2011年5月出版的一份关于大数据的研究报告中,对美国包括生产制造业、媒体业、银行、教育等17个行业所拥有的数据量进行了估算,并指出:“美国新闻传媒业(Communication and Media)共拥有数据量为715Petabyte,位列第三,仅次于离散制造业(Discrete Manufacturing)的966Petabyte和美国政府的848Petabyte,而在估算中新闻业的数据质量要远高于医疗、教育等其他行业。与此同时,报告还发现在众多行业当中新闻媒体存储了更多的视频和音频数据,且在存储时间上也有优势。”[18]因此,作为人类社会信息采集、加工、制作、编辑、传播的专业性组织机构,媒介必然成为大数据的重要提供者或生产者。随着网络和新媒体的迅速崛起,媒介内容生产的速度得到了极大提高,数据呈几何级数增长。同时,社交媒体的出现又让社会大众都成了数据生产者和提供者,也极大地丰富了大数据的内容资源。

2.大数据的传播者

大数据的显著特点就是高速传输数据。作为专业的传播机构,新闻媒体显然是高速传播大数据特别是非结构性数据最称职的传播者。一方面,新闻媒体本身的目标就在于以更加快速、高效、及时的方式准确传递新闻信息,最大限度地缩短新闻事实的发生与接受之间的时间距离,这是新闻生产的重要特征,是新闻存活及构成新闻价值的重要条件。新闻姓“新”,是易碎品,慢了就成了“旧闻”。过去新闻报道注重“抢今日”,如今新闻传播注重“争分秒”。所以,长期以来新闻媒介不断发展演化的过程,正是不断追求传播速度、创新传播方法和优化传输渠道的过程,从烽火到信鸽,从电报到电话,从广播到电视,从有线到无线,从电脑到网络,再到今天的融合媒介和大数据,随着传播技术和数字化水平的提高,媒介信息传输的速度实现了一次次新的飞跃,不断登上新台阶。另一方面,新闻媒介的信息传输也在追求最大的信息覆盖面和人口到达率,力争获得最大的信息认知、理解和记忆效果。广播电视从有线到无线、从光缆到卫星,报纸杂志也从印刷转向网络、由单媒介转向多媒介等,媒介可能的覆盖范围和人口到达越来越大。大众媒介与受众之间的传播活动构成了当今社会数据流通的主要形式,媒介也理所当然地成了大数据时代一道最亮丽的风景。

3.大数据的挖掘者

大数据的价值并不是显而易见的,它需要经过挖掘、分析及深度的解读,这恰恰也是媒介职能的一部分。新闻媒体需要满足受众对社会信息需知、想知而未知的欲望,大数据挖掘可以像“显微镜”一样把握受众的心理需求、审美趣味和接受习惯,探查受众的年龄层次、收入水平、工作单位、职业特点、家庭人口等,从而可以提供有针对性的、个性化的、精准的信息和服务。全球数据正以几何级数增长,其中75%为非结构性数据,能够对大数据进行深度挖掘的政府、媒体等非结构性数据会变得越来越重要。陈昌凤和刘少华在《大数据时代如何做新闻》一文中认为:“数据挖掘的新闻往往比传统新闻报道更有力度,也对记者提出了更高的要求。”“西方媒体对数据的运用越来越重视,出现了不少专门与数据打交道的记者,通过数据挖掘的方式进行新闻报道。他们在繁杂琐碎的非结构化数据之后,发现常规新闻中不能体现的逻辑,帮助读者对新闻事件进行深度解读。”[19]未来新闻媒体在大数据的挖掘和分析中,将不仅会向受众展示新闻报道的历史纵深、现实状况,而且会向受众提供新闻事件的空间结构、发展趋势和应对措施等,使媒介真正成为受众的良师益友和生活指南。

4.大数据的应用者

媒介利用大数据创造价值并不仅是通过挖掘大数据生产有针对性的个性化的新闻报道,媒介大数据既包括了社会信息的大数据,也包括了媒介用户的大数据,用途十分广泛。比如,受众的个人信息资料,浏览的内容和路径偏好,阅读的内容、时长和习惯,发表、评论和转发的特点,崇拜对象、粉丝情况和互粉对象等,这些信息在传统媒体时期获取是相对困难的,但在新媒体与融合媒体时期,这些信息可以无一遗漏地被媒体采集、存贮,并可加以反复挖掘、分析、解读和应用。科学、合理地应用大数据,掌握受众的心理需求和行为特点,可能引发传统的媒介产业流程发生革命性的变化,使得媒介生产效率和信息传播效果大幅提高,未来甚至还可能形成媒介数据服务、数据咨询、数据治疗、数据保健等一系列新兴产业。同时,“大数据的出现颠覆了实验科学、理论科学与计算科学的传统,催生了一种新的科研模式”。数据密集型科学可以从计算科学中区分出来,称为科学研究的“第四范式”。[20]这将使新闻学、传播学和媒介研究如虎添翼。大数据已经可以成为媒介获取竞争优势和主动权的制胜法宝。

第二节 大数据:融合新闻生产中的“金矿”

《大数据时代》作者、英国牛津大学网络学院互联网研究所教授维克托·迈尔-舍恩伯格(Viktor Mayer-Schonberger)在接受《文汇报》专访时说:“大数据”的存在“已经不仅仅是一种炒作或者什么宏大的宣言了,而将实实在在地改变我们的工作、生活以及整个社会”。“大数据时代的巨大资源是未来时代的金矿,那些拥有这些数据资源的人获得的回报将是不可想象的。”[21]新闻传播学者和新闻媒介业者也看到了大数据金色的光芒,并积极思考如何充分挖掘大数据背后潜藏的巨大新闻价值和经济价值,探索作为新闻生产者又需要具备怎样的智慧与能力,大数据推进新闻生产变革的号角已经吹响。

一、数据挖掘将让新闻更简明

“大数据”之所以称为“大”,是因为其海量的数据已经大大超出目前软硬件环境的处理能力。事实上,处理大数据的瓶颈不仅仅是数字化技术的软硬件水平,而在于人自身。牛津大学进化人类学教授罗宾·邓巴(Robin Dunbar)的“邓巴数字定律”即150定律(Rule Of 150)认为:人的大脑新皮层大小有限,提供的认知能力也是有限的,即便数字化的技术可以让你在社交网络中拥有无限数量的好友和“粉丝”,但最终你能够建立频繁交流的也就是在150人(实为148人)左右,而这其中能建立亲密关系的更是只有寥寥数人。[22]人们感慨,社交网络给了我们联系,却未必给我们交流;拉近了我们的距离,却未必增加我们的亲密;激发了我们社交的天性,却可能磨平了我们沟通的能力。社交的幸福感来自社交的质量而不是数量,来自于沟通的深度而不是频率。小心,莫让技术令你的人际关系变得越来越扁平和肤浅。因为,再先进的传播技术也很难突破人类本身的生理瓶颈。大数据更是如此,庞大的数据量显然早已超出了人脑处理的能力,它最终的价值需要通过计算机进行挖掘、分析和深度解读,并形成相对简单直接的形式让人们得以接受和理解。对于新闻生产而言,这意味着新闻生产者必须将复杂的数据简单化、庞杂的事项简洁化,而且越简明越好。简明的新闻可能会失去微观层面上的精确度,但能获得宏观层面上的洞察力。

为了实现将大数据简单或简明的要求,数据挖掘(Data Mining)的概念便被提了出来。海量的大数据不易被人们所直接利用,而数据挖掘正是一个将“冰冷数据信息人性化”的过程,也是一个把“数据分析的范围从‘已知’扩大到‘未知’,从‘过去’推向‘将来’”[23]的过程。在这个过程中,需要经历从数据准备、数据理解、模型建立、模型评估、最终得出结果的一系列步骤,而完成这些步骤需要的不仅是庞大数据量,更需要专业化的数据分析方法和掌握这些方法的数据管理和分析专家。这在媒介融合和大数据时代,对媒体从业者的能力提出了更大的挑战,或者意味着今后的融合新闻报道需要有数据分析专家参与或信息挖掘公司辅助。西方新闻媒体已经在试图突破这种技术上的难题。譬如,“2007年4月路透社就以2500万美金的价格收购了著名的文本信息挖掘公司ClearForest”[24],通过收购并利用其资源来弥补媒体自身在搜索引擎和数据挖掘方面的不足。

二、让新闻可视化和图表化

建立在大数据基础上的融合新闻作品不仅要简明化和人性化,而且要可视化(Data Visualization)和图表化。数据可视化和图表化可以被追溯到20世纪50年代的计算机图形学,当时人们便开始利用计算机创建了首批图形、图表。如今随着人类数据规模的不断膨胀,以及数据复杂性程度的不断增强,数据可视化和图表化变得十分必要。

数据可视化和图表化作为一种信息技术,“其主要目标就是信息沟通,通过将数据设计成为功能与审美并重的图形、图像、地图、动画等形式,让信息的沟通交流更为直观、清晰和高效”[25]。“生理学也证明,人的大脑皮层当中,有40%是视觉反应区,人类的神经系统天生就对图像化信息最为敏感。而数据可视化的技术,可以通过图像在逻辑思维的基础上进一步激发人的形象思维和空间想象力,吸引、帮助用户洞察数据之间隐藏的关系和规律。”[26]

融合新闻生产也是一种传播者和受众之间信息沟通交流的过程,要让具有大数据特点的新闻信息在这一过程当中清晰、流畅地传递,数据可视化和图表化显然是一个最有效的途径,而融合新闻产品更是为数据可视化和图表化提供了空间和可能。譬如,2010年7月19日《华盛顿邮报》制作的“美国绝密”(Top Secret America)报道专题,就是数字可视化和图表化的典型例子。“两位调查记者用了两年多时间,对数百个现任及前任军事、情报官员、政府机构工作人员等进行采访调查,在绘图专家、数据研究员、摄影记者、图表设计者的协作下,用融合报道的形式将美国自‘9·11’事件以来的国防和情报系统公之于众。”[27]

图7-1 《华盛顿邮报》“美国绝密”(Top Secret America)专题页面

在“美国绝密”专题的页面,我们可以看到网站的设计人员通过视频、动画、地图、图表等多种可视化方式的结合将庞大的数据转变成为网站用户可以直观了解的可视化信息,甚至这些信息还具有互动功能,用户可以根据兴趣输入邮编或点击地图获取自己想了解的地区的情况。

清华大学陈昌凤、刘少华也举例说明:彭博社的大数据挖掘类报道栏目“今日图表”(Chart of the Day)就是通过图表和简单的事实而非说教来阐明道理,是彭博新闻“show,don’t tell”理念的体现,是一种“简单而优雅的呈现观点以及点燃想象力的”方式。[28]

图7-2 彭博社“今日图表”(Chart of the Day)页面

三、以关联思维创新新闻生产

如果说人们看待数据的方式正在由局部数据转向全部数据、由纯净数据转向凌乱数据,那么现在正在由数据的因果关系转向数据的相关联系。这意味着世界即将告别总是试图了解世界运转方式背后深层原因的态度,向仅仅需要弄清数据之间的关联,以及利用这些关联信息来解决问题、预测未来的方向转变。

因果关系的思维方式是人类长期社会经验积累所形成的一种认识世界的方法。我们习惯性地将所有的问题用因果关系来解释,无论是打雷下雨的天气变化,或者是金融市场的风起云涌,甚至自己突如其来的情绪变化,我们都希望能够找到这些事情的前后因果。事实上,人类长期以来对于因果关系的执着,并不是无理由的,这种快速的思维模式可以帮助人们在短时间内做出判断,并采取行动,这也确实推动了人类社会的发展和进步,帮助我们在关键时刻驱灾避祸、化险为夷。

在新闻生产中执着于探讨事物的因果关系也是人类的天性使然。我们追求新闻报道的完整性,这种完整性不仅要求新闻元素5W缺一不可,而且要求新闻事件有前因后果的逻辑性和连贯性,甚至希望有追踪报道或后续报道;我们追求新闻报道的深度,这种深度不仅是新闻事件不同方式和角度上的立体覆盖,更是对新闻事件前因后果的不断挖掘和深化,人们还希望知道新闻为何发生和未来将产生什么后果。但是,这些因果关系是否真的存在呢?

《大数据时代》的作者则认为,人类通过因果关系了解世界的方式正在被大数据所改变。“在小数据时代,很难证明由直觉而来的因果联系是错误的。将来,大数据之间的相关关系,将经常会用来证明直觉的因果联系是错误的。最终也能表明,统计关系也不蕴含多少真实的因果关系。”[29]作者所说的“相关关系”,也就是以关联物的方式帮助我们认识事物和分析现象,通过找到一些现象的良好关联物来捕捉现在和预测未来。而我们现在所拥有的如此庞大的数据量恰好可以使我们的关联性分析变得更准确、更快捷,且更不易受到主观偏见的影响。

大数据的关联思维方式对人类的思维方式有着颠覆性的影响,也使传统新闻生产可以突破固有因果思维的束缚,以一种关联的视角重新审视社会。并不是每一个新闻事件都可以用因果关系来解释,也并不是每一组看似正确的因果关系就真是可靠的。新闻生产中经常出现的错误就是把没有因果关系的两者胡乱地搭配在一起,或者是将复杂的非线性关系简单地归纳为线性的因果关系,甚至在金融报道中经常出现的是勉强为之的倒推式因果解释。新闻生产似乎已经习惯于建立这种简单的因果联系:小悦悦事件是因为公众的冷漠、道德的滑坡,地沟油是因为商家的逐利、道德的沦落,贪污受贿也是因为官员的素质太低和道德水准不高,于是最终的解决途径就都变成了极为简单的加强道德教育和法制建设。但是,在很多情况下,实际情况与常识往往正好相反,或者根本没有因果关系。例如,人们的收入水平与幸福感并不是一个正比的关系,感冒也未必就是因为受凉,用餐后生病不一定是食物问题。

强调时间、历史和因果关系的传统观念正在受到挑战,而推崇空间、现状和相关联系的新型观念正在逐步占据上风。知识的占有曾经意味着对时间、历史和因果之间关系的洞察和了解,如今知悉知识的存贮空间、发展现状并能预言知识的未来趋势则显得尤为重要。融合新闻生产需要有一种大数据时代下开放与关联的思维理念,要真正致力于揭示社会现象中的复杂关系,不能一味追求或迷信所谓的因果联系。

四、以精准测算生产媒介个性化产品

传统的大众化的新闻生产是一种集中的和粗放的生产方式,新闻媒体在“车间”以标准化的形式生产新闻产品,再通过特定渠道和媒介向所有人传递和发送,产品内容缺乏针对性和精确性。媒介也是被迫无奈的,因为受众不仅数量众多、成分复杂,而且流动不居、分布广泛、需求各异,甚至那些基本的受众信息在数字化技术发展之前都是隐匿不明的。传统的受众分析方法采用的都是抽样式的调查方法,这种抽样式的调查方法有赖于样本数的大小,如果没有足够的样本数其结果显然也无法体现整体受众市场的真实情况。与此同时,受众抽样调查的方式“更多地关注‘受众’语境下的独立的媒介使用习惯(如阅读、收看、点击等),而忽视了用户的综合行为习惯以及这些习惯对他们的媒介使用的影响”[30]。因此,没有大样本的抽取,没有全方位的调查,媒介根本无从知晓受众到底是怎样的一群人,他们到底又需要些什么。而受众也只是被动接受各种各样并不一定需要的信息,随时随地受到各种信息的“轰炸”,个人十分有限的注意力被各种碎片化的内容“瓜分”。

从营销传播的角度来看,受众分析中媒介企业和一般企业一样试图建立的是受众的“360度视图”。所谓“360度视图”就是指各部门将客户的数据库信息集合成为一个整体,形成一个更为庞大的客户数据库系统。在这个系统中,客户不再是一个模糊的群体,而是一个个独立的个体,他们有自己的ID、姓名、地址、年龄、家庭、收入情况等。在此基础上,企业还不断地将客户的消费时间、地点、产品、数量、金额、消费频率、消费种类、消费范围等信息存入其中,甚至也包括客户的消费行为、兴趣爱好等信息,使原有的数据量急剧膨胀,很快爆发性地生成为大数据群,于是企业可以通过对大数据群的深入挖掘,更深层次地理解客户行为和消费趋势,使企业不仅能够对每一个客户做到了如指掌,而且对企业生产的现状和趋势也心中有数。

这样的客户信息收集工作,不少企业早在几十年前就已经开始。譬如,五星级酒店往往会仔细地记录一些VIP客户的生日、兴趣爱好、特殊要求等。但由于数据存储和处理技术的限制,这些工作还处在较低水平。也就是说,在小数据时代,企业存贮的数据其实无法真正满足建立和分析所有用户的“360度视图”,但在大数据时代则可能完全不同。首先,大数据的采集本身就不是一种样本的抽取和选择,而是无遗漏、全覆盖的数据采集。其次,大数据的采集是24小时全方位、全天候的,尤其是移动智能终端的普及及GPS等定位技术的应用,使得数据追踪和地理信息、位置信息的采集成为可能。

在大数据时代,媒体要建立这样的受众“360度视图”其实更为容易,因为媒介中所有的信息都是数字化的,受众在进行新媒体和网络阅读、浏览时必然会留下他们的足迹。每一位受众有固定的IP地址,计算机通过cookie等技术手段可以精心、细致地记录下受众所有的使用行为。譬如,选择在什么时间上网、上了哪些网站、浏览了哪些信息、下载的是什么内容、对哪些信息有特别的兴趣爱好、如何评论和转发、如何消费时间等。对这些大数据的存储和分析,将使得媒体生产的产品和提供的服务更有针对性、更加精准化和个性化,能够选择最适合的时间、在最适合的空间更准确地向受众推送出最符合其需求的信息内容。

第三节 大数据时代的媒介反思

2013年可谓是大数据之年,所有人都对“大数据”未来的应用充满美好期待,产生无限遐想。那么,对于新闻传播行业而言,我们刚刚从传统新闻生产时代迈入了融合新闻生产时代,是否又要进入大数据新闻生产时代了呢?我们的确需要以一种宽广的胸怀热情欣赏大数据的巨大威力和魅力,但也必须以更加客观、理性的态度勇敢地承认大数据运用存在一定的局限性和风险性。

一、警惕大数据的风险

“大数据”作为一个全新的概念,从提出到现在尚不足3年时间。在如此短暂的时间迅速走红的“大数据”,其实还并不完美。《大数据时代》一书的作者维克托·迈尔-舍恩伯格(Viktor Mayer-Schonberger)在接受专访时就一再表示担忧,“大数据会被过分炒作,它的作用可能被夸大,好像一切都突然成为大数据所能解决的问题。而事实上大数据只有在没有噪音、没有无用数据的情况下才能被很好地发挥作用”[31]。《驾驭大数据》一书的作者比尔·弗兰克斯(Bill Franks)也在其书中发出警告:“大数据可能会带来风险,企业可能会因为大数据的快速增长而变得措手不及、不堪重负,从而停滞不前。而与此同时,绝大多数的大数据都是无关紧要的。”[32]移动和社交数据分析公司Kongagent的总裁及首席科学家Josh Williams还在演讲中一口气列出了大数据的七宗罪(懒惰、忽视、过量、分歧、轻率、傲慢、麻木),并认为“很多企业的大数据项目不成功都是因为陷入了大数据的错误陷阱”[33]

当然,这并不是想证明大数据对媒体不重要,而是想以此提醒媒体需要引起警惕,当前大数据无论在采集、挖掘还是在分析、解读和利用等各个方面,都处于一个逐步摸索和不断完善的过程之中。在这个过程当中或许可以产生“大知识”“大科技”“大利润”和“大发展”,但同时也必然伴随着“大风险”。因此,即便新闻媒体处于信息传播的前沿行业,也需要权衡利弊、谨慎为之,不可操之过急。

二、警惕大数据的盲从

大数据是高度自动化的信息采集、存贮、挖掘和分析系统,这种数字化的机器设备可以帮助人们监视社会的细微变化、分析社会的未来发展走向。英国学者尼思·内尔·丘基尔和维克托·梅耶-舍恩伯格在美国《外交》杂志撰文指出:“大数据正在帮助提高民主政府的透明度。一个建立在‘开放数据’概念上的运动已经形成,其诉求超出了目前在发达民主国家已经十分常见的信息自由法。”“在政府推动使用大数据的同时,它们还需要保护公众免受不正当市场垄断的侵害。”[34]

对于媒体而言,大数据时代的“计算机辅助报道”(Computer Aided Reporting)已经成为人们挖掘新闻、解释新闻、报道新闻的新方法。彭兰教授在论文中就曾举了美国Narrative公司的例子称:“这家只有30名员工的美国公司,通过独创的Narrative Science算法,大约每30秒就能够撰写出一篇新闻报道。且该公司的首席技术官克里斯蒂安·哈蒙德(Kristian Hammond)还认为,未来几期生成的新闻将占到媒体新闻的90%,并将在未来5年内,这样的新闻有可能获得普利策新闻奖。”[35]面对克里斯蒂安·哈蒙德的预测,媒体似乎并不应该感到有太大的惊讶,因为这样的例子在未来必然会越来越多。即便在当下,只要你给谷歌新闻指定一个关键词,谷歌就可以每天为你量身编辑一组新闻,并直接投递到你的电子邮箱,而筛选编辑的整个过程无须任何人为的干预。这些似乎都预示着未来的新闻从业者们将变得非常轻松,机器可以协助我们挖掘新闻、分析新闻、撰写新闻、编辑新闻和发送传播新闻。

对于大数据介入融合新闻生产的发展趋势,我们需要担忧的也许并不是某一天这些冷冰冰的机器可能会完全替代我们,而是即便我们不被替代,我们可能也已经完全依赖和屈从于这些机器生成的新闻和报告。数字化和网络化高度发达的今天,已有这样的少数记者,他们越来越多地在新媒体和网络虚拟空间中搜索新闻和发现新闻,越来越少地走出办公室深入社会底层或新闻第一线去用自己的眼睛和耳朵寻找新闻。

所以,媒体需要警惕的是,不要让大数据的便利培养出懒惰、轻率、傲慢、麻木的新闻生产者,大数据或许可以越来越详实地揭示社会现实、分析社会动态和预测发展趋势,但它始终不可能揭示人们内心细腻而丰富的情感,也不能代替新闻从业者现场的直观感受和判断。

三、警惕大数据的垄断

各行各业都需要大数据,但各行各业其实都想垄断和独享数据。普遍的观点认为:“由于数据分散在各行各业,大数据时代可能不会出现‘数据垄断’现象。因为,要让数据真正发挥作用,需要数据的开放,甚至让数据可以像商品和货币一样互相交换流通。”[36]O’Reilly媒体公司的创始人和CEO蒂姆·奥赖利(Tim O’Reilly)在接受《福布斯》杂志采访时也提出了类似观点,他认为:“数据垄断的可能性是真实存在的,但是会受到不断创新的数据收集方式的抑制。”[37]也就是说,大数据虽然可以被比喻为“金矿”,但这个“金矿”在几年前还并不存在,在未来还会有更多的“金矿”不断涌现,那么想要去垄断这些现有的和未来将不断出现的“金矿”显然非常困难。但这并不妨碍大数据领域的竞争,IBM、微软、甲骨文等IT行业的大佬们都已经摩拳擦掌,纷纷投入人力和财力进行布局。“IBM新任CEO罗睿兰(Ginni Rometty)更是提出观点认为,数据是下一个巨大的自然资源,将会区分每个行业的胜者与输家。这一观点得到了业界的广泛认可,并由此引发一场关于大数据的军备竞赛。”[38]这场角逐的焦点并不是垄断大数据资源本身,而是开采这座“金矿”的技术和设备。

通过技术和设备的研发和占有实现数据的垄断,这正是值得媒介警惕的地方。用数据特别是分析数据说话,是数字化时代的媒介特征。传统新闻生产显然也有一定的小数据挖掘和分析能力,譬如区域性的抽样调查、个案的分析报道。但是,在大数据面前,媒介的这些小数据处理技术和能力就变得无足轻重。大数据是一座“金矿”,但挖掘“金矿”的技术和设备门槛已经将一般媒体挡在了门外,政府机构、网络公司、国家通讯社、大型媒体和专业的数据分析企业才拥有打开这座“金矿”的钥匙,而一般地方媒体和小型媒体可能都不知道其是如何挖掘和分析的,甚至连质疑的资格和权利都没有。事实上,在很多关于国家或地区宏观经济数据的分析报道中,一般媒体已经处于这样的尴尬境地,没有数据,没有设备,没有分析工具和技术,“嗟来之食”成为新闻生产者们唯一的选择。

【注释】

[1]《海量cookie信息构成了大数据》,http://finance.china.com/fin/sxy/201303/21/9849686.html。

[2]《央视曝光网易等套取用户信息 精准营销遇挑战》,http://www.techweb.com.cn/news/2013-03-16/1283414.shtml。

[3]李盛明:《大数据战争——即将到来的全球数据革命》,《光明日报》2013年1月21日。

[4]Merv Adrian.“Big Data”,Teradata Magazine,http://www.teradatamagazine.com/v11n01/features/big-data/.

[5]Mckinsey Global Institute.Big Data:The Next Frontier for Innovation,Competition and Productivity,May,2011.

[6]Bill Franks.Taming The Big Data Tidal Wave:Finding Opportunities in Huge Data Streams with Advanced Analytics,Wiley and SAS Business Series,2012(4),p.4.

[7][英]维克托·迈尔-舍恩伯格,肯尼斯·库克耶:《大数据时代》,盛杨燕、周涛译,浙江人民出版社2013年版,第13页。

[8]尹明华:《大数据时代的报业转型》,http://www.baoye.net/News.aspx?ID=326464.

[9]李国杰、程学旗:《大数据研究:科技及经济社会发展的重大战略领域》,《中国科学院院刊》2012年第6期。

[10]Beyer Mark.Gartner Says Solving“Big Data”Challenge Involves More Than Just Managing Volumes of Data.STAMFORD,Conn,2011.

[11]佚名:《运营商挖掘大数据价值的7种模式》,http://cloud.51cto.com/art/201303/383247.htm.

[12]Mark Beyer A.Douglas Laney.The Importance of“Big Data”:A Definition.Gartner.Retrieved,2012(6).

[13]Viktor Mayer-Sch9nberger,Delete:The Virtue of Forgetting in the Digital Age,Princeton U-niversity,2009(9),p.4.

[14]Bill Franks.Taming The Big Data Tidal Wave:Finding Opportunities in Huge Data Streams with Advanced Analytics,Wiley and SAS Business Series,2012(4),p.7.

[15]吴以四:《大数据的大价值》,《商业价值》2011年第8期。

[16]《5个故事告诉你大数据是什么》,《电脑报》2012年9月18日。

[17][美]艾伯特-拉斯洛·巴拉巴西:《爆发》,马慧译,中国人民大学出版社2012年版,第41页。

[18]McKinsey Global Institute.Big data:The next frontier for innovation competition and productivity,May 2011,p.19.

[19]陈昌凤、刘少华:《大数据时代如何做新闻》,《新闻与写作》2013年第1期。

[20]李国杰、程学旗:《大数据研究:科技及经济社会发展的重大战略领域》,《中国科学院院刊》2012年第6期。

[21]田晓玲:《大数据时代带来更理性、更可靠的决策》,《文汇报》2013年3月11日。

[22][英]罗宾·邓巴:《你需要多少朋友》(神秘的邓巴数字与遗传密码),马睿、朱邦芊编译,中信出版社2011年版,前言。

[23]涂子沛:《大数据》,广西师范大学出版社2012年版,第99页。

[24]Eric Auchard.Reuters to acquire text search firm ClearForest,April 30,2007,http://www.reuters.com/article/2007/04/30/idUSNAAD300120070430.

[25]Vitaly Friedman.Data Visualization and Infographics,Graphics,Monday Inspiration,January 14th,2008.

[26]涂子沛:《大数据》,广西师范大学出版社2012年版,第102页。

[27]龚瀛琦、张志安:《融合报道的特征及生成机制》,《新闻界》2011年第3期。

[28]陈昌凤、刘少华:《大数据时代如何做新闻》,《新闻与写作》2013年第1期。

[29][英]维克托·迈尔-舍恩伯格,肯尼斯·库克耶:《大数据时代》,盛杨燕、周涛译,浙江人民出版社2013年版,第86页。

[30]彭兰:《“大数据”时代新闻业面临的新震荡》,《编辑之友》2013年第1期。

[31]王星:《大数据时代的记忆与遗忘》,《电脑报》2012年12月24日。

[32]Bill Franks.Taming The Big Data Tidal Wave:Finding Opportunities in Huge Data Streams with Advanced Analytics,Wiley and SAS Business Series,2012(4),p.8.

[33]关志刚:《大数据用户的七宗罪》,IT经理网,http://www.ctocio.com/ccnews/11175.html。

[34]Kenneth Neil Cukier,Viktor Mayer-Schoenberger.The Rise of Big Data,Foreign Affairs,May/June,2013.

[35]彭兰:《“大数据”时代:新闻业面临的新震荡》,《编辑之友》2013年第1期。

[36]余建斌、赵展慧:《拥抱大数据》,《人民日报》2013年2月25日。

[37]Jon Bruner.Will Data Monopolies Paralyze the Internet?,http://www.forbes.com/sites/jonbruner/2012/04/12/will-data-monopolies-paralyze-the-internet/.

[38]李萧然:《大数据成新战场 IT厂商奋勇掘金》,《IT时代周刊》网络版2013年第1期。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈