最近流传着这样一个段子,题目是“什么是大数据”。这个段子虽然没有给大数据下一个严格的定义,但是也形象逼真地描述了一些大数据的特征。既然要研究大数据,我们不妨也传播一下这个段子。
什么是大数据
某必胜客店的电话铃响了,客服人员拿起电话。
客服:必胜客。您好。请问,有什么需要我为您服务的吗?
顾客:你好,我想要一份……
客服:先生,烦请先把您的会员卡号告诉我。
顾客:16846146***
客服:陈先生,您好!您是住在泉州路1号12楼1205室,您家电话是2624***,您公司的电话是4666***,您的手机号是1391234****。请问,您想用哪一个电话付费?
顾客:你为什么知道我所有的电话号码?
客服:陈先生,因为我们联机到CRM系统了。
顾客:我想要一个海鲜比萨……
客服:陈先生,海鲜比萨不适合您。
顾客:为什么?
客服:根据您的医疗记录,您的血压和胆固醇都偏高。
客服:您可以试试我们的低脂健康比萨。
顾客:你怎么知道我会喜欢吃这种比萨?
客服:您上星期一在国家图书馆借了一本《低脂健康食谱》。
顾客:好。那我要一个家庭特大号比萨,要付多少钱?
客服:99元,这个足够您一家六口吃了。但您母亲应该少吃,她上个月刚做了心脏搭桥手术,还处在恢复期。
顾客:我可以刷卡付费吗?
客服:陈先生,对不起。请您付现款,因为您的信用卡已经刷爆了,您现在还欠银行4807元,而且还不包括房贷利息。
顾客:那我先去附近的提款机提款吧。
客服:陈先生,根据您的记录,您已经超过今日提款限额。
顾客:算了,你们直接把比萨送到我家吧,家里有现金。你们多久能送到?
客服:大约30分钟。如果您不想等,可以自己骑车来。
顾客:为什么?
客服:根据我们的CRM全球定位系统的车辆行驶自动跟踪系统记录,您登记有一辆车号为SB-748的摩托车,而且目前您正在解放路东段华联商场右侧骑着这辆摩托车。
顾客当即晕倒。
读完这个段子,给我们的第一印象自然是大数据很好玩。但是,这也告诉我们大数据给我们的生活带来了很多便利,从客服人员的服务里我们也感受到了企业服务的“无微不至”。其实,从这个层面上讲,大数据为提高服务行业的服务水平、服务效率做出了贡献;从更高层面去理解,大数据实现了传统服务业的升级。而事实上,大数据的魅力不仅仅是服务行业,未来几年甚至当下,大数据已经不断植入各行各业,让更多的传统产业具备了转型升级的可能。也可能有人提出这样的疑问:我的住宅地址、电话号码、健康状况是我的个人隐私,怎么能随意让他人获取呢?但是,我们的这些所谓个人隐私,如果不被作为非法利用而是让我们的生活更加便利、更具品质,也就未尝不可。这些所谓隐私,隐起来又有什么用处呢?是的,假设让一些不该知道的人知道,这些所谓隐私的暴露会让我们不胜其烦,但是我们国家已经在制定大数据行动纲要,其中一个重要的内容就是数据信息安全,况且这些数据信息仅仅是大数据的冰山一角。
一、 什么是大数据
言归正传,下面我们介绍一下到底什么是大数据。国际数据公司界定了大数据的四大特征:海量的数据规模(vast)、快速的数据流转和动态的数据体系(velocity)、多样的数据类型(variety)和巨大的数据价值(value)。这也是我们在很多大数据报刊、图书、网络上看到的所谓4V大数据概念。
从经济学的角度看,大数据是经过系统整理,储存在现实或虚拟空间里,能够提供一定价值的信息资源;狭义到会计学的层面,这些信息资源是大数据企业或大数据研究机构通过过去交易或事项合法取得,能够拥有或控制,并可以带来经济利益的资产。
本书认可关于大数据的4V特征,同时将大数据定义为信息资源,并认定其为一项资产。当然,认定大数据为资产是需要建立在大数据企业、政府部门、高校团体、研究机构经过数字、信息、数字化、信息化、数据化、大数据化到大数据资产的过程中进而发挥其价值的基础上的。
从海量的数据规模来看,根据报道,全球IP流量达到1 EB所需的时间,在2001年是1年,在2013年仅为1天,到2016年则仅为半天。全球新产生的数据年增40%,全球信息总量每两年就可翻番。而根据2012年互联网络数据中心发布的《数字宇宙2020》报告,2011年全球数据总量已达到1.87 ZB(1 ZB=10万亿亿字节),如果把这些数据刻成DVD盘,将这些盘一张接一张排起来的长度相当于从地球到月亮之间一个来回的距离,并且数据以每两年翻一番的速度飞快增长。由此看来,大数据真够“大”的。预计到2020年,全球数据总量将达到35~40 ZB,10年间将增长20倍以上。
事实上,所谓大数据并不仅仅指数据海量,而更多的是指这些数据都是非结构化的、残缺的、无法用传统的方法进行处理的数据。也正是因为应用了大数据技术,美国谷歌公司才能比政府的公共卫生部门早两周时间预告2009年甲型H1N1流感的暴发。也就是说,大数据需要量化并进行不断的开发、分析和应用。大数据需要量化而不是数字化。所谓量化是指从错综复杂的大量数据中不断地提取、整理,把现象转变成为可以分析应用的形式。笔者想给大家说的就是大数据好玩,但不是用来玩的;大数据有用,应该体现其价值所在。
大数据将带来前所未有的变革,这也是我们说大数据的到来使我们进入大数据时代的原因。就像电力技术的应用不仅仅像发电、输电那么简单而是引发了整个生产模式的变革一样,基于互联网技术而发展起来的“大数据”应用,将会对人们的生产过程和商品交换过程产生颠覆性影响,数据的挖掘和分析只是整个变革过程中的一个技术手段,而远非变革的全部。“大数据”的本质是基于互联网基础上的信息化应用,其真正的“魔力”在于信息化与工业化的融合,使工业制造的生产效率得到大幅度提升。那么,信息化与工业化的融合就恰恰是我们“中国制造2025”的精髓,因此我们后面的章 节还会和大家一起研究大数据在行业变革中的应用。
大数据并不能生产出新的物质产品,也不能创造出新的市场需求,但能够让生产力大幅度提升。正如《大数据时代:生活、工作与思维的大变革》作者肯尼思·库克耶和维克托·迈尔 - 舍恩伯格指出的那样,数据的方式出现了三个变化:第一,人们处理的数据从样本数据变成了全部数据;第二,由于是全样本数据,人们不得不接受数据的混杂性,而放弃对精确性的追求;第三,人类通过对大数据的处理,放弃对因果关系的渴求,转而关注相互联系。这一切代表着人类不再总是抱有试图了解世界运转方式背后深层原因的态度,而仅仅需要弄清现象之间的联系以及利用这些信息来解决问题。
二、 大数据在国家层面的认可
在2016中国大数据产业峰会上,面对3 000多位海内外嘉宾,国务院总理李克强发表了重要讲话,高度认可信息技术为全球发展带来的助力作用,同时将大数据誉为“钻石矿”,并从三个层面深度分析了大数据技术给社会经济带来的关键意义。
(一) 推动信息联通
总理开篇谈到,当今世界,信息化潮流席卷全球,地球村从概念变成现实,大数据在其中起了关键作用。
随着互联网、移动互联网产业的快速发展,信息的快速流通与交互拉近了人与人之间的距离。国家之间的快速联通,使得“地球村”的概念快速落地。这其中,大数据的助力作用不容忽视。
“谁掌握了先机,谁就掌握了未来。”总理认为,中国曾经有过与世界科技革命失之交臂的教训。当下随着创新技术的快速发展,所有国家和地区只要通过努力,都可以站在同一条起跑线上,以前落后的地方同样可以抢占先机。
一些欠发达的地方,能够跃上这个高地,依靠大数据、云计算、物联网所代表的新一代创新技术,将发展新经济作为主要方向,从依赖自然资源到依赖人力资源,实现可持续发展。中国有14亿人口,我们有发展压力,但是把压力变成资源后,压力就是潜力。数十亿人都在生成数据、加工数据、处理数据,数据将成为巨大的新资源。
(二) 实现产业变革
创新技术的快速迭代,带来了新兴产业的兴起。近年来,中国在互联网与移动互联网领域的技术发展与商业模式的创新,实现了对欧美国家的赶超,与互联网相关的产业都在高速发展。
伴随着国家“互联网+”战略的逐步深入,传统产业转型升级的步伐也在不断向前迈进。总理指出,这其中大数据带来了深刻影响,同时带动了产业变革。以货运行业为例,有一家货运企业拥有会员货车170多万辆,通过大数据技术进行信息收集、数据交互,大大降低了空驶率。把大数据与传统行业的工匠精神结合起来,就能融合虚拟世界和现实世界,实现新旧动能转换,实现价值链、产业链和供应链的变革。
(三) 带动经济增长
总理指出,今天的中国,完全可以把握住历史发展的机遇,推进供给侧改革,不断提升劳动生产力,通过发展新经济推动产业转型升级。
数据可以比作钻石矿,应把互不相连的信息孤岛连接起来。总理认为,也正因为有共享,数据才能无限放大。共享经济正作为新的经济增长点,带动中国经济进入一个新的发展周期。“共享经济可以利用闲置资源和过剩产能,提高效率,缩小区域、城乡、人群之间的差距和数字鸿沟。”
目前80%的信息资源掌握在政府部门手中,政府就要发挥作用,打破信息孤岛,除涉及隐私之外,其他信息都应该向公众和社会开放,形成“人在干,数在转,云在算”的局面。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。