首页 百科知识 大数据之博大精深

大数据之博大精深

时间:2023-07-17 百科知识 版权反馈
【摘要】:中国工程院院士 邬贺铨各位专家:早上好!先说大数据之博。企业大数据会超过消费者大数据。大数据也不仅是数据量大,更多的是多维度与代表性。当然,大数据不能以大概全,大数据是已经发生实践规律的总结,能否用于预测取决于后续事件的发展有无新的重大因素。

中国工程院院士 邬贺铨

各位专家:

早上好!

我发言的题目是“大数据之博大精深”。

先说大数据之博。大数据有多个来源,有物理空间传感器收集的数据,有网络空间的数据,也有政府、企业、学校的数据,还有原来就已收集的数据。网络数据可以分为自媒体数据、富媒体数据、基础网络数据等。据资料显示,在2013年全球的数据来源中,政府、企业和消费者各占三分之一。现在大数据分类主要分为与国家安全有关的数据、与商业秘密有关的数据和关于隐私的数据,当然这三方面的数据是不能开放的。开放的是其他方面的数据,开放数据是大数据的一部分,也是政府数据的一部分。

大数据从结构上可以分为结构化数据、半结构化数据和非结构化数据,大数据是多来源多类型的。关于大数据的结构化、半结构化、非结构化,有的要求是实时性的,有的要求是非实时性的,它们处理的速度要求是不一样的,非结构化是指不能用表格来表示的数据。

大数据有什么特点?第一是增长性。比如医疗大数据,中国有千万人口的城市所积累的医疗数据量已达到10PB级,每天都会有大量的数据导入医疗数据中心。第二是长期性。按照医疗行业的相关规定,门诊患者的数据保存不得少于15年,住院数据保存30年,CT、X光的数据保存50年,影像数据无限期保留。第三是颗粒性。医疗数据具有多样化和碎片化的特征,颗粒性大小差别很大,所有的数据都应该有标签,包括患者的医疗史。第四是关联性。不同的医疗信息服务需要不同的视角来观察这些数据。第五是隐秘性、隐私性和生命性。大数据处理好可以换回生命,处理不好也可能损害生命,医疗大数据的特点较为丰富。

网络上的非结构化数据主要是视频,全世界网络视频的流量从2014到2019年,每年大概增长23%,其中互联网流量每年增加27%。目前,互联网的流量里视频已经占到一半以上,而移动视频流量增长更快,前几年增长了百分之五六十。2015年移动视频已经占到移动数据的55%,2020年将会达到75%。

对于中国的安全管理部门来讲,一个很大的烦恼是如何识别网络上的暴恐视频,这影响着社会的稳定。现在已经开发了一种算法,扫描照片之后附加一种文字,然后将照片和文字同时存储下来,解说照片的时候就可以检索出视频。

当然,更重要的是把非结构化的数据转化成结构化数据。针对很多人不懂其他国家的文字,目前已经开发出了一种算法,可以下载一个APP,对着路标一拍,就可以把文字直接翻译,据说可以翻译成26种语言。这不是简单的文字翻译,而是把照片上的文字进行翻译,并且通过音频来识别,这就是把非结构化变成结构化来处理。大数据之博是多维度的。

大数据之大,全世界网民每天下载的流量,2008年是1G,2014年达到了10G,五六年翻了一个数量级。现在互联网的数据流量每年新增40%,所以每两年的数据量就翻两番,到2020年,全球的数据量要超过40ZB。

关于政务大数据。政务大数据包括多个部门的数据,一个8Mbps的摄像头每小时产生3.6GB的数据,很多城市的摄像头多达几十万个,一个月的数据量达到数百PB,若保存3个月则存储量达到100个EB。税务部门前两年存储的结构化数据有260TB,每个月收集4TB。北京检察院的每个案件都用视频录下来,法院所有的庭审全部录音录像,深圳公安局收集了进入深圳的所有数据,仅电话号码就有1.39亿个。

另外,消费者也有大数据,中国移动每天的话单数据10TB,信令数据100TB,上网记录500TB。在中国联通方面,用户上网记录每秒83万,对应的年数据量3.6PB。北京的公交一卡通每天4000万人次,地铁1000万人,北京交通中心每天数据增量30GB,存储量20TB。另外淘宝、百度都是大的数据源,淘宝的单日数据产生量超过50TB,百度每天处理100亿次搜索请求,新增数据量800TB。

企业也有大量的数据,比如很多的交易和各式各样的数据。2012年平均每家企业10PB,平均每家中小企业500多TB,未来将增加178%。再比如飞机汽轮机压缩器叶片的监控数据为588GB/天,波音787飞机每一次飞行来回产生的数据是TB级别的。一个风厂每年能产生2TB的数据。企业大数据会超过消费者大数据。

大数据需要的数据量很大,当数据量较少的时候,采用的矩阵储存聚类分析的误差较大,只有当数据大于一定量的时候才可以用。大数据也不仅是数据量大,更多的是多维度与代表性。

麦肯锡曾评价大数据的价值堪比石油,但矿产资源因不可再生,会随时间而增值,信息资产随着互联网的发展会越来越多,折旧很快,所以数据并不见得存的时间越长越好。我们不需等待数据量达到PB级别才去分析,很多小数据也有挖掘的价值,所以不以数据小而不为。国内外大数据成功应用的案例很多都不能到达PB级,但是也足以作为分析决策的参考。

当然,大数据不能以大概全,大数据是已经发生实践规律的总结,能否用于预测取决于后续事件的发展有无新的重大因素。谷歌公司能成功预测美国阿特兰大中部地区2008年春夏之交有关流感的情况,它根据搜索词频率异常提高而成功判断即将爆发的流感,但流感疫情的前兆与有关流感搜索词突发的相关性的逆命题不成立,不能说搜索词突发就一定是流感,只能说流感可能导致搜索词突发。谷歌对2012年底美国流感的预测结果比实际情况夸大就是一例,但这不是大数据的失效,如果谷歌能更多关注搜索引擎之外的大数据,以大数据之博观察大数据之大,可能会有所不同。

大数据之精。通常说大数据不追求数据精准,但强调规律。这应理解为对于一个大数据集而言,我们很难要求所有的数据都精准,只要大多数数据具有代表性,就不妨碍数据的集合得到较为准确的结果。

由这个长三角微博签到的密集图可以得到微博的城际联系图,我们要排除一些不精准的数据,但是大部分数据还是有关联的。大数据计算本身不精确,是近似的,所有的大数据分析都是一个建模和近似的过程,所以本质上不能要求大数据绝对精准,但它分析的结论是准确的。最近UNC夏洛特图像可视化中心已经有了相关的软件,利用这个软件可以进行建模,它可以为交通疏导的大数据提供米级的精度。谷歌的无人驾驶车,这个精度要求米级精度,它可以应用于各式各样的地图以实现高精度的交通,这个地图是通过实时扫街而产生的地图,比现在的高德地图和百度地图的精度要高很多。

另外,大数据有助于提高分析精度和速度。用大数据可以进行语音识别,谷歌的翻译众所周知,它是根据大量可以参考的数据来实现自动翻译。所以,最近10年,语音识别的错误率和机器翻译的准确率都成倍地改进,其中20%的改进是靠方法,而80%是靠大数据。

大数据之深。大数据的分析不仅需要大量的数据,还需要建立模型。例如语音识别,在特征提取后,采用GMM静态概率模型描述发音的不确定性,采用HMM动态概率模型描述发音的时序特性,然后用数据来训练模型和优化模型参数,数据越大训练的效果越好。现在利用GPU可模拟超大型人工神经网络,最近百度、谷歌在这方面都取得较好的进展。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈