“个人数据是互联网的新原油和数字世界的新货币。”欧盟消费者权益保护事务委员麦格丽娜·库涅娃(Meglena Kuneva,1957—)早在2009年3月31日曾如此表示过。3到了2014年,的确没有什么突破性新内容:谁获取庞大数据量的控制权,即我们每个人在互联网留下的数字化足印,也就赢得了对我们自己的监控。数字化影子和关乎我们每个人的信息,在互联网上虽然可以找到,但是早就不依照可控的方式与方法由我们自己支配了。数字化影子跟随我们所到之处,互联网上其他的人就可以在那里谈论我们。即使不拥有Facebook账号的人,也同样适用,Facebook知道他的存在,因为在社交网络注册的Facebook用户也可以查询非用户。由于数字化影子,数据保护者早就警告过,人类要出借全部的数字化存在,如今在他们出生前的几个月他们就常常在使用这些影子了。荷兰安保公司AVG Technologies NV在十个发达国家展开的研究证明,技术在改变孩子们的生活。4早在2010年就有四分之一未出生者拥有了数字化的存在,它赶在婴儿出生之前。81%的婴儿在他们两岁之前,就过上了数字化生活。5随着我们在互联网存在的镜像的生成,在社交平台、相册、日志中,我们个人的数据量呈指数级增长。到2020年预计比2011年存在的数据量增长50倍,同时可供使用的IT专家的数量仅仅增长了1.5倍。6只有当数据存储容易被再次找到,能够全自动地得到分析时,国家和工业才能够利用数据洪流。今天叫卖大数据的人,因此认为迅速查询非结构数据时的新数据库技术及其效率占大多数,要求更快速的计算机和更高效信息流量的网络马上跟上。
直到2005年前后,关系数据库(relationale Datenbanken)还被当作数据库的标准。如今它们处在我们天天要打交道的大量软件应用的不可或缺的中心。借助关系数据库,数据库架构师们以表格的方式组织数据。图表将互相连接,在彼此之间和它们之中包含的数据之间产生这样的关系,因此名称是“关系”。数据库架构师眼前始终有一个目标:避免冗余,让数据不至于双倍地录入。这种正常化(Normalisierung)允许一个数据库始终恒定,输入没有必要在这儿或者那里同时改变,因为这样太容易出错。假如人们在一种关系数据库中寻找一种确定的输入,那么数据库就会编制一份虚拟的新图表,包含所有被查询的输入。只要数据量一目了然,编排有序,结构上以行数、图表、连接存在,这就可以快速进行。关系数据库因此像合同管理、音乐标题管理或者会计程序那样是软件应用选择的手段。它们在超大批量时碰撞数据,如同数十亿次的点击或者在线客户的网页浏览,迅速触及其界限,几乎不适合于诸如Skype信息、电子邮件内容、照片、数字电视播送以及一次物理实验粒子爆炸等非结构性数据。
面对发现存放在万维网某处的大量非结构性数据问题,谷歌和雅虎等搜索引擎已经及时做出了分析。在万维网早期阶段,这么设计一台搜索引擎的软硬件是一个挑战,使得互联网的使用者实际上能够在搜索时,尽管数据量大增,但是搜索本身并没有变慢。搜索引擎一般来说总有缺陷,其使用者必须知道,他们在搜索什么。您若调研一部电影,不可能既回忆起电影名称又想起主要演员的名字,取而代之您输入:“西部光头”。然后等待,尤尔·伯连纳(1)和《七侠荡寇志》是显示的最佳匹配的搜索结果,而不是“心肌梗死风险:头发储存应激激素”的警告,您可以从中导出推荐,应该剃个光头,为了在饱受折磨的世界西部降低您统计学上的生命危险增高。为此搜索引擎要胜任其使用者对搜索清单的期待,它们正好处于变化中,愈来愈多地突变成回答引擎。可以说,谷歌在此意义上早就为大数据提供了服务。因为在2003年和2004年,谷歌高管公布了两份关于谷歌搜索引擎的技术详解:谷歌文件系统(GFS)和映射—归纳—算法(Map-Reduce-Algorithmus)。映射—归纳—算法绝对不是谷歌帝国的创新。在数字方法中,也就是在不含唯一封闭解的巨型公式计算中,数学家早就把大矩阵划分为单一模块,平行处理它们。该方法作为“聚集—散射指令”,在十年前经过谷歌的使用,成为两台平行运算中的计算机之间进行信息交流的标准。
两种谷歌的元件也利用分散化原则和平行处理,在一组所谓的“计算机集群”(Computer Cluster)上工作,其中许多计算机互相通信。在计算机集群中零星地适合于一般的互联网和非常普遍地适用于组织理论:分布式结构比中心集中式结构更坚实。如果在计算机集群中一个节点失灵,不会干扰到其他节点;遇到个别失灵时,任务不会被慢速处理。而且运行时围绕几个节点,这种计算机网络的扩展不会对剩余的计算机联盟有侵入性。个别计算机不会受变化的网络布置的影响,也不会受其他计算机进入网络或者离开其联盟的迷惑。
四五年前,在大规模平行的、同时又买得起的高性能计算机升级之前,例如为了生物信息学、金融数学或者天气预报任务的人,需要一个科学计算和数据分析的计算机联盟,但又不是能够支付上百万欧元购买和维护像硅谷的Graphics、IBM或者Gray等最高等级超级计算机的科研机构,就会选择一个商业集群(Commodity Cluster),购买众多支付得起的个人计算机,在公司内部网中连接成为一个计算机联盟。例如数据分析等计算任务可以分配到任意一台单独的计算机上,彼此平行处理分配到的任务。这种商业集群能够完成既定目标,但是也有限制,像总是保留着拐杖。在科学的大规模平行计算机的效率和维护友好性方面,其构建模式包含了上千台平行工作的计算机,计算机联盟用市场上可买到的包括一两台程序处理器的个人计算机远远不够。
后来情况大大地缓和,每个想要大量计算的人都买得起超级计算机。买得起用于科学计算的处理器才是几年前的事,迄今为止仅仅用作显卡的主要组成部分。在这种图形处理器(Graphical Processing Unit,简称GPU)中涉及特殊程序处理器,可以大规模执行平行运算,但是更多的它们可能不行。众所周知的操作系统或者办公软件用中央处理器(Central Processing Unit,简称CPU)就能完成,它可按照顺序完成任务。
“内含双核”是一条宣传用语,您也许可以回忆起它几年前的电视广告。一个CPU上有两个核心处理器是快速运行的完美典范,让我们长时间地感到幸福。英特尔公司的四核(Quadcore)——在一台个人电脑上拥有四个核心处理器——在21世纪初尚属最豪华级别。但是一台计算机运用3000多个图形处理器甚至也能让计算极快。人们不必耗费112年等待一种确定的金融数学计算的结果,他的好奇心几天之后就可以得到满足。7类似做法也适用于德国气象台的天气预报。在位于奥芬巴赫的官方气象计算中心经过大约4.5小时的计算之后,未来七天的全球气象预报就摆在眼前了。这种强大的平行运算会消耗大量能源,同时,计算机的热量也会上升,它们全负荷地运行如同一台加速的发动机在嘶吼。
回到2003年和2004年,当时谷歌在发动机罩下一瞥,公布了这个知名搜索引擎的系统核心细节。经过雅虎设计师道格·卡明斯(Doug Cunnings)的着手研究,他识别了两种谷歌用于促进数据量指数级增长的爆炸性技术,由此完成了一项使用不同的关联技术处理庞大数据量的软件工程(大数据平台),名为Hadoop。8这期间作为一家知名的软件工程促进机构——Apache软件基金会免费软件许可能够获得这种Hadoop分布式文件系统(Distributed File System,简称HDFS)(2),如同谷歌文件系统那样服务于一种计算机集群,能够在许多台不同的计算机上存储和再度调阅十亿字节(GB)和兆兆字节(TB)的数据。HDFS专门为商业上购买得起、物美价廉的个人计算机而开发。不存在对相关存储数据量的限制,游离于硬件物理上最终的存储容量之外。另外,Hadoop还能组织与关系数据库不同的大量数据。图表拥有的栏目数目可以变化,专业上互相连接的栏目将被分组和共同存储。尽管如此,Hadoop拥有像关系数据库那样类似的数据模型,随同图表和一致性工作。
面向栏目的数据库与此区别。它们不再逐行掌握同类型数据,而是分栏存储。我们假设,您需要记录一个月跨度的美国预先选销选购市场的所有价格——这大约有1600亿个单价9——与每种价格制定一道,存储诸如路透社和彭博社等信息服务商的文字和相关联的附加信息。如此,您就可能迅速地摘录出当月某天的所有价格,这就是意义,您在此之前把所有的数据在唯一的栏目中覆盖,您的请求在所有输入之后,对于确定的日期,只有这个栏目可以看清。比起费力搜寻价格和相关的价值,多行之外的文本要快得多。
一个漂亮地说明用于数据分析的“映射—归纳—算法”功能的案例来自计算机巨头IBM。10罗马帝国进行人口普查时,会把普查那座城市居民人数的任务分派给帝国每座城市的一名官员。返回罗马后,计数者要公布他们单独的统计结果。罗马的人口普查办公室汇集了来自各城市的单一结果,从而获得了帝国所有居民的总数。这样罗马帝国所属城市的居民数目得以“描摹”下来。地图(映射)——分派的这些官员,他们彼此平行地收集他们单一的结果,并在罗马的中心汇集这些单一结论;汇集(归纳)——通过他们组成一个总数,获得问题的答案,帝国总共统治了多少臣民。或者更抽象地说,每个大于1的自然数,人们都可以理解为是由多个1组成的归纳。我们使用数字7,它由1+1+1+1+1+1+1归纳得出,其总数恰恰为7。在数值方法中,7不再比一张示意图(Schmea)更多,一种还原算法也无法更多预期——尽管人内心承载着一种永恒的、内在的对神秘主义的渴望,始终追求着数字更深沉的内容:一周七天、七大世界奇迹、昴星团、七臂烛台、七宗罪。
显然,在这里,人与智能计算机的区别将更久地存在下去。神秘主义、形而上学的意义、精神的力量、理智、感觉、良知和责任是只有人类所特有,是不可能期待计算机也拥有的要素,尽管人们一再尝试,让计算机模仿人类行为。计算机只是在快速、平行完成的任务方面已经超越我们,尤其当它们按照古罗马人那样行动时。倘若有人按顺序把古罗马唯一一名官员派到帝国各座城市,他们虽然能得到同样的人口普查结果,只是不能用相同的速度。古罗马人——他们出人意料地触及了大数据令人激动的部分:数学及其模型以及数据融合的算法,通过形势分析,进行测量与计算。因为罗马“人口普查办公室”认识的东西是算法。如果算法是一个明确的、经过调整的步骤解决任务,那么几乎我们做的一切就是一个算法,自亚历山大港的欧几里得(Euklid von Alexandria)以来就是如此。
“Dixit Algorismi”,算法如是说。11
(1)尤尔·伯连纳(Yul Brynner,1920—1985),出生于俄国的美国演员。主演电影《七侠荡寇志》(The Magnificent Seven)。译者注。
(2)Hadoop Distributed File System(HDFS):Apache Hadoop项目的一个子项目,是一个高度容错的分布式文件系统,设计在低成本硬件上运行。HDFS提供高吞吐量应用程序数据访问功能,适合带有大型数据集的应用程序。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。