大数据处理系统的构建是实现大数据价值的核心,数据源经由大数据处理系统的分析与处理,最终形成可视化的数据呈现给用户。当前的数据源主要集中于电信运营商(中国电信、中国移动和中国联通)、银行为代表的金融机构以及互联网龙头企业(如电商和社交网站)等。例如:中国电信的数据涵盖了宽带用户的行为轨迹、移动手机用户的通话记录以及网络电视(IPTV)用户的观影记录等,银行的数据包含了用户的财务信息和信用记录,电商的数据包含用户的购物行为等数据。当然,三者的数据也各有不足,例如中国电信的数据过于零散,过多依赖用户网络行为,缺乏用户实质性的信用记录(实质的资产信息、违约信息等);银行则由于数据源头单一、形式单调,无法表现客户的交易偏好和交易习惯等个性特征,进而制约了自身数据的运用能力;电商的数据虽然能够记录用户的购物行为及购物偏好,但由于局限于自己的产业圈,其数据运用范围受到极大限制(如蚂蚁微贷主要针对淘宝天猫平台上的用户)。在确定好可以接入的数据源之后,下面进入大数据处理系统的处理过程,该过程包括数据准备、存储管理、计算处理、数据分析和结果展现五个阶段。
1.数据准备
数据准备阶段主要是数据的导入,包括提取、转换和加载三步。数据提取是指,从真实的世界中获得原始数据,并整合梳理数据关系的过程。不准确的数据提取将影响后续的数据处理,并最终得到无效的结果。数据转换是指,将提取的数据按照业务需要转换为目标数据结构,并实现汇总。数据加载是指,将转换好的数据保存到数据仓库中去,一般针对特定种类的数据建立专门的数据库,将这些不同种类的数据信息分门别类地放置,从而有效地减少数据查询和访问的时间,为后续数据分析做准备。
2.存储管理
随着数据不断增长、数据的种类越来越复杂、体量越来越大,这就需要提升硬件配置,选取合理的数据存储管理系统,并根据数据体量和种类的变化不断优化数据存储管理系统,提高数据存储和访问的效率。对于关系型数据,通常建立并行数据库系统[1],并使用程序设计语言SQL(Structured Query Language,结构化查询语言)来存取、查询、更新和管理数据库系统。对于非关系型数据,则建立NoSQL数据库系统。NoSQL数据库系统能够很好地进行水平扩展,与关系型数据库集群方法不同,这种扩展不需要很大的代价。而基于低端硬件的设计理念为采用NoSQL数据库系统的用户节省了很多硬件上的开销。
3.计算处理
在数据分析前,需根据分析的需要对数据进行计算处理,计算处理的方式包括批处理、交互式处理和流处理。批处理是指,将作业按照它们的性质分组(或分批),然后再成组(或成批)地提交给计算机系统,由计算机系统自动完成计算后再输出结果,批处理能够减少作业建立和结束过程中的时间浪费;操作人员和系统之间存在交互作用的信息处理方式;交互式处理是指,操作人员通过终端设备输入信息和操作命令,系统接到后立即处理,并通过终端设备显示处理结果,操作人员根据处理结果进一步输入信息和操作命令,如此循环下去,直到完成数据处理;流处理是指,通过事件机制,对接收到的数据进行实时处理,并且源源不断的数据流过系统时,系统能够不停地连续计算处理,从而使处理结果具备低延迟,高可靠性和容错能力。
4.数据分析
数据分析是整个大数据处理流程里最为核心的部分,其目的是挖掘数据中隐藏的信息。根据分析深度,可以将数据分析分为三个层次:描述性分析、预测性分析和规则性分析。当前的数据分析技术主要包括传统技术和云计算技术两种。传统技术有数据挖掘、数据统计、机器学习、智能算法等,云计算技术有处理文件系统的Google File System(GFS)技术、处理数据库系统的Big Table技术、数据批处理的Map Reduce技术以及大数据处理工具(平台)Hadoop等。数据分析需要依赖大数据实验室的设备及技术支持。
5.结果展现
结果展现就是将数据分析的结果进行可视化,即数据可视化。数据可视化是指,通过使用计算机创建图形图表等方式,将数据分析结果的各种属性和变量以形象的易于理解的方式呈现出来。常见的饼图、直方图、散点图和柱状图等,是数据可视化最基础的应用。随着数据可视化平台的拓展以及应用领域的增加,数据可视化的表现形式不断变化,边界不断扩大,增加了诸如立体效果、实时动态效果以及用户交互使用等特效。
最后,可视化的数据就可以呈现给用户使用了。大数据处理系统运作流程如图9-3所示。
然而,现有的数据中心技术已很难满足大数据存储与处理的需求,需要考虑对整个IT架构进行革命性的重构。鉴于存储能力的增长远远赶不上数据量的增长,设计最合理的分层存储架构已成为构建系统的关键所在。同时,数据的移动也已成为该系统运行的难点所在。因此,大数据存储与处理系统的构架需要从数据围着处理器转改变为处理能力围着数据转,即将计算用于数据,而不是将数据用于计算。
图9-3 大数据处理系统运作流程
大数据还面临数据整合的挑战,如果不能对数据进行有效整合,大数据的价值就不能发挥出来。如同人类有许多种自然语言一样,个人、企业和政府都有自己与众不同的数据格式,并且各种半结构化或非结构化数据的增长速度越来越快,这加大了数据分析的工作量。为了顺利完成大数据处理与运用,就要研究和推广不与大数据平台绑定的统一数据格式,并且构建融合人、机、物三元世界的大数据存储与处理系统。
【注释】
[1] 并行数据库系统是指,那些在无共享的体系结构中进行数据操作的数据库系统。这些系统大部分采用了关系数据模型并且支持SQL语句查询。为了能够并行执行SQL的查询操作,系统中采用了两个关键技术:关系表的水平划分和SQL查询的分区执行。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。