面对如此大量的数据,我们该如何处理和使用它?这就要用到“大数据技术”。
大数据技术是指从各种类型的巨量数据中快速获得有价值信息的技术。事实上,我们所说的“大数据”并不仅指数据本身和其规模,也包括数据的采集工具、处理平台和分析系统。
与传统数据处理方法不同的是,大数据技术的理念有三大转变:要全体不要抽样;要效率不要绝对精确;要相关不要因果。
大数据的处理流程可以概括为数据采集、导入和预处理、统计分析和数据挖掘等四个步骤。
1.数据采集。大数据的采集是指利用多个数据库来接收发自客户端的数据,如Web、App、传感器等。在采集过程中,会有成千上万的用户同时进行访问和操作,比如火车票售票网站或著名网店,它们的同时访问量在峰值时可达到上百万。所以,需要在服务器端部署大量的数据库来支撑,并且要在这些数据库之间进行负载均衡和分片管理。
数据的采集
2.导入和预处理。虽然服务器端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还应该将这些数据导入到一个集中的大型分布式数据库,或者分布式存储集群中,同时,在导入的基础上做一些数据清洗等简单的预处理,发现并纠正数据中可识别的错误和缺陷。导入和预处理的特点是数据量极大,每秒钟的导入量经常会达到百兆甚至千兆级别。
3.统计分析。统计分析主要依靠云计算平台,对海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求。在统计分析过程中,主要特点是涉及的数据量大,对系统资源如输入/输出设备等会有极大的占用。
数据挖掘
4.数据挖掘。“数据挖掘”是指从大量数据中通过算法来搜索、发现隐藏于数据中的有用信息。与前面的统计分析不同的是,数据挖掘主要在现有数据上采用基于各种算法的计算,满足一些高级别数据分析的需求,如数理统计、数据分析和机器学习等。这个过程的主要特点是算法复杂,并且所涉及的数据量和计算量都很大。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。