第二节 统计分析流程
任何一个数据分析项目,如果按照整个分析过程的流程结构来看,都可以被分解为大致7个阶段——计划阶段、数据收集、数据获取、数据准备、数据分析、结果报告和模型发布阶段。
(1)计划阶段。在分析项目的初始阶段,需要花费大量的时间来设计分析计划,以减少盲目分析,避免资源浪费。在该阶段,要对数据分析的各个行动步骤做好规划,主要任务是弄清楚以下几个问题:
①确定研究问题。从研究分析开始,就确立明确的分析目标是非常重要的。它可以帮助用户合理地计划人员、时间、资源分配,并能指导用户集中精力于研究性分析。
②建立项目预算。
③确定研究范围即确定研究总体和个体。
④确定样本的抽取方法。
⑤分析评估所需样本量。
⑥确定数据收集方式。
⑦确定与研究问题相关的数据即确定应该收集个体的哪些数据。
⑧确定研究问题的分析方法和分析工具。
(2)数据收集阶段。如果手头已经有现成的数据,就可以不必再进行数据收集。数据收集的目标、方式完全取决于在上一步中所制订的计划。数据收集方式有很多种,可以是电话式访问,可以是面谈式收集,也可以是拦截式访问。如果是从头进行数据收集,则应当有一份标准问卷。问题的设计不仅要相关,还要能够从中得出有意义的结论。
(3)数据获取阶段。该阶段的目的是将分散的、原始格式各不相同的数据读入分析工具中,以便分析工具可以对数据进行分析。
(4)数据准备阶段。该阶段的主要任务是:
①清理数据以保证数据的准确性。数据准确性是数据分析结果正确的最基本前提。
②对数据进行必要的转换。如生成一些新的字段以供分析,将连续字段离散化、将字符型字段数值化等。目的是将数据结构转换成合适的形式。
③填充缺失数据。对各种缺失字段,利用适当的方法进行填补。
④对数据进行合并、汇总等。将数据文件进行合并,将个体数据进行汇总,生成各组数据。
(5)数据分析阶段。利用各种数据分析方法对数据进行分析,得出结论。数据分析阶段又可以分为几个部分:
①预分析:包括概括性统计描述和探索性统计推断两部分,前者是使用统计图和统计表对数据进行更好的理解;而后者则基于对数据的理解开始尝试进行分析,以寻找最终分析模型的雏形。具体使用的方法可以是单因素分析,也可以是简单的多因素分析。
②精确分析:基于上一步得到的各种信息,开始尝试拟合最佳的统计模型,以寻求对数据中所蕴含信息最完美的解释。完成这一部分的工作往往需要统计知识和专业知识互相补充,而所使用的统计方法一般都是多变量方法,甚至是多元统计分析方法。
(6)结果报告阶段。结果报告的目的是:即整个数据分析项目的结果以一种非学术化的方式表达出来,使得决策者(报告的阅读者)能够快速理解,并基于此分析结果做出决策。报告可以是文本文档、表格、图形或者是网页。
(7)模型发布阶段。结果报告仅仅是对基于历史数据所建立的模型加以阐述,当需要利用该模型进行预测时,具体的做法可以是在分析软件中加以预测,也可以将生成的模型编译成单独运行的控件或程序,将其模型整合到应用平台中去。该阶段的目标是将分析阶段得到的模型、信息和知识带给机构决策者以便他们能为机构做出更好的规划。
在大多数分析过程中,不一定会经历所有的这7步。例如,根据分析的目的,所需的数据仅是日常工作产生的交易数据,那么就不必再经历“数据收集”阶段,而是直接进入“数据获取”阶段。另外,各阶段之间可能交叉进行。例如,有时在对原始数据进行分析之后,即进入了“数据分析”阶段,突然发现其他数据也是分析所必需的,所以不得不重新返回“数据收集”阶段。又如,在“数据分析”阶段中发现某个字段因其格式不能参与分析,所以就需要再进行“数据准备”阶段所做的工作。
在一个数据分析项目结束后,可能因该项目中的新发现和对数据的新的理解,从而引发一个新数据分析项目。
由于统计分析工作通常不能一蹴而就,因此上述流程可能需要反复进行直到能满足实际需要为止。实际统计分析工作可以参照图1-1的流程进行。
图1-1 统计分析流程
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。