什么是探索性统计:探索性统计分析的例子案例
探索性统计分析主要用于数据分析过程中的探索,通过探索可以发现数据背后隐藏的内在规律和联系,通常探索性统计分析还可以挖掘出数据中出现异常的原因。例如,需要研究某些变量之间是否存在一定的相关性,研究两组样本之间是否存在显著的差异,探索企业内某指标(如曝光量、广告点击率、支付成功率、某支付渠道占比等)没有达标的原因,探索企业内某指标在接下来的一段时间内将会有怎样的变化趋势等。
对于数据分析人员而言,探索性统计分析的策略在工作中的应用非常频繁,因为通过该策略可以帮助分析人员了解数据中不易发现的内在价值和联系。在绝大多数情况下,探索性统计分析都是借助于数据可视化的技术将问题的答案图形化呈现,以便于直观地发现数据中有意思的信息。
为使读者更好地理解探索性统计分析的应用,这里举三个通俗易懂的小例子:探索汽车的速度与刹车距离之间的关系;探索某电商的交易量在PC端和移动端之间的比例变化;探索泰坦尼克号男女乘客在一等舱内的票价是否存在差异。
对于探索两变量之间的关系,最常用的方法就是绘制它们的散点图,通过散点图可以直观地发现两者之间的某种内在关系(如线性关系、非线性关系或无相关关系)。所以,在探索汽车的速度与刹车距离之间的关系时,不妨绘制散点图来观察两者之间的关系,如图1-12所示。
图1-12中,横轴表示汽车的行驶速度,纵轴表示汽车的刹车距离。从图中可知,随着行驶速度的增加,刹车距离也在增加。所以,可以明确地得出,它们之间存在正相关的线性关系。那么,这种线性关系可否通过某个具体的数学函数来表达呢?答案是肯定的,这部分内容将涉及后文所介绍的推断性统计分析。
通常在对比两组或多组样本之间的差异时,可以选择统计学中的箱形图(也称为盒须图,关于该图形的具体介绍可以查看2.4.2节的内容),该图形有两大作用:一是可以方便地实现数据的对比;二是可以识别出数据中的异常样本点。所以,在探索泰坦尼克号男女乘客在一等舱内的票价是否存在差异时,不妨选择箱线图来描述,如图1-13所示。
图1-13中横轴表示乘客的票价,纵轴表示男女性别,在两个箱线图的中间箱体部位都有一个明显的分界线,它是中位数(一种用于描述数据的中心化指标,即理解为整体水平)。从图中可知,两个箱线图的中位数并没有近似垂直对齐,说明男女乘客的票价存在显著差异。而且从图的最右侧,也发现了一些样本点,它们就是利用箱线图技术识别出的异常点。很显然,这是通过图形的对比,得出两者存在差异,那么有没有定量的方式验证男女性别在票价上存在显著差异呢?答案仍然是肯定的,可以通过推断性统计分析实现。
对于探索某电商的交易量在PC端和移动端之间的比例变化,可以选择百分比堆叠条形图,该图形最大的特色是将所有的条形高度标准化到100%(即所有条形高度都是一样的),然后可以对比内部比例的变化趋势。如图1-14所示,即为交易量在PC端和移动端在不同时间段上的比例差异。
图1-14中横轴代表2014—2016年的各个季度,纵轴代表占比,图形的上半部分代表移动端,下半部分代表PC端。借助于百分比堆叠条形图,可以非常直观地发现移动端的交易量在迅速扩张(即随着移动互联网的发展,用户越来越青睐于选择移动端完成网上的交易),由2014年第一季度的11.7%,发展到2016年第四季度的85.5%,短短的三年时间,发生了翻天覆地的变化。