什么是描述性统计:描述性统计分析的例子案例
描述性统计分析侧重于对数据的描述,这种描述就相当于在阐述所看见的一幅图画。对数据的描述性统计,其实就是描述数据的特征,如数据的平均水平、数据的可行范围、数据的波动分散程度等。通过描述性统计分析,可以使数据分析人员更好地掌握和理解数据,做到心中有“数”。描述性统计分析在数据分析过程中,既是基础环节也是重要环节,基础是因为它的操作非常简单,重要是因为它是进行下一步数据分析工作的前提。
下面是一个描述性统计分析的例子。
老板可能会问:小王,帮我查一下9月份网站流量的基本数据。
那么问题来了,这个基本数据都会包含哪些内容呢?首先查看9月份的流量数据。如图1-9所示,其中PV和UV分别代表页面访问量和用户访问量,即网站的访问人次和访问人数。如果你了解描述性统计分析,就可以将网站流量的基本数据展现在表格中。
如表1-1所示,即为常用的基本统计指标,以PV为例,简单解释这7个指标的含义:9月份网站的日均访问人次为41,072.87次,标准差为5,685.52,最少的一次访问量为30,471次,该月中有四分之一天数的每天访问人次在36791.5次以下,该月中有一半天数的每天访问人次在42,529次以下,该月中有四分之三天数的每天访问人次在44,643.25次以下,全月中最多的一次访问量为49,847次。需要注意的是,表格中的下四分位数即统计学意义的25%分位点,上四分位则为统计学意义的75%分位点。
该案例就是一个典型的描述性统计分析,其实就是针对数据的统计结果做简单的描述,表达出数据的统计特征。除此之外,还可以通过图形的方式描述数据的内在规律。例如,需要统计某电商平台在近一个月各支付渠道的支付比例,或者分析用户年交易额的分布特征。通过饼图和直方图就可以很好地描述这两个问题。
如图1-10所示,电商的快捷支付占比最大,达到42%,占比第二的是微信支付,达到28%,两者相差14%,货到付款的比例最小,只有7.3%,该支付方式与其他支付方式的比例非常接近。
如图1-11所示,用户的总交易金额存在严重的不平衡,交易额在2000元以内的用户最多,且占到绝对优势;几乎所有用户的交易额都在10000元以内,超过10000元的用户只有零星点点;从数据的分布形态来看,存在严重的右偏特征(即长尾分布在右侧)。图中还绘制了两条曲线,分别是实际分布曲线(即核密度曲线)和理论分布曲线(即正态密度曲线),通过两条曲线的对比,发现它们的吻合度并不是很高,故进一步断定该数据的分布并非正态分布。
因此,描述性统计分析包括数据的频数分析、数据的集中趋势分析(如均值、中位数、众数等)、数据离散程度分析(如标准差、极差、变异系数等)、数据的分布(如偏度值,峰度值等)以及一些基本的统计图形(如饼图、直方图、箱线图等)。在日常的学习或工作中,数据分析人员需要掌握这些基本的统计描述方法,进而可以很好地融入业务中,并了解业务的数据环境。