从科比的得分统计数据例子,学习统计学常用的统计量:中位数与箱线图

2020年1月3日13:59:51从科比的得分统计数据例子,学习统计学常用的统计量:中位数与箱线图已关闭评论

中位数与箱线图是我们理解数据的另一种视角,接下来,我们用中位数和箱线图来分析科比2008—2009赛季常规赛的得分数据,看看它们与均值、直方图有什么不同。

中位数,顾名思义,就是处在中间位置上的数字。要找到中间位置,首先要对数据进行排序。表3-6是经过排序后的科比得分数据,从中找到排在中央的数据,便是中位数。如果有81个数据,第41个就是中位数,可是表3-6中有82个数字,我们需要取第41和第42个数的平均值作为中位数M:

M=(27+27)/2=27

然后,我们需要找到另外两个数字——第一四分位数Q1和第三四分位数Q3。我们将中位数从数据中刨除,剩下的前一半数据的中位数就是第一四分位数Q1,后一半数据的中位数就是第三四分位数Q3。表3-6中,Q1=21,Q3= 32。再算上最大值Max=61,最小值M in=10,我们便得到了这组数据的箱线图,如图3-2所示。

从科比的得分统计数据例子,学习统计学常用的统计量:中位数与箱线图

从科比的得分统计数据例子,学习统计学常用的统计量:中位数与箱线图

表3-6 排序后的科比得分数据

 

从科比的得分统计数据例子,学习统计学常用的统计量:中位数与箱线图图3-2 科比得分数据的箱线图

在箱线图中,区间的长度与数据的分散程度相关,比如,M in到Q1的长度是11,Q1到M的长度是6,M到Q3的长度是5,Q3到Max的长度是29,因此,M到Q3区间内,数据分布最集中,其次是Q1到M的区间,数据分布最分散的区间是Q3到Max。

除了表征数据的分散程度,箱线图还可以帮助我们寻找疑似异常值。所谓疑似异常值是指过大或过小的数据,寻找的方法是:首先计算四分位数差IQR:

IQR=Q3-Q1=32-21=11

然后找出小于Q1-1.5IQR和大于Q3+1.5IQR的数字,这些数字就是疑似异常值。

Q1-1.5IQR=21-1.5×11=4.5

Q3+1.5IQR=32+1.5×11=48.5

49和61大于48.5,所以是疑似异常值。在某些统计分析问题中,疑似异常值可能是误差数据甚至错误数据,可以通过上述方法找出并剔除这些数据,然后再绘制修正后的箱线图。对科比的得分数据来说,49分和61分显然不是由误差或错误造成的,恰恰相反,这些“异常值”是“黑曼巴”贪婪本性的最佳诠释。

 

  • 版权声明:本篇文章(包括图片)来自网络,由程序自动采集,著作权(版权)归原作者所有,如有侵权联系我们删除,联系方式(QQ:452038415)。