频数
表3-1是科比2008—2009赛季常规赛的每场得分数据,下面我们一起来分析这组数据。
表3-1 科比2008—2009赛季常规赛每场得分数据
通过观察,我们可以找出最大值为61,最小值为10。我们想知道,科比的得分在最大值和最小值之间是如何分布的,这时我们需要制作一个频数分布表,绘制一张直方图。
我们将最小值到最大值之间划分为6个小范围,也称为6个区间,分别是10~20、21~30、31~40、41~50、51~60、61~70,统计有多少个数据落在这6个区间内,并记录下来,便得到了如表3-2所示的频数分布表。
表3-2 科比得分的频数分布表
表中的第一列是分组方式;第二列是频数,即每个区间里有多少个数据;第三列是相对频数,即频数除以数据总量;第四列是累积频数,即对频数进行累积计数。这张表格包含了数据分析的三个重要的思路:一是分类统计,体现在频数中,即把数据按照某种属性进行分类计数;二是相对数量,体现在相对频数中,相对频数的本质是将频数进行“归一化”,这样便于与其他数据进行对比;三是累积数量统计,体现在累积频数中,对数量进行累积统计便于我们观察出数量的变化规律,也便于我们快速找出低于或高于某些临界值的数据有多少,比如,从累积频数一列中,我们可以知道,低于30分的有59场,低于40分的有79场。
图3-1是科比得分数据的直方图,直方图与频数分布表相对应,是通过绘图的方式更直观地展现频数分布情况,直方图中每一个条形都代表一个分组,条形的高度代表频数。频数分布表和直方图是统计学中的常用图表,也是数据分析的第一步。
图3-1 科比得分的直方图