编制变量数列的目的在于对定量数据及其特征进行观察和分析。在编制变量数列时,首先要根据研究目的和现象的特点确定是编制单项数列还是组距数列,组距数列是采用等距还是异距,是否需要开口等。下面结合具体的例子说明分组的方法和过程。
【例1-1】
下面是某班学生统计学的考试成绩数据,试编制变量数列来反映该班学生成绩的分布特征。该班学生的考试成绩如下:
67 90 52 88 78 91 65 63 66 89 85 77 85 62 76 79
81 42 76 82 84 60 70 85 69 71 76 78 73 86 65 67
75 94 66 83 78 87 70 61 89 75 76 80 72 78 66 88
65 69 64 97 79 76 80
采用手工分组时,要先对上面的数据进行排序(使用计算机分组不必排序)。分组的具体步骤如下:
第1步:确定分组的形式。对考试成绩可编制等距数列。找出数据的最大值和最小值,本例的55个数据的最大值是97,最小值是42,数据的波动幅度(全距或极差)为55分。不及格的有2人,最低分数为42分,故应该采用开口组。
第2步:确定组数。数据分成多少组,一般与数据本身的特点及数据的多少有关。组数太多或过少都不适宜。如果组数太多,数据的分布就会过于分散,组数过少,数据的分布就会过于集中,这都不便于观察数据的分布特征和规律。
第3步:确定组距。组距与组数成反比,可根据全部数据的全距(极差)和组数来确定,即组距=全距/组数。本例中全距为55,组数若为5,则组距=55/5=11。为便于计算分析,组距宜取5或10的倍数,而且第1组的下限应该低于最小变量值,最高一组的上限应高于最大变量值,因此组距可取10分。
第4步:确定组限。组限应是引起事物质变的数量界限,并有利于表现总体分布的规律性。因此组限的选择应当能够反映现象本质特征。本例中成绩是连续变量,可采用组限重叠的形式。
第5步:计算各组次数,形成变量数列。根据所确定的组数、组距和组限,将全部数据归入各个不同的组,计算出各组的频数或频率,即可编制出变量数列。表1-1就是例(1-1)分组整理后所得的变量数列。