数据的集中趋势分析常用于反映数据的一般水平,常用的指标有平均值、中位数和众数等,各指标的具体含义如下。
平均值(Mean)
平均值是衡量数据中心位置的重要指标,在一定程度上反映数据必然性的特点,包括算术平均值、加权算术平均值、调和平均值和几何平均值等。
另外,SAS系统在SAS/Insight模块中还提供了截尾均值(Trimmed Means)和缩尾均值(Winsorized Means)两种指标。截尾均值指的是计算原始数据中去掉最大N个和最小N个(或指定百分比个数)后的平均值;缩尾均值指的是把原始数据中最小的N个值都用第N+1小的那个数值进行替换,同时把最大的N个值用第N+1大的那个数值进行替换,然后计算均值。
中位数(Median)
中位数是另外一种反映数据中心位置的指标,计算方法是将所有数据以由小到大的顺序排列,位于中央的数据值就是中位数(或取位于中央的两个数的平均)。
众数(Mode)
众数是指在数据中发生频率最高的数据值。
注意:如果各个数据之间的差异程度较小,用平均值就有较好的代表性;如果数据之间的差异程度较大,特别是有个别的极端值的情况,用中位数或众数有较好的代表性。