1 变量与数据
一个企业的利润,这个月与上个月可能不同;一只股票的收盘价,今天与昨天不一样;学生的成绩,一个学生和另一个学生不一样;投掷一枚骰子所出现的点数,这次和下一次也不一样。这里的“企业的利润”“股票的收盘价”“学生的成绩”“投掷一枚骰子出现的点数”就是变量(variable)。简而言之,变量是描述所观察对象某种特征的概念,其特点是从一次观察到下一次观察可能会出现不同的结果。变量的观测结果就是数据(data)。
2 变量的分类
根据观测结果的特征,变量可以分为类别变量和数值变量两大类。
类别变量(categorical variable)是取值为事物属性、类别、区间值的变量,也称定性变量(qualitative variable)。
比如,观察人的籍贯、公司所属的行业、客户对服务满意度的评价,得到的结果就不是数字,而是事物的属性。比如,观测籍贯的结果是“广东”“广西”等,公司所属的行业为“制造业”“零售业”“餐饮业”等,客户对服务满意度的评价为“很满意”“满意”“一般”“不满意”“很不满意”。人的籍贯、公司所属的行业、客户对服务满意度的评价等,其结果就不是数值,而是事物的属性或类别,所以三者都是类别变量。此外,将学生成绩分为 60 分以下、60~70 分、70~80 分、80~90 分、90 分以上 5 档,这里的“成绩档次”的取值也不是普通的数值,而是数值区间,这实际上是将数值转化成了类别。类别变量的观测结果称为类别数据(categorical data)或定性数据。类别变量根据取值是否有序分为无序类别变量和有序类别变量。无序类别变量也称名义值类别变量,其取值不可以排序。例如,“公司所属的行业”这一变量取值为“制造业”“零售业”“餐饮业”等,这些取值之间不存在顺序关系。再比如“商品的产地”这一变量的取值为“甲”“乙”“丙”“丁”,这些取值之间也不存在顺序关系。有序类别变量也称顺序值类别变量,其取值区间可以排序。例如,“对服务满意度的评价”这一变量的取值为“很满意”“满意”“一般”“不满意”“很不满意”,这 5 个值之间是有序的。
数值变量(metric variable)是取值为数字的变量,也称定量变量(quantitative variable)。例如,“企业的利润”“股票的收盘价”“学生的成绩”“投掷一枚骰子出现的点数”等变量的取值可以用数字来表示,都属于数值变量。数值变量的观察结果称为数值型数据(metric data)或定量数据。
数值变量根据其取值,可以分为离散变量(discrete variable)和连续变量(continuous variable)。离散变量是只能取有限个值的变量,其取值可以一一列举,如“公司数量”“一个小区的居民户数”“房屋楼层”等。连续变量是可以在一个或多个区间中取任何值的变量,它的取值是连续不断的,不能一一列举,如“年龄”“身高”“价格”等。当离散变量的取值很多时,也可以将其当作连续变量来处理。
由于数据是变量的观测结果,因此数据的基本分类与变量相同。此外,数据也可以从其他角度分类。比如,按照数据的收集方法可分为观测数据(observational data)和试验数据(experimental data)。观测数据是通过调查或观测收集到的数据,是在没有对事物进行人为控制的条件下得到的,有关社会经济现象的数据几乎都是观测数据。试验数据则是在试验中控制试验对象收集到的数据,比如,对一种新药疗效的试验数据等,对一种新的农作物品种的试验数据。自然科学领域的大多数数据是试验数据。
按照描述的现象与时间的关系,可以将数据分为截面数据(cross-sectional data)和时间序列数据(time series data)。截面数据是在相同或近似相同的时间点上收集的数据。这类数据通常是在不同的空间获得的,用于描述现象在某一时刻的变化情况,如 2018 年我国各地区的GDP数据。时间序列数据是在不同时间收集到的数据,这类数据是按时间顺序收集的,用于描述现象随时间变化而变化的状况,如 2001—2018 年我国的GDP数据。