小数据时代的随机采样

2024年1月20日08:39:54已关闭评论

数千年来，政府一直都试图通过收集信息来管理国民，只是到最近，小企业和个人才有可能拥有大规模收集和分类数据的能力，而此前，大规模的计数都是政府的事情。

以人口普查为例。据说古代埃及曾进行过人口普查，《旧约》和《新约》中对此都有所提及。而在罗马帝国，由奥古斯都主导实施的人口普查，提出了“每个人都必须纳税”。

1086年的《末日审判书》对当时英国的人口、土地和财产做了一个前所未有的全面记载。皇家委员穿越整个国家对每个人、每件事都做了记载，后来这本书用《圣经》中的《末日审判书》命名，因为每个人的生活都被赤裸裸地记载下来的过程就像接受“最后的审判”一样。然而，人口普查是一项耗资且费时的事情，尽管如此，当时收集的信息也只是一个大概情况，实施人口普查的人也知道他们不可能准确记录下每个人的信息。实际上，“人口普查”这个词来源于拉丁语censere，本意就是推测、估算。

300多年前，一个名叫约翰·格朗特的英国缝纫用品商提出了一个很有新意的方法，推算鼠疫时期伦敦的人口数，这种方法就是后来的统计学。这个方法不需要一个人接一个人地计算。虽然这个方法比较粗糙，但采用这个方法，人们可以利用少量有用的样本信息来获取人口的整体情况。虽然后来证实约翰能够得出正确的数据仅仅是因为运气好，但在当时他的方法大受欢迎。样本分析法一直都有较大的漏洞，因此无论是进行人口普查还是其他大量数据类的任务，人们仍然使用清点这种“野蛮”的方法。

考虑到人口普查的复杂性及耗时耗费的特点，政府极少进行普查。古罗马在拥有数十万人口的时候每5年普查一次。美国宪法规定每10年进行一次人口普查，而随着国家人口越来越多，只能以百万计数。但是到19世纪为止，即使这样不频繁的人口普查依然很困难，因为数据变化的速度超过了人口普查局统计分析的能力。

美国在1880年进行的人口普查，耗时8年才完成数据汇总。因此他们获得的很多数据都是过时的。1890年进行的人口普查，预计要花费13年的时间来汇总数据。然而，因为税收分摊和国会代表人数确定都是建立在人口的基础上的，必须获得正确且及时的数据。很明显，人们已有的数据处理工具已经难以应付了。后来，美国人口普查局就委托发明家赫尔曼·霍尔瑞斯（被称为现代自动计算之父）用他的穿孔卡片制表机来完成1890年的人口普查。

经过大量的努力，霍尔瑞斯成功地在1年时间内完成了人口普查的数据汇总工作。这在当时简直就是一个奇迹，它标志着自动处理数据的开端，也为后来IBM公司的成立奠定了基础。但是将其作为收集处理大量数据的方法依然过于昂贵。毕竟，每个美国人都必须填一张可制成穿孔卡片的表格，然后再进行统计。对于一个跨越式发展的国家而言，10年一次的人口普查的滞后性已经让普查失去了大部分意义。

这就是问题所在，是利用所有的数据还是仅仅采用一部分呢？最明智的自然是得到有关被分析事物的所有数据，但是当数量无比庞大时，这又不太现实。那如何选择样本呢？事实证明，问题的关键是选择样本时的随机性。统计学家们证明：采样分析的精确性随着采样随机性的增加而大幅提高，但与样本数量的增加关系不大。虽然听起来很不可思议，但事实上研究表明，当样本数量达到了某个值之后，从新个体身上得到的信息会越来越少，就如同经济学中的边际效应递减一样。

在商业领域，随机采样被用来监管商品质量。这使得监管商品质量和提升商品品质变得更容易，花费也更少。以前，全面的质量监管要求对生产出来的每个产品进行检查，而现在只需从一批商品中随机抽取部分样品进行检查就可以了。本质上来说，随机采样让大数据问题变得更加切实可行。同理，它将客户调查引进了零售行业，将焦点讨论引进了政界，也将许多人文问题变成了社会科学问题。

随机采样取得了巨大的成功，成为现代社会、现代测量领域的主心骨。但这只是一条捷径，是在不可收集和分析全部数据的情况下的选择，它本身存在许多固有的缺陷。它的成功依赖于采样的绝对随机性，但是实现采样的随机性非常困难。一旦采样过程中存在任何偏见，分析结果就会相去甚远。此外，随机采样不适合考察子类别的情况。因为一旦继续细分，随机采样结果的错误率会大大增加。因此在宏观领域起作用的方法在微观领域失去了作用。

登录 找回密码

登录找回密码