威廉·莎士比亚(William Shakespeare)被公认为英国文学史上最杰出的戏剧家和欧洲文艺复兴时期最重要的作家。然而,太过耀眼的光芒也引发了几个世纪以来人们对莎士比亚的身份的各种质疑和探讨。在莎士比亚传世的37部戏剧、154首十四行诗和2首叙事长诗中,不同的作品常常表现出截然不同的风格。而与其他饱读诗书的大作家们相比,出生平民之家的莎士比亚所受的教育少得可怜,他死后也没有留下任何手稿。种种迹象让人们开始揣测,也许同时期一些受过良好教育、有着丰富文学记录的著名人物才是写下这些精彩绝伦的戏剧和诗句的真正作者?
1991年,刊登在《备忘与查询》(Notes and Queries)上的一篇文章 利用统计方法为莎士比亚正了名。文章指出,由美国克莱蒙特学院(Claremont College)本科生组建的“莎士比亚诊所”(Shakespeare Clinic)利用计算机对58位声称是莎士比亚全集的“真正”作者们进行了为期三年的研究,最后一年将目标重点锁定在27位诗人身上。该研究将莎士比亚的作品和这些诗人的作品划分成不同的小段,然后统计出每一段出现的一些关键词的众数,如“about”“again”“ways”等。结果发现,节选的莎士比亚诗歌当中的90个小段,表现出相同的众数特征,而其他诗人的作品则不具有这样的模式。即使是最接近莎士比亚的诗人沃尔特·雷利(Walter Raleigh),其用词的众数得分离莎士比亚的平均众数得分也相差2.4个标准差。这意味着雷利是莎士比亚诗集“真正”作者的概率不超过2%。差距最远的诗人约翰·邓恩(John Donne),其用词的众数得分离莎士比亚的平均众数得分相差达36.6个标准差。
这篇文章用数据和统计分析方法打破了学者们天马行空的臆想,证明威廉·莎士比亚就是这些传世巨作的真正作者!那么,“莎士比亚诊所”的同学们所用到的神奇的众数到底是什么?标准差又有怎样巧妙的用途呢?让我们一起走入统计量的迷人世界吧!
除了图表,人们往往还希望用一两个数字更加简捷地概括出一组数据的基本特征。这些数字是由样本数据计算得到的,实质上就是样本的函数,并且不包含总体的任何未知参数 ,称为 统计量(statistic) 。
不同的统计量可以从不同的角度描述数据的分布特征,主要包括3个方面:一是数据的“位置”;二是数据的离散程度;三是数据的分布形状。由于计算得到统计量之后,就不可能恢复所有的原始数据,在对数据进行高度概括的同时,势必会打破简单化与信息完整性之间的平衡。因此,我们需要了解不同统计量各自的优缺点和适用情形,合理选择最能客观反映数据分布特征的统计量。