检验确保正确
小学一年级时,我们刚刚学习加减法,常常算错,老师会教我们做验算。如果是加法运算,就用结果减去加数,查看等不等于被加数,如果是减法运算,就用结果加上减数,检查是否等于被减数。
检验在数学中是必不可少的步骤,它帮助我们识别出错误的计算结果,提高正确率。假设检验是概率统计的常用检验方法,任何涉及统计量的计算,都需要对计算结果做假设检验,这在“假设检验”“线性回归”中都可以看到。只有经得起检验的结果才是正确可信的结果。
对比获得真知
佛说,要把一根绳子变短,只需找来一根更长的绳子。
在概率统计中,这句话蕴含的道理就是一个词——对比。正如上一节中平均工资的例子,仅仅知道平均工资的数值是远远不够的,要深入理解数据,就要做很多对比,不同城市的平均工资对比,同一城市不同行业的平均工资对比,平均工资与工资标准差对比,平均工资与工资中位数对比,等等。这些对比会加深我们的认识,帮助我们理解数据的内涵。
提防线性思维
问题1:假定每一年都是365天,要使“至少两个人的生日为同一天”的概率达到100%,至少需要多少人?
答:366人。
问题2:假定每一年都是365天,要使“至少两个人的生日为同一天”的概率达到50%,至少需要多少人?
答:23人。
我没写错答案,不是183人,是23人。计算过程如下所述。
两个人时,要使他们的生日不同,只需让第二个人的生日避开第一个人,所以概率是364/365,两人生日相同的概率是1-364/365=0.003。
三个人时,要使他们的生日不同,需要第二个人的生日避开第一个人,同时第三个人的生日避开前两个人,所以概率是:
1-(364/365)×(363/365)=0.01
按照这个方式便可以计算n个人中至少两人同一天生日的概率是:
1-(364/365)×(363/365)×(362/365)×…×(366-n)/365
当n=23时,这个概率便超过了50,因此第二个问题的答案是23。
之所以很多人认为是183人,是因为他们把第二个问题想成了“至少一个人与你的生日相同,至少需要多少人”。两个问题的不同点在于,“与你生日相同”是线性的,“至少两人生日相同”不是线性的,是网状的。试想A、B、C三个人的情况,B或C与A同一天生日满足问题中的条件,同时B和C同一天生日也满足。4个人、5个人的情况将更复杂,每个人都可能与其他人生日相同,这将构成一个庞大的概率网络,必定不能用线性思维去解释。
回到第一个问题,为什么答案是366人?因为问题中的说法是“达到100%”,而不是“接近100%”。利用上面的公式可以计算出,当n=50时,至少两人生日相同的概率就会达到97%,十分接近100%,人数的进一步增加只会把这个概率缓慢地推向100%。
这是概率统计中经典的生日谜题,它提醒我们,简单的线性思维很可能出现错误,在解答问题前,要给问题定性,只有线性的问题才能用线性思维求解。
总是反过来想
投资大师查理·芒格曾在演讲中提到一个乡下人的故事,这个乡下人说:“要是我知道我会死在哪里就好了,这样我就永远都不会去那个地方。”看似调侃的一句话包含了查理·芒格最重要的思维方式,他称为“总是反过来想”。
在概率统计中,我们称为“反证法”。当你要证明某个参数等于某个数值时,最好的办法就是反证法,首先假设等于关系成立,再由此得到推论,如果推论与已知条件存在矛盾,说明假设是错的,即等于关系不成立,反之则成立。假设检验正是沿用了反证法的思路,唯一不同的是,假设检验是以显著性水平的形式作出判断,但这并不影响反证法本身。
“如果我不能比全世界最聪明、最有能力、最有资格反驳这个观点的人更能够否定这个观点,我就不配拥有这个观点。”这是查理·芒格的另一句名言,可谓逆向思维的最高境界,在此送给读者,与君共勉。
模糊的正确胜过精确的错误
沃伦·巴菲特:“我宁要模糊的正确,也不要精确的错误。”
经历过2008年金融危机的人,都会明白巴菲特这句话的含义。就在中国股市如火如荼之时,巴菲特却在以13港元的价格陆续减持中石油H股,后来中石油在回归A股的利好刺激下冲高至20港元,巴菲特因此错过了将近50%的收益。大浪淘沙,只有时间能说明一切。2008年年底,没有人再会嘲笑巴菲特损失的“区区”50%收益,相比于50%的收益,50%的损失对投资者的伤害要大得多。“模糊的正确”,是给股票的内在价值划定一个区间,这胜过一个貌似精确实则错误的数字,这就是巴菲特的哲学。
在概率统计中,也会有很多模糊的说法,比如,“二八法则”指的是指数分布的特征,未必要精确符合20%的人掌握80%的财富这个比例,又如,为了节约计算成本,我们常常使用泊松分布代替二项分布。有时,我们放弃了“精确”,却可以得到“正确”“安全”“快捷”甚至更多。