统计学的编年史-读《女士品茶》

lady-tasting-tea-book.jpg

book cover

最近读完了《女士品茶-统计学如何变革了科学和生活》。这是一本科普性质的统计学发展编年史,在让大家了解统计学的发展之余,本书也八卦了费希尔,内曼,皮尔迩等统计学家的生活故事。

以下是一些笔记和思考。

一、女士品茶的故事

为了和书名呼应,全书中的开场就讲述了一个女士品茶的八卦故事。故事发生在 20 世纪的英国剑桥,一些大学教员和他们的妻子在喝下午茶,其中一个女士坚持认为:将茶倒进牛奶和将牛奶倒进茶里味道不同。

可想而知,在座的大学教授们觉得可笑至极,因为两种化合物在化学成分上没有任何区别。但是,现场的一位身材矮小的男子严肃地对待了这个事情。

他跑到厨房一顿操作之后,开始了他的实验:男子把第一杯茶递给女士,女士品尝了一分钟,判断这个是牛奶倒在茶里制作出来的。男子记录下来,没有发表任何观点,然后把第二杯茶递给她。最后大家惊讶的发现,女士真的辨别正确了所有的测试。

书中没有对女士如何做到这个做过多展开,迅速切到本书男主角的角度。

故事中的这个男子就是男主角费希尔。费希尔是整个现代统计学的开创者,出版了影响巨大的《研究工作者的统计方法》和《实验设计》。

二、P 值与显著性检验

我们现在做产品的过程,常常伴随着用户研究测试。在用研过程中,我们会做一些假设,然后用显著性检验来看这个假设是否显著。

为了判断假设是否显著,我们引入了 P 值,用以表示推翻这个假设的概率。

那刚刚那个女士品茶的故事举例。如果我们只测试一次,那这个女士其实有 50% 的概率猜对,P 值为 0.5。显然,这个 P 值不够显著。

但是,如果我们连续测试 10 次,女士都猜对了。那么这个时候 P 值只有 0.001。这个时候 P 值已经非常显著了。

三、真实数据很重要

统计数据很多时候会撒谎,所以不能盲信数据,最好的办法还是深入用户,查看原始数据。

这方面的案例很多,书中举了一个犯罪率与刑罚时间的统计案例。

在案例中,人们做了一项研究:对成年男子囚犯获刑时间与重新犯罪的关系进行比较。结果表明:获刑时间较短的囚犯重新犯罪的比例非常高。人们以此为据,认为应该给这类人长期的刑法。

书中的 “坎利夫” 负责审查这项调研。她不满足验算统计表格,而希望和背后的原始数据:即刑犯聊聊。结果她很快发现,几乎所有这些刑犯都是 “可怜又可悲的老人,因为他们没有去处,所以通过犯罪来获得回到监狱的机会”。而研究人员在制作表格时,把他们的多次入狱算作了不同的犯人。

在删除这些数据之后,服刑时间和再犯罪率之间就没有明显关系了。

四、统计工作的复杂性

统计工作其实很复杂,稍微不注意就可能得出误导性的结论。书中介绍了很多这样的坑,也提出了一些解决办法。

4.1 案例一:作物收成研究

费希尔在研究作物收成的时候,发现很难保证每块地都是完全一模一样的样本,某些地可能因为历史用过一些肥料而影响现在的测试,这样实验数据就会被干扰。

费希尔为此引入了随机过程,让农田分割成若干块,每次实验的实验组与对照组均通过随机的办法来决定。

随机使得样本的个体差异被均匀性摊薄,在实验数量到达一定程度后,个体差异就很难只聚集在某一实验组内了。

4.2 案例二:吸烟与肺癌的关系

现代观点大多认为吸烟与肺癌是呈显著的相关性的。但是费希尔却认为研究不够严谨,他提出了这样一种假设:

假如有一种基因 A,携带这个基因的人普遍比不携带这个基因的人更容易喜欢上抽烟;同时,这个基因天然容易患上肺癌。

于是你就能观察到吸烟的人和患肺癌的人相关,但可能背后原因是他们携带这个基因,即使他们不吸烟,这个基因也一样让他们会容易得肺癌。

满足费希尔的挑战:你只能随机选择两组人,一组人强行要求他们吸烟,另外一组强行要求他们不吸烟。以此来排除 “喜爱抽烟基因” 的干扰。但是,从道德和伦理层面上,这种实验根本无法实施。

你看,要在统计上证明因果其实很难很难。

4.3 案例三:癌症药物的有效性测试

书中举了一个癌症药物治疗组与对照组的实验困境。因为病人会对疗效的感受做反应,如果一个对照组病人感受到没效果,就可能放弃当前的治疗,转投别的治疗方案。这样,安慰剂组中留下来的可能都是自身免疫力好而感觉治疗 “起效果” 的人。

最终,测试结果可能是安慰剂的效果甚至比药物效果还好。

但是,从人道和法理上,你又不能强行要求一个癌症患者必须冒着生命危险结束安慰剂治疗。这里面又发展出了更多研究,最终现代医学会追求接受安慰剂这种 “非最佳治疗” 的病人数量最小作为分析测试标准。

4.4 案例四:决策悖论

假如我们接受假设检验和显著性检验的思想。那如果一件事情发生的概率只有万分之一,那我们就应该拒绝这个假设。

但是我们考虑这样一个场景:我们组织一个抽奖活动,活动中有 1 万张彩票,每张彩票中奖概率相同。

所以,1 号彩票中奖概率是 0.0001,我们拒绝了这个假设。

2 号彩票中奖概率是 0.001,我们也拒绝了这个假设。

对于任何一张彩票,我们都会拒绝这个假设。

类似的决策悖论其实很多。

五、小概率的决策

很多时候我们面临小概率,但是我们还是应该满怀期待,为小概率努力。

比如:大家的孩子考上清华北大的概率不到 0.01,但是大家还是会努力培养孩子。

又比如,如果我们遇到一个疾病,存活率只有 0.01,我们还是应该期待奇迹,配合治疗。

面对小概率事件的时候,世界就是同步分裂成多个的平行宇宙,我们都有可能是幸运事件(小概率)发生的那个平行宇宙。

满怀希望,尽人事,听天命。

本文转自: https://blog.devtang.com/2022/06/08/the-lady-tasting-tea-book-summary/
仅做个人收藏,版权归原作者所有