统计学的七个‘枕头’

真是想不起来,上一次啃书是啥时候了。上周末,在亚马逊上寻找Python书的时候,看到芝加哥大学统计系的 Stephen M. Stigler 教授的《The Seven Pillars of Statistical Wisdom》好评如潮。虽然真是没把握现在的我能有闲情逸致来读八卦书,那么一刹那还是手贱的地买了一本二手货。昨天书到了,但是因为在温室忙了一天,精疲力尽没去取。今天终于把所有温室的事情暂时忙完了,中午取了书打算瞧一眼,但是可能这几天太累,多年不睡午觉的我,吃过午饭,喝完咖啡还是直接爬桌上睡着了。回家的时候,下意识的把书放进了书包。做完晚饭(自从女儿降生,我就成了全职煮夫),陪女儿玩了好一会,她睡着后,把书拿出来瞧了瞧。当时,正瘫坐在沙发,孩子他妈走过来问我在看什么,给她看了封面,顺便让她翻译下。虽然不知道pillars 的意思,不过她还是高调地赌了一把:“统计学智慧的七个枕头”。把我笑个半死,回头把本文题目中的“支柱”也替换成了“枕头”,谨此一记。

虽然只看完了前言,但是应该是会读完的。作者从“What is Statistics?”这个永恒的疑问开篇。人们长期被这个问题所困扰,一方面是因为统计学一直在与不同的学科融合,尤其是经济学(1830s)和生物学(1930s)。由于不同的学科的特定需求,统计学发展必然展现出多样性,让人难以捉摸。另一方面,是由于人们对统计学的核心要素即统计学支柱(Support Pillars)的认识不清晰。

前言部分,作者阐述了写作动机和他认为的统计学七大支柱的引入:

支柱一:聚合(Aggregation)

对于事物的认识,我们总是希望有较高的准确度,但是由于观测者角度、环境等因素的影响,大多数测定都会有差异,那么就要求人们采用一定的方法来分析观测数据从而认识事物。人们采用的方法通常是通过损失掉一些观测信息来获取。很自然地我们很多人会说这不就是平均值吗?是的平均值是聚合的一种重要方式,但是平均值其实具有很强的误导性,又不能代表聚合的全部意义。

支柱二:信息测量(Information measurement)

就上一支柱所说,当我们构建一个统计量,其实是损失了一部分信息的。此外,观察贡献的信息是随着观测量的增加而递减的。这就是Root-n(还不知道怎么翻译)定律,即信息量与观测数的开方成正比。

支柱三:似然(Likelihood)

有了测量就可以进行比较分析,从而就涉及到概率(probability)问题。而概率事件的显著性检验(比如常见的p值),就需要引入似然度。似然度就不得不提到Fisherian和Bayesian了。等看到这一章在具体展开。

支柱四:内部比较(Intercomparison)

一旦似然度概念建立,就可以进行外部比较,但是观测数据内部的异质性显然需要考虑,这就涉及到了数据的内部比较。很多常见的统计方法例如t检验,方差分析等都是用来解决内部比较问题的。

支柱五:回归(Regression)

作者从Galton描述达尔文进化论的数学表达矛盾自然选择需要更多的变异,而种群的稳定有需要稳定的物种数量开始。另一个例子是:Galton发现孩子身高会有向父辈身高均值回归的现象:每个人的身高都有固定部分跟变动部分,固定部分是都一样的,这样代际变化可以用亲代子代的不完全相关来解释。这里作者用了一句话来总结回归的中庸之道:…answers depending upon the way it was posed

支柱六:实验设计(Design of Experiments)

统计学与其他学科一样也是发展的,现代的人们希望通过特定的试验观察来获得规律,这里面最核心的思想就是控制变量。这一个支柱,不得不提及的大牛是Fisher。

支柱七:残差(Residual)

残差的本质是指实际观察值与模型估计值之间的差。具体内容,作者介绍的有点少,等看到再说。

总的来说,这七个方面都是我非常关心的,而作者在前言表示,他会力争解释清楚这些支柱的来龙去脉。先留个框架吧。

Davis