这两年时常有身边的人给我抱怨,辛辛苦苦几年的数据,分析来分析去就是找不到切入点,要完成一两篇SCI论文发表真不容易。也有不少导师在试验前没有把关学生的试验设计,而在做完后,一再强调让学生挖掘数据来完成SCI论文的发表。尽管我目前在领域内不入流,但是我一再反对这种做法,而且一直认为这是一种可怕的隐性学术不端。数据挖掘显然非常重要,更是科研发现中最重要的途径之一。我绝不反对数据挖掘本身,相反我一再跟学生强调数据分析的重要性,但是我认为通过数据挖掘得到的新观点应该进行严格的试验验证,否则很可能是假象。而我旗帜鲜明地反对那种通过不断变换统计或其他手段“挖掘”数据以找到“创新点”,并以此为依据“生产”论文。此外,本文主要从统计学角度出发,并且仅仅针对植物生理生态学(其实我觉得推广到整个生命科学基本没有问题)领域,对于已经有很好理论基础的物理、数学等领域不适用,对于各种理论满天飞的经济学及社会学可能更不适用。
生命科学发展到今天,真正被公理化的很少【写完看到eLife上发了一篇评论,专门评述生命科学公理化的急迫性和重要性】,即便是发展最为迅速和火爆的遗传学相关方面,公理化的也不多(遗传学的三条定律基本上算了,尽管至今依然有不少争议)。另一个,非常大的问题是当今几乎所有的生命科学成果均依赖于统计学。暂且不论统计学本身矛盾的很多方面(硬币的两面吧,想想自诩高度发展的物理界也被量子力学与经典力学困扰多年),正确运用了统计的都不多。统计学滥用已经到了荒唐的地步。看看20年前Plant Physiology上的文章,短小精悍,试验设计针对一两个小问题,结果一目了然,统计只是工具而已。反观现在看着漂亮的统计结果,你就是很难认同作者的结论。
再一次,又装逼的扯多了。回到主题,摆出我的论点
抽样问题
抽样的统计推断原理是用样本均值估计总体均值,样本方差估计总体方差。因为这些估计量往往都是无偏估计(期望等于真值;注意不是估计量等于真值)。理论上期望可以通过一个随机变量按照它的分布不停地被重复抽取产生,然而,实际操作中,我们一般仅有一次抽样,得到的估计量也就只有一个值——期望值。至于它跟真值差多远,无人知晓(本来想说鬼知道,但是我怕鬼来反问我,他怎么知道!)。试想,从一个可能不怎么搭边的样本中得到的期望值。。。
试验设计是假设检验(统计)的基础
我们知道,统计学最重要的一个方面是假设检验。任何假设检验均是基于大量的前提条件。比如t检验需要t统计量,而t统计量是通过独立的正态随机变量与卡方(需要除以自己的自由度)随机变量平方根之商来构建的。 目前的几乎所有统计方法均有大量的前提条件,如果没有目的明确的实验设计,大多数情况下,你是没办法进行符合操作规则的假设检验。现实中,太多人忽视了统计应用的前提假设,而盲目套用统计软件的函数。其实这些基础知识,在数理统计和试验设计与统计等课程均有强调。
统计上的因果多数情况下等于白说
大约两年前(老了,时间记不清楚了),实验室一位博士生曾今群发邮件询问过:不同的统计方法,得到的结果有的显著,有的不显著,这时候应该怎么选择呢?事实上,如果用的方法正确,选择也就是个主观判断过程,只是大多数人会根据自己故事发展选择显著与否。此外,建议了解下安斯库姆四重奏 (维基百科似乎已经被屏蔽了?个人认为,维基百科的说的最清楚)。事实上生命科学研究中,实际条件往往错综复杂,不同因素相互影响可能很严重。理论上,因果关系的完全确定,需要排除宇宙(甚至是更大的)集合中其它一切影响因素。实际操作显然不可能,但是多数文章基本都是下图的范式:
这个话题还有很多话要说的,今天因为在W君的刺激下,顶着女儿的哭闹(最近已经不能离手了,抱着还必须走),硬是扯了这么多。本来应该像学术论文一样,放着慢慢修改,改好了再拿出来,但是我性格让我很难做得到,更何况我这小众博客也没几个人,在线修改也一样(如果可能)。