科学实验医学实验,它们的统计结果有多可靠?最常用的检测方法是根据所谓p-value 的null hypothesis test (零效假设检验), 譬如制药公司临床盲试一种新药对某病的疗效,干预组和对照组都安排周细,试验结果经统计后p-value 小于0.05,p=0.05是科研界和业界普遍接受的零效假设检验的阈值,因而新药被认为有效。
什么意思呢?曾有过几个问卷调查,问研究人员或医生对零效假设检验p值的理解,大部分人选了‘’p 值代表新药无效的概率‘’或类似的答案,也就是说,在所获得的实验数据基础上,新药无效的概率是5%。
现实世界的事物都充满变数和不确定性,不是所有变数都是实验室可控的,譬如新药被试人员的患病程度基础生理状态和临床心理状态很难做到每个人都一样,因而实验结果也必然因人而异,所以才要用到统计方法,但根据有效性来统计是很难的,有效性有弱有强难以确切定义,所以统计是基于零效性 - 干预组和对比组统计意义上没有任何不同,因而就有了"零效假设检验",先假设这个新药是零效的,如果通过实验数据发现不是,就是或多或少有效。这个方法教科书级,用了近百年了。
那么如果新药无效的概率是5%,不同程度的有效性总和就是95%,这应该是非常可靠的有效性统计证明了(当然这里还牵涉单边和双边检测,药物试验多为单边,正负效果分开)。
然而不是,那些在问卷调查里如此认为的研究人员和医生都错了,他们不是想当然就是彻底忘了零效假设检验的根本含义:在假定完全零效的前提下,依然取得了显示有些效果的数据,那么我们问,如果由于纯粹随机性,这样的可能性有多大?这就是p 值的含义。如果p值很小,说明纯粹由于随机性致使实验数据违背零效假设的概率很小,要么零效假设不成立,要么数据根本有误。
显然,这和p 值代表药物无效的概率或反过来1-p代表药物有效的概率这样的理解是大相径庭的。
现实世界里,数据显示p值小于5%却不说明任何问题的事例其实并不是十分难以碰到的,还记得以前给电力公司做咨询,那几年艾尔尼诺气候现象统治,天气反常,暴热,山火,暴雨,洪水,酷暑天巨量空调设备上线,电力供应吃紧,造成电网跳闸瘫痪,电力公司一方面对大企业实行强制错峰让电,一方面对中小电力用户推行自愿高峰用电控制。我们给他们分析哪些行业自愿控电做得最好,当然不会是医院和学校,病人和学生的福祉远高于节电,手下一个分析员用统计模型对用电大数据分析,得出了两种用户做得最显著,一是博物馆,一是政府的灾难庇护临时居所, p <0.05,他兴高采烈准备了报告,大大咧咧就要通报电力公司,我一见立马叫停,博物馆理所应当,但灾难临时居所实在可疑,那些居所是给受灾群众和抢险人员用的。检查他的数据和分析都没发现问题,好在事情很容易核实,请相关部门一问就行,固然灾难临居的自愿控电根本子虚乌有,连电力公司事先的控电通知都没有到达,而不少博物馆确实在接到通知后采取低峰时段预先制冷等控制措施。
这事上,我不是比分析员小哥有更好的统计知识,而是比他更有生活知识,那些被洪灾火灾搞得倾家荡产的居民,那些为抢险救灾筋疲力尽的人员,如何再会去操心自愿节电,再说他们的临居简陋,用电也只是支持最基本的必需。分析员小哥还只是个顶替长假雇员的合同工,就已经出手上万更新纯属个人爱好的大当量摩托车和高级摄影装备,安排海外旅游,而我,不好意思地说,在他那个年纪刚开始在举目无亲的海外自费半工求学,起点是50美元和两个衣箱。对临居生活之艰辛的理解,谁更靠谱呢?
这就是统计,统计不是火箭科学,统计一半是生活。即使统计结果告诉你p值远低于0.05 , 在现实生活里也不见得有多可靠,甚至可能完全误导,更有甚者,还可以通过合理的看似天人无害的统计方法进行人为操控。对此,有不少在科学研究里实际事例的报道,暂且不表, 有兴趣者建议翻翻一本书的前半“Everything is predictable”。
先提及一下有心人肯定会马上问的两个问题:
一,既然p 值不是零效假设的概率,那么两者相比,哪个更大更小,相差有多远?
二,正经的统计学发展历史少说上百年,为何不搞出一个直接估计零效假设概率的方法,而要搞得现在这般纠缠不清呢?
这其实已超越学术问题范畴,而是牵涉哲学意义上的问题,关于世界,关于我们的认知,关于统计学界一场旷世纪的大争论。整理一下思路以后有时间再写。