去年年中时,城头有个新闻报道了一位102岁的长寿阿婆有个特殊嗜好—可乐。她每天要消费1升可乐。从这里可不可以得出一个结论:可乐有助于延年益寿?显然,要下这个结论还为时过早。从这例个案到结论还有许多论证步骤。就像要证实一个药物是否有效,光有一例是不够的。这就需要进行药物的临床试验。以可乐为例,怎样的临床试验才可以证明到底可乐有无延长寿命的作用?
首先,需要一个足够大的样本来测试。因为就像掷分币,得到正面和反面的机率应该是1:1。可是,如果只草草地掷一两次,很可能要不全是正面,要不就全是反面,以致于结果不能真实反映事实。只有掷的次数多到一定值后,掷出正面和反面的结果才会最接近概率1:1的事实。那么,要多大的样本才有话语权?这是可以由统计学的数学模型计算得到。换句话说,如果在一个足够大的人群样本里,喝可乐没有重复多次产生长寿现象,就不能说可乐有助于延长寿命。阿婆的长寿和饮用可乐不过是巧合。
其次,设立有效的对照组。目的是用来比较喝可乐和不喝可乐的寿命有无差别。如果不喝可乐和喝可乐的人群相比,寿命无差别;那就不好下结论说:可乐可以使人长寿。对照这个词用英语表达是control, 有控制的意思。也就是说要控制好对照组和试验组具有可比性。比如说,两组性别、年龄、基础疾病、家族史等都没重大差异。简而言之,对照组和试验组和试验组之间,除了喝与不喝可乐外,没有其他的区别。这样,当两组人群出现寿命上的差异时,才能下结论说是这个差异是由饮用可乐引起的。
最后,检验差异的显著性。假设在两组人群中,最后喝可乐组有12位活到了100岁,不喝可乐组有9位活到了100岁。那么可不可以就此得出结论:喝可乐就比不喝可乐的人更可能活到百岁?这就需要判断:12和9的差别有没有意义。这种差异显著性的检验也是可以根据统计学的数学模型进行计算得到答案。如果统计学计算得出差异没有显著性,那么就可以认为12和9的差别是抽样误差引起。就像掷21次分币,得到12次正面和9次反面一样,实际上并没有差别。
在临床试验中,最重要的是避免偏倚(bias)。要取得一个可靠临床试验结果,无论是试验设计还是过程中都不能有偏倚。比如,因为已有个案报道喝可乐健康活到百岁的影响,就有人为的尽力分到喝可乐这一组的可能性;或者分到可乐这一组的试验对象有了长寿心理暗示,分到不喝可乐这一组却有了折寿的心理暗示。为了避免人为的分组不公平和心理活动的影响,在临床试验中,最常用的方法是 “随机”(randomization) 和 "盲" (blind)。分组不是按工作人员指定或受试者要求分配;而是随机分配,以类似抽签的方式决定。盲就是在破盲前不知道在哪个测试组。单盲一般是试验对象不知道自己在哪一组,双盲是试验对象本人和工作人员都不知道试验对象分在哪一组。这里还有一个技术关键:安慰剂(placebo)。如果对照组给的是白水,很容易就同可乐区分开,这样就无所谓盲了。安慰剂就是除有效成分以外,外观,口感都和测试药物一致。片剂的安慰剂一般就是片剂的填充剂成分。前瞻性(prospective)的试验要比回顾性(retrospective)要严密。所谓前瞻性试验就是:先设计好试验的方案,再按试验方案录用试验对象、在试验过程中收集数据、最后分析、总结。而回顾性的试验则是已有数据,然后再定标准进行分组,统计分析。这样,回顾性试验较前瞻性更容易出现人为干预的偏倚。因此,为新药上市所进行的临床试验按法规必须是前瞻性设计的。
概括而言,要证明一个新药的有效性,必须经过临床试验的验证。而这个临床试验应该是前瞻性的、大样本的、随机双盲对照的。如果有广告或个人宣传某个产品的特殊功效时,也请看看这个结果是怎么来的:有没有经过前瞻性的、大样本的、随机双盲对照的临床试验的验证。
一篇好的科普文章是要让普通百姓都能看懂、理解。这一点上我还有很多需要学习和提高的。
这篇文章旨在讨论什么是科学的、缜密的临床试验设计。可乐与长寿不过是拿来打比方。可乐是药物,而长寿则是需要论证的疗效。所以这篇文章不是讨论长寿的秘诀,而是讨论我们应该怎样来验证一种药物的某一假定的疗效。
以中医为主,西医为附, 咱很容易就让人活到90. 用你的统计法,google 中国逝世的将军,部长以上的有几个活不到90的?