美国新冠疫苗的统计学问题
文章来源: 朱头山2020-11-17 06:58:25

过去两周,美国两家企业,Pfizer和Moderna,相继宣布了它们的三期临床试验初步数据,都达到了惊人的90%以上的有效率,这给了深陷新冠灾难不可自拔的世界一个希望。而且据说这种新型mRNA生产相对容易,安全,光Pfizer一家,年产量就可以达到14亿支,加上Moderna,也许还有新来者,明年世界有望拜托新冠这个噩梦。

但我仔细看了Pfizer的统计方法,(Moderna也用的同样方法),觉得一惊,这个方法好像有点不对劲。我当然不是大统计学家,但也算内行,在此就将这个疑虑说出来,与大家分享,有高手也希望与我解惑。

我在工业部门(不是学术研究)做过疫苗和蛋白药物的免疫原性试验(Immunogenecity),对疫苗的临床试验过程有一点了解,以我以往的了解,疫苗在批准前需完成三期临床试验。和其它药物的临床试验不同,疫苗的受试者(Subject)全是正常的志愿者,而不是病人。

一期试验的目的是安全性。根据临床前在动物身上摸索出的剂量,从小计量开始,逐渐升级,在几十个受试者身上观察毒副作用,当到达出现了严重副作用的剂量,试验终止。一期试验成功,只是说找到了安全的剂量范围。也有药物从最小剂量开始就有很大副作用,或疫苗受试者感染上了新冠,那可能这个疫苗的安全性有问题,就不再进行下去了。

二期试验是安全性和免疫原性试验。安全性贯其一生都是重要指标,疫苗的有效性要看其是否有预防作用,这和大多数药物着重于治疗性不同。在二期还无法作预防性试验,只是看疫苗能否在受试者身上激发其免疫原性。

人体免疫原性有两个分支,体液免疫和细胞免疫。这两者是互相联系的,大多数免疫反应两者都有。相比之下,体液免疫有可溶性的抗体,测定方法比较简单可靠,所以大多数疫苗都以测定抗体为主要观察指标。一个疫苗可以激发无数种抗体,我们一定要证明所测到的抗体能够阻止病毒进入体内,或抑制某种功能,是所谓中和抗体(Neutralizing),这需要一系列复杂的步骤。如果在二期试验内没发现严重副作用,并在多数受试者体内测到高滴度的中和抗体,这说明疫苗过了第二关,可以进入第三关了。

三期试验是安全性和预防有效性试验。受试者人数需上万例,必须在流行区域进行。受试者随机分两组,一组接种疫苗,一组接种安慰剂,通常是包装和疫苗一样的生理盐水。谁是疫苗组,谁是安慰剂组,受试者自己不知道,接种的医护人员也不知道,所谓双盲,只有最后分析时才揭盲,以避免人为的倾向性(BIAS)。

Pfizer公布的方法是这样的: 招募到的受试者被随机双盲注射两剂疫苗或安慰剂(间隔7天),然后就让他们如常生活,并没有强调不许自我防护。当其中出现确诊的新冠病例到达164例时,或总例数到达44,000时,(看哪一个先到达),则终止试验。按原计划,在达到确诊新冠数30,60,120例时要进行中期分析,但因技术原因无法进行。到11月份,总试验例数达到了43,538例,已经接近44,000的终止指标时开始了中期分析,当时的确诊新冠病人有94例,其中打疫苗只有8例得病,因此得出保护率90%的结论。进一步试验目标修正为达到确诊数120例时终止(不是164例了)。

我想象中的临床试验方法是这样的:试验组和安慰剂组暴露在同样条件下,比较两组的感染率,进行统计学分析,根据P值,如果随机因素造成的概率<0.05,判断为两组有显著差异。试验组的感染率低,则为疫苗有效,有效率的差距>50%,可以上市。

而Pfizer的方法不是这样的,试验组和安慰剂组的暴露情况并不能保证一致,当然,伦理上不能要求受试者不进行自我保护,但客观上,这样做参试者的暴露情况是不一致的。虽然,那些得了病的一定是受到有效病毒暴露了,因此在他们中间是否接种疫苗而造成的感染率不同,确实具有一定的意义,但我觉得这不是真正意义上的统计学显著差异,而只是算术差异。这里的90%有效率,并不等同于统计学上的90%有效率。

这就好比验证两组妇女,哪组更容易怀孕。你的做法不是让两组妇女在受孕期和同一个男子性交来比较受孕率,而是把她们放羊,一定时间后检查受了孕的妇女的数量,比较两组的差异。这里的影响因素多了,妇女有没有性交,是不是受孕期,和男人是否不对......

统计学是门很tricky的科学,这次美国大选的民调也是基于统计学的,结果一笔吊帐。从我的眼光看,这些疫苗应该说是有效的,但其真正有效率还需要在实际使用中得到验证。