朱头山

无意遥众赏,一心追残阳
个人资料
朱头山 (热门博主)
  • 博客访问:
正文

美国新冠疫苗的统计学问题

(2020-11-17 06:58:25) 下一个

过去两周,美国两家企业,Pfizer和Moderna,相继宣布了它们的三期临床试验初步数据,都达到了惊人的90%以上的有效率,这给了深陷新冠灾难不可自拔的世界一个希望。而且据说这种新型mRNA生产相对容易,安全,光Pfizer一家,年产量就可以达到14亿支,加上Moderna,也许还有新来者,明年世界有望拜托新冠这个噩梦。

但我仔细看了Pfizer的统计方法,(Moderna也用的同样方法),觉得一惊,这个方法好像有点不对劲。我当然不是大统计学家,但也算内行,在此就将这个疑虑说出来,与大家分享,有高手也希望与我解惑。

我在工业部门(不是学术研究)做过疫苗和蛋白药物的免疫原性试验(Immunogenecity),对疫苗的临床试验过程有一点了解,以我以往的了解,疫苗在批准前需完成三期临床试验。和其它药物的临床试验不同,疫苗的受试者(Subject)全是正常的志愿者,而不是病人。

一期试验的目的是安全性。根据临床前在动物身上摸索出的剂量,从小计量开始,逐渐升级,在几十个受试者身上观察毒副作用,当到达出现了严重副作用的剂量,试验终止。一期试验成功,只是说找到了安全的剂量范围。也有药物从最小剂量开始就有很大副作用,或疫苗受试者感染上了新冠,那可能这个疫苗的安全性有问题,就不再进行下去了。

二期试验是安全性和免疫原性试验。安全性贯其一生都是重要指标,疫苗的有效性要看其是否有预防作用,这和大多数药物着重于治疗性不同。在二期还无法作预防性试验,只是看疫苗能否在受试者身上激发其免疫原性。

人体免疫原性有两个分支,体液免疫和细胞免疫。这两者是互相联系的,大多数免疫反应两者都有。相比之下,体液免疫有可溶性的抗体,测定方法比较简单可靠,所以大多数疫苗都以测定抗体为主要观察指标。一个疫苗可以激发无数种抗体,我们一定要证明所测到的抗体能够阻止病毒进入体内,或抑制某种功能,是所谓中和抗体(Neutralizing),这需要一系列复杂的步骤。如果在二期试验内没发现严重副作用,并在多数受试者体内测到高滴度的中和抗体,这说明疫苗过了第二关,可以进入第三关了。

三期试验是安全性和预防有效性试验。受试者人数需上万例,必须在流行区域进行。受试者随机分两组,一组接种疫苗,一组接种安慰剂,通常是包装和疫苗一样的生理盐水。谁是疫苗组,谁是安慰剂组,受试者自己不知道,接种的医护人员也不知道,所谓双盲,只有最后分析时才揭盲,以避免人为的倾向性(BIAS)。

Pfizer公布的方法是这样的: 招募到的受试者被随机双盲注射两剂疫苗或安慰剂(间隔7天),然后就让他们如常生活,并没有强调不许自我防护。当其中出现确诊的新冠病例到达164例时,或总例数到达44,000时,(看哪一个先到达),则终止试验。按原计划,在达到确诊新冠数30,60,120例时要进行中期分析,但因技术原因无法进行。到11月份,总试验例数达到了43,538例,已经接近44,000的终止指标时开始了中期分析,当时的确诊新冠病人有94例,其中打疫苗只有8例得病,因此得出保护率90%的结论。进一步试验目标修正为达到确诊数120例时终止(不是164例了)。

我想象中的临床试验方法是这样的:试验组和安慰剂组暴露在同样条件下,比较两组的感染率,进行统计学分析,根据P值,如果随机因素造成的概率<0.05,判断为两组有显著差异。试验组的感染率低,则为疫苗有效,有效率的差距>50%,可以上市。

而Pfizer的方法不是这样的,试验组和安慰剂组的暴露情况并不能保证一致,当然,伦理上不能要求受试者不进行自我保护,但客观上,这样做参试者的暴露情况是不一致的。虽然,那些得了病的一定是受到有效病毒暴露了,因此在他们中间是否接种疫苗而造成的感染率不同,确实具有一定的意义,但我觉得这不是真正意义上的统计学显著差异,而只是算术差异。这里的90%有效率,并不等同于统计学上的90%有效率。

这就好比验证两组妇女,哪组更容易怀孕。你的做法不是让两组妇女在受孕期和同一个男子性交来比较受孕率,而是把她们放羊,一定时间后检查受了孕的妇女的数量,比较两组的差异。这里的影响因素多了,妇女有没有性交,是不是受孕期,和男人是否不对......

统计学是门很tricky的科学,这次美国大选的民调也是基于统计学的,结果一笔吊帐。从我的眼光看,这些疫苗应该说是有效的,但其真正有效率还需要在实际使用中得到验证。

 

 

 

[ 打印 ]
阅读 ()评论 (31)
评论
蒋金帼 回复 悄悄话 这个国家已到了不可救药的地步了,什么神药都无济于事,美国在十年内翻不过身来。
liketotrade 回复 悄悄话 没有什么可以质疑的,这是经典,公认的,FDA接受的方法,Pfizer是老牌公司,不会随便公布结果。
朱头山 回复 悄悄话 回复 'Donald_Trump' 的评论 : 临床试验中的确诊应该指核酸,抗体双阳性同时也是实际感然人数,因为每个受试者都必须测的,而发布的美国发病率是核酸阳性,只是参加检测的人中阳性数,实际感染率要高得多,比较靠谱的是7月份纽约州抗体抽测,估总感染率20%,再结合瑞典的数据,人群自然感染率20%是比较靠谱的。本试验群如按20%计算,安慰剂组的发病人数应在4000例以上,实际上只有86例,应该是防护得很好,减少了40倍以上。这个设计的干扰因素过强,比如做灭鼠剂在冬天的效果试验,如果冻死的比药死的多,那灭鼠剂的结果就很不准确了。这个临床试验中的受试者自我防护作用和疫苗具有同样甚至更强的功效,不去除防护这个强干扰因素,是无法得出准确结论的,就像照相,原图不行,再是PS也不济。感觉这个试验中的统计学就像PS,成了事实上的骗人工具
零不是数 回复 悄悄话 两个相近的两位数相除,结果的有效数位不是四,最多是二,大概率是一,也就是说“九成左右”。
用这么少的几例阳性来比较两种疫苗的有效率就是数字游戏。
Donald_Trump 发表评论于 2020-11-17 19:50:55
再用Moderna数据: 95人5人疫苗。如没疫苗就有90人感染,疫苗救了85人。疫苗有效率=85/90=94.44%。即所谓接近95%。
枕寒流 回复 悄悄话 完全同意您对疫苗实验设计和统计的质疑。这不是研究人员水平的高低问题,是如何平衡实验结论可靠性与伦理的问题。
新冠的感染受防护措施影响极大。戴好N95口罩,打疫苗的防护作用根本看不到。不强制让受试者不加防护与确诊新冠病人密切接触足够长时间,怎么能确切观察到疫苗的保护效果?
统计学无法解决实验设计的缺陷。这两个疫苗的保护性到底多强仍然存在疑问。
从招募志愿者角度考虑,如果参加实验就要和确诊病人共处,没人愿意被分到对照组,那能不能招够志愿者都难说。除了人性化考虑,不限制受试者使用防护措施必然降低感染率,数据好看。说实在的,打疫苗打的不就是信心嘛。谁不想接种100%有效的呢? 从制药公司的生意角度考虑,客观指标在二期的中和抗体滴度里呢。三期没有严重副作用就可以放心使用了。难道要搞出保护率低的数据让前期投入打水漂不成?
疫苗的保护性实验不限制受试者的防护措施有其难言之隐,是综合平衡的考虑。相信疫苗的尽早接种,不信的戴好口罩。
姗姗d来迟 回复 悄悄话 估计这个实验的数据,p-value
姗姗d来迟 回复 悄悄话 估计这个实验的数据,p-value
种竹山房 回复 悄悄话 random sampling 和 double blind 基本上可以把bias 降低到最小。這是現有條件下能做到的最大努力了。否則,還有什麼更好的方法?
Donald_Trump 回复 悄悄话 博主, ~0.3%有啥不对? 好像是2-3月内的三期? 美国3%是9个月积累,0.3%x4.5=1.3% 对3%也不能说太离谱。Moderna 是90/15000=0.6%是两个月的. 0.6%×4.5 接近3%!
收试者本来或因受试疫苗变得更懂。这不影响结论,毕竟两组几万人都一样有可比性!
Donald_Trump 回复 悄悄话 再用Moderna数据: 95人5人疫苗。如没疫苗就有90人感染,疫苗救了85人。疫苗有效率=85/90=94.44%。即所谓接近95%。
朱头山 回复 悄悄话 回复 'Donald_Trump' 的评论 : 在不允许故意暴露试验情况下,这可能是不得已之举。但从其数据来看,安慰剂组的感染率只有 86/43538/2=0.39%, 瑞典无防护的自然感然率达到20%以上,这说明大多数受试者是作了良好自我防护的,而防护本身对抗感染的作用很强。面对一个强大的干扰因素(自我防护),这种对照程度不高的设计的效能不高
Etornado 回复 悄悄话 在统计学上看,2000的random样本通常可以提供相当准确的结论,何况是44000,真的很准了!我只想说 Pfizer真有钱!很多中小公司在Phase II、III的时候很难做到这么大的sample,因为这样大的sample 无论人员、时间、和金钱的投入和花费很大。中小公司难以负担。
Donald_Trump 回复 悄悄话 这种问题以最基本的算术解释是最有力的。要大学专业或研究生的东西,则表明命题水平太低!
Donald_Trump 回复 悄悄话 这个统计用gut feeling来看: 疫苗感染8人,如果没疫苗就会有86人感染。即疫苗保护了78人。有效率78/86=90.6%.即媒体说90%以上。
如50%以上,即94人感染,其中23.5人感染.
Etornado 回复 悄悄话 我个人觉得只要在Sampling时候:
一、是random sampling的
二、A|B test 有做 propensity score matching

就基本就可以了,何况样本数量有4万多个,从大数据来看很足够了!我看Pfizer的数据应该没问题。
楼主的担忧完全可以使用 propensity score matching 解决,稍微对统计有些认识的研究人员都知道的。
朱头山 回复 悄悄话 回复 '就事论事^*^' 的评论 : 你对P值的意义都没搞清楚,真是贻笑大方,还大二呢,二吧!
Donald_Trump 回复 悄悄话 博主用怀孕,性交率,性交对象等因素是忽略了用较大数据的意义。用22000左右样品,就是假定了两组"妇女"总共有一样的性交次数,有一样的受孕几率!!
就事论事^*^ 回复 悄悄话 哪个药物临床试验的两组人群条件是绝对一致的?这就是为什么要随机分组,足够的样本,且结论允许存在误判(一般不超过5%)。这不需要什么“大统计学家“,只要学好大二的“概率论与数理统计“足矣
红米2019 回复 悄悄话 cng 发表评论于 2020-11-17 14:41:30
大选前民调不准,那是sampling技术不好,而统计模型也没有对数据的粗糙做出必要矫正,这说明统计学用得不够,用得不到家,并非是看不上统计学的理由。

问卷调查很难避免一些受访者在一些问题上说谎,想不出有什么好办法可以校正这种偏差。也许同时测谎?
cng 回复 悄悄话 大选前民调不准,那是sampling技术不好,而统计模型也没有对数据的粗糙做出必要矫正,这说明统计学用得不够,用得不到家,并非是看不上统计学的理由。
笑薇. 回复 悄悄话 如果P value
朱头山 回复 悄悄话 我查了下流感的临床试验方法,不是这样的,两组人注射后都暴露在环境中,不使用防护,然后用我所描述的那种传统方法统计。可能流感不那么致命吧,而伦理要求是高于一切的,无奈之下新冠疫苗才采用了这样的统计方法。在例数足够多的情况下,又采取随机取样,确实理论上可以说两组人暴露一致了,但大选民调失败的例子,要告诉我们,不要太迷信统计学,多思考总是没错!
替补球迷 回复 悄悄话 这结果大概可以得出疫苗比安慰剂显著好的结论,换句话说,疫苗对易感人群至少有短期作用,但是不能得出疫苗90%有效或有90%保护力的结论。
因为并不是所有受试者在特定时间,比如打第二针后某天接受病毒检测,只是自觉出现症状就医确诊,又因为理论上存在大量无症状感染者,所以只能说,疫苗可减轻感染后症状或避免感染者出现症状。这个数据并不能证实疫苗的作用肯定是避免感染。
传统上一个成功疫苗的研发要10多年,现在搞大跃进,非要几个月就得结论,所以很难避免这种有点糊了糊涂的结论。
cng 回复 悄悄话 谁说“试验组和安慰剂组的暴露情况并不能保证一致”?

2万人随机分到对照,另外2万人随机分到疫苗组,基本就能保证暴露状况一致了。而且的分组的时候,要确保两组间的年龄,基础病状况差不多。
chufang 回复 悄悄话 很可能这就是规则,不然每次测试都必须保证一切外部条件完全相同,这几乎是不可能的。
hagerty 回复 悄悄话 按你的说法吸烟有害也无法从统计学上证明了。 吸烟的和不吸烟的人生活方式不会一摸一样的。必须把他们关起来喂同样的食物观察二十年?
3227 回复 悄悄话 现在情况特殊吧
PrimeryColor 回复 悄悄话 只要样本是随机的, 统计意义就成立。 样本也不是越大越好。 以前统计没有学好的干活?
红米2015 回复 悄悄话 That's why we need so many people in the 3rd stage. In average, the exposure should be the same for both groups. Actually the injection of real vaccine may cause some side effects which I doubt if the placebo will also cause. In this case some people in vaccine group may guess they got the real thing and take more risks in daily life.
笑薇. 回复 悄悄话 同意你的分析。条件不一致怎么比较? 164 和44000 是依据什么制定的? 体内产生的抗体浓度也可以反应疫苗的作用,是否有抗体依旧被感染的现象呢?这和那个所谓的特效药是依据住院天数进行assessment 一样不可靠。一个行政标准成了药物对人体的作用的衡量标准。
零不是数 回复 悄悄话 另外一个问题是那个从一百多受感染人员中算出所谓有效率并没有那么多位的有效数位。
[1]
[2]
[尾页]
登录后才可评论.