方舟子质疑柴静捏造数据的事情,经过这几天的讨论,初步结论已经可以做了。那就是柴静正确陈述了论文的结论,而方舟子完全没有能理解该论文。
柴静在视频中说道:【当pm2.5值升高的时候,人群的死亡率是随之上升的。】(12分34秒)。其依据是中科院大气物理研究所在2013年的一篇论文:《Time-seriesanalysis of mortality effects from airborne particulate matter sizefractions in Beijing》的图6。
正如我在《详解方舟子没看懂的雾霾曲线》中指出的,这张图显示的是【PM2.5值每增加10,死亡率增加的百分比】。因此,只要这张图的数据大于零,那么死亡率就是随PM2.5值上升而上升。这张图显示,PM2.5值每增加10,心血管病死亡率平均将上升1.3%,呼吸系统病死亡率将增加0.6%。因此,柴静说【当pm2.5值升高的时候,人群的死亡率是随之上升的】完全符合论文的数据与结论。
方舟子由于未能正确理解这张图,以为图中显示的是死亡率。方舟子说 【pm2.5值最高的是2006年,之后由于要开北京奥运会进行治理,北京pm2.5值其实是逐年下降的。柴静的图却显示那几年北京循环系统疾病死亡率逐年上升,岂不成了随着pm2.5下降,人群的死亡率是随之上升的?】
至于方舟子就柴静视频中显示的最上面一条曲线的问题提出的捏造指控,有几点可以确定:
1)柴静图中最上面的曲线四个数据点是来自原论文计算出的增长率系数,而不是捏造;
2)柴静与原论文的区别在于,原论文使用三次曲线进行吻合,而柴静使用二次曲线;但无论根据原论文曲线,还是柴静的曲线,结论都是:PM2.5增加则死亡率增加;
3)方舟子对柴静作假的推理是基于他对曲线的错误理解,把曲线当成了死亡率,而不是死亡率的增加比例,基于方舟子的这一错误理解,他误以为2008年死亡率下降,而他以为柴静试图在掩盖2008年死亡率的下降。实际上,2008年的死亡率是上升的。目前我们没有证据显示柴静与方舟子对该曲线有着同样的错误理解。完全可能出现柴静理解了原论文的精神、而方舟子没有理解的情况。我们目前阅读到的柴静所说的“当PM2.5值升高,死亡率升高”的说法完全符合原论文的数据显示的结果。说柴静试图作假缺乏证据。
4)从方舟子12号对我的回应看,他当时仍然没有理解图中的数据是何含义。我对他的驳斥参见科学网博文。
说明:我之前都不知道柴静是谁,柴静的视频我只看了前两分钟,上面柴静说的话及其视频截图来自方舟子的文章
原来的曲线如下。
详解方舟子没看懂的“柴静曲线" 精选
已有 2974 次阅读 2015-3-1314:05 |个人分类:反民科|系统分类:科普集锦 推荐到群组
下面这张图最近在科学网引发了巨大的争论,起因是柴静引用了这张图,而方舟子说柴静对原图数据进行了【捏造数据】的改动。该图是 PeiLi等人发表的《Time-series analysis of mortality effects fromairborne particulate mattersize fractions in Beijing》中的图六。方舟子可能是最早给出图出处的。在《方舟子妄批柴静捏造数据的错误》一文中,我指出方舟子虽然阅读了原论文,却根本没看懂。我在文中同时做出了正确的解读。但由于我之前并没有阅读论文,而只是读了这张图,对图中数据点的具体来历并不清楚。
现在我终于读到了这篇论文。下面进行一个简单的介绍。特别是讲讲图中的几个数据点到底是怎么来的,希望通过这个详解,能让大家对原论文以及下图有更清楚的了解。
该论文顾名思义是分析北京雾霾对死亡率的影响,这个分析是一个时序统计分析。作者根据的原始数据包括(1)2005-2009年每天的PM2.5等污染指数;(2)每天的温度、湿度等气象数据;(3)每天的心血管病、呼吸系统病死亡人数。论文使用的模型公式是:
其中 E(Y )代表死亡人数期待值,X代表PM指数 (如PM 2.5、PM10),PM指数X 前β是需要通过分析确定的系数(其意义我在后面会重点讲)。上述公式看起来复杂,各种因素堆在一起。因此,我做一个简单的调整,把左边的对数换成为右边指数,使之变得更加一目了然:
其中 f(T,RH, ...) 是一个未知的温度T, 湿度RH 及其他变量的函数,在论文中使用多个分段三次曲线 s()的乘积代表,我们就不必去追究细节了。PM指数的影响在最后的指数项里。论文作者们使用 R软件包中MGCV模块的 gam程式对数据进行分析,确定了 X前面的系数 β。这个计算仅仅是一个调用软件的过程,我们就不必去深究了。问题是 β 的意义是什么。
由上述公式,在其他变量不变,而改变X时,我们有
可见 β 的意义是:当PM指数X增加一个单位时,死亡率增加的比例。(因为人口固定,死亡率增加比例与死亡人数增加的比例是相同的)。
明白这一点之后,上面那副图的数据点就很清楚了:它们是用2005-2009四年的数据分别进行统计分析算出的各年的β值(upto a multiplying constant)。
原论文图的正确描述应该是【The inter-annual variability of the estimated percentincreases in daily mortality ASSOCIATED WITH 10 ug/m^3 INCREASE ofPM2.5 in recent years. 】 原论文图下的描述少了大写的部分。也就是说,原图是 PM2.5值每增加10,死亡率增加的百分比。
另外,该论文的模型是否可以改进,那是另外一个问题,我就不在这多讲了。