真相就是事物本来面目;造假就是改变事物本来面目。这个道理谁都知道。但是遇到实际问题,很多人自动认为既然打假,手里当然握有真相。方是民之流正是利用大众的这种惯性心理大行其道。
柴静生孩子有三个细节,良性肿瘤,玩具小熊和手上的针眼。方舟子质疑柴静生孩子造假,可能到现在都没有人真正搞清楚,在生孩子的问题上柴静作了什么假,又根据什么事实认定柴静造假。
用一只小熊来打假柴静在美国生孩子的经历,这本来就是八杆子够不着的事情。认定小熊是医院专门用来安慰小病人的,一开始就荒诞不经。实际上任何产科病房都不需要安慰小病人的玩具。给柴静一个小熊并非医院的行为而是护士的个人行为。小熊身上的眼科标识与柴静生孩子的产科在逻辑上没有任何联系。
为了加强打假火力,方是民甚至不惜捏造柴静言论。『柴静谈到她在生下女儿从医院回家的路上,“全是烟熏火燎的味,我就拿一个手绢捂在她鼻子上”,这显然不是在洛杉矶,貌似在北京。』。问题是柴静说过“从医院回家的路上”吗?
柴静说的是“回家的路上我就开始害怕了,全是烟熏火燎的味,我就拿一个手绢捂在她鼻子上。”在前后文中也没有任何地方暗示这是“从医院回家”。柴静说什么不说什么是人家的自由。人家说出来的东西,你不能按照你自己的需要改头换面然后再来打假。用这样的卑劣手段咬定柴静造假,就不仅仅是质疑的问题了。这是在反对柴静公布雾霾真相的既定立场之下钻头觅缝无事生非罗织罪名诽谤柴静。
而最能表现出方是民无知又虚伪的还是关于那张死亡率与PM2.5 的三条曲线图。方是民不是质疑柴静视频中科院大气物理所提供的图是怎么来的,为什么与原来发表的论文不同,而是结论性指控柴静造假:“这显然与事实不符,是对原图的篡改。”。
从统计学上看,方是民不知道这三条曲线是如何产生的。曲线方程是用五年1825天的PM2.5数据与死亡率数据作出的非线性回归。这个图不是画出来的,是电脑根据曲线方程自动生成的。PM2.5的年平均值与曲线方程无关。这个数据的用与不用与死亡率变化没有任何关系。那些以为用五个数据点就可以取得一个非直线回归方程的人基本是就是科学文盲。
还是统计学问题,方是民不知道曲线的意义如何解读。所以才会说出这样无知的话:“柴静的图却显示那几年北京循环系统疾病死亡率逐年上升,岂不成了随着pm2.5下降,人群的死亡率是随之上升的?”。第一条曲线的图例明确表示,心血管疾病死亡率增量与PM2.5污染的增量之间相关系数(注)为0.19(与呼吸道疾病死亡的关系是0.99)。说明两者之间基本没有相关性(注),或者说两者相关性没有统计学意义(注)。
据方是民所言“pm2.5会立即导致循环系统疾病的死亡,不存在滞后”。这样的言论完全是没有科学素养的胡言乱语。任何物质(不论是有利还是有害)对生物体产生作用都有一个剂量效应关系。不考虑剂量因素的说法没有任何科学意义。从临床医学角度,方是民不了解心血管疾病的的直接影响因素并不是空气污染,而是高血压糖尿病高血脂肥胖吸烟饮酒以及生活模式工作节奏等等,还有人口老龄化的后果。这就是为什么心血管死亡与PM2.5相关系数(注)只有0.19。
然而学术上的无知并非方是民心术不正的主要问题。他既然意识到柴静的曲线是用原始数据重新拟合的,起码应该知道原始数据必然是原始论文作者提供的。两张图出现差异的原因逻辑上就有两种可能,一种是柴静自己伪造数据。一种是原始作者提供新的数据。如果是伪造数据,就要伪造上千个数据。伪造那么多的数据难道就是为了证明心血管疾病死亡与PM2.5污染没有显著相关性,这不是与她电视片的初衷南辕北辙吗?
柴静在视频中说明了图表来源,清楚表明全部数据都是原论文作者单位提供的。科学研究的结果更改修正很正常。方是民仅仅根据原始论文而没有经过原论文作者求证就肆意诽谤柴静造假,不过是基于既定立场的恶意推测而且把他的很不专业的数据分析伪装成为“客观事实证据”。造假可恶,以打假为名造假就是恶上加恶。
方是民所谓打假,一贯用自己一知半解去对专业学术问题作出似是而非的解释。伪造事实,伪造他人言论,甚至杜撰科学理论一贯是方是民的看家本领。
若干年前方是民就伪造 “李一道长在水中闭气”,而且还煞有介事地援引水中闭气的世界纪录。事实上李一是在没入水中的一个密封玻璃箱子里静坐。令人称奇的是,没过几天还是根据同一个视频,造假者李一又变成坐在没有水的箱子里骗人。李一道长对方是民的诬陷之词不置一言。离职去人,不知所踪。方是民穷追猛打,揭发李一邪教、强奸、淫乱、敛财。警方介入调查,前面三宗子虚乌有。办班收费是事实,高与不高看和谁比了。
为了证明四川中医师陈建民辟谷49天违反“真理”,方是民杜撰了人不吃饭7天会死的科学理论诬陷辟谷是造假。陈建民将听信方是民伪真理的《北京科技报》告上法庭,方是民之流受到了应有的法律的惩罚还死不改口要坚持真理。陈建民回应,欢迎随时把你们的真理拿来检验。
2013年,这位被中国网民评为人渣的打假斗士却获首届约翰•马多克斯奖。这个打着自然杂志旗号的奖项后面,金主正是英国支持转基因农作物的非官方组织“科学智识”(Sense About Science)。方是民打假的真实用心已昭然若揭。
如今柴静的《穹顶之下》唤醒全民的环保意识。环保部长履新24小时就公开表示对柴静工作的肯定和支持。方是民却处心积虑以打假为名抹黑柴静的人品。数据造假,生孩子造假,还有什么不能造假。尼罗河就不理解了,如果柴静果然造假,究竟是为了多大的回报值得她斥资百万用一岁的女儿煽情还要冒被人揭露的危险。如果柴静没有造假,这样的指控对于一个身为记者初为人母的柴静情何以堪。柴静团队应该考虑诉诸法律,让这幢公案在明镜高悬的法庭上当面对质;让真正的造假者受到法律制裁。
注:有网友提出文章中把R2称为相关系数是错误的。尼罗河对本文作出如下更正与更正说明。
第一,关于R2的名称问题。R2是判定系数或者决定系数。相关系数用r 表示。r 与R2有密切的关系。在一元线性回归,R2=r2。在非线性回归或者多元线性回归,R2的值略大于r2。有鉴于此,原文中的“心血管疾病死亡率增量与PM2.5污染的增量之间相关系数为0.19。”应该修正为“心血管疾病死亡率增量与PM2.5污染的增量之间决定系数为0.19”。
第二,关于R2的统计学意义问题。所谓判定系数或者决定系数,表示因变量的变化在多大程度上是由自变量的变化决定的。或者说自变量的改变在多大程度上对因变量的改变产生影响。R2的绝对值在0到1之间。0表示完全没有影响,1表示100%的决定性。回到本文的具体问题,就是死亡率的增幅在在多大程度上是由PM2.5的增幅导致的。原文中“心血管疾病死亡率增量与PM2.5污染的增量之间相关系数为0.19(与呼吸道疾病死亡的关系是0.99)。说明两者之间基本没有相关性”,并没有对该系数的统计意义产生误判。如果有陈述不精确之处,也是弱化了这个系数的意义。更加准确的陈述是这样的。PM2.5的增量极大地决定了呼吸道疾病死亡率的增量,而对心血管疾病死亡率的增量基本没有影响。
第三,关于有0.19有没有统计学意义的问题。在做线性回归先要对自变量与因变量的相关性作出检验。一般根据r值与样本量查表得到P值。显著性的定义是P小于0.05 。如果没有显著意义,根本就没有必要去做回归。有经验的统计人根据r值可以大致判断有没有显著性。本文讨论涉及心血管疾病死亡率增量与PM2.5增量相关是否有显著性。我并不知道柴静图上的P值是多少。我认为两者相关性没有统计学意义有两个理由。第一,PM2.5 上升心血管病死增量上升,PM2.5下降后者依然上升。第二,从柴静图可见,心血管曲线有5个数据点无法拟合在曲线中,这就表明,原始数据如果要把这五个点的数据都包括进去,这条曲线根本就不能成立。
附:方是民关于柴静死亡率与PM2.5曲线数据造假的原文:
柴静在演讲中提供了一张随着图表表示:“当pm2.5值升高的时候,人群的死亡率是随之上升的。”(12分34秒)。图表上显示数据来源为中科院大气物理研究所。实际上它的数据取自中科院大气物理研究所在2013年12月在《大气环境》杂志上发表的一篇论文:Time-series analysis of mortality effects from airborne particulate matter size fractions in Beijing,Atmospheric Environment 81 (2013) 253-262,改自该论文的图6。这张图表示的是2005到2009年这5年北京pm2.5浓度、非事故总死亡率、呼吸系统疾病死亡率、循环系统疾病死亡率的情况。最上面的那条曲线是循环系统疾病死亡率的情况:在论文原图,最高的是2007年,2008年有所下降,2009年又升上去了。但是在柴静的图中,这条曲线却变成了平滑上升,也就是说,这五年北京循环系统疾病死亡率是逐年上升的。这显然与事实不符,是对原图的篡改。
有人会说,柴静团队是用原始数据重新画图,进行拟合,表示的是死亡率的上升趋势。那好,我们再来看看原图。原图有一组重要的数据被柴静的图删掉了,那就是北京2005到2009年这五年每年的pm2.5平均浓度,分别是:76、84、78、69、65。可见在这五年,pm2.5值最高的是2006年,之后由于要开北京奥运会进行治理,北京pm2.5值其实是逐年下降的。柴静的图却显示那几年北京循环系统疾病死亡率逐年上升,岂不成了随着pm2.5下降,人群的死亡率是随之上升的?(按:pm2.5会立即导致循环系统疾病的死亡,不存在滞后)难怪要删掉pm2.5值,同时捏造出一条逐渐上升的死亡曲线。请问这不是捏造数据是什么?
『方没说柴生孩子造假』
方舟子质疑柴静生孩子造假,可能到现在都没有人真正搞清楚,在生孩子的问题上柴静作了什么假,又根据什么事实认定柴静造假。
『他是说那只小熊造假』
那只小熊真实存在,不存在造假问题。
『因为那小熊来自极特殊的眼科医院,柴不可能在生孩子的地方和给孩子做手术的地方的到小熊。因为孩子不是眼部肿瘤。』
重复一下,任何产科病房都不需要安慰小病人的玩具。给柴静一个小熊并非医院的行为而是护士的个人行为。小熊身上的眼科标识与柴静生孩子的产科在逻辑上没有任何联系。
"第一条曲线的图例明确表示,心血管疾病死亡率增量与PM2.5污染的增量之间相关系数为0.19(与呼吸道疾病死亡的关系是0.99)。说明两者之间基本没有相关性,或者说两者相关性没有统计学意义"
从你上述描述可以看出:你混淆了相关系数(R)和拟合度(R平方),柴图中明明是R平方,你却解释成R。不要以为两者只是一个简单的平方差别,相关系数只是定义在线性关系的,在非线性方程中是没有意义的。另外,你如何知道相关系数0.19就没有统计学意义,如果是大样本,别说0.19,就是相关系数0.05,统计检验也可以是显著的。你大概指这个相关没有流行病学意义,这不是你可以下的结论。
你的统计知识比较初级,却敢于发帖指点别人的数据分析,勇气可嘉。如果不是出于对方舟子的愤恨,大概只能是出自对弱女子的同情和祖国环境污染的忧虑。不管动机如何,都应该以科学的态度,否则就成宣传了。
针对你提出的质疑作出三点回应:
第一,关于R2的名称问题。你说的没错,R2是判定系数或者决定系数。相关系数用r 表示。r 与R2有密切的关系。在一元线性回归,R2=r2。在非线性回归或者多元线性回归,R2的值略大于r2。有鉴于此,原文中的“心血管疾病死亡率增量与PM2.5污染的增量之间相关系数为0.19。”应该修正为“心血管疾病死亡率增量与PM2.5污染的增量之间决定系数为0.19”。
第二,关于R2的统计学意义问题。所谓判定系数或者决定系数,表示因变量的变化在多大程度上是由因变量的变化决定的。或者说自变量的改变在多大程度上对因变量的改变产生影响。R2的绝对值在0到1之间。0表示完全没有影响,1表示100%的决定性。回到本文的具体问题,就是死亡率的增幅在在多大程度上是由PM2.5的增幅导致的。原文中“说明两者之间基本没有相关性”并没有对该系数的统计意义产生误判,如果有陈述不精确之处,也是弱化了这个系数的意义。更加准确的陈述是这样的。PM2.5的增量极大地决定了呼吸道疾病死亡率的增量,而对心血管疾病 死亡率的增量基本没有影响。
第三,关于有0.19有没有统计学意义的问题。在做线性回归是先要对自变量与因变量的相关性作出检验。一般根据r值与样本量查表得到P值。显著性的定义是P小于0.05 。如果没有显著意义,根本就没有必要去做回归。有经验的统计人根据r值可以大致判断有没有显著性。本文讨论涉及心血管疾病死亡率增量与PM2.5增量相关是否有显著性。我并不知道样本量的具体数字,也不知道柴静图上的P值是多少。我认为两者相关性没有统计学意义有两个理由。第一,PM2.5 上升心血管病死增量上升,PM2.5下降后者依然上升。第二,从柴静图可见,心血管曲线有5个数据点无法拟合在曲线中,这就表明,原始数据如果要把这五个点的数据都包括进去,这条曲线根本就不能成立。
尽管你们站在方是民的立场上以尼罗河的一个失误贬低尼罗河的专业能力,故意回避R2值的统计学意义以开脱方是民的明显错误与无知。尼罗河还是要就你们指出错误表示感谢。我将对你们的回应作为注释加入文章中。保留文章的原始面貌不变。
最后,以上关于统计学问题的讨论不影响尼罗河文章中的下面两段论述:
然而学术上的无知并非方是民心术不正的主要问题。他既然意识到柴静的曲线是用原始数据重新拟合的,起码应该知道原始数据必然是原始论文作者提供的。两张图出现差异的原因逻辑上就有两种可能,一种是柴静自己伪造数据。一种是原始作者提供新的数据。如果是伪造数据,就要伪造上千个数据。伪造那么多的数据难道就是为了证明心血管疾病死亡与PM2.5污染没有显著相关性,这不是与她电视片的初衷南辕北辙吗?
柴静在视频中说明了图表来源,清楚表明全部数据都是原论文作者单位提供的。科学研究的结果更改修正很正常。方是民仅仅根据原始论文而没有经过原论文作者求证就肆意诽谤柴静造假,不过是基于既定立场的恶意推测而且把他的很不专业的数据分析伪装成为“客观事实证据”。造假可恶,以打假为名造假就是恶上加恶。
你的统计知识比较初级
Hope that he will realize this himself.
我虽然不是处处同意方舟子,但是他的分析文章确实比柴视频严谨和靠谱多了。煽情不是科学,而治雾霾显然完全不能靠煽情。
"你的统计知识比较初级"
So the conclusion is invalid.
从你上述描述可以看出:你混淆了相关系数(R)和拟合度(R平方),柴图中明明是R平方,你却解释成R。不要以为两者只是一个简单的平方差别,相关系数只是定义在线性关系的,在非线性方程中是没有意义的。另外,你如何知道相关系数0.19就没有统计学意义,如果是大样本,别说0.19,就是相关系数0.05,统计检验也可以是显著的。你大概指这个相关没有流行病学意义,这不是你可以下的结论。
你的统计知识比较初级,却敢于发帖指点别人的数据分析,勇气可嘉。如果不是出于对方舟子的愤恨,大概只能是出自对弱女子的同情和祖国环境污染的忧虑。不管动机如何,都应该以科学的态度,否则就成宣传了。
请具体说明你说的mislead。
还是希望多一些类似于柴静的这些公益视频!