韩寒代笔探讨 (仡今为止最强技术贴)
(2012-01-31 16:41:28)
下一个
-转贴 http://blog.sina.com.cn/s/blog_56fc0caa0100zp8d.html
韩寒代笔探讨:强质疑、弱质疑、和忽悠
(2月1日,注:读完本文后,可以再读@被打飞 的《弱质疑和忽悠能“串”成强证据链吗?并浅析阴谋论得以奏效的数学基础》,更为明晰。)
昨晚我放话说要就韩方之争写文章,一些朋友留言说期待大作、佳作、高作。这让我很为难,吵起架来,嘴脸都是很难看的,不外乎是强调对自己有利的论据,无视对自己不利的证据,然后想方设法地拉拢旁观者。顶多风度、策略有好坏而已。期待高人吵架,就跟看完武侠小说中的高手争斗后,到了现实里,发现大家打架时也就是挖眼抠鼻。所以本文肯定是一篇不咋地的文章,请大家抱着轻松娱乐的心情观看。
对于质疑,我的看法是:韩寒是否代笔这个话题,属于公众人物的公域事件,无论方舟子,还是任何人,毫无疑问都有合理和无理质疑的权利。韩寒肯定很不乐意,但这是出名的代价。打诽谤官司的话,此案在美国恐怕赢面不大,因为需要证明质疑者心怀恶意,很困难。至于中国这方面法律如何我就更不清楚了。
那么,质疑在边界在什么地方,什么样的质疑会属于诽谤或者名誉侵权?我觉得这是一个如何看待言论自由权利,和名誉权,之间的冲突的问题,名誉权的合理边界,随被质疑者的身份(公权者,公众人物,普通人)而变,也随大众的认知而变,想要确切论个是非很困难。所幸本文不讨论这个问题,我只对“代笔质疑”一事中的网民心理和判断感兴趣。大众判断能力不提高,法庭出个结果,没用。
本来想到文章最后下结论,考虑到大家都比较关心站队的问题。我就在文章开始就讲吧。目前对韩寒代笔的质疑主要有四处:早期作品(求医、书店),竞赛作品《杯中窥人》,长篇《三重门》,博客。对代笔人的怀疑主要集中在其父韩仁均。我个人的判断很明确:从目前已有的证据看,《杯中窥人》《三重门》等长篇,由韩仁均代笔的可能性非常小。而早期作品(求医、书店),韩寒博客,虽文字风格和情景并不能确定作者,但质疑者并没有能够提出能让我熊熊燃烧的八卦之心信服的疑点或逻辑推断。善意推断的话,我倾向于同样是韩寒写的。
以下专门谈“代笔质疑”这个事情,不谈什么包装什么韩三篇,当然更不谈私生活。那些文后随便讲讲。主要讲我个人的逻辑判断,希望对大家有帮助。明确一下定义,这里“代笔”指的是有人代写整段/篇文章,不是编辑或朋友订正、修正少量字句的正常行为。
---------------------------------------------
一、代笔人
代笔,首先要有代笔人。一开始代笔人的说法有很多,比如有代笔团队,路金波代笔等,但最后集中到韩寒父亲韩仁均身上,这并非偶然,其原因是如下逻辑:
(1).韩寒是个十多年发表了很多作品的畅销书作家,《三重门》后公开发表的长篇,作品文风相似,也就是说,如果要代笔,必然存在长期稳定的代笔者或团队。
(2).而这个长期的代笔者,如果能证明自己是韩寒这些畅销书的代笔,其经济收益是巨大的。
(3).所以根据(1),(2)推论,如果存在长期代笔者,他(们)又十几年都没站出来自证,那只可能与韩寒的关系超越这巨额利益之上的人。准确说,如果有代笔,只可能是亲人。
这就是为什么绝大部分质疑是针对韩仁均。因为所有其它的代笔嫌疑人,质疑方都会面临这个代笔者“巨额利益损失”难以解释的困扰。下文讨论质疑时,将把“如果有代笔者,那只可能是韩仁均”作为前提条件考虑。
二、“强质疑”,“弱质疑”和“忽悠”
1.什么是“强质疑”?强质疑就是所谓的“铁证”。比如你审论文的时候,看见一篇论文,里头有个作者自称的原创段落,和几年前别人已经发表过的一样,在这种情况下,99.9%甚至更高的几率属于抄袭。因为无论作者是谁,出现这种情况,哪怕仅仅一次,都基本可以确认。因为偶然写出一模一样的段落的几率可以忽略不计。除非一些非常意外的情况(比如早先投稿不中却被当时的审稿人剽窃等)。在有强证据的情况下,被质疑方理应站出正面解释,如果没有解释或者其解释无合理的证明力,一般可认定为“证据”。很可惜的是,在这场论争中,尚未看见任何证明韩寒文章属于代笔的“强证据”。
2.什么是“弱质疑”?弱质疑就是“较少出现的情况”,5%,10%,20%。几个或者十几个同类案例中会出现一个。这种证据属于疑点,算作“不利条件”,但是没有太大的证明力。如果有更“强”的“有利条件”,那么这个弱证据就不起作用。比如“韩寒一边开赛车一边发博客,所以不可能”,这是强质疑,但是“韩寒在赛车的前一天凌晨发博客,所以不可能”,这是弱质疑。
具体的例子,比如:十几岁小孩不可能写出大人的角度与语言。文章引用太多名人文章与英文,中学生知识面不可能这么宽。
有人说,虽然每个弱证据可能都只有10%或20%的作家才会出现,比如引用名人文章和英文,《三重门》里出现多处,这样多个弱证据叠在一起相乘,出现的几率不是很小么?其实不能相乘,因为它们的起因往往是相同的。比如作家认为,我这部小说要模仿《围城》,好好装逼,多引用英文,这很好解决,因为引用并不需要阅读原著,只需要二次引用(比如从引用原著的一般性书籍,原著的评论,报纸甚至看过原著的朋友交谈中)即可。只要有了这个“起因”,那么全书就自然会出现无数个这样的“弱证据”,而“起因”相同的多个弱证据同时出现的几率,并不比只出现一个弱证据低上多少。
(有人在这里要问了,多个起因独立的弱证据可以叠加么?可以。但最容易犯的错误就是将弱证据连乘。实际上在总样本量足够大的时候,任何弱证据,无论发生几率是10%还是5%。叠加时对于总体概率的影响非常微小。这也就是为何捕风捉影是无意义的。由于该数学结论是反直觉的,所以很容易成为逻辑陷阱。这话简单写不容易理解,详细可以看本文开头的文章链接,也可以看@奥卡姆剃刀 的文章 http://www.weibo.com/1820201245/y3rN0uMNo 。另外,这个“叠加”实际上是个比较复杂的概率公式,不是简单相加或相乘。)
那么对弱证据,一般的好反驳是什么呢?就是提出比这个弱证据证明力要强的有利证据。如果有强的有利证据出现,那么与之相矛盾的,弱的不利证据,就不成立了。
类似的经典案例比如《鬼吹灯》,看过鬼吹灯的读者应该知道,鬼吹灯是文革背景下的盗墓故事,作者的古玩、盗墓、文革见识经验在书中表现的极其“丰富”,写得活灵活现,该书极其畅销,很多读者应该都读过。我当时读完后,心想,五六十岁的老一辈还有这么有趣的人,真想见见呢。结果最后发现,这个叫“天下霸唱”的家伙,不是个60岁的老头,居然只有28岁,声称这些东西都是自己瞎编的,平时也不喜欢看书,写着玩的。一时天雷滚滚,这九成五是被代笔啊!
很多读者不能接受这个现实,于是质疑纷纷出笼,指责作者不是原著,最后发展到有读者在福建某个小山村找到了真正作者的“遗稿”等等。对此,很快作者又推出了《鬼吹灯II》,质疑声稍有止息,突然又出现爆炸性新闻,网友发帖称,一个有名有姓的原著者站了出来,王阅枚,还找上了东海电视台,声称其子女02年送其《鬼吹灯》手稿到某报社编辑润色,丢失。而网友也发帖列举诸多事例,认为:“28岁的张牧野不可能写出第一部《鬼吹灯》。第一部鬼吹灯中引用了大量70年代流行语,对于历史、地理及风水堪舆等知识也不可能是瞎编的产物。而第二部的水平明显比第一部差,是天下霸唱的狗尾续貂之作”。一时舆论大哗,某网投票,大概有七八成的网友认为《鬼吹灯》乃是窃稿。到后来,记者探访东海电视台,证实是假消息,做了澄清。而作者方对质疑做了冷处理。渐渐的,这些质疑也慢慢消失了。
为什么会出现这种情况?大家是如何判断的?是这样的:
(1).第一次质疑,用的是一个弱的不利证据。你只有28岁,完全没有任何古玩、盗墓、文革的经验,又不爱看书,仅凭着“瞎想”就想出了鬼吹灯,这属于“很少出现的情况”,所以我们质疑你是窃稿。
(2).第一次回应,则是一个比这个不利证据更强的有利证据。你说我编不出《鬼吹灯》。可我这又编了一本《鬼吹灯II》。很显然,连续窃稿两本的几率,这个几率要比只窃一本,小太多。构成了有利的强证据,与前面的弱证据形成了矛盾。那么强证据占了上风。
(3).第二次质疑。搬出了一个“代笔者”王阅枚,我有文革经验,手稿我02年送去编辑部丢了,但我有证人,而且我站出来质疑你。这是一个比(2)更强的证据。并且其它质疑者反驳了(2),你的鬼吹灯II比I写的差很多啊,这不合常理。
(4).第二次回应。如果有手稿,那么是比(3)更强的证据,但由于作者是敲电脑的一族,没有手稿。只有等,随时间流逝,这个“质疑者”并没有抛出更多的证据,这是不合理的,此时(3)这个强证据的级别,变成了普通流言,也就是弱证据。最后发现根本不存在这个报导,这个“弱证据”又变成了“忽悠”。于是这个质疑不战自溃。
那么在韩寒这个案例中,对于弱证据如何考虑呢?
(1).质疑方的弱质疑是:小孩不会模仿大人说法,引用的书籍过多超出了阅读量等。
(2).回应方的方法则应该是用矛盾的强证据覆盖,这些强证据由弱到强包括:
a.驳斥并进一步削弱对方的弱论据,比如小孩模仿大人说法,对方觉得很稀有,你可以举出其它作家的例子,证明并不稀有。比如对方说,引用书籍过多,说明阅读量覆盖太大,超出了16岁少年的可能性。此时可指出其逻辑错误,文学作品中,有引用,不一定是读过了原著,很有可能是读了些二手作品(引用过原著的作品,报纸,讲话等),也可能就是为了装逼引用,只读了其中一小段。所以引用的书籍多,逻辑上并不证明他读了那么多。
b.指出对方的假设存在矛盾,这个矛盾所形成的问题强过其弱论据,并与之矛盾。比如说,弱质疑为:《三重门》中引用过多,韩寒不可能有这么大阅读量,只可能韩仁均有。回应可以是:《三重门》之所以畅销,是因为其中有很多90年代中学流行的段子,比如《卧石答春绿》,Wait and see。以及大量流行歌曲的歌词等,这些不是上一辈人能够进入并熟悉的,代沟的作用非常明显。韩仁均写出这些东西,并且能够在青春小说类中极度畅销,这远远比韩寒“装老成”要更不可思议。
c.如果可以,就拿出更强的证据。比如和编辑的通信、手稿等。这些证据在未成名前伪造的几率非常小,因为当时并不可能知道有何收益,而制作成本太大。
大家要了解,代笔这件事,属于只能证实(比如有个家伙拿出证据说他是代笔),不能证伪(你无论如何都证明不了自己没有代笔)的事情。但是,虽然不能彻底证明,但拿出更强的证据,能够进一步降低你可疑的几率。证据越强,几率越低。
有人说,手稿我也不信,我要面谈,对质,证明你真有这样的水平和智力。这是毫无意义的。因为手稿是作家可能拿出的最强证据。如果这你也不认同,那么什么面谈这样的弱证据就更不会认同了。这只可能是浪费时间。
3.什么是“忽悠”?忽悠指的是有50%以上几率发生的事情,以及无法具备任何证明力的找茬。(这个50%几率是为方便说明打比方,严格的讲是“无法归因”“因果关系不明确”)
有人说,我找出你文中50个疑点,100个疑点。其实绝大多数都是忽悠。很简单,质疑中,如果有强证据,一个就够了,有智力的辩论者,只会攻这一点。直到你回应为止。因为只要这个强证据成立,那么质疑就成立了。如果有弱证据,也不会很多,要是几十个弱证据这么多,早十年就被人发现了,还轮得到今天?如果有人说有几十个弱证据,那么其中大部分必然是忽悠。只是为了迷惑旁观者,并损耗对方的体力。要知道,世界上并不存在“清者自清”,所有质疑被澄清都需要付出很大的努力和劳动。很多被质疑者是被大量的质疑活活累垮的,所以体力战是个很有效的战术。
那么,如何对待“忽悠”呢?一般来说被质疑方只能不理,或择其一二回应。我只说对于旁观者,怎样避免被“忽悠”。
“忽悠”往往存在逻辑上的问题。比如说:
a.这件事,你和你父亲回忆得不一样,在某细节上,一个说A,另一个则说B。这么重要的事情怎么可能记错呢?所以这事你根本没现场经历过,作假。文章是你老爸写的。
对于这个说法做逻辑判断很简单。首先,十几年前的事情,双方回忆不同,逻辑上的推论,最大几率是有人记错了,而不是“作假”,更不是“代笔”。其次,重要的事情,逻辑上并不能推出“不会记错”。再重要也不可能违反人类的记忆规律,何况事件重大,但其细节并不重大,获奖当然重大,考官拿了什么纸。有啥重大可言?两者逻辑上完全没有联系。细节记错司空见惯。
如果你找不出逻辑上的漏洞。判别“忽悠”也有简单的方法。最简单的方法就是把其它作家代入到这个“忽悠”语句的主体中,看看成不成立。一般来说,要构成一个“质疑”,必须有特殊性,也就是这个问题,只有在被质疑者,或者极少有问题的作家身上,才存在。如果很大数量的作家都存在相同的问题。那这就不是一个“质疑”,而是一个“忽悠”。“忽悠”的特点是同样的指责,可以针对任何一个作家,而且百试不爽。那么说明这是个毫无意义的质疑。简单的反驳方法是套用同样的说法在其它作家身上,或直接套到质疑者自己身上,并指出该质疑依然成立。这样就表示该质疑的推论在因果关系上是不明确的,逻辑存在问题。由于时间有限,例子就不写了。
----------------------------------------------------
这里加一段,说一下那个“词频分析”。那个词频分析在春节期间和几个该专业的朋友写了几篇文章。简要说一下。有人用主成份分析的方法,通过虚词的词频模型,在韩寒、韩仁均,郭敬明、天下霸唱的作品集中运行,发现能成功区分天下霸唱,郭敬明的作品,却不能区分韩寒和韩仁均的作品。这个说法颇有迷惑性。
我们几个人检查了他的算法,一致认为,该作者在主成份分析前忘了做归一化步骤。所以词频分析,变成了词数分析。由于作品字数的差异最大,变成了主维度。正好,他选取的天下霸唱的一篇作品最长,郭敬明的两篇作品其次,韩寒和韩仁均都是最短的,所以正好各自聚在了一起,造成了错误的实验结果。我们重做了实验,发现该方法并没有区分性,这是个无效的方法。详情请大家参见我博客中的真实结果图片和几篇文章链接。
另外那个分析还有个错误,它声称成功地把郭敬明的《挚爱》和《夏至未至》识别在了一起。但《挚爱》并非郭敬明的作品。
文章链接:
http://www.weibo.com/1691279484/y2yTz2aNE
http://www.weibo.com/1763695145/y2yuhrbKE
http://blog.sina.com.cn/s/blog_56fc0caa0100zml1.html
结果图像:原帖在:http://www.weibo.com/1734031341/y2xlN7nzD
PCA可尝试做更多维度,并在PCA之后尝试正规的识别算法如linear classifier而不是靠手来做clustering,但从目前情况看,这些改进方案的结论也基本上属于无效方案。
-----------------------------------------------------
剩下的是感想,因为熬夜,不多写了。
1.法律解决不了舆论问题。舆论问题还是要靠舆论。
2.逻辑是最重要的,这不是什么文科逻辑和理科逻辑的问题,识别不了逻辑漏洞,不是对方逻辑严密,而是你逻辑不行。
3.科学的形式,并不一定代表科学,很可能只是忽悠。
4.韩寒确实有不少包装,这也是看这几天辩论的感想。其初期回应不妥也不礼貌,徒惹麻烦。不过今天说代笔的问题,与此无关,就不说包装了。
5.质疑的道德,如果说质疑有什么道德,我列两点:不忽悠。质疑被成功回应时,应协助澄清而非弃之不顾抛下一个质疑。
赞转发好贴!
开心快乐!