二野时光

二野,居于南美,正宗华人也。
正文

《红楼梦》等名著作者是谁? 让数学来证明

(2010-07-13 21:56:01) 下一个
《红楼梦》等名著作者是谁? 让数学来证明

《红楼梦》是一人所作?

  《红楼梦》成书迄今已逾200年,作为中国最重要的一部小说,它不仅感动了中国人,也得到其它民族的重视与喜爱。《红楼梦》有各种不同的版本,数十种续书,流传到世界各国,被翻译成各种文字,透过不同的文字翻译,感动了不同民族的人民。

  长期以来,人们普遍认为曹雪芹只写了《红楼梦》的前80回,后40回是高鹗续写,但数学统计进入文学领域后,这个定论遭到了计算机的质疑。1981年,首届国际《红楼梦》研讨会在美国召开,美国威斯康星大学讲师陈炳藻独树一帜,宣读了题为《从词汇上的统计论〈红楼梦〉作者的问题》的论文,首次借助计算机进行《红楼梦》研究,轰动了国际红学界。陈炳藻从字、词出现频率入手,通过计算机进行统计、处理、分析,对《红楼梦》后40回系高鹗所作这一流行看法提出异议,认为120回均系曹雪芹所作。

  语体风格是人们在语言文字表达活动中的个人言语特征,是人格在语言文字活动中的某种体现。这种风格可以在一定程序上通过数量特征来刻画。例如,句长和词长可以代表作者造词句的风格,当然,反映作者风格的不是单个词的词长和单个句子的句长,而是以一定数量的语料为基础的平均句长和平均词长;此外,字、词在作品中出现的频率也是个人风格的体现。利用计算机计算一部作品或作者平均词长和平均句长,对作品或作者使用的字、词、句的频率进行统计研究,从而了解作者的风格,这被称之为计算风格学。计算风格学现在在社会科学领域成为一门饶有兴味的学科,尤其在判断作者真伪,考证作者疑难方面更是大显身手。

  让佚名作现身

  “作者考证”有时是一个很困难的问题,计算风格学可被应用来解决这种问题。我们看看两个例子。

  出现于16世纪90年代的一部五幕剧《爱德华三世》,表现了14世纪英王爱德华三世统治时期勇武的骑士精神。但该剧作者究竟是谁,戏剧界争论了几百年。不久前,通过电脑对该剧的语言风格进行分析,莎翁作品的权威机构——阿顿公司正式确认,《爱德华三世》是莎士比亚的一部早期作品。莎剧专家说,这部作品本身所表现出的深刻人性、博大精神和文辞语言的华丽无可辩驳地“用莎士比亚自己的声音”证明了它的来源。

  1964年,美国统计学家摩斯泰勒和瑕莱斯考证了12篇署名“联邦主义者”的文章作者,可能的作者是两个人,一个是美国开国政治家汉密尔顿,另一位是美国第四任总统麦迪逊。究竟是哪一位呢?统计学家在进行分析时发现汉密尔顿和麦迪逊在已有著作中的平均句长几乎完全相同。这使得这一能反映写作风格特征的数据此时失效了。于是,统计学家转而从用词习惯上来找出这两位作者的有区别性的风格特征,而且终于找到了两位作者在虚词的使用上有明显的不同。汉密尔顿他已有的18篇文章中,有14篇使用了“enough”一词;而麦迪逊在他的14篇文章中根本未使用“enough”一词。汉密尔顿喜欢用“while”,而麦迪逊总是用“whilst”。汉密尔顿喜欢用“upon”,而麦迪逊很少用。然后,再把两位可能的作者的上述风格特征指标,与未知的12篇署名“联邦主义者”的文章中表现出来的相应的风格特征进行比较。结果发现那位署名“联邦主义者”的作者就是美国第四任总统麦迪逊。这样就了结了这一考据学上长期悬而未决的公案。两位统计学家所使用的数学方法也得到了学术界的好评。

  《静静的顿河》是不是抄袭?

  长篇小说《静静的顿河》是一部既磅礴壮观又委婉细腻、扣人心弦的史诗性长篇小说,是当代世界文学中流传最广泛、读者最多的名著之一。他的作者肖洛霍夫因此获得1965年诺贝尔文学奖。但小说出版后即有人说这本书是肖洛霍夫从一位名不见经传的哥萨克作家克留柯夫那里抄袭来的。俄国流亡在国外的一些作家如索尔仁尼琴、麦德维杰等,认为《静静的顿河》的大部份内容是抄袭哥萨克作家克留科夫的作品,理由是该书第一卷出版时,肖洛霍夫年纪尚轻,并无生活经历;另外,他以后未能写出具有同样文学价值的作品。肖洛霍夫充其量是合作者罢了。

  为了弄清楚谁是《静静的顿河》的真正作者,捷泽等学者采用计算风格学的方法进行考证。具体办法是把《静静的顿河》四卷本同肖洛霍夫、克留柯夫这两人的其他在作者问题上没有疑义的作品都用计算机进行分析,获得可靠的数据,并加以比较,以期澄清疑问,得出谁是真正作者的结论。

  捷泽等学者从〈静静的顿河》中随机地挑选出2000个句子,再从肖洛霍夫、克留柯夫的各一篇小说中随机地挑先500个句子,总共3组样本,3000个句子,输入计算机进行处理。处理的步骤如下:

  1、首先计算句子的平均长度,结果3组样本十分接近。于是再按不同的长度细分成若干组,对3组样本中对应的句子组进行比较,发现肖洛霍夫的小说与《静静的顿河》比较吻合,而克留柯夫的小说与《静静的顿河》相距甚远。

  2、进行词类统计分析。从3个样本中各取出10000个单词,结果发现,除了代词以外,有6类词肖洛霍夫的小说都与《静静的顿河》相等,而克留柯夫的小说则与之不相符。

  3、考察处在句子中的不同位置的词类状况。俄语的词类在句子中的不同位置可以很好地表现文体的风格特点,特别是句子开头的两个词和句子结尾的3个词往往可以起到区分文体风格的作用。捷泽等学者统计了3种样本中句子开头的词类和句子结尾的词类,发现肖洛霍夫的小说与《静静的顿河》十分接近,而克留柯夫的小说则与之有相当大的距离。

  4、进行句子结构的分析,统计3种样本中句子的最常用格式。结果发现,肖洛霍夫的小说与《静静的顿河》的最常见句式都是“介词+体词”起始的句子,而克留柯夫的小说的最常见句式是以:“主词+动词”起始的句子。

  5、统计3种样本中频率最高的15种开始句子的结构,发现肖洛霍夫小说中有14种结构与《静静的顿河》相符,而克留柯夫小说中只有5种出现在《静静的顿河》中。

  6、统计3种样本中频率最高的15种结尾句子的结构,发现肖洛霍夫小说中15种结构与《静静的顿河》完全相符,而克留柯夫小说中结尾句子的结构与《静静的顿河》完全不符。

  根据以上6个方面的统计结果与分析,捷泽等人已可以下结论:《静静的顿河》的真正作者是肖洛霍夫。然而,捷泽等人对于这样一部世界名著,这样一个世界文学界的重大疑案,采取了十分谨慎的态度,为了精益求精,他们在更大规模基础上进行研究,最终确定《静静的顿河》确实是肖洛霍夫的作品,他在写作时或许参考过克留柯夫的手稿。后来,原苏联文学研究者从另外一些方面又进一步证实了肖洛霍夫是《静静的顿河》的真正作者。

  计算风格学不仅能考证作者,还作者一个清白,在更广阔的范围内,通过对不同时期的文学家作品的统计计算,还可以反映一个时代的文化风格变迁。曾有人对20位德语作者的22部著作的平均词长和平均句长进行过计算,从而发现了德语书面语言的句子有变短的趋势。

自网上文章
[ 打印 ]
阅读 ()评论 (0)
评论
博主已隐藏评论
博主已关闭评论