个人资料
正文

[山寨争鸣] 汉语迟早要“淘汰”英语吗?

(2013-07-24 19:57:29) 下一个

[概要] 最近在网上看到一篇文章,标题是《“汉语”迟早要淘汰“英语”! 》。追捧转贴很多。山民对汉语英语都有兴趣,看到这篇文章,差点笑翻。文章不是这么写的嘛。忍不住点评几句。
======================

[转贴] 汉语迟早要淘汰英语!

汉语的一个明显的优势是,思维面广阔,在数学上由于单音节发音,对数字的反应速度也更快,但在逻辑思维方面还是拼音文字较好,但从人类文明发展的趋势看,作为表意文字的汉语,由于可以自由组合新名词新概念以至新思想,可以容纳信息和知识爆炸的冲击,无疑将发展为人类的共同语言,用这种语言来交流思想更加方 便,更加丰富多彩,当然在论文和计算机语言是汉语和拼音文字并用了。

汉语的伟大就在于兼容,你们看看在汉语的学术论文有汉语和阿拉伯数字和西方拼音文字的混用现象,但在英语论文中则找不到一个汉字,中国的物理学专家可以凭 借他在中学时代的化学基础知识通读化学专家的论文,反之依然,而英美的不同行业的专家要交流他们的学术成果,则是对牛弹琴,凭这个优势,汉语就有资格成为世界语,而我们国内还有些学者还要把汉语拼音化,这不是邯郸学步东施效颦吗?
=================
点评:
(1)“中国的物理学专家可以凭 借他在中学时代的化学基础知识通读化学专家的论文,反之依然” 。即使是化学博士,中文化学论文也不一定都看得懂。你要是不信,试试这个:苯并吡嗪,前线轨道,乘积算符。
(2)“而英美的不同行业的专家要交流他们的学术成果,则是对牛弹琴”。 这位同学大概没有读过英文学术期刊,也没有开过多学科的学术会议。

==================

我们中国人民也有资格控告那些所谓的文明的西方人,是谁在制造环境污染,破坏森林和草原,就是他们,因为印刷同样内容的一本书,西方语言要比汉语浪费2倍的纸张,全世界使用西方语言的人要比使用汉语的人多5倍,按照简单的因素级连倍乘法,就要浪费10-20倍以上的木材增加20倍以上的工业废水(真是一笔糊涂帐!)。就语言的 优越性来讲,西方人没有什么资格对汉语说三道四,连文盲都知道从联合国五种工作语言找出汉语文本,因为汉语文本是最薄的那一本
==================
点评: 联合国的文件没见过。但是大英博物馆,卢浮宫各种文字的书籍简介,中文本绝对不比英文本薄。比较一下《光荣与梦想》中英文版:



 

英文: 中文: 
Title: The Glory and the Dream 书名: 光荣与梦想
Publisher: Bantam Books (1975) 出版社: 海南/三环出版社 (2004)
1st PAPERBACK edition 装帧: 平装
ISBN-10: 0553012096 国标编号: X7-80700-024-4/K
Dimensions: 225mm x 150mm 开本: 16开 (260mm x 185mm)
Paperback: 1398 pages 页数: 1334
(英文版中的100来页索引和文献,中文版没有)  

 另外,现在英文电子书大行其道。Amazon.com 的电子书籍销售量早就超过印刷书籍的销售量了。
==================

中国人心里有这样一种成见;认为汉语迟早要被英语所淘汰。

记得有一次,大概是胡野碧在辩论时干脆把它清楚地说了出来。前几天“世纪大讲堂”请了一位学者李锐也认为全球化的结果是让英语统治世界。只有阮次山在一次 “大时代,小故事”中谈到汉语的思维速度比英语快。但是,他又提出一个问题;既然由于汉语使用了‘声’使得汉语的思维速度比英语快,那么,由于广东话中的 声比普通话多,是不是广东话的思维速度比普通话更快呢?我的回答是,广东话虽然使用的声调多于普通话,但是,广东话有两个缺点,第一、它的文字规划得不 好,文字表达欠佳,且有闭音节的声音存在。第二、它的声音利用率不高,普通话有21个声母、35个韵母和四声,连乘的结果是2900个声音,但是能够被利 用的是2500个,而真正被用到普通话中的仅1200个。广东话有九声,即使它的声母和韵母与普通话一样多,那么它实际使用的声音也应该是普通话的两倍多才对,但是,广东话中实际使用的声音仅有1500个,与普通话相差不多,而它的利用率比普通话小了几乎一倍。利用率小,就说明难学。因为同样的一个声母或 韵母,每次的使用实际上也是一种练习的过程,利用率高的声母或韵母必然容易记忆、容易掌握。日常生活中也可以看到,凡是常用的语言元素,包括声母、韵母、 汉字和单词等到,越是经常使用的越容易掌握。语言的好坏其实取决于两个方面,第一、是不是能够用很少的记忆来掌握,第二、是不是能够在有生之年掌握到比其 他人更多的知识?用一句极限的话来讲应该是:最好的语言是不学而知但是所掌握的知识又最多的语言,或者说,学少而知多的语言
==============
点评: (1)所谓能够被利用的发音数毫无意义。因为说话时并不要求不能用同音字。(2)以下例子,只有四个发音,也能表达很多意思。(3)汉语难学,就不用说了。

赵元任《施氏食狮史》  石室诗士施氏,嗜狮,誓食十狮。施氏时时适市视狮。十时,适十狮适市。是时,适施氏适市。氏视是十狮,恃矢势,使是十狮逝世。氏拾是十狮尸,适石室。石室湿,氏使侍拭石室。石室拭,氏始试食是十狮。食时,始识是十狮,实十石狮尸。试释是事。
==============

英语与普通话相比则不同,国际音标中,英语有20个元音和20个辅音,所以英语的声音种类不会超过20×20=400个;反过来说,不在这四百个声音之内的任何声音都不被英语所承认,或者被认为是不正确的发音;这里所说的不是“音节”。比较一下就会看出,汉语的发音种类是英语的3倍,两者的比值远大于广东话与普通话的比值。

下面要说一下,为什么声音种类越多,思维速度就越快。这个问题,去年我在“北大中文”论坛讨论了一个月才使大家弄清楚,在这里我希望尽量说得简单。假设有 一个仅会发两种声音的人,具体地讲,他就会发a和b两个音。根据电脑的理论,我们知道,他用这两个符号依然可以表达整个世界。再假设,世界上仅有400种 事物需要表达,那么,一个英国人可以用每一个发音来表达400种事物中的一件,而仅会发两个声音的人,有时就不得不用九个发音来表达400种事物中的一 件,因为二的九次方才大于400。比如,英国人用“i”代表“我”而仅会两个声音的人可能要用abbababba代表“我”这个概念。一般人每发一个声音 大约需要消耗四分之一秒的时间。比较两者就会看出,仅会两个声音的人,不但表达得慢,而且还费力气。在表达“我”这个概念的时候,英国人使用四分之一秒的时间,而仅会两个声音的人使用了二又四分之一秒。如果两个人总以这样的比例生活一辈子,他们一生中所享受到的所有信息将是它的反比9:1。(这里的关键是英语根本就不是两个声音的语言!)
===============
点评:
作者忽略了几个事实:(1)语言表意不局限于单音节。 所以独特单音节数字的比较无实际意义
(2)思维的时候不一定需要发音。湖南方言有六个声调,湖南人思维速度不一定就比北京人快。(3)即使思维速度与表达速度相关,那起作用的也只是单位时间内能够发出的音节数所能表达的意义。与语言中声音总数无关。
===============

实际的情况中,最明显的是日语与汉语的对照,我们知道,日语使用了100种不同的声音,而汉语使用了1200种声音,因此很多汉字让日本人一念就必须用两个或者三个声音来表达。我们假设日语中所有的字都用两个声音来表达,那么岂不是说,日本人一生所能够享受到的信息仅仅是中国人的一半吗?我曾经思考过,这是不是与日本历史上从来没有出现过伟大的思想家有关。
===============
点评:难道“中国”这个词汉语发(zhongguo)时表达的信息和日语发(ちゅうごく)时表达的信息是不一样的?
===============

我们知道,思维实际上是一种心里说的过程,如果在说话时表达得快,那么,思维的速度也应该跟着快。具体的例子是赵元任曾经比较用英语和汉语背诵乘法口诀的速度,汉语使用了30秒,而英语使用了45秒。因此,如果两个人同时用英语和汉语来背诵的话,到了 30秒的时候,汉语使用者一定想到了九九八十一,而英语使用者则一定到不了这里,说不定,他想到的仅仅是七七四十九。这就证明了使用发音种类多的语言比使 用发音种类少的语言思维速度快。这一点曾经被国、内外许多学者所证实。至于思维速度快是否就代表聪明这个问题是被很多学者所承认的。
==============
点评:思维与发音是两回事。你让两个小孩书面答题,一个用英文,一个用中文。只要都会乘法,我想答卷的速度应该是差不多的。另外,背诵和朗读不是思维。
==============

我的证据是解释一个历史上的“谜”:古希腊人为什么比其他人更聪明?因为希腊的文化来自古菲尼基人,我们知道菲尼基人发明了人类的拼音字母,就声音的分解 来说,这是一大进步,就思维速度来说,它是一大倒退。因为,为了筛选容易区分的声音元素,菲尼基人仅仅使用了22个辅音,这样,它的表达速度当然比现在任 何语言都慢,而希腊人则采用了元音,我们知道元音与辅音结合以后,声音种类等于增加了好几倍。事实上,菲尼基人的声音中也有元音,否则他们是发不出来的。 所谓的22个辅音是说他们仅承认这22个辅音为信息栽体,也就是,ma、me、mu、mai、muo在他们的耳朵里与一个m没有任何区别就像me的四种声 调对于英国人来讲没有任何区别一样。由于声音种类的突然增加使得希腊人的思维突飞猛进,造成了后来的现象。论坛上曾经有人问汉语的声音种类依然多于英语, 为什么没有英国先进。我的回答是,当声音种类突然增加的时候就有新思想出现,反之,当声音种类减少时,思想就趋于保守,而元朝以后,中国的声音中失掉了一 个“入”声,中国的衰弱正巧从那时开始。最后,在讨论尼安德特人的时候,人们也发现,使用声音种类少的人种会被历史淘汰。
==================
点评:按照作者的观点,上海应该是越来越没落了。因为上海话的声调与韵母越来越少了。
上海话主要以年龄区别老派、中派和新派。
老派:
声母27个,韵母51个,声调6个(阴平、阴上、阴去、阳去、阴入、阳入)

中派:
声母28个,韵母43个,声调5个(阴平、阴去、阳去、阴入、阳入)

新派:
声母28个,韵母32个,声调5个(阴平、阴去、阳去、阴入、阳入)

==================

我之所以认为汉语必定战胜英语的根据还不在这里,关键是要解决人类目前所面临的知识爆炸问题。我们知道,目前的英语单词包括各种生物名称及专利发明的新术语已经超过了数百万,如果考虑到英语中有一些可以推导和联想的成份;比如前、后缀和复合词等,它所需要记忆的基本单词也有一百万个。而所有这些单词在汉语中都可以用四千个汉字来表达。根本的原因还是英语的发音种类不够。
==================
点评:文章混淆了发音与表意的差别。日语也用汉字表意,但是日语直接用片假名拼写英语外来词,难道也是发音种类不够?要知道,早年很多汉语新词,都是从日本引进的。如民主,科学,共产党。说明日语(实际是日语发音的汉字)造新词的能力也不差嘛。可见造字能力与发音无关。 
http://www.zhaojun.com/youci/riyu.htm
==================

比如pork这个词,在英语中代表猪肉,它和猪pig、肉meat没有任何关系而仅仅代表它们的一个联合体而已,如果把猪肉pork、羊肉mutton、 牛肉beef、猪油lard、羊油suet和牛油talon放在一起进行比较的话就发现,英语中所有的联体词都是一个与其中任何一个分解词毫无关联的新符 号,而它们却构成了英语词汇的主体,英语中几百万的单词就是这样来的。它的根本原因是由于如果将pork改成pig和meat连在一起的形式,那么就要发音四次而pork仅仅发音两次;所以联体的词能够节省发音却要增加记忆,而分体的词,无需记忆可是却增加了发音次数。设想,一位屠夫,每天要用到“猪肉” 这个词上千次,使用两次发音的单词要比使用四次发音的词节省两千次发音,何乐不为?(这么说的话,英语打招呼说 Hi, 汉语打招呼说“你好”。人人都会天天打招呼,但只有屠夫才天天说猪肉, 哪个省事?个别的例子没有任何意义。)但是遇到不常用的词的时候,英语还是和汉语一样,使用分解的词,比如驴 肉就用donkey meat来表达。因为不常用的词,即使设立了符号形式,别人也记不住。汉语能够将英语中联体词汇分解的功能,非常有用,它使所需要记忆的词汇大大地减少; 不仅如此,它还能够将词汇在人们头脑中的位置整理得清清楚楚。达尔文主义的诞生就是建立在林奈的双名法的基础之上的,这种方法使得各种印象在脑子中由原来 的平面,变成立体的。比如,在林奈以前,人们给所有的生物一个名字,结果,由于种类太多,同一种生物可能有两种名字,而另外的生物,可能没有名字。林奈则 将所有的生物先分类,并且给出一个类名,然后在类名的下面放一个词,两者组成双名法的名字。这样不但清晰,而且大大的减少了需要记忆的符号;比如原来有一万个名字,现在分成一百个类,又在每类中分成一百种,我们所需要记忆的仅仅是一百个类名和一百个种名,共二百个,而不是原来的一万个。随着知识爆炸的问题 逐渐恶化,人类就有必要将其他的术语也仿照这个方法改造,而目前唯一的办法就是按照汉语的结构进行改革。而原因还是在于发音种类的数量。
================
点评:当初化学传入中国,化学元素的翻译是个大问题。汉字传统的造词方法根本行不通。还是传教士傅兰雅新创前所未有的造字法,才翻译了所有的化学元素名称。由此看来,单字的独特发音再多也无济于事。(http://proj3.sinica.edu.tw/~chem/servxx6/files/paper_1791_1231831930.pdf
================

这个现象最先是德国的莱布尼兹体会到的,他认为汉语是自亚里士多得以来,西方世界梦寐以求的组义语言。但是,他没有看到声音的真正特性,却由于汉字的数量 上的性能而定义汉字是世界上最先进的文字。我想,如果他看到今天知识爆炸的世界,他一定会要求世界上所有的国家废除拼音文字而采用汉字。

最后,谈一下关于人的一生中到底能够记住多少单词或符号的问题。中国人所使用的汉字通常在三到四千,而莎士比亚时代的英语仅有三万个单词,他本人能够全部掌握。但是,到了丘吉尔时代,他的单词量依然是三万个,可是,那个时候的英语已经拥有近百万个单词了。所以,我认为,莎士比亚使用英语单词的熟练程度是后 人根本无法达到的。我问,到底学习英语应该掌握多少单词才成,但是,他们的回答总是含糊不清,或者扯一些别的东西。后来,在一些无法避免这个问题的文章 中我发现,语言学家们对于英语单词的要求是:一个受过教育的英语使用者应该掌握五到二十五万单词。不但差距范围很大,而且,用这个标准来衡量,莎士比亚和 丘吉尔都应该是文盲,至少是没受过教育的人。我认为,这是任何推崇英语的人的软肋,只要他们能够躲过别人问这个问题,其他的方面……
================
点评:作者没有问对人嘛。看看下面:

With a vocabulary of 15,000 words you should be able to read about 98% of texts of which headwords account for around 72%. Headwords are those words used to locate an entry and dictate its alphabetical position in a dictionary. However, a native reader needs to understand approximately 95% of a text to really comprehend what is being read not discounting the different types of texts (i.e. a novel vs. a newspaper). So, this answer can range anywhere from 2000 to 5000 or more ‘high frequency’ words. A native English speaker, for example, understands approximately 20,000 words by the time he/she finishes college.

 How many English words do I need? 

The number of words you need varies according to individual needs: are you a banker, bus driver, academic, business person, entrepreneur, etc. As a speaker of English as second language a vocabulary of around 3000 high frequency words can be enough to get by.

Also see: http://www.nflrc.hawaii.edu/RFL/PastIssues/rfl122ward.pdf
====================
[略去三段关于the Cox report, English only comments etc.]

谈汉语与英语的优劣


谈到汉语与英语的优劣问题,首先就会想到“表意文字”与“表音文字”的区别。前面已经讲到随着汉字的演变,汉字已不再是纯粹的表意文字了。存在着大量形声 字。历史上随着文明的不断发展,语言所要表达的概念不断增加,表意文字要求汉字拥有了一个数量庞大的字符集,但现代汉语已经不用增加字符来表达新的概念, 而是创造新词,加上对汉字汉语的规范化,这已经基本上达到了减少了使用字数的目的。


与汉字相反,英语名为“表音文字”,其实并不能真正的表音;英语正词法中比较严重的问题就是如何解决英语的书面拼写形式和读音之间的矛盾问题。由于文艺复 兴时期印刷术的推广和教育的普及,英语的书面拼写形式逐渐统一,形成了规范的形式,而这些规范的形式又通过印刷的方式进一步固定下来。但与此同时,英语的 语音发生了很大的变化。例如,gnash(咬牙)和 gnat(小昆虫)中,g不发音,knight (骑士)和 know (知道)中,k不发音,而在中古英语中,这几个字母全都要发音。又如,辅音字母前的 r (如 arm)和词尾的 r (如 father)不发音,词尾的 e(如 live)不发音,而在中古英语中,它们都是要发音的。这种情况,使得规范的书面形式与实际的发音之间出现了很大的矛盾。这也是中国人学习英语时遇到的一个难点:学习一种“表音文字”如果不查字典、不看国际音标,也不一定能准确发音,是不是好笑?

====================
从学母语的角度,中国人念白字的很多。 美国人念错字的很少。
从学外语的角度, 美国人学汉语问题大了, 比中国人学英语问题大。
在形声脱节方面,汉语有更大的问题。
====================


18世纪开始,英国强调语言的规范化,要求语言准确有力。1755年,约翰逊(Samuel Johnson)编写了第一部英语词典,把英语词的拼写形式固定了下来。这样,英语的正词法就能够以词典作为规范的根据。这很象中国秦朝时将小篆的书写规 范化,但是却没能阻止汉字语音的变化。

这就提出了第二个问题:所谓拼音文字也有一个大问题,就是许多拼音文字,由于千百年来口语的不断变化,它的书面文字与读音往往相去甚远。法语也一样,它的书面语言表达的还是四、五百年以前的发音,不发音的元音彼彼皆是,象hommes读为um,aiment读为em。

事实上,现在的书面英语、法语,已经有很大“表意文字”的成分了。历史上的汉字作为表意文字(ideograph),文字与语音没有直接关系,无论用哪种 语言或方言去读,意义没有变化。这是几千年来各种口语分化交熔变迁,而汉字一直作为一种统一的文字被所有人认同的原因。汉字使操不同口语的人互相交流成为 可能,而隔膜是统一的主要障碍。所以在“表意”、“表音”这一点上,汉字并不比英语劣势。

现在普遍认为汉字的庞大的字符集使它显得非常复杂:难学、难记、难用。但是这里面需要搞清一个前提:那就是汉字的“字”与英文的“word”是不同的概 念。现在的中小学教育需要掌握2000-3000个汉字,才能够满足日常阅读。但这不仅仅是学习2000-3000个“字”,而是学习2000-3000 个概念。一个人一天之内可以学习26个英文字母,但是他能阅读英文吗?由于英文已经不是典型的“表音文字”,学会26个字母甚至连准确的单词发音都没有掌 握。到头来,在以英文为母语的国家中小学中,仍然要进行大量的单词拼写训练。掌握2000-3000英文单词是什么水平?能应付日常阅读吗?学习过英语的 人都明白!

====================
美国的儿童似乎不搞默写。也不抄写生词。在美国生活过的人都明白。
汉语除了字典,还有辞典。「辞海」也是很大很厚的书。

Studies indicate that a 2,000-word vocabulary of high frequency words actually comprises 87% of words in an academic text accompanied by an additional 800 academic words identified as comprising an additional 8% of textual items are sufficient for a successful college life.

These are the most common words in English, ranked in frequency order.  The first 25 make up about a third of all printed material. The first 100 make up about half of all written material, and the first 300 make up about 65 percent of all written material.  Is it any wonder that all students must learn to recognize these words instantly and to spell them correctly also? (http://www.discountutor.com/most_commonly_use_words.htm

First Hundred Words

Words 1 - 25 Words 26 - 50 Words 51 - 75 Words 75 - 100
the or will number
of one up no
and had other way
a by about could
to word out people
in but many my
is not then than
you what them first
it were so been
he we some call
was when her who
for your would oil
on can make its
are said like now
as there him find
with use into long
his an time down
they each has day
I which look did
at she two get
be do more come
this how write made
have their go may
from if see part

Common suffixes: -s, -ing, -ed, -er, -ly, -est


====================

研究表明:汉字作为一个复杂的文字符号系统,其信息熵很高。研究的基本方法是:逐渐扩大汉字容量,随着汉字容量增大,信息熵的增加趋缓;汉字增加到 12370以后,不再使信息熵有明显的增加。我国科学家指出:汉字的容量极限是12366个汉字,汉字静态平均信息熵的值(平均信息量)是9.65比特。 通过数理语言学中著名的齐普夫定律(ZIPF’S LAW)核算(ZIPF’S LAW 考虑字符使用频率),这是当今世界上信息量最大的文字符号系统。联合国五种工作语言文字的信息熵的比较如下:
法  文: 3.98比特
西班牙文: 4.01比特
英  文: 4.03比特
俄  文: 4.35比特
中  文: 9.65比特
可以看出,拼音文字的信息熵小,差别不大。汉字的信息量最大。

=================
什么是熵?与封闭体系混乱度(无序)相关的概念。
至于信息熵,是指对一个字符集进行编码时,所需要的最小码长,单位为比特 (bit)。 8 bits =1 byte
英文只考虑26个字母的话,最小码长为:4.7。汉字只考虑2500个常用汉字,最小码长为11.3(不考虑出现频率)。

如英语有26个字母,假如每个字母在文章中出现次数平均的话,每个字母的信息熵为:

I_e = -log_2 {1over 26} = 4.7

而汉字常用的有2500个,假如每个汉字在文章中出现次数平均的话,每个汉字的信息熵为:

I_e = -log_2 {1over 2500} = 11.3

考虑不同字符的使用频率,整个系统的平均信息熵是:

H_s = sum_{i=1}^n p_i I_e = -sum_{i=1}^n p_i log_2 p_i
对于中文,字符集有多少字是关键。 特别要注意的是,以上只是字符的编码长度,不是语义信息量的衡量。 因为英文是对字母(而不是单词)编码,汉字是对汉字(而不是笔画)编码。  这两个理论最小码长的大小并不代表两种语言信息量的比较。而是表示两种书面文字字符集(英文为字母,中文为汉字库)所需要的最小理论编码长度。

以上信息熵数据的应用是各种语言字库的输入编码。从文字的键盘输入来讲,一个英文字母输入要敲一下键盘,按照理论平均码长,一个中文字平均要敲3下键盘才能达到(9.65/4.03 = 3)。但实际编码时比3要多。

汉字的信息熵值较大,并非体现所谓每个汉字的语义信息量,而是体现要编码汉字的字数多!如果我们不对汉字本身编码(就像英文不对英文单词编码一样), 而是对汉字笔画编码(不管实用性),那汉字的信息熵就与英文相近了。
=================


汉字对拼音文字的这种信息熵优势是什么概念?简单的比喻就是十进制数与二进制数的差别。十进制数字系统需要人记忆0-9,10个符号,二进制只需要记忆0 和1两个符号。十进制乘除要记忆9×9表,二进制只需要学会与、或、非的简单逻辑。但是,人类在日常生活中为什么不使用二进制数字系统呢?因为那样很浪 费,一个数字“7”表示成二进制就成了“111”,记个大数不把人累死?反过来,人类为什么不用十六进制,或更高的进制呢?一方面是人脑智力的限制,另一 方面,十六进制也未必能大幅度提高信息熵。这种信息熵反映在文字上,就是联合国文件中,中文版本一定是最薄的。信息熵高是不是就不利于计算机处理呢?这方 面恐怕还很难下结论。简单的比较汉字与英文的输入速度是不能说明问题的,因为“字”与“word”是不同的概念。要比较只能比较同一内容的中英文两个不同 文本,计算击键数的差值。在“词”的单位基础上,现代汉语与英语是可以进行比较的。现代英语为了应付不断涌现的新事物、新思想、新科技、新概念,也在不断 地造词。无非是借助拉丁词根、或重新组合已有单词,结果越是专业科技的词汇,就越长、越难记。或者是大量使用缩写:如WTO、FBI、IBM、UFO等 等,缩写一多就容易混淆、难以理解。在这方面,现代汉语造词的优势就十分突出了。这就是汉字字符集信息熵高的优势。

真正阻碍中国进步的并不是技术,而是人们思想的禁锢。在西洋活字传入中国之前,利马窦、徐光启翻译的欧洲文艺复兴思想书籍,已经通过古老的雕版印刷出来 了。但是在当时及后世很长时间内,却得不到国人重视。这是一件很悲哀的事情。在落后思想的禁锢下,即便我们象伊朗、土耳其那样把自己的文字全部改成先进的 阿拉伯文或拉丁文拼写,我们也无法逃避象古波斯和奥斯曼帝国那样的衰败。

神奇的汉语,愚笨的英语

最不喜欢听一瓶子不满半瓶子摇的人讲汉语的坏话。什么“汉语不精确了”,“汉语不能细化了”。记得的本人都中学的时候,语文课本上堂而皇之地写着:“走拼音化道路是汉语的必然趋势。”其中最主要的一条理由便是,英文可以打字,而汉语不能。现在回想起来真可笑。随着计算机技术的发展,汉字的键盘输入速度已远远超过英文,而且还在随着技术进步而不断快速提高。可英文呢?滞步不前了吧。

现代所有学科领域,中国都有很好的学者,没听说哪位因汉语“不精确”而搞不好研究的。中国的火箭照样可以精确升空,中国的原子弹照样可以精确爆炸。所有的英文科技文献都可以翻译成汉语。汉语文献影响力正随着国力的增强而在世界范围内增强。

下面举个最简单的例子来显示英文的笨拙:本人曾问系里的几个教授“长方体”如何用英文讲,可这几位母语是英文的工科教授竟说不知道,接下来连问几个本地的 研究生,结果他们也不知道。着实令我大吃一惊!现在我要问读者:您知道么?反正不是Cube,Rectangular……。(恰恰就是 cuboid, rectangular prism.) 后来,我倒是真的在字典里找到 了该词,可现在又忘了,原因是它太生辟。感叹,英文真是笨人的语言,试图给天下每一事物起一个名字。宇宙无穷,英文词汇无穷!词汇如“光幻觉”、“四环 素”、“变阻器”、“碳酸钙”、“高血压”、“肾结石”、“七边形”、“五面体”都只有专业人士才会。根本不可能象汉语那样触类旁通,不信?去亲自问问母 语是英文的人好了。英文是发散的。搞的一些基本概念如“长方体”也只有专家才会讲!怪不得英文世界里专家那么多,而且都那么自信;是啊,一般人连他们的基本术语如“酒精绵球”“血压计”都不会讲。生活在英文世界真是对无知无奈!可悲可怜!

=====================
俺把作者认为很难的英语词列出来,与下面的汉语常用字对照。

光幻觉: optical illusion
四环素: tetracyclin
变阻器: adjustable resistor
碳酸钙: calcium carbonate
高血压: high blood pressure
肾结石: kidney stone
七边形: heptagon
五面体: pentahedron
长方体: rectangular prism
======================


英文是一维的,是密码语言。写英文是编码,读英文是解码。细想想:如把英文的a、b、c、d、e换成1、2、3、4、5,并没有什么原则上的区别。按上边 的对应,如一开始就把cab写成312,用一样的读音,又有什么不可以?汉语就不同了,是二维的(纸面上的最大维数),最大限度地利用了纸面的几何空间。 每个汉字就是一幅画。试问从一幅画上得到的信息快,还是从一行密码中得到的信息快?

国家汉字的扫盲标准是1500个字,理工科的大学生一般掌握2000个汉字。就凭这2000个字,大家可以读书、看报、搞科研。
=====================
现代汉语常用字2500字。这些字学起来还是很费劲的。同时,汉语还有词的概念。给初中文化水平编的「现代汉语小辞典」收单字与词语就有三万来条。

常用字:
  1. 17画: 戴擦鞠藏霜霞瞧蹈螺穗繁辫赢糟糠燥臂翼骤
    18画: 鞭覆蹦镰翻鹰
    19画: 警攀蹲颤瓣爆疆
    20画: 壤耀躁嚼嚷籍魔灌

    =====================

可在英文世界里,没有 20000个字别想读报,没有30000个字别想把周刊读顺,大学毕业10年后的职业人士一般都懂80000字。新事物的涌现,总伴随者英文新词,例如火 箭(ROCKET),计算机(COMPUTER)等,可汉语则无须,不就是用“火”驱动的“箭”么,会“计算”的“机”么!可英文就不能这么干,不能靠组词,原因是“太长”了。如火箭将成为“FIRE-RIVEN-ARROW”,计算机将成为“COMPUTAIONAL-MACHINE”等。人的视角有 限,太长的字会降低文章的可读性与读者的理解能力。

====================
作者的资料很有问题。请看:
The Receptive Vocabulary Size of Adult Native English Speakers Researchers are beginning to reach a consensus regarding the average receptive vocabulary size of native English speakers. A fairly recent study by Zechmeister, Chronis, Cull, D'Anna and Healy (1995) indicates that the receptive size of a college-educated native English speaker is about 17,000 word families, about 40% more than first year college students, who know about 12,000 word families. A word family consists of a base word and its inflected forms and derivations (Nation, 2001, p. 8).
(source: http://iteslj.org/Articles/Cervatiuc-VocabularyAcquisition.html)

=====================

目前,英文词汇已突破40万,预计下世纪中叶,将突破100万大关。而汉语则相对稳定,现在中学生还可以琅琅上口地读屈原的楚词。英文就难了,太不稳定。 现在的人们读沙士比亚的原著已困难重重,更不用说读400年前英国诗人乔叟的诗了。学GRE的时候,注意到很多韦氏字典收录的词汇竟是本世纪初的新词,如 “Gargantuan”取自拉伯雷的小说。这也不奇怪,毕竟英文400年前才统一了拼写。(作者显然忘了汉语简体字是最近几十年的事情。
=====================
The Second Edition of the 20-volume  Oxford English Dictionary contains full entries for 171,476 words in current use, and 47,156 obsolete words. To this may be added around 9,500 derivative words included as subentries. (http://oxforddictionaries.com/us/words/how-many-words-are-there-in-the-english-language)

《大辞
海》是中国一部大型综合性辞典,它既收单字和普通词语,又收各类专科词语。全书收词约25万条,共约5000万字。(百度百科)
=====================

为汉语辩护!呼吁那些糟蹋汉语的人注意以下事实:

(1)联合国5种文字的官方文件中最薄一本一定是汉语;(谁说的?)
(2)汉语的精确性已为蓬勃发展的中国科技事业所证实;(美国的科技事业更加发达又说明了什么?)
(3)计算机语音输入最具有希望的是汉语;(乔布斯笑了。)
(4)汉语是稳定的是收敛的,英文是不稳定的是发散的;(什么是收敛的语言?)
(5)汉语是二维信息是生动的高效的,英文是一维信息是密码型的是枯燥低效的。(生动是真,高效没看出。)
(6)在英文世界里能读文学名著是一件了不起的事,不是所有受过大学教育的人都能干的。如阅读用英文描述的非州的一些植物真是艰涩无比,一般英美人也只能囫囵吞枣而已;可在中文世界里,又有谁会对仅有中学学历的人读完四大名著而感到惊奇?美国的高中生读多少名著作者知道吗?
(7)当今虽是英语文明的蓬勃期。但在历史的长河中,英文世界的文明史远比汉语世界的文明史短。

为汉语骄傲!(汉语当然是博大精深。但是因为汉语是自己的语言就贬低别的语言,就是沙文主义倾向了。)

更为坚信汉语时代即将到来的中国人的热情与信心而欢呼!(有点自高自大。咱中华文化,讲的是谦虚。)

这篇文章的主要内容是:

(1)汉字的发音种类多(因为有四声),所以表达的信息量多。这是不对的。同一篇中文文章,不管是广东人还是北京人读,它表达的意思是相同的。尽管广东话有9个声调,北京话只有4个声调。

(2)汉语是单音节字,英语是多音节词,所以英语人士的思维速度比汉语人士慢(并举出背诵乘法口诀的例子)。 这里的错误是误将表达当作思维过程中决定速度的一步。

(3)按照信息论,汉字的信息熵比其他语言大,所以汉字的信息量大。这是对信息熵的误解。信息熵与语言的信息量无关,而仅仅表明对语言编码时要处理的字符数多少。

(4)汉字的常用字少,英语的常用字多,所以英语难学。作者引用的资料有错误。英语的常用字并不比汉语多。而且汉语比英语难学是举世公认的。至少中文的常用字比英文的常用字难学多了。

语言的形成与发展有它的历史与人文渊源。对每一个民族来说自己的语言都是美丽的。一种语言在国际上应用的广泛程度由很多因素决定,其中母国的政治经济科技文化影响力是重要因素。同时语言学习的难易程度也很重要。对于汉语来说,中国在国际上的影响力与日俱增有益于汉语的推广,但汉语难学制约了汉语的广泛使用。
[ 打印 ]
阅读 ()评论 (15)
评论
白熊from北京 回复 悄悄话 汉语和英语只能够共存,谁也不可能替代了谁。他们的共存好比一块磁铁的两个磁极,你能说N极将要取代S极吗? 又好比,哲学里的形而上学和辩证法,你能说辩证法能代替形而上学吗?那是文革中的极端,他们只是不同的方法,没有好坏之分。形而上学的方法把一个运动的物体的运动轨迹,在某个瞬间,看做是不动的,所以才能给他坐标值 (X,Y,Z),X,Y,Z的值在变;就是形而上地看它。而此刻用辩证法只看他,它总在变,没法描述它,这是辩证法就不适用了。看似是定量的问题,你不定量,这么定性?东西方文化也有个定量的问题。所以,在任何大的问题上,不要不是黑就是白,不要搞东风压倒西风。中国人中的某些人在昨天还狂自菲薄,认为自己的文化事事,处处不如人,言比称希腊呢!怎么忽然又骄傲自大,认为老子天下第一了呢?
湘西山民 回复 悄悄话 回复沈成涵的评论:
围棋和象棋的区别,并不体现汉语和英语的区别。
中国象棋也是汉语文化的产物。它就没有围棋复杂。
计算机也是英语文化的产物,算盘也是汉语文化的产物。
沈成涵 回复 悄悄话 对了,日本和韩国过去都是学汉语写汉字的。
沈成涵 回复 悄悄话 回复湘西山民的评论:
围棋是汉语文化的产物,与汉语一样是二维、平面、抽象的。国际象棋的逻辑性与字母文化一样是一元、线性的,计算机现行的运算逻辑方式也是以英语为基础的,也是线性的。
二元、平面的思维方式决定了其虽然会表意抽象,但是包含的内容却更丰富。所以一个围棋选手的智商可能比国际象棋选手的智商会低,但是能赢国际象棋的计算机却不能赢围棋。因为用线性逻辑来处理抽象的二元逻辑太难了。
再有,你所谓投入不足也是不对的。日本既是围棋大国,又是计算机软硬件大国,一直也在搞,也没有搞出来,在台湾应氏基金会表示为设计出能击败围棋冠军选手的计算机程序者奖励140万美元的激励下,设计人员不断推出水平越来越高的会下围棋的计算机。但迄今为止,那些在国际竞赛中脱颖而出的计算机程序给人的印象是甚至敌不过刚学一年围棋的业余棋手。
附下:
美国天体物理学家、围棋爱好者皮特·哈特说:“计算机围棋程序击败人类选手可能至少需要100年时间。如果一位智力正常的人学习下围棋,用不了几个月就可以击败现在所有的计算机程序。”在世界冠军级别的国际象棋比赛中,多损失一兵一卒甚至就决定了最后结果,其判断准确率可能高达99%。但在下围棋时,经常会听到弃子争先的说法,鹿死谁手还远未可知。若是从计算机角度来看,国际象棋与围棋间的差别似乎就没有那么深奥了。下国际象棋时,对局者每次需要考虑的着法平均只有35步。在计算机术语中,一步棋及应对着法统称为“回合”。速度最快的计算机国际象棋程序能预先分析7至8个回合的着法。分析7步棋就要甄别超过天文数字般的变化。如果计算机想多分析几个回合,需要甄别的变化就会呈爆炸性膨胀。多分析一个回合,棋着的变化会急剧增加――国际象棋增加18亿个变化,围棋增加64万亿个变化。对围棋而言,分析7个回合的着法,计算机需要甄别200的14次方个变化。虽然精简技术可将变化减少到1000亿亿个,但运算速度像“深蓝”一样快的计算机(每秒计算2亿步)也需要1年半时间才能想好一步围棋。更糟的是,计算机在围棋领域与人较量显然失去了其固有的优势。与国际象棋不同,围棋棋子之间没有级别之分,棋手凭棋形判断形势,而计算机程序算法却很难表达棋形。有的棋形最初是厚势,但也许要不了一会就变成了可以舍弃的孤棋,如何告诉计算机这是厚势,这是孤棋?
高粱烧 回复 悄悄话 回复湘西山民的评论:
韩语其实就是变相的一种汉语拼音而已,往往词不达意!
湘西山民 回复 悄悄话 回复沈成涵的评论:那就是为什么超级计算机早就能打败国际象棋冠军卡斯帕罗夫,却至今不能击败低段位的职业围棋选手?
*****
很简单,这方面没有与国际象棋研究等同的投入。大家知道做比较的前提是 everything else being equal.
另外,注意一下话题是讨论“汉语是二维信息是生动的高效的”,不是讨论象棋和围棋。围棋与汉语有什么关系?日本韩国不也下围棋吗?韩国语不也是拼音文字吗?
湘西山民 回复 悄悄话 回复焕华的评论:
你的博客很有意思。以后慢慢看。
不否认汉语的博大精深。但是文中的所谓论据,太不靠谱了。
并且动不动就要淘汰别的语言。也太幼稚了。
语言与文化历史文学相连,历史上还没有哪个国家的人民放弃本国语言而采用所谓更加优越的外国语言。
湘西山民 回复 悄悄话 回复沈成涵的评论:那就是为什么超级计算机早就能打败国际象棋冠军卡斯帕罗夫,却至今不能击败低段位的职业围棋选手?
*****
很简单,这方面没有足够的研究与投入。大家知道做比较的前提是 everything else being equal.
焕华 回复 悄悄话 http://blog.wenxuecity.com/myindex/50913/
沈成涵 回复 悄悄话 --汉语是二维信息是生动的高效的,英文是一维信息是密码型的是枯燥低效的。(生动是真,高效没看出。)

----你没看出来,我来告诉你。那就是为什么超级计算机早就能打败国际象棋冠军卡斯帕罗夫,却至今不能击败低段位的职业围棋选手?是围棋选手的脑细胞和智商都高于国际象棋选手吗?
laoxiangxyz1 回复 悄悄话 在英文世界里能读文学名著是一件了不起的事,不是所有受过大学教育的人都能干的。如阅读用英文描述的非州的一些植物真是艰涩无比,一般英美人也只能囫囵吞枣而已;可在中文世界里,又有谁会对仅有中学学历的人读完四大名著而感到惊奇?

(美国的高中生读多少名著这位同学知道吗?)我想原文作者是个研究汉语的专家,但对英文一窍不通,想当然的瞎评。
登录后才可评论.