细谈智商(IQ)
我上周发了博文《女性与数学(2)gender gap 》(https://blog.wenxuecity.com/myblog/80301/202406/29801.html),下面留言的网友大多跟我交流“智商”问题。其实,数学能力和“智力”真不是一回事儿,两者相差甚远。可究竟什么是“智力”和“智商”呢?智力测验究竟是测什么,是如果测量的?了解和理解这些的人其实不多,而且经常有一些错误的认识和想象。因此,我感觉有必要详细说说。
1. 什么是智力、智力测验和智商(IQ):
智力(Intelligence)是指生物的精神能力,特指人类这方面的能力,如知识、记忆力、观察力、想象力、判断力、语言表达能力、抽象思维能力等。它是人类适应社会生活的一般能力,大多跟认知能力有关。
大约120年前,心理学家发明了智力测验(Intelligence Test),用于量化人的普通心智功能水平。经过百年的修订和发展,目前国际上最常用的个人智力测验主要有两种:斯坦福-比奈智力量表(Stanford-Binet Intelligence Scale)和韦克斯勒智力量表(Wechsler Intelligence Scale)。
我们常说的“智商”,其实是一个历史遗留的概念。在几十年前测量少年儿童的心智水平和成长时,学者提出了智龄(mental age)的概念。比如一个10岁的儿童,他做智力测验时,达到了12岁儿童的水平,那么他的智力商数(intelligence quotient,IQ)= 智龄/实龄 ×100 = (12/10) x 100 = 120。如今的智力测验已经不这么计算了。智力测验后经过换算的标准分,各个年龄组均值为100,标准差为15。但IQ是个深入人心的叫法,就保留下来了,尽管现在它已经不再是一个“商数”。
即便如此,今天说的IQ仍然是个相对值,即一个人在他/她的年龄组里的智力相对水平,这一点必须明确。
2. 智力测验如何进行?
人们大多以为像某些学科测验一样,智力测验是让被试者做一套题,然后根据标准答案得到分数。这是不正确的。以韦氏智力测验为例,它测量的结果包括言语智商(verbal intelligence quotient)和操作智商(performance intelligence quotient)两大类,下面又细分词汇(Vocabulary)、词语理解(Verbal Comprehension)、知识(Information)、算术(Arithmetic)、积木设计(Block Design)、相似性(Similarities)、数字广度(Digit Span)、模式推理(Matrix Reasoning)、拼图(Visual Puzzles)、图片填空(Picture Completion)等十几个分测验(subtests),分别测量智力的不同方面。
高效度的智力测验不是像考试那样做题,而是由经过训练的心理测量师、精神病学家、教育工作者等与被试者进行一对一测评。智力测验过去完全是使用卡片和积木等,近年也有利用电脑显示,但基本方式是不变的。测验一般要耗时60-90分钟。一名主试者一天只能完成对少数几个人的测试。可见高效度的全面智力测验是“慢”的。下面这段录像是进行“积木设计”测验。可以想见,在规定的时间内,高水平者可以完成更多的任务:
下面这是“数字广度“测验,是测量短时记忆的。要达到5位以上不容易。
3. 智力测验的标准化:
标准化是智力测验的核心。只有标准化的测验才使得个体之间可以相互比较。一个智力测验在标准化时,在各个年龄阶段要对不同种族、文化背景等进行分层等距抽样。这样得出的常模(norm)才具有代表性。否则,比如选择太多受过大学教育的被试者,并以他们的测验结果为常模,那么普通人大多数IQ低于100(而不是50%低于100)。这样的常模不具代表性,是失败的。
另外,我们应该理解,IQ不是一个单项的绝对分。作为智力测验的设计目标之一,标准化过程要求两性的平均值均为100。智力测验首先得到的的分别是十几个项目的粗分。需要对各项得分进行换算,不同的分项取不同的权重,从而使得两性均值相同。要做到这一点,并不需要使用不同的测验题,只要改变不同分项粗分换算成标准分时的系数或权重就可以“平衡”了。比如在标准化过程中,对词汇和拼图两项的权重根据需要进行调整。
怎么调整权重呢,打个比方:一套试卷包括A、B、C、D、E 五道题,老张答对A和B,老王答对C、D和E。如果各题权重相等,那么老张40分,老王60分。现在我把权重调整一下,A和B各25分,C20分,D和E各15分。于是乎,两人各50分,拉平了。
因此,标准化保证了男女IQ均值同为100。以此为标杆对大量人群测试表明,女性IQ的标准差比男性小,分数比较集中,男性男性标准差大,要分散一些。也就是说在大量人群中,特别聪明和特别愚笨者,都是男性居多。
如果智商测验要引入另一个国家,不仅仅是一个翻译问题。有些测验,比如词汇,是相当不同的,要重新设计,整个测验要重新标准化。40年前韦氏测验被引入中国时,当时湖南医学院的龚耀先教授领导了中文版的标准化,做了大量的工作。而且,他们根据中国的国情,居然还做了“农村版”和“城市版”两套常模(题目一样,只改变简单题和难题的相对权重)。
由于语言和文化的不同,用韦氏或斯坦福-比奈量表,不易对不同国家或不同文化间进行精确比较的。然而,由于操作智商中有非语言的多项测验(比如前面我们看到的“积木设计”),不同国家的智商是可以大致推断的。下图就是一个结果。东亚是最高的,北美和欧洲多国也高,拉丁美洲除阿根廷以外都偏低,非洲很低。
4. 智商与成功:
大约在整整100年前,斯坦福大学心理学家Lewis Terman领导了一个横跨一个世纪的超长期追踪研究,让人们对高智商与成功究竟是什么关系,有了第一手的认识。Terman教授1956年去世,但他的学生们、学生的学生们前赴后继,直到今天,一千多名被试者中仍有少量在世,研究还没有最后画上的句号,尽管主要的结果已经明确。这项研究本身,就反映了“定力”这个非常好的心理品质。
在这个实验的头些年,研究者在加州的学校寻找到1500多名智商至少为 140 的学生。这样的分数约占人群的300分之1,Terman教授认为这是天才的门槛。这些孩子被带有玩笑口吻地称为Termites(这个词的原意是白蚁,近似于Terman)。
追踪调查表明,这些高智商孩子中确实有不少人拥有成功的职业生涯,到Terman 去世时,有 30 多人登上《美国名人录》(Who’s Who in America),近 80 人在登上《美国科学名人录》(American Men of Science)。
然而,这并不能完全支持“高智商者注定杰出”的观点,因为他们的成功涉及影响智商和智商以外的复杂因素,例如Termites父母大多受过良好教育,拥有更多家庭资源。而且家庭人脉也有助他们更容易获得成功。
Termites中没有出现诺贝尔奖或其他著名奖项的获得者,也没有出现名声显赫的伟人。令人思考的是,William Shockley 及 Luis Walter Alvarez两人,当时未能达标成为Termites,他们后来却获得诺贝尔物理学奖。
高智商似乎不能预示做出超凡成就的“天才”。智力测验只测试文字及非文字推理,而没有涉及对成功至关重要的创造力,比如发散思维(Divergent thinking),即产生新想法的能力。 近年的研究发现,只要智商中等偏上一点(110以上),智商与创造性就没有什么相关了,因此智力测验并不能预期或发现开创性人才。
5. 非智力因素:
近年来的一些研究和调查表明,与智商、创造力和特殊能力无直接关系的一些非智力因素(non-intelligence factors 或non-cognitive factors)对于一个人的成功和人生的圆满至关重要,甚至比智力因素更为重要。经常被提及的非智力心理品质包括动机、爱好、激情、意志力、自制力、顽强、自信、低焦虑、友好以及善处人际关系等。
动机和强烈的兴趣。热爱是最好的老师,有了兴趣和热情,一件事情才容易长久地、积极地做下去,于是获得机遇的可能性便会大大增加。意志力、自制力、顽强性这类心理品质也对于成事颇为重要。做父母的,如果发现孩子对一件事、一个学科有长久的passion,又diligent,resilient,即便他们的爱好不主流、不挣大钱,我希望父母一定不要强力制止。我的孩子小的时候,我宣称如果将来我的孩子有上述几条心理品质,哪怕他们爱上了考古,我也支持。这在一段时间里成了我老婆攻击我的把柄。后来我孩子没有爱上考古,避免了家中失火。
自信与自强、良好的情绪,控制焦虑,友好而随和的性格,以及从少年时代起善于处理人际关系等等,这些都与成功的关系相当密切。鉴于它们已经离“智商”的主题较远,就不多说了。我个人感觉,虽然这些心理品质其实也是跟先天的人格特质相联系,但毕竟不像智商那样有比较硬的天花板。
非智力因素的“可培养性”要强一些,因此近年尤其受到学校教育的重视。此外,当一个有理性的成年人设法自我提升的时候,经常首先是从非智力因素开始。其结果未必是什么公认的“成功”,但却是心态的平和和满足感的增加。
----------
根据与网友交流,补充说明如下——
** 一个人的绝对智能水平在一生中并非恒定。从儿童到青年时期逐年增长,绝对的智能水平到30岁左右达到顶峰,约40岁开始缓慢下降,60多岁后开始下降比较明显。但各智力测验的分项情况不同,比如四、五十岁时,短时记忆不如年轻时候了,但知识和词汇分项一般会超过青年时期…… 不管怎么说,最重要的一点是,一个人在智力测验后得到的粗分,必须与自己所在的年龄的常模去对照,得到正确的IQ分数。
** 如果考虑智能绝对水平的变化(如成长,衰老),一个人的智商IQ(当然是用同龄常模)有稳定性吗?答案是,有!十几岁以后,一个人的IQ值,即一个人在同龄人中的相对“聪明”程度很稳定。但是,年龄小的时候,比如10岁以前的IQ与成年后IQ的相关就不那么大。年龄越小时的IQ,与成年后IQ间的相关性越小,所以有的神童长大以后不神了。
** 理论上讲,智力测验测的是“能力”,一般学科考试考的是“知识”。然而在实际之中,两者是很难截然分开的,而且“纯”的能力很难定义。所以学习和训练是可以提高智商得分的。像词汇、算术那就不用说了。哪怕是我文中两段录像所所示的两个与一般教育无关的分测验,如果经常训练,分数比不训练也会提高。但经过准备后“提高智商”是自欺欺人的。
** 韦氏智力测验和斯坦福-比奈智力测验效度都不错。但前提应该是在不准备、不训练的“原生”状态下测定才准确。更严肃的是,智力测验不像SAT有巨大的题库,它十几项所有的问题都在一本薄薄的《手册》上,全国多年不变。《手册》内容应该是严格保密的,尽管各大学心理系、教育系、无数精神科医生和青少年机构,包括一些中小学处都有,但有关人员不能缺德而广而告之。否则一本手册在手,准备它几周,一个傻子的智商也可以达到180。
** 很少有人知道,SAT是来源于一个快速“智力”测验The Army Alpha Test,这是100年前军队用于筛选军人的。因此,SAT 与 IQ 有“血统”上的渊源。然而两者相关系数有多大,这是有很大争论的。我认为肯定比0.4高,但可能不像有人宣称的0.85那么高。SAT 的reading部分肯定与言语智商分项有高相关。SAT数学不是高难度数学,应该与IQ分数也有较高的相关。
** 不同族裔的智商有差异,这是客观存在的,但个体差异很大。我曾经有两个非裔在手下工作,水平都还可以。特别是其中一位,理解力、举一反三的能力和动手能力都很好。看外表,他是典型的黑人相貌。相反我隔壁办公室的一位manager,几个月前刚刚雇了一个犹太人Ph.D,现在抱怨说他笨且不诚实,后悔雇他。我认为在实际工作和生活中,避免先入为主,根据个体素质评判是明智的。
=========
【论坛交流】
https://bbs.wenxuecity.com/romance/970641.html?
谢谢临读、评论。
IQ只是一个标签,而且我认为对大多数人是没有必要的标签。看了这么多年,感觉非智力因素实在是重要。积极的、不断争取的人是成功且快乐的人。
谢谢油翁点评。
哈哈,60是绝对不可能的,那是智障的水平。老兄120还是问题不大的。
谢谢您临读、评论。
Visual-spacial learners 和 auditory-sequential learners是教育心理学上一些研究者的说法,稍类似于形象思维与抽象思维。但大部分人是两者兼有,不极端的。它们跟智力测验的两大部分performance IQ 和 verbal IQ稍对应,也不全是。
IQ可以很好地预测学生在学校的学习表现(但不能很好地预测事业的成功)。IQ高的学生一般是高分学生。“聪明”而被学校埋没者,有时候是因为学生具有某种特殊能力(IQ不反映特殊能力),没有被周围认识到。
花姐好。
男人就连寿命都要短好几岁,还有什么好争的,完败!
好像就IQ高的小孩而论,大致又可分两大类:Visual-spacial learners 和 auditory-sequential learners。他们之间差异特别大,往往也因为这些差异和人们对这些差异的忽视,以传统的常识性的“聪明”标准判断,导致IQ高的小孩之天才被埋没,影响到他们的健康成长和成才。
哈哈,不好一概而论的。
智商最高的几个地方是:新加坡(全球最高)、中国大陆、台湾、韩国和日本。这其中大部分地方幸福指数还是不错的。至于东方大国,情况比较魔幻,那里经常说美国穷人挨饿,街上子弹横飞,相信政府的人不到一半(这倒是真的)之类,你说太平洋那边的人民不幸福?
而且你看这城里头老少回国后秀的照片,吃香喝辣、灯红酒绿,生活水平不是高得很吗?
平等兄好。
好问题,好交流!你这里又牵涉我文中没有说的三点,有必要说明:
1. 一个人的智能不是完全恒定的。绝对的智能水平到30岁左右达到顶峰,约40岁开始缓慢下降,60多岁后开始下降比较明显。但各智力测验的分项情况不同,比如四、五十岁时,短时记忆不如年轻时候了,但知识和词汇分项一般会超过青年时期,这方面40岁以后继续增长…… 不管怎么说,最重要的一点是,某一个年龄的人,必须使用自己所在的年龄的常模来得到IQ分数。比如说你平等兄今年55岁,我给你测智商,得到一个粗分,然后必须拿分数跟55岁的常模去比较,得到真实IQ,比如得到140(天才!);假如拿同样的粗分去对照35岁的人的常模,也许您的IQ分值变成了132(准天才);假如同样的粗分去用80岁的常模,得到的IQ可能是160(超天才!)
2.一个新的问题出现了:如果不管智能的绝对水平的变化(不考虑成长,衰老),一个人的IQ(当然是用同龄常模)有稳定性吗?答案是,有!十几岁以后,一个人的IQ值相当稳定(老年痴呆后断崖,那不算。)。但是,年龄小的时候,比如10岁以前的IQ与成年后IQ的相关就减小。年龄越小时的IQ,与成年后IQ间的相关性越小,所以有的神童长大以后不神了。
3. 你说:“IQ和智商不能划等号,毕竟IQ只是一个测试。” 我想应该是说— “IQ和智能不能划等号”。IQ是试图反映一般智能的。现在最好的两个智力测验效度多不错。但前提应该是在不准备、不训练的“原生”状态下测定才准确。像我跟楼下“泥川”网友解释的,进行训练后得到的分数会提高,是自欺欺人,没什么意思。更为严重的是,智力测验不像SAT有巨大的题库,它十几项所有的问题都在一本薄薄的《手册》上,全国多年不变。《手册》内容应该是严格保密的,尽管各大学心理系、教育系、无数精神科医生和青少年机构,包括一些中小学处都有,但有关人员不能缺德到广而告之。否则一本手册在手,准备它几周,一个傻子的智商也可以达到180。
谢谢雅临。
谢谢临读、评论。
我们周围的人,其智力一般也是正态分布的,有聪明,也有一般乃至愚笨。如果您遇到的聪明人特别少,可能是“运气”的原因。
大部分人都是普通人,踏实做事、真心做人就好,IQ出自先天,不是追求来的。但像我文中说的,其实很多非智力因素对人生非常重要。另外,研究表明,作为总体,高智商人群并不比普通人群有更多幸福和满足感。
IQ测试既然和其它动脑筋活动相关,必然是共用大脑区域。用则进,不用则退。动脑筋活动多,自然使相关大脑区域更有效,从而影响IQ测试。这些动脑筋活动,就是IQ测试的准备,和针对性准备有相似作用。
理论上讲,智力测验测的是“能力”,一般学科考试考的是“知识”。然而在实际之中,两者是很难截然分开的,而且“纯”的能力很难定义。所以学习和训练是可以提高智商的,包括学校的学习。像词汇、算术那就不用说了。哪怕是我文中两段录像所所示的两个与一般教育无关的分测验,如果经常训练,分数比不训练也会提高。。。所以,不能太把IQ当回事儿。
让脑筋转动灵活,需要Warmup。比如现在拿来高中的数学题,你不一定能马上做出来。不是因为笨了,而是需要时间来适应。
v你这里面有三个问题,我的分析如下 ——
1. SAT的题目都是经过validation的,每年难度有一致性。按照设计,每项的均值在500左右,标准差大约100。每个中学的生源是类似的,而好学校与差的学校不同。因此你“发现几乎各所中学SAT历年的平均值差别只有几分(双满分1600)。当然好学校差学校平均值大不相同”,这与SAT的设计目的是一致的。
2. 很少有人知道,SAT是来源于一个快速“智力”测验The Army Alpha Test,这是100年前军队用于筛选军人的。因此,SAT 与 IQ 有“血统”上的渊源。然而两者相关系数有多大,这是有很大争论的。我认为肯定比0.4高,但可能不像有人宣称的0.85那么高。SAT 的reading部分肯定与言语智商分项有高相关。SAT数学不是高难度数学,应该与IQ分数也有较高的相关。但是注意一点,智力测验是能力测验,是不需要、也不应该准备的(准备后“提高智商”是自欺欺人的)。但SAT是知识测验,是可以训练提高的。鉴于它的升学目的,通过训练去提高也是有道理的。
3. 国内高考没有题库,题目不事先经过量化的validation,最后根据高考结果去curve,这与中国的很多“国情”是一致的,很难想象中国高考有一个数学题库。在美国可行的事情在中国不可行。每年由专家现出题当然可以,我想出题过程中也有一个经验性的难度估价,但出偏的危险是存在的。题目太难会出现floor effect,太易则出现ceiling effect,两者均会对考生缺乏足够的区分度。
谢谢。
我过去有一位老板是美国左派,他是坚决反对基因决定论的。我有一次跟他探讨,问他种族与智商问题在研究上该不该禁忌,他说可以研究,公正的研究是不该有限制的。
在现实中,我尽量只看个体,不以族裔归类和产生偏见。我曾经有两个非裔在手下工作,水平都是不错的。特别是其中一位,理解力、举一反三的能力和动手能力都是一流。看外表,他是典型的黑人相貌。。。我隔壁办公室的maneger,几个月前刚刚雇了一个犹太人PhD,抱怨说他笨且不诚实。。。所以,在实际工作和生活中,“色盲”和根据个体素质评判是明智的。
谢谢您临读、留言。
IQ反映一般能力,而高水平的数学竞赛更依靠数学方面的特殊能力,是很难定义和测量的。
两者的相关性0.4左右,不是高相关。无法通过IQ分数来发现和选拔杰出的数学人才。