华人家长热点议题(25)谁来给考试打分?(上)
文章来源: 悟空孙2009-08-27 13:29:21


华人家长对孩子的考试成绩十分在意,也非常看重孩子的考试分数,认为考分就是对孩子学习成绩的最终评判。可是,如果考试是给学生的学习成绩打分,那么谁,又如何来给考试打分呢?我们常常只看到学生考试考得好不好,很少在意考试本身是否合理。 

考试是一种测量工具,用以测量学生的学习成果。那么既然是一个工具,就有一个精确度的问题,同时还有使用是否得法的问题。 

中国是一个考试大国,儿童从小到大每走一步都必须经历各种考试关卡,考试种类繁多,科目五花八门,仅国家级教委考试中心承接的考试就多达数百种!至于各类学校和教育机构自己命题实施的考试更是多如牛毛,难怪学生们整天都在题山卷海中挣扎。 

考试如此重要,在中国往往决定了一个人的命运,那么用科学思想指导命题以及对考试本身的质量进行科学的评判也就极为必要。 

可喜的是,起源于心理测验的现代教育测量学为我们对某一项考试做出定量准确的判断提供了坚实的理论基础。 

我们衡量一把秤的准确与否,一是看它的结果是否可靠,二是看结果是否有效。 

如果用同一把秤,同一个人前后接连两次的体重相差甚远,或是完全不符合此人的真实体重,这个测量结果不可靠,这把秤也就有问题了。即使秤本身很精确,但如果用它来测量一个人的身高,不管每次结果如何一致,也都无效。 

同理,衡量考试的主要指标有两条:效度和信度。

所谓效度,是指考试的结果是否有效,也就是说某次考试的结果是否反映了考察者所希望考察的内容。 

我们不能用一把秤去测量一个人的身高,虽然身高和体重有一定的相关,可是现实中,我们常常会用不相关的考题去刁难学生。比如语文题中出现历史知识或社会常识题,我曾看到语文考试中问学生“刘翔打破世界纪录的成绩是多少?”;再如小学低年级的数学应用题如果用过于成人化的语句陈述,造成阅读理解困难,就不是在考数学了。还有一些所谓双语学校的所有理科试卷都用外语命题,这都严重影响的考试的效度。试卷问非所指,不能怪学生答非所问。 

《华盛顿邮报》曾刊登了一篇文章质疑中国的驾照考试,其中一个是这样的 

如果遇到腹部外伤﹐比如小肠流到外面﹐应该如何处理﹕ 

A:把它放回腹腔;
B:不用处理;
C:不要放回去,用杯子或碗盖住,然后用布带扎起来。 

这是医学院的临床测验还是战地的急救考试?如此驾照考试的效度就是一个大问号。 

考试的信度,是指理论上同一学生重复做同一套试题所得分数的一致性。一致性越高,考试成绩越可靠,其误差就越小。一把精确的秤,不管你重复站上去多少次,所得到的体重都是一致的。当然,人的因素很不稳定,影响个人成绩的变量也多种多样,所以我们不能用理论上的方法验证信度,但是通过一系列的数理统计方法,信度和效度都可用定量指标来衡量。 

提高考试的效度,所提的问题要和希望考察的目标要一致,比如说,拿数学试卷考物理,虽然两门学科有一定关联,但成绩应该视为无效。提高信度,就要排除一切试题中模糊的指令,容易引起学生误解的语句或者明显透露答案的“送分”内容——比如前一道题的阅读内容恰好是后一道问题的答案,或是试题本身的疏忽。 

比如让学生看了4幅图片后填空: 

There is an ______on the table. (apple,  pear, peach, banana) 

答案当然是apple, 学生甚至不需要知道这些单词的含义。 

考试作为一种工具,它的功能和表现形式也是多种多样的,使用者如果不按自己的需求随意将一组问题集中起来考问学生,这样的考试就没有任何公信力。考试的目的不同,就要使用具备相应功能的试卷才能达到预期的目的。 

考试按照其功能可分为: 

选拔性考试:目的不是看学生学得怎样,而是以选拔者自己的标准,筛选出自己认为优秀的学生,如升学考试。 

诊断性考试:目的不在排名次,而是向医生看病那样发现学生学习上的薄弱环节,以制定出相应的补救措施。 

形成性考试:学习过程中的阶段测验,目的是考查学生的学习进度,为教学提供参考。 

终结性考试:学习结束时的考试,目的是检验一门学科的教学成果,如期末考试。 

按照分数的解释方法,考试可分为: 

准则参照考试:命题的原则是严格按照教学目标,难易适中,不出超出教学范围的题,学生的原始得分与试题挂钩,从得分中可以直接看出学生的成绩。 

常模参照考试:将每一个学生放在总体样本中,学生的原始分被转换成标准分,所以分数不是学生的答题得失,而是学生在总体样本中的位置。比如我们熟悉的托福成绩,满分是120分,如果一个学生得了100分,并不是说他答错了20题,而是说明他的成绩大约高于97%的学生(按平均分60 标准差20计算)。 

再按照考试的规模,又可分为大规模标准化考试和普通课堂考试…… 

我们学校中常见的考试一般都是形成性的准则参照考试,理应重视其诊断作用和为教学做参考的功能。 

有人批评考试是指挥棒,其实错误不在指挥棒,而是使用指挥棒的人。我们理应让考试成为辅助教学的工具,但不幸的是,许多考试一味追求拉开学生差距,许多教师甚至故意用教学大纲之外的难题偏题刁难学生,家长也热衷于为孩子们排座次,似乎一定要把学生分出个子丑寅卯来才罢休,这样一来,考试为教学反馈的重要职能被忽略了,同时又助长了为学生加班加点,教学围着考试转的歪风。 

考试的目的如果是为了检验学生的学习状况,何必要决出各高低呢?如果老师教学有方,学生学得好,全班都是100分才好呢,不是吗?如果全班多数学生都不及格,也不一定是学生都没学好,或许是试题太刁钻,老师没有尽职呢! 

学生没有考好,请不要单单指责学生。老师在给学生打分的时候,也应该给考试打打分。