正文

温故而知新——也谈准确度,再答两只黄鹂

(2008-09-16 11:29:51) 下一个

[ 回几曾回首首页 ]

也谈准确度,再答两只黄鹂

来源: 龙剑 于 07-07-22 16:33:02

  网友统计资料不完整说得好:“在任何一组不重合的选择数据中,其结论的偏差,主要取决于误差最大的那个数据,并且通常不会小于这个误差。也就是说,所有数据中,其中任何一个数据可信度低或缺少直接实测数据而以估算数据代替的话,那这样得出的结论,意义了了。”。

  无论金辉,李成瑞还是两只黄鹂都认为中国国家统计局编一九八三年《中国统计年鉴》(以下简称年鉴)给出的数据可信度低,都赞同统计资料不完整说的由这些数据得出的结论,意义了了,因此需要一个接近历史真相的这一时期(58-63年,不仅仅是59-61年的困难时期)过多死亡人数的估计。

  三方在有这一需要上没有分歧,分歧在如何作出重估的方法上。

  如何评价重估结果的好坏?

  两只黄鹂以准确度来衡量,在下理解两只黄鹂所讲的准确度就是和事实符合的程度,请教两只黄鹂这样理解对不对?

  如果理解得对的话,就会产生一个问题,当事实真相无法确定的时候,怎样认定重估结果的准确度?

  现在就是这种情况,没有58-63年过多死亡人数的直接实测数据,两只黄鹂凭什麽断言只有他的上限为400万是准确的呢?

  应该建立一些判断标准,才能把讨论进行下去。

  首先,在下同意统计资料不完整说的推论结果开始时所选择的每一个统计数据都要可信度高;

  其次,推论结果过程中主观做出的客观证据不充分的假设尽可能少,不能认为运用人口学、统计学、规划论等学科的成熟理论也是假设,因为这些理论已被实践证明是正确的,例如人口学中灾年之后必定出现补偿性生育高峰的规律早已被证实;

  最后,对一些已经得到的实测数据应该能够从所得结果导出和之相吻合的数据。欢迎对讨论感兴趣的朋友补充新的判断标准,但在下认为这三条是最基本的。

  李成瑞在全国‘招贤’后确定由蒋正华来主持研究工作。

  他根据李成瑞提出的不掺入任何主观因素的要求,干脆完全抛弃年鉴中的数据,首先着力于选取质量最好的调查数据作依据。

  经过对各种数据的深入评审和比较,确认三次人口普查所取得年龄、性别数据是可靠性很高的。

  三次普查相应年龄组数据的高度吻合也证明了它的高质量。

  关于人口出生率和死亡率,则以1982年人口普查取得的普查前一年(1981年下半年和1982年上半年)的数据为基础。

  这些数据的高质量已从普查后的现场复查中得到证实。

  李成瑞说这些数据是高质量的意思,在下理解为这些数据是完整的,且每一个数据的可信度都很高。

  不知统计资料不完整,两只黄鹂或其他人对上述数据评价如何,在下认为不能说上述数据没有误差,但那是精确度问题不是准确度问题,因此同意李成瑞对上述数据的评价。

  上述数据中蒋正华把53年和64年人口普查所取得年龄、性别数据作为验证结果是否准确的实测数据,把其它数据作为推导开始时需要的初始数据。

  可以从人口普查的数据算出82年的完全生命表,然后用参数估计模型算出53-82年间其余各年的完全生命表,然后用一致优化的方法把误差减少到最小。

  蒋正华计算得到的53年和64年的完全生命表和根据53年和64年人口普查数据得出的相应的完全生命表相吻合。

  由这些生命表就可以算出每一年的出生率和死亡率,再由82年普查得到(82年6月30日24点)的人口总数,以它作为82年的全年平均人口总数和算出每一年的出生率和死亡率逐年推算每年6月30日24点的人口总数,出生人数和死亡人数,其中64年和53年的普查结果刚好作为检验数据。

  再从每年的6月30日24点的数据推算到每年12月31日24点的相应数据。

  最后根据正常年份预期寿命的变动规律算出58-63年如果处在正常年份的预期寿命,由此就可以算出这几年的正常死亡人数。

  整个推算过程没有用任何其它原始数据和假设。

  蒋正华计算得到的历年完全生命表中任何一年出生的人数在以后年份的生命表中都是单调递减的,而且出生后的头几年递减数量多,这也符合婴幼儿的死亡率远高于成年人的客观情况。

  更重要的是在人口普查年份计算所得的年人口总数、年出生人数、年死亡人数和年龄分布与人口普查结果相吻合。

  综上所述,蒋正华研究较好地符合三条准确度的判别标准,因此在下认为其结论是准确的。

  蒋正华研究的详细情况请参阅 蒋正华:《中国人口动态估计的方法和结果》,西安交通 大学学报,1986年第3期。

  科尔在计算死亡人数时,根据平均漏检率,对每年的漏检率用主观假设作了分配,所以由此算出的每年死亡人口数的准确度就降低了。

  李成瑞和两只黄鹂都说科尔的死亡人数计算有问题,这是对的。

  蒋正华得到的结果是58-63六年间死亡人数8299万,其中正常死亡6602万,非正常死亡1697万。

  59-61年困难时期,蒋正华算得死亡人数为4826万。

  由于在下手头没有蒋正华计算的59-61年的正常死亡人数,只能取作六年正常死亡人数的一半。

  这个主观假设肯定会影响精确度,但误差不大,还不至于影响准确度。

  最后认定困难时期过多死亡人口在1500万左右。哪位朋友有蒋正华计算的59-61年的正常死亡人数,请提供,使在下抛弃这个主观假设,以得到更精确的结论。

  金辉和两只黄鹂则是直接对年鉴上给出的数据进行重估。这在第一条准确度的判别标准上(选择可信度高的初始数据)已比蒋正华的研究差。

  两只黄鹂从60年的人口总数比59年少了整数1000万这个令人怀疑的数据出发,认为由于困难时期真实的出生率下降,年鉴上57-59年出生人数多报告了1000万,为了平衡人口总数,年鉴就把这1000万人记入到60年和61年的死亡人数。并且年鉴还把58-61年间外出逃荒等原因漏报的人口中的300万列入了这期间的死亡人数,这些人在62年和63年回到原地,同样为了平衡人口总数,年鉴这两年的死亡人数少报告了300万,这正是62年和63年年鉴上死亡人数少的原因。

  上述两项合计,这段期间年鉴上多报告了死亡人数1300万。

  请注意两只黄鹂这种说法是他本人的主观设想,根据准确度的第二条判别标准,推算过程中加入主观假设的方法所得到的结果要比推算过程中没有主观假设的方法所得到的结果不准确。

  接着两只黄鹂说:‘很多人的计算表明,这个时期的非正常死亡是1700万,从1700万减去1400万就得到非正常死亡的上限为400万。’虽然蒋正华的计算也表明,这个时期的非正常死亡是1700万,但他根本没用年鉴所提供的数据,因此不需要再作任何修正。

  两只黄鹂说的许多人,显然不包括他。

  很多人最起码是有三个人,请两只黄鹂给出除蒋正华之外其他三位得到1700万这一结果的人,及其采用的初始数据和计算的方法或过程,并说明需要修正的原因。如有其他朋友知道,请转贴供大家研究。

  还可以用1964年人口普查结果检验两只黄鹂的结果是否准确。

  根据1964年人口普查

  1958年7月1日至1959年6月30日出生的人在1964年7月1日存活1488万,

  1959年7月1日至1960年6月30日出生的人在1964年7月1日存活1431万,

  由此可认为

  1959年1月1日至1959年12月31日出生的人在

  1964年7月1日存活1465万,1465万不精确,但肯定是准确的。

  两只黄鹂认为57-59年出生人口多报了1000万,又认为其中57年多报300万,其它两年共多报700万,平均每年350万。还是根据年鉴的数据,由59年出生率X(58年末人口总数+59年末人口总数)/2得到59年出生人数为1650万,减去350万,两只黄鹂修正后的59年出生人数为1300万。

  而1964年人口普查结果59年出生的人仅在1964年7月1日存活的就还有1465万,若再加上1964年7月1日以前死去的59年出生的人, 注意到本来就比较高的婴幼儿死亡率, 在困难时期会更高, 数据相差就更大.

  根据统计资料不完整的说法,其中任何一个数据可信度低或缺少直接实测数据而以估算数据代替的话,那这样得出的结论,意义了了,所以两只黄鹂的结论是不准确的.
  
  手头没有金辉的文章,坛上有丁抒《人祸》一书的摘要,他们的观点相近,就用分析丁抒的说法代替之.

  丁抒也是对年鉴给出的数据进行重估,增加了一个0-3岁婴幼儿死亡率的估算(采用中国社会科学出版社《一九五八年中国人口年鉴》所提供的数据估算).

  丁抒首先认为年鉴给出的死亡率不可信,然后用估算的0-3岁婴幼儿死亡率和1964年人口普查所得相应年龄组当时存活的人数一起推算那几年的出生人数,进而说明年鉴给出的出生率低了许多,这个结果和两只黄鹂认为年鉴57-59年的出生率过高,造成多报人口1000万刚好相反.

  接着他按照年鉴给出的年末人口总数重新计算了出生率,由这个出生率和年鉴给出的出生率之差得到少报的人口数,由于已经按照千分之十点八扣除了正常死亡人数,这个数字就加入到非正常死亡的人数中,这样他就有了58-63年非正常死亡人数(他还认为是饿死的)三千多万的结论.

  丁抒在推算过程中没有加入主观假设,而且用可靠的数据证实年鉴给出的出生率偏低.

  尽管在下以为0-3岁婴幼儿死亡率的估算可能偏高(当然当时的0-3岁婴幼儿死亡率也不会像我们现在感觉到的八十年代以后的0-3岁婴幼儿死亡率那麽低),但这只是影响精确度.

  所以会有许多人认同丁抒他们的结论,但是在下并不认同.

  首先,年鉴给出的历年死亡率至少在64年以前(包括64年)的偏低很多,应该把64年人口普查时得到的64年的死亡率作为那几年的正常死亡率,即千分之十三点六左右.如果认同这一点,那末丁抒在这六年中共把1100万正常死亡人口误算入非正常死亡人口.

  再则,丁抒是把年鉴给出的年末人口总数作为初始数据开始推算的,实际上除了64年的以外,其它各年的年末人口总数可信度很低.证实这一点并不困难,64年的数据误差应该较小,如果相信年鉴给出的63年年末人口总数是对的,则可由此重新推算的63年年末人口总数比年鉴所给少了600万.由于初始数据的可信度低,丁抒的结论也不准确

  综上所述,在下认为蒋正华的研究是准确的.

  金笔先生说整理这些要花很多时间,确实如此,所以在下到今天才能再答两只黄鹂.

  这番讨论是金笔先生在文化走廊上’点火’(他的标题就是如此)引起的,现在金笔先生没时间或没兴趣完全可以不继续参与讨论,但不能说在下是空谈.

  在下抱着弄清历史真相的目的参加讨论,讲的都有事实依据,并非主观臆测的空谈.

  两只黄鹂也把《废墟中的桃花源》贴在文化走廊上,那里舆论一边倒,一片赞扬声,那可不是好的讨论氛围,在下到目前为止还不想去点火. 
[ 打印 ]
[ 编辑 ]
[ 删除 ]
阅读 ()评论 (0)
评论
博主已隐藏评论
博主已关闭评论