众多2020年大选舞弊的所谓的“证据”里, 我觉得老地雷说的风向标县的这个统计“证据”还真的值得研究一下, 故花点时间研究了老地雷的文章和她引用的维基百科网页, 专注于民意调查分析的网站538, 和一篇美国国家科学院刊的论文, 把这件事彻底搞清楚。
一, 老地雷关于风向标县的Claim.
【注,请注意Claim与有效结论的区别】
老地雷说, 根据维基百科, 有19个风向标县--每次大选从1980到2016年都选对的了大选的赢家。 在2020年18个第一次选了失败者川普, 只有1个选了拜登。 这在统计上几乎是不可能的事, 所以大概率民主党窃取了2020年大选。
二,对老地雷一文漏洞的表面分析。
我这里说老地雷的漏洞而不是说她造谣, 是因为我认为老地雷是认真经过了分析的,诚心诚意地认定2020年大选被偷, 不是故意撒谎。
根据老地雷所引的同一个维基百科网页,你会发现2016年的失败者克林顿赢了14个风向标县。 2020年失败者赢了18个风向标县, 这么一比较,至少从表面上看,2020年就没有那么离谱。 而且, 如果光靠风向标县说话,拿克林顿说2016年大选被共和党舞弊偷了也是很有道理的。 也就是说老地雷因confirmation bias, 因为没看见,忽略了对她不利的证据。
三,对老地雷一文漏洞的深入分析。
如果你再仔细看老地雷引用的维基百科网页, 你会发现, 2012年及以前,风向标县投给失败者的大多只有一两个, 1992 的5个就有点例外了。 “反常”是从2016年开始。
专注于民意调查分析的网站538也得出了给出了类似的数据。 538的数据是在2016年前,一共有35个风向标县, 其中19个投给了胜利者川普,16个投给了失败者克林顿。 这么看, 自2016年起,风向标县已经不再是风向标,而是大至50-50的分化现象了(这里没有说是随机现象是有道理的,原因见第5节)。 克林顿赢的这14个风向标县, 在2020年都投给了拜登。(这里538与维基有2个县的出入, 我没有花时间去追究)。
538网站不但给出了统计数据,而且还给出了合理解释: 投给克林顿和拜登的风向标县比起投给川普的风险标县更种族多样化, 而且受教育程度更高。 由于美国在政治上的两极分化, 过去的摇摆县(也就是风向标县)从2016年就开始站队了。 川普特别受无大学学历的白人的支持,也符合者19个风向标县profile (这里只指出事实,不做价值判断).
四, 美国国家科学院刊的分析.
这个解释也符合美国国家科学院刊给出的数据与分析。
用人口构成的预测: 美国国家科学院刊,用人口构成做了统计模型, 预测的结果就是拜登平均应该赢1.65个风向标县。 用其他模型预测的结果是他应该赢1.2 到1.8个风向标县。
对证两极分化: 从整体来看,不管是不是风向标, 2016年投给克林顿的县,基本上在2020会投给拜登; 而2016年投给川普的县,2020基本都会投给川普。 全面三千多个县,只有63个县从川普改投了拜登。 所以说在2016年投给川普的19个”风向标县“基本上都再次投给了川普一点也不奇怪(因为大家都这样)。
美国国家科学院刊还给出了对其他“统计舞弊谈”的研究, 有兴趣的读者可以自己去学习。
五, 风向标县的本质。
其实风向标县没有什么特别的原理, 就是个统计常识。 在没有两极分化的条件下, 对于一个普通的县, 每届都猜对是一个小概率事件, 但是当样本足够大的时候, 小概率事件就成了必然,并不是说这个县有什么特殊的地方, 有水晶球能预测大选结果。 就像你玩德州扑克,出现同花大顺的概率是很低的。 但是你一直玩,天天玩,这一辈子碰上一个或几个同花大顺是必然的。
在两极分化的条件下,这个县的大选结果,基本上是可以由这个县的人口种族, 年龄, 教育程度等变量预测, 选举结果就不再是随机事件, 所以风向标县也就随之消失了。
六, 总结。
统计是一个可以帮我们发掘真相的有用的工具, 但是统计数据本身是事实,不是真相。要得出正确结论, 我们一是要看的全面, 不要忽略对结论不利的数据,二是要不停留在统计数据本身上面,而是要给出合理解释。 概率模型是个模型, 是在“理想状态”下的规律。 我们面对现实问题, 要明白现实里的假设哪点符合概率模型, 哪点不符合, 那个条件变了, 使得适用于以前的概率模型不再适用了, 能对现实问题给出合理解释,并能接受各方面事实的考验才能得出和确认自己的结论代表着真相。