个人资料
  • 博客访问:
正文

用科学的方法看待2020大选舞弊之争

(2024-10-08 12:01:45) 下一个

我没有真相,也肯定这里谁都没有真相,不管你是相信有系统舞弊也好,不相信也好。作为一个外国人,本人也没兴趣去搞清这个真相,但看着城里两派(各有自己好友)越撕越裂,作为一个老城民于心不忍,想帮大家找到一个可以言说的common ground, 无论政治立场和价值观,大家都相信科学吧,那好,就帮大家用科学方法理一理思路。这个方法叫贝叶辛原理Bayesian Theorem, 是个以极简呈现智慧的统计学原理

说到对概率意义的解释,有两大学派,一派是古典的frequentist 频率假说,其认为一个事件发生的概率是事件固有的特性,可以通过足够量的重复采样来获得;另一派来自18世纪中叶的数学家贝叶斯,贝叶辛假说认为概率是一种对可能性的主观判断,这个主观判断不是一成不变的,而是会随着认识的更新而修正。这其实不难想象,一件事,即使不熟悉,你对它发生的可能性会有一个‘’凭空‘’或先入为主的臆断,譬如去国外某地旅游,去之前,你对当地在该季节遭遇暴雨的可能性或许有个估摸 (譬如来自社媒印象)- 不太可能有暴雨,然后你去了那里,不幸地一星期里下了三天暴雨,无疑你会根据此体验对你的原先估摸作出修正,以后朋友这时候去那里玩你会忠告:备好雨具,很可能下暴雨。贝叶辛概率里,前面那主观而来的估摸叫先验概率,而后面经过实际体验修正的不妨叫后验概率,显然,后验概率要比先验概率更接近事实

好了,回到大选舞弊的争论上来,我们的贝叶辛问题可以这样构建设定两个概率事件,事件C为大选舞弊,事件S 为选民相信大选有舞弊,大选舞弊的先验概率记为P(C),根据美国历年的民主选举经验,应该很低,假定为1%。我们现在要计算- 当2020大选后出现选民相信大选有舞弊(S)这个条件下,大选果真舞弊的后验概率,记为P(C/S)并与P(C)相比,如果超出很多,应该真的有所警惕,如果两者非常接近,多半不必过虑。这听起来或许有些玄乎,道理是这样的,对于有否舞弊,每个选民个人,几乎可以肯定难有确凿全面的证据,但每个人会根据自己投票的经历,观察到或听闻来的现象,作出一定逻辑推断,上亿理性选民的观察和判断集成起来,当可形成一个较强的依据。问题是上亿选民你不可能一个个问过来,这就用到了统计和抽样调查。有没有这样的抽样调查呢,我记得是有的,好像2020大选后共和党选民里有60-70%相信舞弊存在,民主党里自然绝大部分不相信,有兴趣者可以帮我核对。相信舞弊这件事,即S),包括两种可能,确实舞弊了你相信得没错,没有舞弊你误信了,前者概率记为P(S/C),后者为P(S/!C)(注:! 代表否定,/代表在什么条件下。)

不妨让我们根据抽样调查结果,在合理范围内估摸一下两者的概率,P(S/C)在共和党选民里应该很高,姑且算90%吧,鉴于两党选民严重分裂,民主党选民应该较难采信,算20%;P(S/!C) ,同样鉴于目前两党选民极度分裂的现状,在共和党选民里姑且算30%,在民主党选民里应该接近没有,算1%。对于选民总体,概率值应该是两者按选民比率的加权平均(就算对半开好了)。

由此根据贝叶辛公式

? P(C/S) = P(S/C) × P(C) ÷ [ P(S/C) × P(C) + P(S/!C) × [ 1 - P(C) ] ]

代入以上经过两党加权平均的各值,可以算得2020大选后根据选民对舞弊的怀疑而修正的舞弊发生的概率 P(C/S) 为 3.46% 。

显然上面取值有很多估摸,你尽可以按自己认定更接近现实的值来代入计算,当然结果也会和上面不同。那如何来合理理解计算的结果?前面说了要和先验概率(1%)比较,拿上面算值为例,3.46%本值也是一个很小的概率,要加以忽视也是说得过去的,但是,它是先验概率1% 的近3.5倍,对于一个性质当为小概率的事件,概率增加3.5倍当足以引起人们警惕

再次强调,以上计算只是个示范例子,你按自己的认知对? P(C), P(S/C)和P(S/!C) 取不同的值代入计算,结果会相当不同。本帖开首就说了,贝叶斯不会给出真相,他不是上帝,但贝叶辛原理让我们可以在信息极度有限和混乱的情况下,对自己的思路作出尽量理性的梳理,不盲从,不夸大其词,不掉以轻心

最后提一下,觉得与其用两党铁杆选民当主体来算,不如用中间派当主体来算更有效,如果有数据的话。虽然他们人数不一定多,但他们的态度变化来的更加说明问题。

 

[ 打印 ]
阅读 ()评论 (6)
评论
镜子里的猴儿 回复 悄悄话 您对于贝叶斯的分布推断理解有误,. 因为您给与的假设前提不对, 贝叶斯的分布推断条件是观察数据的概率模式, 观察数据应该是随机变量, 而不是期待值. 一个人出门捡到钱包的贝叶斯分布推断前提是过去10年行人在此地丢失钱包的概率, 而不是男女行人对于在此捡到钱包的期待值. 同样, 你把共和党和民主党员对于投票舞弊的相信程度作为贝叶斯的分布推断和行人对于捡到钱包的期待值的谬误同样荒谬, 因为共和民主两党党员对于舞弊的期待值不是舞弊发生的必要条件.

所以, 您文中的公式只有一种情况下才能成立, 美国大选舞弊的随机变量是多少? 比方说, 邮寄投票的欺骗数据是多少, 或者各地选票统计误差是多少, 假设, 统计证明在过去 50 年里, 美国大选的邮寄选票误差超过 10%, 那么, 你可以把这个变量作为贝叶斯推断的前提来计算舞弊可能性.

你弄错了变量.
chenmo520 回复 悄悄话 共和党的后验概率并未得到验证。事实上,在过去的四年里,官司一个也没有打赢。因此丢了一些粉丝,包括我。所以他们采用了希特勒的助手的做法:谎言重复一万遍就成了真理。 因此,贝叶斯概率中的后验一定是得到验证的:雨真的下了。此处不成立。
老键 回复 悄悄话 回复 '东方明月-' 的评论 : 没错,你这是古典概率的范畴。贝叶辛是说,即使只有一个始作俑者真作弊了,但既然人群里已有怀疑传开,他的罪行可能已经这样那样有所暴露,贝叶辛不是去追求真相 - 这人是谁,有多严重,而只是根据人们的反应重新估算作弊的可能性。古典概率如你所说对此一筹莫展
老键 回复 悄悄话 回复 '新林院' 的评论 : 贝叶幸原理是基于理性人的,如果理性人说街上有虎,一定有些原因,即使没虎也有个超大的猫或豹子什么
东方明月- 回复 悄悄话 概率论最简单的方法就是:
至少要上百万选票作弊才能改变选举结果。即使每个作弊被发现的可能性只有万分之一,100万作弊选票不被发现的可能性是1亿亿亿亿亿分之37,一共44个零。
事实是2020年选举,共和党百万悬赏,只发现两张作弊选票,还都是trump支持者作弊投票trump,所以trump作弊的可能性要比biden作弊的可能性要大整整一亿倍。
新林院 回复 悄悄话 能不能用贝叶辛原理分析一下“三人成虎”(Evidence by Citation)?
如果严格套用贝叶辛原理,如果三个人说街上有老虎,那么,根据贝叶辛公式,街上有老虎的概率是不是会从0%增加到3%?
(不是抬杠,只是好奇。)

登录后才可评论.