什么是概率？（一至五）

idiot94按：每次各种各样脑瘫上谈论的最多的，吵得最不可开交的，最后好像结论也最不清楚地，往往就是概率问题。确切的说，往往是一些本身并没有说清楚地古典概型的问题。“问题“并不处在如何“解题“上，其实是出在如何理解那些所谓的题目上，讨论者如果没有明白这个关键，钻在计算细节里面出不来，自然会争论个没完。小的想要提醒大家，计算只是个手段而已，要在概念必须清楚，如果该计算什么东西都没有搞清，计算本身还有什么意义呢？
所以不辞愚陋不怕麻烦，啰里巴索写下许多废话来给大家饭后茶余找个乐子。
————————————————————————————

好好活就是有意义，有意义就是好好活！ ---- 许三多

1）直觉上的概率，为什么要研究“概率“？物理上的概率。

我们经常说到“概率“这个词，可是，先且不讲这个词到底是什么意思，我们先来看看我们为什么要对这么个词感兴趣，好吗？
有人说，概率就是研究不确定性的学问。想想也是，要是没有什么不确定性，也就是说，我们总能够清楚知道未来，还要概率这东西做甚？所谓不确定，什么意思呢？就是我们不知道下一个时刻具体会发生什么事情，换句话说，就是根据我们现在手头上掌握的信息，我们无法精确预报下一个时刻将要发生的事情。这其实有两种不同的可能含义：
a)我们没有掌握足够的信息或者数据，所以无法预测。而如果我们掌握了“足够“的数据，则完全可以精确的预测下一个时刻的事件。
b)即使我们掌握了所有的信息（截止目前为止），也一定无法预测下一个时刻的事件。后者不完全由过去的状态所决定。
这是两种完全不同而且差异很深刻的世界观，前者是决定论（比如经典的牛顿力学），后者在某种程度上是一种不可知论（比如现代量子论）。在决定论的观点下，没有真正不确定的事件，而在现代量子论（我之所以强调现代两个字，是为了提醒大家量子理论仍然在不断发展，或许明天或许此刻就已经有了新的突破，不过我不知道罢了）的观点下，则恰恰相反，没有什么完全确定的事件，有的都只是各种可能性的（所谓“几率波“）的叠加而已。这两种观点，孰是孰非，只怕会永远斗争下去。现在尽管物理学上量子理论占上风，可也不是没有不同的声音，比如爱因斯坦就说他绝不相信上帝是在掷毂子。（呵呵，其实偶倒觉得他应该无所谓，连韦小宝都想要几点就能掷几点，何况上帝，就算掷，也还是决定论：））

好了，罗嗦了大半天，偶就是要强调一点，有很多朋友总认为存在一个直观上的概率，一个符合“现实生活“的“自然“的概率，这是不严格的。说了许多，就是想传达这样一个信息：对于我们的现实生活中有没有“不确定的“事件，有没有“概率“这样的东西，我们现在也不是很清楚，可能永远也不会清楚。所以，我们必须分清楚什么是数学上抽象出来的概率，它的精确定义又是什么，我们不能满足于总是混淆抽象的但是却严格的概率概念和直觉的但是却含混不清的“可能性“或者“不确定性“的想法。

让我们以一个可能是最常见的例子来结束第一部分----
抛掷一个均匀的硬币（fair coin tossing):通常我们在“概率问题“中一提到“抛一个均匀的硬币“，我们几乎总是隐含着这样的意思：这个硬币出现正面（Head)或者反面（Tail)的“概率“各是 1/2。或者更加具体一些，我们以为，抛出去的硬币出现正面和出现反面的“可能性“是一样的，这样两个事件是“完全对称“的----由于硬币本身物理上的对称性（所谓均匀）而导致的。这里，我们有意无意的忽略了投掷者这个因素。我们在现实生活中，也常常用这样的方式来“随机“的决定一些事情，比如在世界杯上谁先开球等等。
实际上，我们这样做是严重的想当然。主要表现在两个方面：
a) 投掷者的影响未必是可以忽视的。极端的情况下，想象一台精密的抛掷机，我们当代的技术显然可以把它做到足够好，使得它完全可以控制抛掷结果。即使在一般情况下，一个普通人，我们有什么理由认为他的习惯动作对于抛掷结果没有任何影响呢？他的意识和愿望对于结果没有任何影响呢？斯坦福大学统计系的教授Persi Diaconis 会在他给学生的第一节课上演示，他可以按照任何给定的序列要求，将一枚普通的硬币精确的掷出相应的结果，“这个世界上没有什么是随机的“，我的一位朋友有幸在他的课堂上目睹了这样有趣的一幕，所以我有幸听到这个生动的故事。

“There is nothing random about this world" --- Prof. Diaconis

b) 其次，我们即使愿意相信正面和反面大致对称，我们又凭什么说他们出现的可能性各是1/2 呢？也就是说，我们为什么有权利不考虑其他的情况呢？比如，硬币落下去之后，立在了地上？或者是落地后碎成了两半，一半正，一半反；或者3片，4片。。。，或者把地板砸个洞，然后找不到了。。。等等，呵呵，我并不是在搞笑抬杠（至少不完全是），这些事情，找个力气大点的兄弟，或是质量差点的硬币（但仍然均匀），或地板，都不是那么不可能的。

我们为啥又可以那么理直气壮的“忽略“这样的问题呢？其实我们并不理直气壮，只不过如果要什么都考虑在内的话，那恐怕就什么也做不了了。抛硬币这样一个直观的物理现象启发了我们的直觉，我们意识到这个现象中有些很有用的主要矛盾，如果我们抽象出来，会对我们分析处理许多别的问题有帮助。于是，我们走出了从直觉到严密的抽象的数学的第一步，古典概率。

“我那个是有证明的。“---------乱弹

2. 古典概率

古典概率由直觉而萌生，开始的时候和直觉也几乎没有区别。比如抛掷硬币的“随机试验“，在古典概率的初期，这个本应为抽象的数学的思想试验和实际的物质的真实抛掷也是不加区分的。但是很快，人们就发现抽象的定义这种事件的好处，古典概率也就从能够处理只有两面的硬币，只有六面的毂子，到任何有限的对象，比如{1,2,...,n}这样的集合，甚而至于到许多离散的结构（可数的无穷集）等等。

一般的，对于一个可以有K种互异互斥的结果的试验A，我们记这些结果（称为事件）为{A1, A2, ..., AK}, 对于每一个事件Ai, 都有一个相应的发生的可能性Pi，这些Pi 满足：0<=Pi<=1, 0表示不可能发生，1表示一定会发生。而且P1+P2+...+PK=1.

这样的Pi也可以表示成Ai的函数P,P(Ai)=Pi ----这个函数就叫做{A1,..}的概率（函数）。而{A1, A2,...AK}叫做样本空间。（其实也不严格）

这样的抽象定义来源于古典概率对概率的“统计理解“: 假定我们反复的进行试验A,进一步假定每一次的试验都完全不影响另外的试验，如果进行N次试验A,得到N1次A1， N2次 A2， ... NK次 AK，那么显然 Ni 不能是负的，也不能超过N, 而且N1+N2+..+NK=N. 最后，如果N足够大，那么 Ni/N 应该接近于P(Ai)=Pi, 如果N趋于无穷大的话，那么Ni/N应该有极限，而且等于Pi.

这个“统计理解“实际上是我们出于直觉而认为“概率“应该具备的含义。也是古典概率中“概率“的含义。

我们将会看到对于更加一般的问题，这样的概念是远远不够的。然而，仅仅是这第一步的抽象，已经使得我们可以描述和处理一些有趣的东西了：

例子1：首先还抛硬币！这次我们可以清楚地定义抛硬币为如下试验C: 它只有两种可能的结果{H,T}, 其中P(H)=P(T)=1/2. （满足P(H)+P(T)=1) 这里我们完整的定义了一个理想状况下的随机试验。函数P给出了这个实验结果的概率函数。我们也完全可以定义另一个抛（不均匀）硬币试验D, 也只有两种结果{H, T}, 但是P(H)=1/3, P(T)=2/3. 这也是完全合法的一个随机试验，只不过有着不同的概率函数罢了。

注意：这里的定义和上面讨论的那个“统计理解“完全无关，和您真的拿一枚硬币抛10000次，其中有多少个正面，多少个反面，多少次掉下楼梯什么的更是完全无关。我们从直觉中总结出那个抽象的定义之后，我们就直接处理那个抽象的对象了，而不必再回到原来的直觉中去。

例子2：（随机变量，期望）设想我们俩赌博（哦，顺便说一下，概率最先都是为了研究赌博而开始的，据说最早的概率论专家都是赌棍。。呵呵，这个可能无从考证了，不过，我上篇里面提到的Prof. Diaconis, 还有他们系另一个prof. Thomas Cover 都是被各大赌场ban掉的，呵呵），规则是，进行上述试验C, 如果结果是H, 则我赢得￥1，否则我什么也不赢。那么问题是，您应该收取多少钱的门票才使这个赌博游戏公平呢？一个直观的想法是，这个“门票“应该等于我赢钱的“平均值“：￥1*1/2+ ￥0*1/2=￥0.5 ---- 这个想法，也源自于类似上面谈到的“统计理解“，请有兴趣的读者自行补出。

一般的，对于试验A, 在{A1, A2, .. AK}上有相应的赔率G(Ai), 我们称 E(G)=G(A1)*P(A1) + G(A2)*P(A2) + .. G(AK)*P(AK) 为G的期望。请允许我们暂且偷安，把这样的函数G：{A1, A2, .., AK} -> R 称为随机变量。(强调，还是不严格的，这是古典概率的根本缺陷所导致的）

例子3：（分布）我们常常看到有些朋友贴出题目里面有这样的话：“随机的选取5个数。。。“。现在我们看到，这样的说法是不严格的，含混的。它的含混不清是在两个层次上的：
首先，它要表达的意思其实是说，“取一个随机变量X （不是样本空间！！），它的值域由5个数构成，。。。“，而原来的表述很容易让人混淆成为正在定义一个样本空间。这个是古典概率本身的毛病，很多时候都对这两件事情不加区分。然而这是致命错误，它导致了许多著名的“悖论“，而正是对于这些“悖论“的思考引导概率论最终走上正途，形成了现代的体系。我们以后将会详细讨论。
不过，这种混淆虽然严重，但是在处理有限的对象，甚至许多离散的对象（可数无限）时，是不会出什么大问题的。
其次，这个说法，无论按照上面的哪一种理解，都没有给出这个随机变量或者样本空间的概率分布细节。这是个更加初级的错误，即使在古典概率中，也不会允许其存在。比如上面的例子1，试验C或D的抛硬币的结果都是“随机“的，但是当然会给出完全不同的结论。我们很多朋友都自动的以为，“随机“的意思就是说“等可能的“。这显然是不对的，现在我们已经明白，我们可以定义任何样本空间上的任何概率，只要满足非负，归一（就是加起来等于一）就可以了。对于一个随机变量，它更是可以以任何概率等于某一个值，而完全没有义务要“等可能“。我们讨论了许多，还要强调的就是“等可能的分布“既不比其他任何分布合理，也不比其他任何分布合法。
更为严重的是，有很多时候，“等可能的“分布完全就是不可能的！

我们继续看几个例子：

例子4：（无穷的样本空间）比如有的朋友建议，我们的概率应该符合如下的直觉：我们随机的取一个自然数，那么它是偶数的“概率“是1/2。
在这里，所谓“随机“的选取，就是一个常见的毛病，并没有很好定义。而且许多朋友认为应该可以解释成“等可能的“选取（相对于每一个自然数来说），可是这是不可能的。根据古典概率定义，如果我们把选择自然数n当作试验X的话，可能的结果，样本空间就是{ 1，2，3，。。。} ，相应的概率函数是P(i), i=1,2,.... 但是这个函数P必须满足0<=P<=1, 以及P(1)+P(2)+..+P(k)+...=1. 很显然，如果要求所有的P(i)都相等的话，这是不可能的。换句话说，就是对于无限的离散的样本空间而言，不存在所谓的平均分布（uniform distribution)。
可是，朋友们一定会困惑，那么为什么我们会有这样的直觉呢？呵呵，这就是直觉只能是直觉而不是事实的道理啊。毛主席凭直觉认为哪儿都有5%的坏人，结果抓来抓去，抓起个没完，诺大个国家给弄得凄凄惨惨戚戚差点儿断了气，完全靠直觉是靠不住的，我们必须讲求严格的思维。现在，就让我们来仔细看看这个直觉究竟有什么样的隐患呢？
我们之所以觉得碰到偶数的“概率“是1/2，是因为，第一，偶数和奇数可以建立一个一一映射，他们“一样多“ ---- 当然，大家都知道，这个理由大概不够，因为能被3整除的数也可以建立一个和不能被3整除的数的一一映射，然而，同样的直觉只怕要告诉我们，随便挑一个自然数，能被3整除的机会大概应该只有1/3左右。因此，还有第二条重要的观察：奇偶数一个间一个的排的整整齐齐，很有规律，比如你任取一段有限的区间{1,2,..,2k}, 那么在这个区间内选择一个数字，它是偶数的概率是1/2（根据古典概率的定义，可以计算），于是让k->无穷，从而得出对于整个自然数集的“直觉“性质。这样不加任何保障，想当然的由有限过渡到无穷的做法是很危险的。仍然用这个例子，让我们进一步想象，我们来玩这样一个游戏，您“随机“的在{1，2，。。，k} 中选取一个整数，如果在给定的区间内再也没有比您选的数大的数的话，也就是说如果这个整数等于k的话，那么我就给您k元钱，否则什么也不给。那么对于这个游戏来说，公平的价钱显然是您的收益的期望值，也就是k*(1/k)=1元。对于任何一个有限的k都是如此，所以，如果我们让这个k趋于无穷的话，我们凭直觉还应该有一个价值为1元的公平游戏。可是，这时候游戏变成了您“随机“的选取一个自然数x，如果没有一个比它更大的自然数的话，我就付给您x元，很显然，您永远也不会得到任何东西的，所以这个游戏当然应该一文不值。这和那个想当然的直觉明显矛盾。问题出在哪儿了呢？就出在那个所谓“极限“过程，看似自然，其实不然。
我们以后还会看到，贯穿现代概率论的一系列重要的定理，就是各种各样的收敛性定理，这些提供了我们通向无穷之路的逻辑基础。

说到这里，我想把前面乱弹斑竹在跟贴中提到的“两个信封“的问题提出来，供大家思考：
我手里有两个信封，各有一张支票在内，上面均有正整数面额的款项，已知其中一个是另一个的两倍，但是具体是多少，没人知道。现在您打开其中一个信封，发现支票上是20元，现在我给您这样一个机会：您可以选择用它交换我手里的信封，也可以不交换。问题是：您应该交换吗？于是聪明的您开始计算：另一个信封里面可能是10元，也可能是40元（没有其他可能了），平均来说，您可以期望得到（10+40）/2=25元 > 20元。所以，按概率来说，应该交换。对吗？

我在上篇的末尾对于古典概率抱怨了几句，因为实在是写累了：）呵呵，希望大家不要误会，我和古典概率不仅没仇，而且现在还要给它说说好话，我们来看下面这个著名的例子：

例子5：（game of points) 费马和帕斯卡是古典概率的两位重要的大家，有一天，哥儿俩在一起赌博（呵呵，偶没说错吧？丫的全是赌棍。。。：）），他们一人拿出100马克的赌资放到桌上，然后开始抛硬币（均匀的那种，抽象的，没人出老千的那种：）），规定如果是正面，就算费马赢一局，否则就算帕斯卡赢一局，累计积分，先赢20局的人赢走桌面上所有的钱（200马克）。于是两棍一边喝酒一边说荤段子一边掷硬币（呵呵，傻不傻呀？别见怪，学数学的都这德行。。。），赌的不亦乐乎。。。可是赌局进行到中间，老帕家里突然来了个佣人说是出了急事，非要老爷立刻回去（估计是去年赌博赢得前没全部报税，IRS来人查账了。。），于是不由分说，拉了老帕就要回去了。可是这是老帕正以17：13 的局面领先呢，那桌上的200马克赌资应该如何分摊呢？各人拿回自己原来的那100马克显然不可能的，因为帕斯卡抛老半天硬币，都快赢了，怎么能白干了活呢？全部给他显然费马也不会肯，毕竟老帕你还没有赢呢！当然这样的问题难不到这两位大数学家，他们很快找到了公平的解决办法，那么聪明的您呢？：）

人非圣贤，孰能无惑？ ---- 孔老三

3. 古典概率的困惑。

古典概率发展到十八世纪的时候，已经可以解决许多有用的有趣的问题了，可以说已经成为一种有效的工具了。人们对于各种概率分布也积累了许多的感性认识，统计力学的初步发展给了概率理论直接的用武之地。这时候，各门应用学科对于已有的概率理论也提出了越来越多的要求，其中最重要的就是不再仅仅要考虑离散的对象，而也要分析连续的对象了。

前面提到的概率函数的定义是针对离散对象的，那个时代的数学家们自然想要把他们推广到连续的情形中去（更早的时候应该就有这样的工作了，具体的历史，我没有去查资料，烦请大家自己注意这些细节）。如何扩展是合理的呢？这里请允许我倒退一步，再来看看早期的古典概率对于概率有些什么样的基于直觉的定义（我在前面文章中给出的，其实已经是经过“粉饰“的，有着强烈现代观点烙印的定义，但是这些定义在他们共同的适用范围内，是等价的。）：

拉普拉斯的定义：（为了避免翻译不当可能带来的不便，请原谅我直接转贴wiki上的原文）
The probability of an event is the ratio of the number of cases favorable to it, to the number of all cases possible when nothing leads us to expect that any one of these cases should occur more than any other, which renders them, for us, equally possible.
This definition is essentially a consequence of the principle of indifference. If elementary events are assigned equal probabilities, then the probability of a disjunction of elementary events is just the number of events in the disjunction divided by the total number of elementary events.

很快人们发现了这个定义的弱点，以John Venn 为代表的一些学者提出了frequencist' definition, 后者是类似于我前面给出的“统计理解“的关于概率的描述。

拉普拉斯定义的核心就是数数，数有关对象的个数。比如说一个毂子六个面，1，2，3，4，5，6。那么扔下去，出现1的可能性是6个里面出一个，1/6。出现小于3的可能性有两种，1和2，所以是2/6=1/3，等等。而对于一个连续的对象，比如说[0，1]区间，如果我们问，“‘随机’的取一个实数，它小于1/2 的概率是多少？“ 这句话的一个类似的理解就是，这个实数总共有[0，1]这之间所有的数这么多“种“选择，合乎要求的有[0，1/2]之间的数这么多“种“选择，所以其概率应该是这两种选择的数目的比值（拉氏定义），当然这些数目都是无穷多种，但是直观告诉我们，在这里，线段的长度似乎是个不错的度量，而且如果使用这个度量来取代原来的离散对象的个数，我们将会得到一个等于1/2的概率，也符合常识和直觉。对于更高维的结构，人们也就自然的用面积，体积等等概念来替代长度。

这个时候的人们已经可以熟练的运用黎曼积分来计算各种图形的面积，周长等等。于是上述被推广的拉氏概率定义也被广泛的应用于计算之中。

一个著名的问题（Bertrand's paradox）被提了出来：
一个等边三角形的外接圆上随机的取一条弦，问这条弦的长度大于等边三角形的边长的概率是多少？
关于这个问题，大家可以自己思考，讨论一下，看看都有些什么样的回答，详细的介绍动态老大在以前的帖子中给出过链接，这里我重复一下：
Bertrand's paradox

这个“悖论“的核心问题就在于这样粗糙定义的概率概念没有足够清晰的刻画“随机“的含义，因而有了各种歧义。

十九世纪的时候，关于积分的理论，关于图形或者更一般的集合的“面积“等性质的研究都有了长足的发展。做出了核心贡献的数学家之一叫做勒贝格。他所发展的积分和测度理论为现代概率论准备好了必要的工具和理论基石。

idiot94 2009-10-04 16:07:39 回复悄悄话回复passenger101的评论:
your solution looks correct (in form), sorry I did not check the numbers in detail, but you can refer to this link :)
http://en.wikipedia.org/wiki/Problem_of_points

idiot94 2009-10-04 16:00:08 回复悄悄话回复cohomology的评论:
很抱歉，我不怎么来看，没有看见您的帖子。您提出的问题很好，很有代表性，所以我想在这里简单回答一下，相信有些别的网友也会有类似的疑问。
这篇文章最着重要强调的一点，就是把抽象的概率和现实生活中间的“可能性”概念区分开来。一个数学上的概率空间，就是一个归一化的正测度空间，这个测度不一定要是勒贝格测度，可以是任何测度，比如平凡测度（也就是说，只有空集和全集可测，其他任何集合都不可测）。那样的话，在这个平凡测度下，只有两个合法的事件（空集，全集），其他任何子集都是不可测的，都不是概率事件。因为他们在这个概率空间里面不能称为事件，所以他们当然没有相应的概率。
我们还可以定义其他许许多多各种各样的概率空间，这些空间里面的可测集都只是一些特定的集合，无论我们是否承认选择公理，都会有一些集合，他们是不可测的，他们在这些个空间里面不是合法的概率事件。
这和我们现实生活中间的“事件”的概念是完全不一样的，他们之间一般的并没有一一对应的联系。同样的，数学上的概率，和现实生活中的“可能性”也是不同的概念，他们之间也不能一一对应。
不知道这么说，对您理解这个问题是否有帮助？欢迎大家讨论。

cohomology 2009-05-24 13:48:27 回复悄悄话其实，概率的公理就是测度的公理的一个子集。一个[0,1]上的子集是否Lebesgue 可测，意味着它的概率是否存在。如果承认选择公理，那么是否意味着有的事件的概率是不存在的？

passenger101 2009-03-12 08:10:58 回复悄悄话 Very nice article. Studying....

Should 帕斯卡 got 1-(C(9,0)+C(9,1)+C(9,2))/2^9

登录后才可评论.

白痴黑话

什么是概率？ （一 至 五）