数论人生

数论是一门学科，也是我的人生。有人把酒论英雄，我用数字描天下。

首页文章列表博文目录

个人资料

欧洲联盟

给我悄悄话

博客访问：

概率论的一般原理和方法

(2022-04-01 08:43:05) 下一个

不管理科还是工科，甚至有的文科专业，如金融学、经济学、心理学，都要学习概率论；因为未来的决策都要参考过去的数据，而且，怎么做出偏差较小的回归分析，需要掌握统计方法；而概率论是统计的基础。在超微观世界的粒子物理学里，一切都是随机的；Paul发现了不确定性准则，Schrodinger用波函数（其模为概率密度）写出了电子的运动方程。随机现象的量化表述需要概率。

概率论作为一门数学理论，最早出现在17世纪。1654年，巴黎的赌博者Le Chevalier询问了Blaise Pascal关于赌博中一些特定可能性的问题；比如，如果一个游戏在中突被打断，每一个玩家成为最终赢家的概率有多大？Pascal与Fermat通信讨论了这些问题，还写了一本书阐述二项式系数与二项概率分布的规则。现代概率论研究的是随机变量及其分布规律。

一个随机现象（或试验R, 如一个粒子的运动）的每一种可能结果，叫做一个基本事件（样本点）；所有基本事件的集合叫做样本空间S。基本事件的组合，就是复合事件；所有事件的集合，也就是S的所有子集的集合，就是S的幂集P(S)。S的某些子集组成一个集簇F；如果满足(1) S在F中，空集E也在F中；（2）F中任意可数个集合的并集还在F中，（3）F中任意有限个集合的交集也在F中，（4）如果A在F，则它在S中的补集A*=SA也在F中；则F称为一个随机事件空间。

当S为有限集时，如果每个样本点的出现是等可能的，每个子集A都是一个事件；其概率可以定义为 |A|/|S|，这里|A|表示A中所含样本点的个数。当S为三维空间中的一个有界区域时，如一个封闭的立体、或一块有限的曲面、或一段有限的曲线，如果每个样本点落在域中每一位置是等可能的，如果事件A是一块连续的子区域，其概率定义为 m(A)/m(S)，这里的m(A)是A的几何度量（体积，面积或长度）；如果A是不连续的子集，m(A)可以用Lebesgue测度。

对于一般的随机事件空间F，我们可以给出概率的公理化定义。定义一个函数p: F → [0, 1]，如果满足 (1) p(S) = 1，（2）对于两两互不相交（互斥）的可数个集合Ai, p(UAi) = sigma{p(Ai): i = 1, 2, …}。由此可以推知以下性质：（a）p(E) = 0 (E 为空集或不可能事件)；(b) p(A*) = 1 – p(A), (c) p(AUB) = p(A) + p(B) – P(AB)，其中AB表示A与B的交集。此等式还可以用归纳法推广到有限个集合的并集。(d)若A包含于B，则p(A) ≤ p(B)。(e)如果A1包含A2，A2又包含A3，…, An包含A(n+1),…, 且它们没有交集，则limp(An) = 0当n趋于无穷大时。

两个事件A, B，如果满足p(AB) = p(A)p(B), 就称为互相独立的。当p(A) 不为0时，比值p(AB)/p(A)称作B在A发生的前题下的条件概率，记作p(B|A)。类似地有，p(A|B) = p(AB)/p(B)。事件B独立于A, 也可以表示为P(B|A) = p(B)；当B独立于A时，自然也有A独立于B。我们有全概率公式：如果B包含于Ai (i = 1, 2, …, n)的并集，而且Ai两两互斥，则必有 P(B) = sigma{p(Ai)p(B|Ai): i = 1, 2, …, n}。由此还可以推出Bayes的后验概率公式。

在一些情形，试验的结果取决于前面试验的结果，我们说事件具有了时序性或形成了随机过程。俄罗斯数学家Andrei Markov引进了概率向量、状态转移矩阵，并探讨了稳定性。空间F中的所有子集/事件存在一种一维的时序关系：每个子集A都对应于一个实数t；t的取值范围可以是离散的（包括有限），也可以是连续的区间。这时的F称为一个随机过程，或者时间序列。过程A(t) →A(s)表示事件A(t)后紧接着事件A(s)（这有别于逻辑的蕴含或集合的包含关系）; 它发生的概率为p(A(s)|A(t))。

比起赋予每个事件一个概率，我们有更简单、更方便的办法来讨论随机事件：随机变量及其概率分布与条件分布。一个随机变量就是样本空间S上的一个实函数。严格来说，设（S，F，P）是一个概率空间，X(s)是S上的一个实值函数，如果对任意实数x，集合 {s: X(s) < x} 属于F, 则X是一个随机变量。函数 cdfX(x) = P(X(s) < x) 称为X的分布函数。它具有以下性质：（1）取值在0与1之间，（2）非降/减：cdfX(x1) ≤ cdfX(x2) 如果x1 ≤ x2，（3）左连续，（4）cdfX (-∞) = 0, cdfX(+∞) = 1。反之，任何满足这四条性质的函数都是某个随机变量的分布函数。

随机变量可以分为三大类：（1）离散型。它只能取有限个或者可数无穷个值；其分布函数可以用离散的和式表出。常见的离散分布有：两点分布（Bernoulli分布）、超几何分布、二项分布、Poisson分布（二项分布的极限情形）、几何分布。当然，概率函数P(X = xi)是可以随变定义的，可在实际中，也就是上述几种，或者它们的线性组合。

（2）绝对连续型，也就是说,cdf(x)几乎处处连续可微，从而有一个几乎处处连续的概率密度函数pdf(t)：cdf(x) = S{pdf(t)dt: t ≤ x}，这里的S是积分，可以是Riemann积分，或者Lebesgue积分；也就是某种连续和。密度函数具有这些性质：（i）取值在0与1之间，（ii）在整个实轴上的积分为1，（iii）概率P(a < X < b) = S{pdf(t)dt: a < t < b}。反之，满足这三条性质（加上几乎处处连续）的函数都是某给随机变量的密度函数; 而且，两个几乎处处相等的密度函数，确定相同的分布函数。常见的此类分布有：（i）某个闭区间上的常数密度，（ii）正态分布（二项分布的连续化），（iii）指数分布（Poisson分布的连续化），（iv）Gamma分布，（v）高斯分布，（vi）柯西分布，等。

（3）既非离散也非绝对连续。比如用一个离散型的Cdf1(x), 与一个绝对连续型的cdf2(x)，按照比例r混合：r cdf1(x) + (1-r) cdf2(x)，那就既不能列举，也没有一个连续的密度函数。需要引进一般的不可数和式，才能处理这类变量。不过在实际问题当中，这类变量出现的机率很小，就忽略不论了。

随机变量既是函数，就可以进行运算：给定任何一个实函数f: R →R，和任何一个随机变量X，f(X)也是一个随机变量；它的分布函数可以由cdfX(x)及f确定。给定两个随机变量X和Y，也可以对它们进行加、减、乘、除；这些变量的分布需要用随机向量的联合分布来表示。

给定概率空间（S，F，P）上的任意n给随机变量X1, X2, …, Xn，如果对任意一组实数 (r1, r2, …, rn)，集合{s: X1(s) < r1, …, Xn(s) < rn} （这其实是一些集合的交集）也在F中（是一个随机事件），那么X = : (X1, X2, …, Xn) 就称为一个随机向量。它的分布函数P(X1< r1, X2 < r2, …, Xn < rn) = cdfX(r1, r2, …, rn) 是一个n元函数，需要用一个n重和式（离散型）或n重积分（绝对连续型）来表示。分布函数具有以下性质：（1）对于任何一个变量ri, 都是单调不减的；（2）对任何一个变量都是左连续的；（3）对于任何一个变量在负无穷大处的值为0；（4）对于所有变量在正无穷大处的值为1. （5）X在矩形区域上的概率，可以用分布函数在边界上的值表出；比如n = 2的情形是，P(a ≤X1 < b, c ≤ X2 < d) = cdf(b, d) – cdf(a, d) – cdf(b, c) + cdf(a, c)。

在联合分布函数中，如果单独某个变量取为正无穷大，结果就是其它变量的边际（Marginal）分布函数；比如cdfX(x) = cdf(x, ∞)，cdfY(y) = cdf(∞, y)。

两个随机变量X和Y，称为是相互独立的，如果对于任意两个实数集R的子集A和B，总有P(X∈A, Y∈B) = P(X∈A) P(Y∈B)。n个随机变量的相互独立性可以类似定义，但要区别于“两两相互独立”的概念。这种独立性的定义很难操作，我们可以用分布函数来判定。

两个随机变量X和Y是相互独立的，当且仅当，P(a ≤ X ≤ b, c ≤ Y ≤ d) = P(a ≤ X ≤ b) P(c ≤ Y ≤ d), 对所有实数 a ≤ b 及 c ≤ d 成立。或者说，cdf(x, y) = cdfX(x) cdfY(y)。

也可以用密度函数来判定：（1）若 X 和 Y 是离散型的，则X 与 Y 相互独立的充要条件是它们的联合概率函数 p_X,Y 满足 p_X,Y(x, y) = p_X (x) p_Y (y) 对所有实数 x, y 成立。（2）若 X 和 Y 是绝对连续型的，则X 与 Y 相互独立的充要条件是它们的联合密度函数 f_X,Y 满足 f_X,Y(x, y) = f_X (x) f_Y (y) 对所有实数 x, y 成立。

第三种表述方式是条件概率。对于离散型的二维随机向量(X, Y)，Y在给定条件X = x下的分布列为pY|X(y|x) = : P(Y = y|X = x) = P(X = x, Y = y)/P(X = x)；对于绝对连续型的二维随机向量(X, Y)，Y在给定条件X = x下的分布密度为f_Y|X(y | x) = f_X,Y (x, y)/f_X (x) ,其中, f_X(x) = S{f_X,Y(x, y)dy: -∞ < y < ∞}。那么，X与Y独立的条件就是，p_Y|X(y|x) = p_Y(y),或者 f_Y|X(y | x) = f_Y (y)对所有实数x, y成立。

在概率论中，对随机变量的分布函数的表述，还可以用一些数字特征来进行；有期望值、方差，以及各阶矩，生成函数或特征函数。它们包含了分布的全部信息，或者说，离散型和绝对连续性变量的分布函数，可以由这些数字特征唯一确定:通过矩生成函数或者特征函数，我们就可以知道那是一个什么分布。

一个随机变量X的期望值E(X)定义为 S{x d(cdfX(x): x ∈ R)}.如果X是离散的，这是一个级数；若为绝对连续型，这是一个黎曼积分；如果cdfX(x)是一个Lesbesgue可测函数的话，这就是一个Lesbegue积分。在量子力学中，这是一个Feynman积分；你要定义自己的积分也未偿不可，只要它能够收敛到一个有限的数。X的k阶矩就是E(X^k)；k阶中心矩是E((X – E(X))^k)；k=2时是方差；方差的算术平方根就是标准方差。

期望算子具有一些奇妙的性质：（1）E(c) = c对任意常数c；（2）线性性：E(aX + bY) = aE(X) + bE(Y)，对任何常数a, b；（3）二次多项式E((X – t)^2)当t = E(X)时取得最小值，(4) 如果X与Y相互独立，则有E(XY) = E(X)E(Y)，或者协方差Cov(X, Y) =: E([X – EX](Y – EY)) = 0。协方差与X及Y的标准方差的比值，称为X与Y的相关系数。这是回归分析中的一个重要指标。

随机变量X的生成函数定义为E(t^X)，t是一个实参数。矩生成函数为MX(s) = E(e^(sX))，s为实参数；如果两个随机变量的矩生成函数相等，那么它们必有相同的分布（函数）。MX(s)有时可能不收敛，我们可以代之以特征函数CX(t) = E(e^(itX))，由于e^(itX)的模为1，CX总可以收敛到有限数（要求密度函数在函数空间L^1(R)之中），而且也满足唯一性的要求。

在概率论的应用中，我们需要考虑来自同一个母体的抽样分布：设X1, X2, …, Xn是一个独立、同分布的、大小为n的样本（随机变量），我们构造一个统计量Y = h(X1, X2, …, Xn)，其中h是任意实函数，但通常取为样本的各种均值。在一些特殊情形，Y的分布函数可以精确算出；但在大多数情况下，精确分布是不可能算出的，只能考虑近似分布。对于不同的样本大小n，我们构造出了一个随机变量的序列Yn；当n趋向于无穷大时，Yn的极限分布通常很简单。我们有诸多的中心极限定理。

在实际情况中，母体的分布（参数）是未知的。我们可以收集一个样本（X1，X2, …, Xn），用一组观测值 (r1, r2, …, rn) 去估计随机变量Y。比如，样本均值可以作为母体均值的估计；如果当n趋向于无穷大时，统计量Yn趋向于所要估计的参数，这个估计量Y就是一致的（consistent）。关于一致性估计，我们有强大数定律和弱大数定律。如果E（Y）等于待估计的参数，这种估计还是无偏的。

[ 打印 ]

[ 加入书签 ]

阅读 () ┆ 评论 (0)

目前还没有任何评论

登录后才可评论.