在纯数学家的眼里,统计学是不入流的:没有漂亮的理论证明,一切都只是数据、数据和数据。在前苏联数学家们编写的《数学:它的内容,方法和意义》之中,二十章的篇幅,有概率论,就是没有统计学的一席之地。现在呢,最流行的术语可是“大数据”,一些大学还开设了统计系,搞起了机器学习;看来,统计学还是有存在的必要的。我以前的一个学生,大学专业是《犯罪学》(Criminology),她连几何、函数、微积分都不学,偏偏就要学统计。学商科的人,不学统计,结果会如何呢?我不知道他们还能干什么。
数理统计研究数值化样本的分布、数字特征(统计量),参数估计,假设检验,回归分析,还要做预测。
抽样分布
研究对象的全部元素所组成的集合称为母体或总体,集合的基数可以是可数的,也可以是连续的。母体中一定数量的元素所组成的有限集合(X1, X2,。。。,Xn) 称为一个子样,子样的观察值通常用小写字母表示。子样的可测函数,如果不含任何未知参数,就称为一个统计量。常用的统计量有:平均值、方差、矩、相关系数、次序统计量等。
当子样是独立且同分布(来自同一个母体)时,其分布函数是各个样本的分布函数之积。对于单个正态母体,子样的平均值仍服从正态分布,子样方差服从Kai分布;两个正态母体下的子样均值和方差的分布也都是可以确定的。
由于母体的分布函数中通常包含参数,统计量中自然也会如此;但是,有的统计量可能与参数无关,这类统计量称为该参数的充分统计量;具体来说就是,在给定统计量的值的条件下,子样取任意值的条件概率与参数无关。我们还有完备统计量:它导出的分布族是完备的,或者说,由子样的任何可测函数的期望值为零,可以推出该函数以概率1等于零。完备充分统计量可用于构造一致最小方差无偏估计。
参数估计
母体的分布函数中会含有某些参数,我们可以用统计量来估计它们的值,比如用频率估计概率,用子样平均值估计母体均值,用子样方差估计母体的方差。用来进行估计的统计量称为估计量,这样的估计称为点估计。点估计的两种常用方法有矩法、极大似然法、贝叶斯估计、极大极小估计。
在矩法中,假设有K个参数待估,而母体分布的K阶矩存在。让子样的各阶矩等于母体的各阶矩,得到K个方程,解之可得参数的矩法估计量。
在极大似然法中,假设给出了母体的密度函数(含有待估参数),我们按子样分量的密度函数作乘积,得到似然函数;在给出子样取值时,似然函数仅是参数的函数。使此函数达到极大值的参数,就是极大似然估计量。
衡量估计的优劣标准有:
无偏性:估计量的期望值等于该参数;
最小方差:在所有估计量中,方差最小;
一致性:估计量依概率收敛于该参数。
贝叶斯估计依赖于先验分布和后验分布的概念。假设母体的密度函数f(x, t) 依赖于参数t,把t看作是其取值范围内的一个随机变量,这样它就有一个分布函数H(t)和密度函数h(t)(称之为先验分布和先验密度)。
假设先验分布已经给定,取定一个参数值后,可以产生一个子样(X1,X2, …, Xn);子样和参数t的联合分布密度是f(X, t) = f(x1|t)f(x2|t)…f(xn|t)h(t), 子样的边际密度是联合密度对参数t的积分。在给定子样的值时,参数t的条件密度(称为后验密度)等于联合密度除以边际密度;这就是贝叶斯定理。当变量为离散型时,只要把密度换为分布列、积分换为求和,定理依然成立。
用统计量T去估计参数t,当然会有误差,这种误差称为损失函数;常用的是平方损失函数:L(t, T)= C(t)(T – t)^2。损失函数关于后验密度的数学期望叫做估计量T的后验风险,使后验风险达到最小值的估计量就是参数的贝叶斯估计。
损失函数关于母体密度的数学期望叫做估计量的风险(函数)R(t, T),它表示了估计的平均损失。风险函数对先验密度的数学期望叫做估计量的先验风险。一般来说,使先验风险达到最小值的估计量也使后验风险达到最小,但反之不然。
在风险函数R(t, T)中,对t(在参数空间中)求上确界,使得上确界达到最小的估计量T称为参数的极大极小估计。我们有判别极大极小估计的充分条件。
对于母体分布F(x,t)中所含的未知参数t(母体分布已知),我们选取一个子样和一个统计量。如果统计量的分布可以求出,那么根据这个统计量所满足的分布,我们可以求出一个区间,使得参数t落在此区间内的概率为给定的数值(置信度);这就是参数的区间估计。
假设检验
假设我们要判定一枚硬币是否均匀(公正),即正面出现的概率是不是二分之一。我们可以抛硬币N次(如1000次),如果正面出现的次数接近N/2,我们可以认为它是均匀的;如果正面出现的次数远离N/2,它就不是均匀的。可如何来衡量 “接近” 呢?
我们可以取一个以N/2为中心的闭区间,长度为2L。如果正面出现的次数落在此区间内,我们就说它是均匀的(这个区间叫做接受域),否则就不是。关键是,区间的长度要取多大。
由于判断只是基于一次偶然的实验,我们可能会犯错。很可能硬币是均匀的,但是本次试验中,正面出现的次数却落在了拒绝域中,我们因而说它是不均匀的;这是第一类错误。第二类错误是,它本来是不均匀的,我们却说它是。
如果区间长度太大,犯第二类错误的概率就大;如果区间长度太小,犯第一类错误的概率就大。总之,不可能使得犯两类错误的概率都很小。我们的做法是,控制犯第一类错误的概率的上限(称为检验水平),如10%或5%,而使犯第二类错误的概率尽可能小。
现在假定硬币是均匀的。那么,按照二项分布,它的正面出现h次的概率就可以算出;把N/2附近的各个概率相加,达到置信水平(1减去检验水平)时,就把这些h值作为接受域。这样,当假设为真时,我们拒绝它的概率就不会超过事先给定的检验水平。
然而,犯第二类错误的概率是不可能算出来的,因为假设不真实,统计量的分布是未知的。只能通过抽样来估计。
一般地,对母体的分布形式或分布中某些未知参数做出某种假设(称为原假设H0),然后抽取子样,构造合适的统计量,根据给定的检验水平,求出接受域或拒绝域R,这就是假设检验的过程。
当统计量的值落在接受域和拒绝域的边界部分时,我们不是立即接受或拒绝H0,而是以一个概率p拒绝H0(这称为随机化检验);对每个子样的值,定义一个势检验数:若相应统计量落在拒绝域,其值为1;边界为p;接受域为零(也就是原假设被拒绝的概率)。检验函数的数学期望称为此检验的势函数,它与母体分布所含的参数有关。
当参数值在原假设范围内时,势函数是犯第一类错误的概率;当参数值在对立假设范围内时,势函数是不犯第二类错误的概率。
回归分析
一个可观察的随机变量Y可能与另一些可观察的或其值可以指定的一般变量X1, X2, 。。。,Xp有关;为了揭示其关系式,一个最简单的模型是将Y表示为X的线性组合带一个常数项,再外加一个不可观察的随机误差项,并假设误差项的期望值为零,方差给定。这就是线性模型。
对Y和各Xi选取n组独立的观察值(n>p),用最小二乘法估算各个组合系数:即使得关于误差的平方和Se = ||Y- CX||^2达到最小的系数C。这个最小二乘估计也是一致最小方差无偏估计,其方差可以用误差项的方差表出;误差项的方差的无偏估计等于Se/(n-p)。
当Y满足正态分布时,最小二乘估计也满足正态分布,而Se/a2(a2为误差项的方差)满足自由度为n - p的Kai平方分布。
对全部系数相关性的检验,可作原假设H0: C1 = C2 =… = Cp = 0。当H0为真时,统计量F = SR/fR:Se/fe满足自由度为(p, n- p - 1) 的F分布,其中,SR是关于回归的平方和:即Y的估计值(用线性关系得出)与平均值的差的平方和;fR = p, fe = n - p - 1。
对单个系数相关性的检验,可用假设H0: Cj = 0.当H0为真时,有一统计量Fj满足F分布。
预言与决策
在找出一个母体(随机变量)的各项影响因子之后,就得到了一个大致的关系式。当出现一个新情况时,把各项数据代入关系式,便可得到一个预测值。在此值的附近,可以找一些已有的样本,作为可采用的行动。究竟采用哪个,都是有风险的;但只要最终结果没有偏离预定目标太多,便算决策成功了。如果偏离目标太多,可能是过去的样本漏掉了某个影响因子,那就当个教训,下次再调整;更大的可能是,决策者不采纳统计数据,一意孤行,遭致恶果;这只能咎由自取了。