高等随机过程的理论基础
文章来源: 丁一男2015-02-27 21:14:33
高等随机过程的理论基础
by aDdNOX
0. 前言
这篇文章的本意是在Financial Engineering 这门课的基础上,从理论和直观两种角度一些课
上一笔带过的概念,并且更重要的,告诉读者为什么数学家会创造这些抽象的概念。但是
必须说明,这篇文章仅仅适合那些对课堂上的内容(理论部分)疑惑不解的人,那些了解
了数学形式但是不知道为何要进行类似的数学定义的人(这里将不涉及技术上的数学处理,
比如一些性质的证明),以及在数学和直观上都能较好的理解课堂内容,但是隐约觉得老
师的陈述并不严密的人(对于这些人,你们的敏锐直指Bauer 的软肋,他的陈述的确远远
不够严密)。而对于头疼考试的同学来说,我可以很负责任的告诉你们,理解不理解这篇
文章,对考试影响不大。
如果阅读中发现我前言不答后语,那纯粹是由于分时段写作造成的,请务必不要怀疑我的
语言能力……
1.测度论与公理化的概率理论
测度(measure)是对一切测量标准(如长度,重量等)的数学抽象。抽象后,测度的直
观含义可以理解为,为每一个集合分配一个实数编号,从而这些实数编号之间的大小是有
意义的(可以通过比较实数编号的大小来比较集合的性质(如长度),并且这些实数编号
之间基本代数运算(加法和乘法)结果也具有意义(如两个东西合起来称重量,等于两个
东西分别称重后相加)。以上的性质,是进行测量所需要的性质,现实中如果两个长度无
法比较,或者两个物体的重量之和不是它们的总重量(现实中这一点似乎有些可笑,甚至
可以被认为是文字游戏,但是数学上,重量之和与合起来的重量是两个完全不同的定义,
后面我们将看到类似这样的定义,因此,二者是否相等,在数学上并无必然结论,希望二
者相等,只不过是为了让测度这个数学概念接近现实),那测量结果就毫无意义。
题外话,数学并非科学,而是一个极端随意的学科,其随意性表现为:我们可以选择去相
信任意的公理,而仅仅需要让这一组公理推导出的任何结论不互相矛盾,并且不与公理矛
盾,这一点要求,被称为公理系统的自洽性(consistency)。任何自洽的数学体系都是数
学上完全正确的。而实际上,人们由于受到对现实世界感知的影响,对一些公理有着自然
而然的甚至是无意识的偏好,比如欧式几何的第五公设的一个等价形式是:过直线l 外一
点只有一条直线与l 平行,千余年来人们相信它的唯一原因就是,我们无法画出两条与l
平行的直线,却一定可以画出一条这样的直线。但是这个公设独立于欧式几何的其他所有
公理,无法被证明或证伪,因此,数学上,可以将其换成其他的,同样不与其他公理矛盾,
并且也不会推导出矛盾结论的公理,并产生出新的几何学。事实上,两种非欧几何就是建
立在这样的创造上,罗巴切夫斯基假设至少能做出两条与l 平行的直线,因此创造了双曲
面几何;而黎曼认为一条平行直线也做出不来,因此创造了球面几何。而欧式几何是建立
在平面和欧空间里的几何。那么,那种几何是正确的呢?一直以来人们都认为虽然三者都
2
是数学上正确,但是只有欧式几何是事实上正确(或说物理上正确)的,因为人们相信,
我们生活的空间是欧空间。但是高斯早就提出,我们生活的宇宙在相当大的外围内看是一
个球空间,因此黎曼几何(球面几何)也是物理上正确的空间。而相对论也是通过黎曼几
何确立的,相对论的正确性也可以从一个侧面佐证黎曼空间的物理正确性,以及欧空间的
近似性。
回到我们对测度的讨论,我们希望两个测度之间可比、可加,也希望被测量的集合也有可
加等性质,这个要求是来源于实际,但是在数学上并没有必要。正如我们可以规定,1 米
比3 米长,2 斤加5 斤等于6 斤一样。这样的规定在数学上毫无错误,只不过因为与直觉
不符而容易产生混乱罢了。
在数学上,测度即是,创造出满足我们要求的(大小可比较,基本运算有意义等)的集函
数,该函数将任一集合映射到一个实数上。
想要测度,就必须有可以被测度的对象,假如我们以所有可能发生的结果组成的集合为全
集,那么每个结果就是一个元素,而不是一个集合。这样一来,集函数的自变量就无从说
起了,一个自然的想法是,把全集的所有子集一一列出,构成一个集合,我们将集合的集
合称为集簇,并且特别的,将这个由全集的全部子集(自然也包括全集本身和空集)构成
的集簇,表示为P??? 。
既然所有的P??? 的元素都要被赋予一个测度,那么我们自然而然的希望这个集簇有如下
性质:其中所有元素对交、并、补三种集合运算封闭(实际上对交并封闭可推导出对补封
闭)。之所以有这样的要求,是为了让我们之后的一切运算以及结论不至于对一些集合失
去意义。比如,我们发现a+b=b+a,即实数域下的交换律,但是如果有一组a 和b,满足
a+b=c,且c 不属于我们讨论的集合范围,那么交换律就失去意义了。更具体的说,如果
我们讨论的集簇是(0,1),每个其中的实数是集簇的一个集合,接着,我们定义集合的
交运算即为实数代数下的加法运算,那么交换律在这个集簇下不成立,因为0.8+0.9 不在
我们的集簇内。我们在这个时候,甚至不能说0.8+0.9=1.7。
当P??? 中的元素个数有限时,上面的封闭性的要求必然被满足,也就是说,我们可以将
??,P???,??当作一个测度空间,其中? 为定义在P??? 的测度。
但是,一个问题相应出现:
问题1.1:上述测度空间的定义能否拓展到? 有无限个元素的情况?
现代数学的最大成就之一,就是对无限这个概念进行了严格定义,从此以后,所谓的无穷
大、无限或者无穷小,都不再是只可意会的概念,这一点,我们将在稍后涉及。
但是现在,有一个观念必须大家必须牢记:有限条件下的数学性质未必能推广到无限条件
下。既然如此,问题1.1 就不再是一个平凡的问题了。
3
但是在回答这个问题之前,我们必须明确区分两种无限:可数无限和不可数无限。
数学上的无限和我们日常生活中的无限是有区别的。在数学上,有两种无限,都是被严格
定义的,一种被称为可数无限(countable),即这一组无限的元素可以和自然数一一对应,
即可以被自然数编号,比如,偶数就是可数无限(因为偶数自然而然可以排成第一个偶数,
设定为0,第二个偶数,设定为2,第三个偶数,‐2,第四个,4)。我们称一个无限序列
的“个数”为这个序列的基,虽然所谓“个数”根本不存在。
还有一些无限集合无法完全由自然数标示,比如全体实数,其证明由现代集合论的创始人
Cantor 以对角线法证明。一个题外话是,实数的数量,被称为连续统(continuum)。根据基
的概念,我们可以得到一个结论:连续统的基要大于可数无限的基。
现在只需要知道,凡是由1,2,3 到无穷的运算,都是可数无穷运算。可数无穷运算的典
型代表就是数学归纳法。而现实中,人们是如此混淆可数无穷和不可数无穷,以至于出现
了一些几千年都未能解决的悖论。比如,芝诺的阿基里斯悖论:奔跑中的阿基里斯永远也
不能超过在他前面慢慢爬行的乌龟,因为他必须首先到达乌龟的出发点,而当他到达那一
点时,乌龟又向前爬了,所以仍在他前面。重复这个论点,我们很容易看出乌龟总是在前
面。这个悖论之所以是错的,因为芝诺的证明是在无限个时间点上使用了数学归纳法,但
是问题在于,时间是连续统,因此是不可数无限。对不可数无限序列采用数学归纳法,其
结论自然是不可信的。
在了解了这两种无限以后,我们终于可以回答问题1.1 了:
任何一个满足大小可比较、基本运算有意义的测度,都不可能对一个基数大于等于连续统
的集簇中的每一个元素都有定义。
那么,一个新的问题是:
问题1.2:我们是要放弃一个良好的测度,从而让其能测量所有全集的所有子集呢,还是
放弃测量全集的所有子集,但是保证测度有良好性质呢?
现代的分析学家选择了后者,因为一个性质不好的测度,根本就不能有任何稳定的应用,
这就好比如果一磅苹果和另一磅苹果共重两磅,但是一磅橙子和另一磅橙子却共重一磅一
样。
问题1.3:我们应当选择什么样的集簇来代替P??? ?
显然,这个集簇必须对交并补封闭,但是同时,因为它的元素是无限的,我们必须要求一
些无限下的新性质,我们知道,补运算只涉及全集和一个集合,但是交和并可以涉及多个
集合。那么,我们要求封闭性,是不是也应该要求无限个集合的交运算和无限个集合的并
运算都封闭呢?在回答问题1.3 之前,我们不可避免的触及了一个新的问题:
问题1.3.1:满足有限交、并封闭,能不能推出满足无限交、并封闭?
4
这个问题的答案是否定的。我们如果需要一个代替P??? 的新集簇对无限交和无限并封闭,
那必须把这一条加入其定义中。
问题1.3.2:所谓的无限交和无限并,是基于可数无限还是不可数无限?
这个问题是很自然的,但是也是很深刻的。其实,我们基于可数无限定义无限交和无限并,
这是因为前面已经说过,人类逻辑从有限推理到无限,唯一值得依赖的工具就是数学归纳
法,任何超出数学归纳法的推理范围的无限问题,都有可能导致悖论。
实际上,作为数学基础的公理化集合论,其自洽性尚未被证明。因此,在这个尚可能存在
瑕疵的体系中,谨慎的使用公理是明智的。既然可数无限已经让我们绞尽脑汁,因而必须
为其单独设立公理,那么我们还是不要讨论不可数无限为好。
于是,公理化集合论中为所有数学家公认的关于极限的公理就只有“承认数学归纳法”,
或其等价形式“承认自然数的良序性,即一堆自然数中必有最小值”(注意,数学家甚至
不要求其必有最大值,必有最大值这个性质没有被当作公理,而是被其他公理推导出来的。
但是,为了避免被人抨击说我不严密,我还是要说一句,的确有一个叫做选择公理的集合
论公理,它提到的无限概念不区分可数或不可数。但是这个公理的使用是备受争议的,使
用它,是因为一旦有这个公理,很多艰难的数学推理都会变得简单,甚至有了它,数学归
纳法都不需要作为公理,因为选择公理可以推出数学归纳法成立。但是选择公理却能推导
出明显与直觉相悖的结论,比如分球悖论:根据选择公理,一个实心球被拆成有限块以后,
可以被重组成两个和原来的实心球一样大的实心球。
为了直觉而放弃对不可数无限的定义,还是为了良好的数学性质而无视与直觉相悖的结论,
这个直到现在还被数学家争论着。
需要说明的是,近代数学家极力想找到一个自洽的数学系统,并且证明这个系统是自洽的,
但是哥德尔不完备性定理讽刺的指出:任何自洽的理论体系(不仅限于数学),都不可能
被证明是自洽的。
问题1.3.3:可数无限交和可数无限并这两个条件,能不能被进一步简化?
到现在为止,我们终于遇到了一个有肯定答案的问题。我们可以仅仅保留可数无限并封闭,
并且通过它定义出一种新的集簇,即? ‐代数。
? ‐代数是代数(algebra)的一种,有时人们也称它为? ‐域,但事实上它不能被称为一个域,
关于域在抽象代数中的概念,有兴趣者请自行查阅相关资料。代数的本质是一个集簇,代
数的性质十分重要,但是仍然不能满足我们的要求。因为我们对无限条件下的运算的性质
仍然一无所知。比如,我们知道一组有限个集合, 1 2 , ,..., k a a a ,(其中k 为任意自然数),
的并运算在代数下封闭,但是一组无限个集合的并运算是否封闭呢?答案并不确定。可是,
无限运算在涉及到连续随机变量时非常重要,所以我们必须保证无限运算的封闭性。一个
5
办法是产生一种建立一个新的代数,即? ‐代数,该代数除了满足一切代数都具有的交并
补封闭性以外,对无限个元素的并运算依旧封闭,即无限个元素的并集仍然属于该集簇
(也即该? ‐代数)。
于是,一个更广义的测度空间??,?,??定义完成,它由三个要素组成,即全集? (必须
为开集,这一点现在不需深究),? ‐代数(也被称为Borel field 或? ‐field,注意与Borel
? ‐algebra 区别,Borel ? ‐algebra 表示由一个拓扑空间内的开集簇产生的最小? ‐algebra,
我们将在之后涉及) ? 以及测度? (即上面说的集函数)。
而一个可测空间的要求稍微弱一些:不要求知道测量标准,只需要知道一堆集合能不能具
有良好的可以被测量的性质。也就是说,我只需要知道面前的一堆石头能不能被称重,而
不管重量的单位是公斤还是磅。因此,可测空间仅仅为??,??。
之前我们说过,希望被测量的事物具有良好的性质,? ‐代数的作用就是把? 的所有子集
构成的集簇(集合之集合)进行缩减,变成一个性质量好的集簇。
需要注意的是,至此,我们的待测集簇已经具备了全部我们希望有的性质(各种封闭性)。
下面,我们重点讨论测度。
测度的本质是集函数,这个函数自然是任意的,但是之前说过,我们还是希望其具有一定
的性质。以下性质都是我们希望的:
1. 对于? ‐代数的任何子集都有定义,其中空集的测度为0
2.不相交集合的并的测度等于各集合测度之和(即我们之前说的,和的重量与重量之和)
该条件不仅对有限个集合有效(有限可加,finite additivity),对可数无限也有效
(countable additivity),不可数无限的性质我们不作要求。
至此,我们规定了测度空间的全部性质:
对于? ‐代数,我们要求(1)包含空集,(2)对补运算封闭,(3)对可数并封闭
注意,对可数并封闭可以推导出对有限并封闭,因为可以从第k 个元素之后,每个元素都
为空集,这样的无限集其实就是有限集。而有限并和补都封闭,可以推导出交运算封闭。
最后,包含空集并且对补封闭,即可以推出包含全集。因此,以上三个性质满足了我们对
? ‐代数的全部要求,并且更为简练。
同样,对于测度,我们要求(1)测度为正,并且空集的测度为0,(2)不相交可数无限
集合的并的测度=各集合测度之和。
同样,可数无限成立蕴含着有限成立。
6
最后,我们将测度空间的概念照搬到概率空间上。概率空间的作用是,为? ‐algebra 里的
每一个元素(事件),通过测度,赋予一个实数(概率)。
对于这个空间,我们只需要改造一下测度的定义,除了要求之前的两点性质以外,我们还
要求任何测度值在0 到1 之间,并且全集的测度为1。然而,我们需要注意的是, ? ‐
algebra 中的元素个数可以是不可数的,比如股票价格,其定义在正实数集上,因此是不
可数的。
从此以后,我们用??,F,P?表示概率空间。
2. 随机变量
在对概率空间进行了定义以后,我们仍然希望一个特别的性质,那就是我们希望能用实数
唯一地表示全集? 里的所有集合,从而让集合运算转化成我们熟悉的实数下代数运算。
需要说明的是,要想让全集内所有集合被实数标识,那就要假设全集内集合的基数不大于
实数的基数(连续统)。但是实际上,根据集合论的假设,在无限集的所有基数中,连续
统是除了自然数集基数以外最小的基数。因此,这种用实数标示不可数无限全集所有元素
的愿望,未必能够成功。不过,我们暂时不考虑这个问题。
如上所述,我们需要一个函数,满足如下映射关系: ? ? ? ,即将全集映射到一维实空
间上。这个函数就是我们所说的随机变量。因此,随机变量无非是一种把非数字化集合元
素进行数字标记的方法而已,比如,把硬币出现正面标记为1,背面标记为0。
除了要求随机变量的定义域和值域,我们还要求这一映射具有一个性质:该随机变量存在
累计密度函数cdf。这条性质等价于:对于X : ? ? ? ,我们有:对于一切
x??,??:X????x??F。
即,所有满足该随机变量小于一个给定实数的集合都是可测的,注意,既然
??: X ??? ? x?是一个集合,且这个集合可测,那么集函数(测度)? 必然可以将这个集
合转化为一个实数(即累计概率)。所以不难看出:
? ? ?? : ? ? ?? X F x ?? ? X ? ?x ,等式左边即cdf。
因此,一个满足上述cdf 性质的, ? ? ? 的函数,就是我们所谓的随机变量。但是,另
一种等价于cdf 性质的表述方式更为基本,虽然更难以理解。这个更难的性质,就是所谓
的一个函数的可测性(measurable)。要解释函数的可测性,需要一些其他的知识,我试
图用直观却不甚严格的语言表述来说明这些性质。
在进行解释之前,我们先看一下随机变量的最一般定义:
7
X 被称为随机变量,当且仅当在概率空间??,F,P? 上定义的函数X : ? ? ? 是对于
F,B(?) 可测的(即对于所有A?B(?), X ?1 ?A??F),其中F 为概率空间的? ‐
algebra,而B(?)为由一维实空间内包含所有闭集的博雷尔集簇,我们将在之后对其进行
详细的说明。
这个定义其实说的就是:首先,要给每个全集里的元素赋予一个实数;其次,不能随便分
配实数标记,我们还必须要求分配完实数后,这些实数有如下作用,即不仅能标识全集的
元素,并且还能标识全集的任何一个可测的子集(即属于? ‐代数的任何元素)。简单的
说,以掷一次硬币为例,定义X : ? ? ? ,相当于对{正面}和{反面}这两个全集的子集进
行了定义,比如正面为0,反面为1。但是,我们没有定义类似“正面或反面”这种事件,
那么,随机变量的“0 或1”所代表的事件“正面或反面”是不是也有一个概率呢?或者
更数学的说,一旦定义了X :? ? ? 了以后,实数集的任何交集、并集或补集(即实数集
的? ‐algebra,? ‐algebra 中的元素),能不能反过来在事件集(即F )中找到对应的事
件呢?
注意,上面这段话在数学上的逻辑容易造成混淆:我们并没有要求一种映射方法(即用实
数标记集合元素的方法),用它来标记全集的所有元素以及? ‐代数的所有元素。我们是
在要求一个能标记全集所有元素的方法,并且进行标记了以后,不仅每一个实数在全集里
有对应的元素,每一个实空间的子集,在? ‐代数里也有对应的元素。前一种标记方法,
是为每个? ‐代数的元素也标记实数,而后一种方法,而后一种方法明确规定用实空间的
? ‐代数的元素,而不是实空间本身的元素,来标记全集的? ‐代数的元素。
以上的这段话或许需要不断的理解才能体会。可一旦体会了以后,或许还有一个问题会被
提起:既然要求用实数的? ‐代数来表示全集的? ‐代数,那么为什么不把定义写成:
X :? ? ? 满足对所有A? F ,都有X?A??B(?) 呢?
因为上面的表述可能会导致一部分实数或实数集的运算找不到与之对应的可测事件(即与
之对应的? ‐代数的元素)。而这样的问题又会导致定义在概率空间的值域(即X ??? )
上的实数运算可能不封闭。关于不封闭的可能性,我们仍以上面的掷硬币为例,如果一部
分实数没有被定义,那么我们只能知道P?X ? 0? 和P?X ?1? ,却不能知道P?X ?1?,
因为小于1 的所有实数,除了0,一个都没有被定义。我们要让所有不可能取到的实数值
对应的事件的测度为0,但不能不对其进行定义。
因此,必须反过来要求每一个实数或者实数域(即所有A?B(?)),都有意义(即
X ?1 ?A??F)。
在对这个随机变量的正式定义有所了解后,我们再来解决最后一个问题,即这个定义中的
一个到现在还没有解释的符号B(?)。
8
要理解B(?),首先要知道什么是由一个集簇生成一个代数。我们知道,代数是一类集簇,
只不过它对于交并补封闭;而? ‐代数又多了一条对可数并(可数并即可数无限并)封闭
的性质。那么,一个普通的集簇是不是能通过扩充,变成一个封闭性好的集簇,甚至变成
一个? ‐代数呢?而所生成的这些? ‐代数当中,是否一定有一个最小的? ‐代数呢。答案是
肯定的,任意集簇A 存在其的最小? ‐代数,我们称该最小? ‐algebra 为由A 生成的代数,
记为:? A 。
应当想到,如果对集簇A 施加一定的性质,那么? A 的性质也应有所变化。Borel ? ‐
algebra(以后成为博雷尔集簇)正是这样一种对A 进行更严格的限制的最小代数,其定义
需要涉及拓扑空间和度量空间的定义和有关性质,不过因为我们仅仅需要讨论定义在实空
间内的博雷尔集簇,所以我将尽量省略关于拓扑空间和度量空间的说明,仍然以一种并非
完全严格的方法说明博雷尔集簇。
正如刚才我们一步一步的分析指出的,数学上的定义都是来源于某种需求的、我们不能无
缘无故就对一个已经完整的定义继续增加性质,那么,最小? ‐algebra 已经是一个很完整
的概念了,我们为何还需要继续对它进行限制呢?
其原因在于,虽然任意闭集簇(闭集构成的集簇,因为我们只讨论一维实空间,所以现在
可以认为闭集就是实数轴上的闭区间)的交集仍然为闭集,任意有限闭集簇的并仍然为闭
集。但是可数无穷个闭集构成的集簇并不一定是闭集(我们再一次见到了,有限条件下的
性质未必可以直接推广成无限下的性质)。这一点比较容易看出:将每个有理数作为一个
集合,那么每个集合都是闭的(每个都是形如[2]或[0.9]这样的闭集),但是所有这些集合
的并集,即有理数集,却是开的(即找不到一个有理数大于或小于其他全部有理数)。既
然完全由闭集不可能构成代数(因为其不满足可数无限并的封闭性), 那么我们如果想要
研究包含所有闭集的? ‐algebra,那这个代数里,必然还包含有开集。
博雷尔集簇就是这样一种最小? ‐algebra,它包含所有的闭集(因此也不可避免的包含一
些开集)。需要说明的是,博雷尔集簇也可以定义为包含所有开集的最小? ‐algebra,甚
至可以有其他的一些限制条件。但是在概率论的讨论中,我们一般使用包含所有闭集的博
雷尔集簇进行分析。
至此,我们知道了,随机变量是一个全集到实空间的可测函数。而可测性的定义,我们既
可以从存在cdf 来理解,也可以从为了满足所有实数或实数域都有对应的概率事件来理解。
其实可测性还有第三个理解,这个理解是纯数学的。即便我们讨论的不是概率空间,可测
性的要求还是重要的。因为就函数的可测性,表示该函数在其可测的空间内性质良好。具
体来说,其实是出于对函数连续性等更特殊性质的要求:不满足可测性的函数不可能连续。
最后需要说明的,是关于随机变量的概率的定义。我们已经通过概率空间的测度,定义了
概率事件(即? ‐代数的元素)的概率。但是用来表示概率事件的随机变量,是否也能有
与概率事件一一对应的概率呢。这个问题也可以表述为:
9
如果我们知道了随机变量的一个取值范围A,那么如何得到随机变量落在A 之间的概率呢?
我们需要把随机变量还原为概率空间里的集合,那么,实数取值范围A 对应的概率空间内
的事件无非是X ?1 ? A? ,即用逆映射把A 映成全集的一个子集。根据随机变量的定义,我
们已经知道,映回的这个全集的子集属于代数F。既然其属于F,那么集函数P 就可以赋
予它一个测度,即概率。
上面的表述的数学形式无非是: ? ? ? 1 ? ??
X P A ?P X? A ,对于所有A?B(?)
通过上式,我们不难看出,定义X ?1 ?A??F
的重要性,如不定义,那么其未必有测度,
因而P?X?1 ?A??
未必存在。
3. 随机过程的定义及其收敛性
在这一部分中,我们定义了随机过程,并且更重要的,通过研究收敛性,为今后关于随机
过程的证明注入了严密性。
随机过程无非是一个以t 为标记的随机变量族,记为? ? t t T X ?
。其中T 可以是全体非负实
数集,也可以是离散的全体非负整数集。一般在金融的应用中,t 代表时间。
这个定义本身是十分简单的,但是,我们的初衷是为了要概率运算能够在实数范畴下进行。
一个很自然的类比就是:随机变量与通常意义的变量相对应,而随机过程与通常意义的函
数相对应。
因为随机变量的值域定义在实空间上,因此以随机变量的值为某一点的函数值的随机过程,
自然也被定义在了实空间上。但是需要注意的是,作为一个实变函数,随机过程的自变量
定义在集合T 上,因此,其自变量依旧是实数(或正整数,由于金融研究将股票价格视为
连续时间下的现象,因此我们重点考虑T 为正实数集的情况)。
至此,我们终于把我们要研究的随机现象完全的定义成了???的实变函数。(其实这
个说法是不准确的,???的函数不可能是随机过程,而是一个确定性的函数,不过目
前我们可以如此理解。)
处于严密性的考虑,我们必须证明如下命题,即研究上述的实变函数,等价于研究在时间
t 下一系列可测集(即随机变量)的性质。但是由于这一数学工作极其细致,我们将默认
这个命题是成立的,并且以后将所有随机过程在实变函数范畴内的研究,与真实的集合和
测度联系起来。
然而,另一个严密性的考虑是我们无法回避的,这也是我在前言中所提及的,“课上相当
一部分证明是不严密的”的原因。一旦我们进入了随机的世界,就无法对任何事情给出确
定的证明。
10
比如,课上我们试图证明: ? ? 1 ? 1 ? sup k n k k W t W t ? ? ? ? ? ? ?
但是,这样的证明是有意义的么?当我们以不同的分割方法将[0,T]进行分割,再进行上述
运算时,我们很可能得到不同的结果。而出现什么样的? ? ? ? 1 1 sup k n k k f t f t? ? ? ? ? ,也就
自然而然是随机的。那么,如何判断这个新的随机变量等于无穷的?是要求它每次都等于
无穷,要求它在极个别情况下(这些情况的概率为0)可以不等于无穷,还是要求它不趋
近于无穷的可能性接近0,或者是要求它的期望值(或者更高阶矩)趋近于无穷呢?上面
的三种说明? ? ? ? 1 1 sup k n k k f t f t? ? ? ? ? 趋近于无穷的方法,各自似乎都有道理,但是三者
其实并不等价。
上面讨论的是如何定义一个随机过程趋近于一个给定的数,或者另一个趋近于另一个随机
变量。但有时候,我们还希望知道一个随机变量的分布,是否与另一个相同,这时候,我
们还需要分布趋近分布的定义。
如何定义趋近,在随机过程中是十分重要的。同时,我们还将发现,重新定义极限和积分
等实变函数下的分析性质时,我们都无法回避随机性的问题,因此原本可以使用确定的等
号的地方,我们都必须以一种趋近方式来代替。
下面,我们就将上述的几种趋近方式一一数学化,而所谓趋近,在数学上的正式称谓即是
收敛:
首先,是绝对收敛,也就是我们在实变函数中最常用到的收敛概念,这里不再进行细致的
说明。其大概含义就是,随机变量的每一种取值情况都收敛于同一个值。
其次,是almost sure (a.s.)convergence。用测度论的语言表述,就是一件所有不满足给
定性质的元素构成的集合测度为0(在概率论中,是几乎必然收敛,在测度论中,是几乎
处处收敛。那么,其对应的概率语言无非是:
对于一个随机过程? ? n X ? ,我们有? : lim ? ? ? ?? 1 n n
P? X ? X ?
??
?? ? ?
这种收敛是性质最强的收敛,被称为几乎必然收敛,或者依概率1 收敛。记为:
. . n X ?X as或者. .1 n X ?X wp
了解了几乎必然收敛的含义,我们就能理解为什么“以概率1 发生的事情,不是一定发生
的事情”了。
第三,是convergence in probability,即依概率收敛。它的含义比依概率1 收敛稍弱,意为:
如果不能保证n X 不趋向于X 的测度为0,那就要求二者之间有差别的概率随着n 的增大
而趋近于0。其定义为: lim ? ? 0 n n
P X X ?
??
? ? ? ,对于任意? ? 0 。
11
记为,
p
n X X ? 。
注意,依概率收敛是要求P 收敛,而不是要求n X 收敛。
第四,是Convergence in r‐th moment,即r 阶平均收敛。定义为r 阶中心矩收敛于0:
lim ? ? 0 r
n n
E X X
??
? ? ,特别的,当r=2 时,该收敛为均方收敛,convergence in mean
square。
最后,是Convergence in distribution,依分布收敛。定义很简单,即:
lim ? ? ? ? n n
F t F t
??
? ,其中? ? n F t 为n X 的分布函数,F?t? 为X 的分布函数。
以上四种收敛方式的强弱关系如下:几乎必然收敛? 依概率收敛? 依分布收敛。并且
高阶平均收敛? 低阶平均收敛? 1 阶平均收敛? 依概率收敛。
如果细心的话,或许会发现上面的结论与课堂上的内容似乎有些矛盾:如果高阶平均收敛
能推出一阶平均收敛,那么为什么布朗运动满足bounded quadratic variation,却又有
unbounded variation 的性质呢?
这是因为上面的两个性质,即前者收敛于无穷,后者收敛于T,都是在证明几乎一定收敛。
虽然二者有类似一阶和二阶平均收敛的形式。
更详细的:
前者在证明: ? ? ? ? ? ? 1 1 sup 0 k n k k P Wt W t ? ? ? ? ? ? ? ?
而后者在证明: ? ? ? ? ? 2 ?
1 1 1 k n k k P Wt Wt T ? ? ? ? ? ? ?
此后,我们必须注意,任何涉及“趋近”(即有?符号)或者“在极限下”(即有lim 符
号)的性质,都必须通过一种收敛方式加以证明,但是,不涉及此两者的性质,如期望,
一般来说不需要强调使用收敛方式。
4. 随机过程的抽象理论
在这部分中,我们试图了解什么是Filtration 以及adapted to filtration。
之前我们说过,把随机过程当作???是错误的。随过程本身,是一个事件和时间两个
变量映射到一维实空间的函数。即,F: ??T?? 。记为W?t,? ?。
12
但是我们会发现,我们之前一直使用的的概率空间中因为缺少时间这一要素,所以没有一
个事件可以表示一个完整的,时间从0 取到无穷的(或者次数从1 取到n 的)随机过程。
仍以掷硬币为例,两次投掷的结果可以看作一个简单的随机过程,但是我们的概率空间是
定义在一次投掷结果上的,显然它无法对两次的结果加以表述。
那么一个比较自然的想法就是,对原本的概率空间进行扩充。
最简单的情况是,T 只取1 和2,即只有两个前后发生的事件。那么全集就变成了?2 ,即
两个空间的直积(可以想象成x 轴和y 轴的的点分别由? 构成的一个平面,也即2 维? 空
间)。这样一来,全集不再是一个个可能发生的事件,而是一组类似 <事件1,事件2> 这
样的有序事件对。
而? ? 代数就被替换成了?2 的全部子集构成的集合。这里需要说明的是,之前,我们曾
经因为无法给全部子集构成的集合一一分配测度,而不得已使用了? ? 代数,但是,当全
集为有限或可数的时候,全部子集构成的集合是可以一一分配测度的。所以在讨论只有两
个先后发生的事件的概率空间时,我们不需要使用? ? 代数的概念。注意,此时该集合里
不再存在诸如{第一次硬币出现正面}这样的事件,其中的元素除了空集和全集以外,必须
是有序事件对。那么,{第一次硬币出现正面}这样的事件该如何测量概率呢?这个事件无
非是{第一次硬币出现正面,第二次结果任意}这个集合的测度,可见,{第一次硬币出现正
面}在新的2 维? 空间里,有一个类似直线的结构存在。换句话说,低维空间里的随机变
量,在高维空间内仍然是随机变量。这就好比低维空间的向量也是高维空间的向量一样。
上面的话可以概括为,“先发生的事件”和“一系列后发生的事件的集合”之间可以建立
一一对应。我们将稍后扩充这句话的含义。
最后,测度仍然是为全部子集构成的集合分配一个实数(而不是两个实数)。正如,硬币
先出现正面,再出现反面的测度,必然是一个实数。
这样一来,我们就可以用一个扩充的概率空间来定义出一个极其简单的“随机过程”,对
于有限个n,这样的概率空间无非是? N, , ?
N N ? B P 。但是,当n 趋近于无穷时,甚至我们
面对的不是可数无限的n,而是不可数的连续时间T 时,类似的定义便未必生效了。但是,
我们仍然不加证明的认为存在适当的? ? 代数和测度,使此二者与?T 能构成概率空间。
关于不可数无线维概率空间的? ? 代数的一个特别之处在于:既然“先发生的事件”(一
组集合,我们称之为集簇A)和“一系列后发生的事件的集合”(一组人为选定的集合,
我们称之为集簇B)之间可以建立一一对应(即同构,我们可以简单的把两个同构的空间
认为是数学上性质完全相同的空间),那么前者生成的? ? 代数自然也要和后者生成的
? ? 代数一致,否则,{第一次正面}和{第一次正面,第二次为正面或反面}的概率就可能不
相等。然而,“一系列后发生的事件的集合”的选定方法还有很多,比如除了{第一次正
面,第二次为正面或反面}以及{第一次反面,第二次为正面或反面},我们还可以选择{第一
13
次正面,第二次为正面}等四个集合。也就是说,集簇B 包含于?2 可以产生的所有子集构
成的集合(表示为P??2 ? ),而A 和B 同构,则说明,A 也包含于P??2 ? 。
如果将这个性质加以推广(需要更严密的证明),我们就得到了分层代数(filtration)的概念:
如果nF?F,且? ? 0 1 2 , n F? ? ? ?F? F ??? F ??? F ,则称? ? n F 为filtration。
Filtration 的定义,让我们能够说明一个随机过程是不是“可测的”,如果一个随机过程在
任何一个给定时点t,都有1
t t X? ?F,那么我们也就知道了,每个随机变量对应的事件都
是可测的,这被称为adapted。
5. 经典积分理论及其面临随机性时的局限
积分论本身,就是定义积分,并且研究该定义下的积分是否存在的数学,经典的积分形式
包括黎曼积分和R‐S 积分,我们将会说明,随机过程的积分在这两种积分定义下都不存在。
这一节的目标,是要找到一种定义形如?, ? ?, ?
b
a
?W t? dB t ? 的积分,其中被积函数和微分算
子后的函数都为随机过程,特别的, B?t,? ? 为布朗运动。我们的要求不算苛刻,我们可
以让这被积函数是连续的(实际上随机过程不需要连续),但是其必须都是处处不可导的。
下面,我们就来寻找一种积分定义,能够让上面的随机积分有意义。
但是被积函数W 如果是随机过程,将会涉及一个新的问题,即不同的随机过程的路径,
很可能产生不同的积分值,我们还必须保证这些积分值收敛于同一个值。这一点经典积分
理论是无法定义的。因此不试图定义?, ? ?, ?
b
a
?W t? dB t ? ,而是去定义? ? ? , ?
b
a
?W t dB t ? ,其
中W?t? 不再是随机过程,而是一个我们很熟悉的确定的实变函数,但是B 仍是布朗运动,
那么我们能不能给其一个定义呢?为了区别随机过程与一般函数,我们将上述需要定义的
积分记为: ? ? ? , ?
b
a
? f t dB t ?
首先,我们来回顾一下我们在实变函数微积分下一直使用的黎曼积分的严格定义,我相信,
很多人对于黎曼积分是有误解的。我将用附注的形式说明这个定义的含义。
令f 为定义在闭区间[a,b]的有界实值函数,且令0 1 n a?? ?? ???? ?b为[a,b]的一个
划分(这样的划分方式可以有很多种,记住这一点,对理解后面的内容很有帮助)。
对每个划分我们定义和式,并满足? ? 1 max i i ? ? ? ? ? ? ,? 为任意大于0 的实数,之后我们
将这一性质称为0 n ? ? :
14
? ? ? ?
? ? ? ?
1
1
1 1
1 1
sup
inf
i i
i i
n
i i i
x
n
i x i i
S fx
s fx
? ?
? ?
? ?
? ?
?
?
? ?
? ?
? ? ? ?
? ??? ??? ?
? ??? ??? ?
?
?
(比较? ?? ? 1 1
n
i i i f x ? ? ? ? ? ? ,可见S 即把函数换成了每一小段的函数值的上确界(即最小
的上界),而s 是将其换成了下确界,因此必然有s?S)
接着定义黎曼上积分与下积分分别为:
? ?
? ?
inf
sup
f x dx S
f x dx s
?
?
?
?
?
?
(注意,S 与s 仍然是两个变量,二者都随着划分的不同而不停变化,因为s?S,所以上
积分依然不小于下积分)
当上下积分相等时,则称f 黎曼可积。
我们应当注意,当我们理解积分时,往往认为积分是将一个区间划成无数个小段,但是实
际上,这种说法是不准确的。这种说法的数学表示是n ? ?,而我们要求的是
? ?1 max 0 i i ? ? ? ? ? 。这二者有一些微妙的区别,即后者并没有要求闭区间[a,b]要被无限
细分。那么为什么我们不假设n ? ?呢?这是因为要求n 趋近于无穷,就要讨论由有限到
可数无限时,S 和s 有没有性质的变化。但是,采用黎曼的定义,我们就避免了这样的讨
论。注意, ? ?1 max 0 i i ? ? ? ? ? 是否一定意味着n ? ?,是需要证明的,而不能根据直观
的感觉判断。
实际上,黎曼积分回避了的可数无限求和的问题,但是有限段的x 不可能表示变化极其复
杂的函数,这个问题在勒贝格积分中才得到解决。(黎曼积分的直观做法是选一段x 的取
值范围,乘以函数值f 构成一个小竖条,并将很多类似的小竖条加总,用来估计函数下面
积;而勒贝格积分另辟蹊径,它是取一段函数值f 的范围,然后看哪几段x 能产生满足条
件函数值,将二者相乘,变成一个个小横条,并将之加总。这一点,涉及求一系列很可能
是无穷多段x 的总长度,这在测度论之前是无法做到的,但是有了测度论这一工具,这些
总长度无非是满足给定函数值范围的所有x 的测度。)但是,Ito 积分并没有定义在测度
论的基础上,而是改造了R‐S 积分,这就导致我们后面将会看到的一个现象:Ito 积分依然
无法对一些极其诡异的随机过程的积分进行定义。
15
我们之所以要在讨论Ito 积分之前讨论黎曼积分,主要是为了说明,积分不仅仅是简单的
求和,因为求和的结果? ?1 ? 1?
n
i i i f x ? ? ? ? ? ? 依然是随机的,但是,一旦积分存在,它就是
确定的。讨论积分,不可避免的要讨论可积性,即积分的存在性。
比如黎曼积分不能解决不可数无限的分段求和问题,但有的时候,我们的确会遇到类似问
题,比如函数在x 为有理数时取1,无理数时取0,这种函数的积分。不过好在,在金融
学的应用中,这样的积分暂时看来还没有意义。
那么,什么样的函数是黎曼可积的呢?首先,我们在黎曼积分的定义中,已经要求其具有
有界性,简单的说,就是函数的最大值小于正无穷,最小值大于负无穷。其次,我们根据
以往微积分的经验,也知道f 连续则必然可积。
最后,也是最重要的一个条件: f 几乎处处连续,是其黎曼可积的充分必要条件。所以
处处连续,正如我们之前所描述的,即所有不连续点组成的集合的测度为0,当我们提到
测度时,一定要知道使用的是何种定义下的测度。这里,我们使用勒贝格测度,至于它是
如何定义的,我们不需要了解,只需要知道它是定义实变函数各种性质的最常用测度即可。
最后,为了表述方便,我们将黎曼可积的条件重新写为:
? ? ? ?? ? 0 1 1
lim
n
b
n
i i i i
a
f t dt f ? t t ? ? ? ?
? ? ? ? ,其中i
? 为? ? 1 , i i t t? 上的任意一点。
为什么之前不用这个定义呢,这样我们就不用讨论上确界和下确界的问题了。但是,这个
定义掩盖了? ?? ? 0 1 1
lim
n
n
i i i i f ? t t? ? ? ?
? ? 的随机性:我们不能保证随意的改变a 到b 的划分,
并且随意的取i
? ,仍然让上式收敛于固定的一个点。而且事实上,保证上式收敛的充要条
件,就是上极限和下极限相等,所以事实上,我们看似逃过了上下确界,却依旧要面对上
下极限,而上下极限的严格定义仍然需要附加定义一种收敛的方式,所以基本上,用上述
定义取巧,只会得不偿失。
不过,当我们能够理解了最初的那个黎曼积分的严格定义以后,再使用这个简单的定义,
就很方便了。
黎曼积分的一个重要问题在于,在定义类似? ? ? ?
b
a
? f t dg t 这样的积分时,会存在问题。我
们已经知道,黎曼可积的充要条件是,被积函数几乎处处连续。那么,如果上面的积分等
价于黎曼积分的话,它一定可以写成: ? ? ? ?
b
a
? f t g? t dt ,这就说明, f ?t?g??t? 几乎处处连
续,并且g?t? 必须在[a,b]之间必须处处可导,几乎处处连续(注意,不是绝对连续)并不
算是特别苛刻的条件,毕竟,如果一个函数性质差到连几乎处处连续都做不到,它在金融
16
学中的应用就相当有限了。但是g?t? 处处可导是一个非常强的性质,事实上我们知道,
我们要研究的布朗运动是处处不可导的,因此,黎曼积分显然不符合我们定义随机积分的
要求。
那么,Riemann–Stieltjes 积分,以后简称R‐S 积分,是用来定义? ? ? ?
b
a
? f t dg t 的,我们能不
能通过R‐S 积分来定义随机积分的?Bauer 课上似乎说了随机积分是R‐S 积分,其实这种
说法是错误的。R‐S 积分依旧不能定义随机积分,我们将立即证明这一点。
R‐S 积分的简单定义如下:
? ? ? ? ? ?? ? ? ? ?? 0 1 1
lim
n
b
n
i i i i
a
f t dg t f ? g t g t? ? ? ?
? ? ? ? ,基本设定与黎曼积分的简单定义完全一
致。
那么,R‐S 积分有什么良好的性质呢?一个R‐S 可积的充分条件是, f ?t ? 连续,g?t? 单调
递增。看似与黎曼积分类似的定义,却有比黎曼积分宽泛的多的充分条件,这一点再一次
说明简单定义不能完全体现积分存在性的信息,因为它没有依托最基本的公理和定义。这
里再次插一句题外话,所谓依托最基本的公理和定义,在现代数学中可以很安全的理解为:
我们所涉及的几乎所有定义中的要素,都必须是集合论的语言(比如上确界,映射等等)
或者满足实数系三大公理系统的语言(如求和,乘积等等),任何超出上出语言的定义要
素,都可以被认为是不根本的(比如简单定义中,我们使用的极限,趋近这样的描述)。
书归正传,R‐S 可积的这个充分条件似乎给了我们一个希望:我们不要求任何可导性,只
要求f ?t ? 绝对连续,它虽然比几乎处处连续更强,但也不是什么特别苛刻的条件。而对
于g?t? ,我们甚至不要求连续性。但是问题在于,单调递增这个要求在金融含义下很不
现实,毕竟我们不可能要求股票价格或者利率变化的百分比只上升不下降。那么,一个很
正常的想法就是,能不能用连续性替换掉单调递增的性质,从而让上式仍然R‐S 可积呢?
我们不加任何证明地声称,二者只满足连续性,不是R‐S 可积的充分条件。
所以事实上,R‐S 积分无法定义随机积分。
6. Wiener 积分与Ito 积分
这一部分里,我们不讨论任何关于随机积分的定义、性质和应用,仅仅讨论可积性的问题,
具体来说,什么样的随机过程可以被积分。

17
关于定义? ? ? , ?
b
a
? f t dB t ?
事实上,如果f ?t ? 是连续的并且有bounded variation,那么上式是一个完全有效的R‐S 积
分。但是,实际上,我们可以将f ?t ? 的限制条件再拓宽一下:只要其在勒贝格积分的概
念下是2 次可积的,即? ?2 f t 可积(不是对于V?t? 可积,而是对于t 积分)
这样的积分定义就是Wiener 积分。
Wiener 积分有一个很好的性质: ? ? ? , ?
T
a
? f t dB t ? 可以视为一个以T 为其中一个自变量,以
无法被积分运算消除的? 为另一个自变量的函数,那么显然它也是一个随机过程,并且,
这个随机过程具有鞅性质(martingale),即一个鞅过程。
虽然,我们不能像Bauer 课上所讲的一样,将W?t,? ?视为一个deterministic function,而
是要将其视为一个事先并不可知的随机过程。但是我们在重新定义一个类似
?, ? ?, ?
b
a
?W t? dB t ? 这样更广义的积分时,自然而然的希望这个积分能保留它的特殊情况,
即? ? ? , ?
b
a
? f t dB t ? 的一切性质,不然,积分的含义在不同的被积方程下,就会出现跳跃。
所以,我们希望?, ? ?, ?
T
a
?W t? dB t ? 也是一个鞅过程。
如果我们给上述积分一个类似R‐S 积分的定义,那么其应该被写成
? ?? ? ? ? ?? 0 1 1
lim
n
n
i i i i W? Bt Bt? ? ? ?
? ? ,但是? ? i W ? 应该选择什么值,或者说i
? 应该选择哪一
点呢?
实际上,选择左端点和选择右端点的和式不相等,也就是说R‐S 积分不存在。但是,只有
选择左端点,即? ? i 1 W t? , ?, ? ?, ?
T
a
?W t? dB t ? 才是鞅过程。这就是为什么Ito 选择左端点进
行积分的原因——为了保持广义和狭义的积分定义之间的连贯性。
到了这里,大家应该应明白,为什么课上要证明看似没有任何应用的,关于布朗运动的
unbounded variation 和bounded square variation 的性质了。 因为如果这两个variation 都无
界,那么布朗运动就无法作为被积函数。那么我们的积分,就只能在被积函数不是随机过
程时才可能有意义。
18
但是,我们可能会讨论以更一般的随机过程作为被积函数的情况,它几乎处处有bounded
square variation,但是仍然有一些点不具备这样的性质,而这些点的集合测度为0。现实
中,这样的情形可以与以极小概率出现的极端值进行对应。这些极端值测度为0,即几乎
不会发生,但是一旦发生,却足以影响期望值的大小。
既然这样的值会改变期望,那么可想而知,积分的鞅性质就无法保持。但是,Ito 积分仍
然有local martingale 的性质,我们对此不作论述。
至于更一般的,将B?t,? ? 替换为性质比布朗运动更弱的鞅过程,也可以定义出Ito 积分,
但是这就要求W?t,? ?是可预测的,即其必须是adapted to filtration 的。而Ito 积分本身可
以被看作一个新的随机过程,它的一系列线性性质可以通过讨论泛函空间Hilbert 空间进
行讨论,大家如果有兴趣请自行查阅资料,不过这些内容与课堂内容已经相距甚远。
7. 结语
至此,这篇文章完全结束,最后一部分实在仓促,因为写一个普及型的文章的确是劳神,
所以我以后也没有根据新内容续写的打算,相信能读懂这篇文章的话,对测度论和随机过
程的公理化体系,就会有一个比较好的了解,以此为基础自行阅读,应该会有新的收获。
文章里出现任何错误都是可能的,对于错误我不负任何责任。谁发现了错误,可以默默的
通过修正错误来增进知识,可以告诉其它人来避免我误人子弟,可以联合群众鄙视我封杀
我来发泄不满(反正我不准备再写了……封杀我吧),但是不要拿任何疑问来和我讨
论……因为我很长一段时间内想尽量避免和测度论,特别是积分论的接触。
对于不能完全理解这篇文章的人,我觉得这没什么不好的,从战略的角度来讲,单凭兴趣
就花时间在研究这些抽象理论是极其无效率的,因为它对考试或工作没有丝毫帮助,只对
想读phd 的人才有用。但是兴趣这个东西就像胎儿一样,一旦成型,再扼杀掉实在是伤身
体。况且,高深的数学可以用来迅速有效的中断你不想继续的对话,试想,当你实在受不
了眼前的人的时候,你说一句“说到不可思议,我觉得Ito 积分在Hilbert 空间下具有线性
函数的性质,才是真的不可思议。”,将会起到什么样的作用。同样,透彻的理解本文
(或者选择性地背诵本文的相关段落)也有助于大家平时发泄对Bauer 的不满,比如“他
怎么连依概率收敛和绝对收敛都不加以区分,这样实在是太不严密了!”(好吧,我在文
中几次表现出了这种情绪……那实在是因为我被他弄郁闷了。)
无论如何,我一直认为数学是锻炼逻辑的工具,也是强化逻辑的工具,但是,数学好实在
没什么值得夸耀的。对于我个人来说,对历史、政治、军事这样无章可循的学科有独到的
见解,才是值得夸耀的。不过如果一个人了解数学,却时时刻刻明白数学无法解决涉及到
人类行为的绝大部分问题,但又懂得用数学结果作为标尺,用自身的经验和直觉对数学结
果进行符合现实的调整,那么这样的人也是值得尊敬的。
最后,感谢阅读。