连续个随机变量的大数律

近来 blog 有收敛到「瞎逛博物馆」的趋势。为了扭转这一势头,并且提升点品味,准备陆续放一些关于学术的内容。第一篇,也就是今天介绍的,是关于连续个随机变量的大数律。这个结果应该是我老师这辈子最得意的结果。

对于一个随机事件,基于较少的样本量,一般来说人们不容易做出富有意义的预测。但是,大数据量的独立样本却可以给出随机事件均值的一个近似估计,并且其精确程度随着数据量的增大而提高;这就是被人们所熟知的大数律。这个想法可以追述到大约 500 年前意大利数学家 Gerolamo Cardano(吉罗拉莫•卡尔达诺)。Cardano 写到,随着试验次数的增多,经验统计的精度程度有着提高的趋势;但他并未给出证明。

大数律的第一个严格证明来自于瑞士数学家 Jacob Bernoulli(雅各布•伯努利);在其著作 The Art of Conjecturing 中,他证明了关于二元随机变量(binary random variables)的大数律。

Daniel Bernoulli
Daniel Bernoulli

经典大数律的完整证明则归功于著名的前苏联概率学家 Andrey Kolmogorov(安德雷•柯尔莫哥洛夫);他在 1933 年出版的书籍 Foundations of the Theory of Probability 中证明了关于可数个独立随机变量的大数律。

Kolmogorov
Andrey Kolmogorov

开始正文之前,先放参考文献:

Yeneng Sun, The exact law of large numbers via Fubini extension and characterization of insurable risks
Journal of Economic Theory 126 (2006), 31–69
下载地址:http://dx.doi.org/10.1016/j.jet.2004.10.005

经典大数律

弱大数律:$$\{X_n\}_{n \in \mathbb{N}}$$ 是一列独立同分布的随机变量,并且 $$\mathbb{E}|X_n| < \infty$$。则 $$!\frac{X_1 + X_2 + \cdots + X_n}{n} \to \mathbb{E}X_1 \text{ in probability}.$$

强大数律:$$\{X_n\}_{n \in \mathbb{N}}$$ 是一列独立同分布的随机变量,并且 $$\mathbb{E}|X_n| < \infty$$。则 $$!\frac{X_1 + X_2 + \cdots + X_n}{n} \to \mathbb{E}X_1 \text{ a.e.}$$

这里想多说几句强/弱大数律的区别。最明显的区别是收敛方式的不一样(关于依概率收敛和几乎处处收敛的区别,请移步 wikipedia),但是两者背后还有直觉上的差别。弱大数律是分布意义上的收敛,每个样本点上可以不收敛,这是一个宏观角度、整体性的性质。 而强大数律是(几乎)逐点收敛,明显是一个微观角度、局部性的性质;从这个角度来说,强大数律比弱大数律的 power 大多了。

Glivenko-Cantelli 定理:$$\{X_n\}_{n \in \mathbb{N}}$$ 是一列独立同分布的随机变量,并且公共的分布函数是 $$F$$。则 $$!\sup_x \left| \frac{1}{n} \sum_{m=1}^n 1_{(X_m \le x)} – F(x) \right| \to 0 \text{ a.e.}$$

Glivenko-Cantelli 定理描述的是独立同分布的样本的经验分布函数(empirical distribution function)的渐进性质;这里经验分本函数指的是 $$\frac{1}{n} \sum_{m=1}^n 1_{(X_m \le x)}$$。根据强大数律,可以知道经验分布函数几乎处处收敛到真实的分布函数。但是 Glivenko-Cantelli 定理提供了一个更强的结论,这个收敛可以是一致的。基于 Glivenko-Cantelli 定理,经验分布函数是真实分布函数的一个合理的估计。

连续次独立随机试验

需要强调的一点是,上述结论都是仅仅是针对可数次随机试验(可数个随机变量)的。在很多时候,为了去探索大数据量的独立样本的性质,学者们经常直接使用一种理想化的模型——将 $$[0,1]$$ (或者一个无原子的概率空间)用作随机试验的指标集合(index space),直接考虑连续次随机试验(连续个随机变量)。通俗来说,就是会进行连续多次随机试验/抽样,随机试验/抽样之间是两两独立的。

从数学上来说,如果我们用 $$[0,1]$$ 来做指标集合,用 $$(\Omega, \mathcal{F}, \mathbf{P})$$ 表示样本空间(所有可能的随机试验结果的集合),那么连续次随机试验就可以表示为 $$!f \colon [0,1] \times \Omega \to \mathbb{R},$$ 即 $$f(i,\omega)$$ 是第 $$i$$ 次随机试验中试验结果 $$\omega$$ 对应的试验观察值。到这里,估计各位看官都会认为「大数律在这种情况下明显成立」——包括大量的顶尖学者。很是可惜,我们有如下结论;Doob 在 1937 年的 Trans AMS 上发表了这一结果,证明可以参考我老师的这篇文章

假设 $$f \colon [0,1] \times \Omega \to \mathbb{R}$$ 是一个随机过程(连续次随机试验),当 $$i \ne j$$ 时,$$f_i$$ 与 $$f_j$$ 是独立的随机变量(可以减弱为几乎两两独立,essential pairwise independence)。如果 $$f$$ 是 $$([0,1] \times \Omega, \mathcal{L} \otimes \mathcal{F}, \lambda \otimes \mathbf{P})$$-可测的,那么每个随机变量 $$f_i$$ 都是常值函数(除去$$\mathbf{P}$$-零测集)。这里 $$([0,1], \mathcal{L}, \lambda)$$ 是 Lebesgue 单位区间。

通俗来说,如果用 Lebesgue 单位区间来做随机试验的指标集合,要求随机试验之间(几乎)两两独立,并且要求整个随机过程对于乘积空间可测,那么每个随机试验的观测值都是固定的——这样的随机试验完全不随机!好了,这下子问题来了。当然,有人会问,你干嘛要用 Lebesgue 单位区间来做指标集合,干嘛要求随机过程对于乘积空间可测。Lebesgue 单位区间在某种程度上来说,应该是最好用的一个概率空间,其诸多好性质我就不一一列举了;而为了考虑分布函数,为了在具体的情形下考虑积分,很自然我们需要对于乘积空间的可测性。可以说,这些都是最低的要求。

Fubini 延拓与精确大数律

很明显,这是独立性和可测性之间的矛盾。熟悉概率论的可以知道,如果把概率空间做适当的扩张,那么可测性的问题可能可以得到解决。值得注意的是,这个不可测问题允许人们通过对样本空间(sample space)进行各种各样的扩张,从而可以得到关于样本函数(sample function)任何想要的性质(比如样本的分布函数、样本的均值等等),甚至一些性质可以通过某种扩张几乎处处成立,也可以在另一种扩张下几乎处处不成立。这是一个逻辑一致性的问题——结论是否成立完全取决于如何选取样本空间,与其他毫无关系!

同时,更重要的是,经典大数律提供的是一个装置——输入一串独立同分布的随机变量,输出给我们样本均值/分布的合理估计。然而,在连续次随机试验的情形下,针对样本空间进行的构造、扩张,都只能治标不治本——仅仅只是构造出了一个独立的、「与给定均值/分布一致」的随机过程,而不是一个「输入-输出装置」——输入连续次随机过程,输出给我们样本均值/分布的合理估计!

好吧,合适的解决办法如下:将空间 $$([0,1] \times \Omega, \mathcal{L} \otimes \mathcal{F}, \lambda \otimes \mathbf{P})$$ 进行扩张,使得关于扩张之后的概率空间中的可积函数满足 Fubini 性,即重积分可以交换次序;这个扩张被称为 Fubini 延拓,被记为 $$([0,1] \times \Omega, \mathcal{L} \boxtimes \mathcal{F}, \lambda \boxtimes \mathbf{P})$$,具体请看这篇文章。当然这中扩张的存在性是没有问题的。

基于此,我老师证明了下述结论,他把这个结论称为「精确大数律(exact law of large numbers)」。

假设 $$f$$ 是从 $$([0,1] \times \Omega, \mathcal{L} \boxtimes \mathcal{F}, \lambda \boxtimes \mathbf{P}) \to \mathbb{R}$$ 是一个随机过程,如果随机变量 $$f_i$$ 几乎两两独立,那么,对于几乎每个样本 $$\omega$$,样本分布(sample distribution)$$\lambda f_\omega^{-1}$$ 与真实分布 $$(\lambda \boxtimes \mathbf{P}) f^{-1}$$ 完全一致。

很清楚的看到,这是一个确切的结果,而不是一个渐进的结果;这也是称之为「精确」大数律的原因。

如果假定样本分布和真实分布在团体性(conlitional)层面上成立,那么可以得到那些随机变量 $$f_i$$ 一定是几乎两两独立的——这被视为精确大数律的逆定理。

同时,我老师还证明了 Fubini 延拓是证明精确大数律唯一正确的框架——为了得到团体性(coalitional)的精确大数律,Fubini 延拓是必须的。

还有一个更重要的结论,基于 Fubini 延拓的思想,我老师提出了 rich Fubini 延拓:对于每次随机试验,它可以保证其样本分布恰好就是 $$[0,1]$$ 上的均匀分布——更进一步,对于每次随机试验,都可以使得其样本分布恰好是任何一个预先给定分布函数。

关于精确大数律的简单介绍就到这了。仅希望看到本文的看官们,不要乱用经典大数律不要用特殊的构造取代严谨的结论;嗯,尤其是那些经常用这类理想化模型的、所谓的宏观经济学家们。

One thought on “连续个随机变量的大数律

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.