Info
本系列是阅读 van der Vaart and Wellner (1996) Part 2 的笔记,介绍了经验过程 (empirical process) 的理论。
我把 tightness 翻译为紧密性,把 compactness 翻译为紧致性,把 denseness 翻译为稠密性。
紧密性
在开始之前,我们先介绍一个弱收敛理论中很重要的一个概念:紧密性 (tightness)。
设 $P$ 是定义在可测空间 $(\mathcal{X},\mathcal{A})$ 上的概率测度,如果对任意 $\varepsilon > 0$,存在一个可测紧致集 $K\in\mathcal{A}$ 使得 $P(K) > 1-\varepsilon$,则称 $P$ 是紧密的。
Theorem 1.
设 $P$ 是紧密的。对每个 $m\in\mathbb{N}$,存在可测的紧致集 $K_m\in\mathcal{A}$ 使得 $P(K_m) > 1-2^{-m}$。令 $K = \cup_{m=1}^\infty K_m$,则 $K$ 是紧致的,而且是 $\sigma$ 紧致。此外,有
$$ P(K) = P\biggl(\bigcup_{m=1}^\infty K_m\biggr) = 1 - P\biggl(\bigcap_{m=1}^\infty K_m^c\biggr) \geq 1 - \inf_{m\in\mathbb{N}} P(K_m^c) \geq 1 - \inf_{m\in\mathbb{N}} 2^{-m} = 1 $$即 $K$ 是一个支撑集。
反过来,如果 $P$ 有一个 $\sigma$ 紧致的支撑集 $K$,则它可以表示为可数个紧致集的并 $K = \cup_{m=1}^\infty K_m$。由 $P(\cup_{m=1}^\infty K_m) = 1$,对任意 $\varepsilon > 0$,存在 $M\in\mathbb{N}$ 使得 $P(\cup_{m=1}^M K_m) > 1-\varepsilon$。因此 $P$ 是紧密的。
根据这个结论,如果样本空间本身就是 $\sigma$ 紧致的,则其上的任何概率测度都是紧密的。如 $\mathbb{R}^d$ 就是一个 $\sigma$ 紧致的空间。对于不是 $\sigma$ 紧致的样本空间,仍有一个导致紧密概率测度的充分条件,如以下定理。
Note
可分 (separable) 空间是指存在一个可数稠密子集(还有两种等价的定义方式:有一个可数基,或者任意开覆盖都有可数子覆盖),而完备 (complete) 空间是对度量空间而言的,指其上任意 Cauchy 列都收敛且极限都在该空间中,换言之,此空间对极限保持封闭,故称完备。很显然,$\mathbb{R}^d$ 是一个可分完备空间。需要注意的是,这两个概念是互不蕴含的,可分空间可以是不完备的(它甚至都不必是度量空间),例如所有有理数的集合是一个可分空间,但它不是完备的。而完备空间可以是不可分的,例如所有有界实数列的集合 $\ell^\infty(\mathbb{R})$。不过,$\sigma$ 紧致的度量空间(不需要完备性)一定是可分的。
Theorem 2.
因 $\mathcal{X}$ 是可分的度量空间,所以对每个 $n$,可以找到一列半径为 $1/n$ 的开球 $A_{n1},A_{n2},\dots$ 覆盖 $\mathcal{X}$。给定 $\varepsilon > 0$,取 $i_n$ 使得 $P(\cup_{i\leq i_n} A_{ni}) > 1-\varepsilon/2^n$(通过概率测度的单调收敛性质保证)。
记
$$ F_n = \bigcup_{i\le i_n}\bar{A}_{ni} $$其中 $\bar{A}_{ni}$ 是 $A_{ni}$ 的闭包。因为有限个闭集的并集保持闭性,$F_n$ 是闭集。令
$$ K = \bigcap_{n=1}^\infty F_n $$则 $K$ 亦为闭集(从而可测)。
下面证明 $K$ 紧致。首先,$K$ 是全有界的:给定任意 $\delta>0$,取 $n$ 使 $1/n<\delta$。因为 $K\subseteq F_n$,而 $F_n$ 被有限多个半径 $1/n$ 的闭球覆盖,所以 $K$ 被有限多个半径 $\delta$ 的开球覆盖,故 $K$ 全有界。又因为 $\mathcal{X}$ 完备且 $K$ 闭,所以 $K$ 完备。由“完备 + 全有界 $\Rightarrow$ 紧致”(度量空间中的经典结论),$K$ 是紧致集。
最后估计其概率。注意到 $F_n\supseteq \bigcup_{i\le i_n}A_{ni}$,故
$$ P(F_n)\ge P\biggl(\bigcup_{i\le i_n}A_{ni}\biggr)>1-\varepsilon/2^n $$于是
$$ P(K^c)=P\biggl(\bigcup_{n=1}^\infty F_n^c\biggr)\le \sum_{n=1}^\infty P(F_n^c) < \sum_{n=1}^\infty \varepsilon/2^n=\varepsilon $$即 $P(K)>1-\varepsilon$,所以 $P$ 为紧密测度。
对一个可测映射 $X\colon\mathcal{X}\to\mathbb{D}$($\mathbb{D}$ 是某个度量空间),如果它的分布 $P\circ X^{-1}$ 是紧密的,则称 $X$ 是紧密的。
经验过程介绍:我们的目标是什么
对于可测空间 $(\mathcal{X},\mathcal{A})$ 上的随机样本 $X_1,\dots,X_n$,经验测度 (empirical measure) $\mathbb{P}_n$ 定义为
$$ \mathbb{P}_n(C) = \frac{1}{n}\sum_{i=1}^n \mathbf{1}(X_i\in C) $$对于一个可测函数族 $\mathcal{F}$,其元素是 $\mathcal{X}$ 上的可测函数,$f\colon\mathcal{X}\to\mathbb{R}$。经验测度引致了从 $\mathcal{F}$ 到 $\mathbb{R}$ 的映射,即
$$ f \mapsto \mathbb{P}_n f = \int_\mathcal{X} f\, d\mathbb{P}_n $$记 $X_i$ 的分布为 $P$,所谓以 $\mathcal{F}$ 标记的 经验过程 (empirical process) 就定义为
$$ f \mapsto \mathbb{G}_n f = \sqrt{n}(\mathbb{P}_n f - P f) = \frac{1}{\sqrt{n}}\sum_{i=1}^n (f(X_i) - P f) $$Note
经验过程无非也就是一组随机变量,只不过这些随机变量的样本空间是 $\mathcal{F}$,而不再是 $\mathcal{X}$。
对于一个给定的 $f$,我们有大数定律和中心极限定理
$$ \begin{align*} \mathbb{P}_n f &\to_{\mathrm{a.s.}} P f \\ \mathbb{G}_n f &\rightsquigarrow N(0, P(f-P f)^2) \end{align*} $$我们想知道的是这两个结论是否对整个函数族 $\mathcal{F}$ 的所有函数一致成立,这就是经验过程需要解决的理论问题。
古典的经验过程理论中,样本空间 $\mathcal{X}$ 一般是单位区间 $[0,1]$、实数轴 $\mathbb{R}$ 或者高维实数空间 $\mathbb{R}^d$,而函数族 $\mathcal{F}$ 一般是左半实数轴上的示性函数族,或者 $\mathbb{R}^d$ 左下象限上的示性函数族。在这里我们将会考察更丰富的函数族,例如光滑函数族、单调函数族等。
引入记号 $\|Q\|_\mathcal{F} = \sup\{|Qf|\colon f\in\mathcal{F}\}$,一致版本的大数定律可以表述为
$$ \|\mathbb{P}_n-P\|_{\mathcal{F}} \to 0 $$这里的收敛可以是依概率收敛或几乎确定收敛。如果函数族 $\mathcal{F}$ 满足了这个结论,我们就称其为 Glivenko-Cantelli class。
为讨论一致版本的中心极限定理,总是假设对每个 $x\in\mathcal{X}$,都有
$$ \sup_{f\in\mathcal{F}} |f(x)-Pf| < \infty $$在这个条件下,经验过程 $\{\mathbb{G}_n f\colon f\in\mathcal{F}\}$ 可看作到 $\ell^\infty(\mathcal{F})$ 上的映射。
Note
这里 $\ell^\infty(\mathcal{F})$ 是 $\mathcal{F}$ 上的一致有界泛函空间,即所有满足 $\|Q\|_\mathcal{F} < \infty$ 的泛函 $Q$ 的集合。
因此,我们想知道在怎样的条件下有
$$ \mathbb{G}_n = \sqrt{n}(\mathbb{P}_n - P) \rightsquigarrow \mathbb{G} \quad\text{in } \ell^\infty(\mathcal{F}) $$其中极限 $\mathbb{G}$ 是 $\ell^\infty(\mathcal{F})$ 上的一个 紧密的 随机元素。如果函数族 $\mathcal{F}$ 满足了这个结论,我们就称其为 Donsker class。
极限过程 $\mathbb{G}$ 的性质可以由 $\mathbb{P}_n$ 的性质来刻画。具体而言,当且仅当 $f$ 是平方可积时,$\mathbb{G}_n f$ 才是收敛的。多元中心极限定理表明,对任意有限个 $f_1,\dots,f_k\in\mathcal{F}$,都有
$$ (\mathbb{G}_n f_1,\dots,\mathbb{G}_n f_k) \rightsquigarrow N_k(\bm{0},\bm{\Sigma}) $$其中 $\bm{\Sigma}$ 是 $k\times k$ 的协方差矩阵,其元素为
$$ \Sigma_{ij} = P(f_i-Pf_i)(f_j-Pf_j) $$因为 $\ell^\infty(\mathcal{F})$ 中的收敛蕴含着边际分布的收敛,因此极限过程 $\{\mathbb{G} f\colon f\in\mathcal{F}\}$ 是一个零均值的高斯过程,其协方差函数为
$$ E[\mathbb{G} f_1 \mathbb{G} f_2] = P(f_1-Pf_1)(f_2-Pf_2) = P(f_1f_2) - Pf_1Pf_2 $$$\mathbb{G}$ 被称作 布朗桥 (Brownian bridge)。
那么,在什么情况下,通过边际分布的收敛就能决定极限过程 $\mathbb{G}$ 的分布?这个关键的充分条件正是紧密性。
Theorem 3.
考虑这样一个泛函族 $\mathcal{F}$,它是所有 $f\colon \ell^\infty(T)\to\mathbb{R}$ 的集合,$f$ 的形式为
$$ f(z) = g(z(t_1),\dots,z(t_k)) $$其中 $g$ 是 $\mathbb{R}^k$ 上的有界连续函数,$t_1,\dots,t_k\in T$ 是任意有限个点。这个泛函族构成了一个 vector lattice(对函数取逐点最小和逐点最大封闭),包括所有常函数并且 分离 $\ell^\infty(T)$ 中的所有点。而两个紧密随机元素的分布测度如果在这样的 vector lattice 上相等,就意味着它们在整个 $\ell^\infty(T)$ 上的有界连续函数族上相等,即分布相等,参阅 van der Vaart and Wellner (1996) 的 Lemma 1.3.12。
根据 Slutsky 定理,一个 Donsker 类一定是依概率收敛的 Glivenko-Cantelli 类。事实上,这个陈述把「依概率收敛」替换为「几乎确定收敛」仍然成立。不过反过来,并不是所有的 Glivenko-Cantelli 类都是 Donsker 类。
Example 4.
令 $X_1,\dots,X_n$ 是 $\mathbb{R}^d$ 上的独立同分布的随机变量,设 $\mathcal{F}$ 是所有下矩形示性函数 $\{\mathbf{1}(-\infty,t]\colon t\in\bar{\mathbb{R}}^d\}$ 的集合。以 $\mathcal{F}$ 标记的经验测度就是经验分布函数
$$ t \mapsto \mathbb{P}_n \mathbf{1}(-\infty,t] = \frac{1}{n}\sum_{i=1}^n \mathbf{1}(X_i\leq t) $$因为 $\mathcal{F}$ 中的每个函数可以用 $t$ 来标记,因此 $\ell^\infty(\mathcal{F})$ 中的每个元素都可一一对应于 $\ell^\infty(\bar{\mathbb{R}}^d)$ 中的一个元素。所以很自然地,我们可以把经验过程看作是 $\ell^\infty(\bar{\mathbb{R}}^d)$ 上的一个随机元素。当然,经验分布函数的样本路径一般是在更小的函数空间中(如 Skorokhod 空间),但只要我们选择了 supremum 度量,在大空间还是小空间上讨论收敛性都一样。
Example 5.
令 $\mathcal{C}$ 表示可测空间 $(\mathcal{X},\mathcal{A})$ 上某个可测子集的集合,$\mathcal{F}$ 是所有 $\mathcal{C}$ 上的示性函数 的集合,即 $\{\mathbf{1}(C)\colon C\in\mathcal{C}\}$。于是由集合标记的经验分布就是
$$ C \mapsto \mathbb{P}_n(C) = \frac{1}{n}\sum_{i=1}^n \mathbf{1}(X_i\in C) $$因为集合和它的示性函数是一一对应的,$C\leftrightarrow \mathbf{1}(C)$,因此 $\ell^\infty(\mathcal{F})$ 中的每个元素都可一一对应于 $\ell^\infty(\mathcal{C})$ 中的一个元素。所以很自然地,我们可以把经验过程看作是 $\ell^\infty(\mathcal{C})$ 上的一个随机元素。
最后修改于 2026-01-09