半参数模型的影响函数

Info

本文是对「影响函数」(influence function) 的介绍，讲述了它在半参数模型中扮演的角色，并以构造正交矩条件为例展示了其威力。影响函数本质上是对「梯度」概念在泛函空间中的推广，刻画了分布扰动对估计量的一阶影响。由此，它是分析估计量效率、对模型误设的稳健性等性质的利器。

下载本文 PDF

影响函数的定义

我们考虑半参数意义上的估计量，即那些依赖于对非参数部分估计的对参数的估计量。记 $\hat{\theta}$ 就是一个半参数意义的估计量，它是数据 $W_1,\dots,W_n$ 的函数。我们始终假设数据是独立同分布的，且有一个累积分布函数 $F_0$。当 $F_0$ 是数据 $W_i$ 的累积分布函数时，记 $\theta_0$ 是 $\hat{\theta}$ 的概率极限。

我们关注的是这样一类线性估计量，满足如下的渐进展开¹

$$ \sqrt{n}(\hat{\theta}-\theta_0) = \frac{1}{\sqrt{n}} \sum_{i=1}^n \psi(W_i) + o_p(1) $$

其中 $\psi(\cdot)$ 满足 $\mathbb{E}[\psi(W)] = 0$ 和 $\mathbb{E}[\psi(W)'\psi(W)] < \infty$，于是 $\hat{\theta}$ 的渐进方差就是 $\mathbb{E}[\psi(W)\psi(W)']$。

函数 $\psi(\cdot)$ 就被称为「影响函数」(influence function)²，它描述了每个数据点对估计量的影响，同时我们还将看到，它也刻画了数据分布的一个微小扰动对 $\hat{\theta}$ 的概率极限的影响。有许多 $\sqrt{n}$ 一致的估计量都有这样的渐进线性展开，如 M 估计量、Z 估计量等。

其实影响函数不一定需要通过渐进展开来构造。设 $F$ 是任意分布（只需满足一些正则条件），令 $\theta(F)$ 表示估计量 $\hat{\theta}$ 在数据的累积分布函数为 $F$ 时的概率极限。由此 $\theta(F)$ 就刻画了当模型误设时，估计量会收敛到什么伪真值。为了研究分布的微小扰动，我们考虑一个参数化的分布族 $\{F_\beta\}$，当 $\beta=0$ 时，$F_\beta = F_0$。得分函数（对数似然函数关于参数 $\beta$ 在 $\beta=0$ 处的导数）表示为 $S_\beta(w)$。可以证明，影响函数 $\psi(W)$ 满足如下微分方程³

$$ \frac{\partial \theta(F_\beta)}{\partial \beta}\bigg|_{\beta=0^+} = \mathbb{E}_{F_0}[\psi(W)S_\beta(W)] $$

其中期望是关于分布 $F_0$ 的。可以通过求解这个微分方程得到影响函数。

Ichimura and Newey (2022) 展示了一种更方便的求解影响函数的方法，他们使用 Gâteaux 导数来定义泛函微分。设 $H$ 是一个累积分布函数，考虑分布扰动 $F_\tau = (1-\tau)F_0 + \tau H$，其中 $\tau\in[0,C)$，$C\in(0,1)$ 是某个常数。$F_\tau$ 的意思是说，数据大部分来自于 $F_0$，但有很小的概率 $\tau$ 来自于 $H$⁴。设对选定的 $H$，$\theta(F_\tau)$ 存在且关于 $\tau$ 可导（导数就是 Gâteaux 导数），则影响函数 $\psi(W)$ 满足

$$ \frac{d\theta(F_\tau)}{d\tau}\bigg|_{\tau=0^+} = \int \psi(w)H(dw) = \mathbb{E}_H[\psi(W)] $$

其中 $\mathbb{E}[\psi(W)] = 0$ 且 $\mathbb{E}[\psi(W)^2] < \infty$。上式左边就衡量了一个轻微污染的分布对于估计量的极限值的影响，等式右边定义了一个线性泛函。

影响函数的威力：以构造正交矩条件为例

泛函导数 $d\theta(F_\tau)/d\tau$ 及影响函数是一个大有可为的概念级工具。首先其基本含义是，它衡量了分布 $F_\tau$ 的局部扰动对 $\theta(F_\tau)$ 的影响。我们可以赋予它经济学上的意义，譬如，它可以表示数据分布的局部变化带来的政策效应；又如，当 $\theta(F_\tau)$ 是一个估计量的概率极限时，这个导数就可以看作模型误设对估计量的影响，从而可以应用在估计量的局部敏感性和稳健性分析中；再如，当 $\theta(F_\tau)$ 是矩条件的期望时（在代入非参数估计量的概率极限后），影响函数可以被用来构造正交矩条件，正交的含义是矩条件的成立不受对非参数部分的估计好坏影响⁵。我们以构造正交矩条件为例来展示其威力，前两个用途的示例见 Ichimura and Newey (2022)。构造正交矩条件是最近几年大热的双重机器学习的两个基石之一（另一个是样本拆分），而这一切都离不开影响函数。关于影响函数在双重机器学习中所扮演角色的精彩介绍，见 Kennedy (2023)。

假设我们有总体矩条件

$$ \mathbb{E}_{F_0}[g(W,\gamma_0,\theta_0)] = 0 $$

其中 $g(\cdot,\cdot,\cdot)$ 是形式未知的矩函数，$\gamma_0$ 是未知的非参数部分，$\theta_0$ 是未知的参数部分。我们感兴趣的是对 $\theta_0$ 的估计。

如果我们用机器学习的算法获得了对 $\gamma_0$ 的第一步估计 $\hat{\gamma}$，那么获得样本矩函数的一个最直接的方式就是直接代入 $\hat{\gamma}$，得到 $\sum_{i=1}^n g(W_i,\hat{\gamma},\theta)/n$，然后对其使用 GMM 得到 $\theta_0$ 的估计量。然而，这种 plug-in 的方法会给 $\theta_0$ 的估计带来严重的偏误，因为我们的第一步估计 $\hat{\gamma}$ 本就不够精确，毕竟机器学习算法总是会用一些正则化手段来避免过拟合，从而带来较大的偏误。我们是否能重新构造一个矩条件，使得它不受第一步估计 $\hat{\gamma}$ 好坏的影响呢？答案是我们需要利用矩条件的影响函数。

记 $\hat{\gamma}$ 在数据分布为 $F$ 时的概率极限为泛函 $\gamma(F)$，从而 $\gamma_0 = \gamma(F_0)$。使用前文所介绍的 $F_\tau$ 形式的分布扰动，假设存在一个函数 $\phi(w,\gamma,\alpha,\theta)$，使得对任意的 $\theta$ 和 $H$ 都有

$$ \frac{\partial}{\partial\tau}\mathbb{E}_{F_0}[g(W,\gamma(F_\tau),\theta)]\bigg|_{\tau=0^+} = \int \phi(w,\gamma_0,\alpha_0,\theta)H(dw) = \mathbb{E}_H[\phi(W,\gamma_0,\alpha_0,\theta)] $$

其中 $\mathbb{E}_{F_0}[\phi(W,\gamma_0,\alpha_0,\theta)] = 0$ 且 $\mathbb{E}_{F_0}[\phi(W,\gamma_0,\alpha_0,\theta)^2] < \infty$。这里的 $\phi$ 就是泛函 $\mu(F) := \mathbb{E}_{F}[g(W,\gamma(F),\theta)]$ 的影响函数，或者按照文献中的说法，称为「第一步影响函数」(first step influence function, FSIF)。

正交矩函数就可以构造为

$$ \psi(W,\gamma,\alpha,\theta) = g(W,\gamma,\theta) + \phi(W,\gamma,\alpha,\theta) $$

即原矩条件加上其影响函数。这个做法事实上是利用了影响函数的梯度性质，将分布扰动的一阶影响加回去。显然有 $\mathbb{E}_{F_0}[\psi(W,\gamma_0,\alpha_0,\theta)] = 0$。

通常我们要求影响函数满足规范化条件，即任意扰动分布下都有零均值，$\mathbb{E}_{F_\tau}[\phi(W,\gamma(F_\tau),\alpha(F_\tau),\theta)] \equiv 0$，两边关于 $\tau$ 在 $\tau=0^+$ 处求导：

$$ \begin{align*} 0 &\equiv \frac{\partial}{\partial\tau}\int\phi(W,\gamma(F_\tau),\alpha(F_\tau),\theta)[F_0+\tau(H-F_0)](dw) \bigg|_{\tau=0^+} \\ &= \frac{\partial}{\partial\tau}\int \phi(w,\gamma(F_\tau),\alpha(F_\tau),\theta)F_0(dw)\bigg|_{\tau=0^+} + \int \phi(w,\gamma_0,\alpha_0,\theta)(H-F_0)(dw) \\ &= \frac{\partial}{\partial\tau}\mathbb{E}_{F_0}[\phi(W,\gamma(F_\tau),\alpha(F_\tau),\theta)]\bigg|_{\tau=0^+} + \mathbb{E}_H[\phi(W,\gamma_0,\alpha_0,\theta)] \\ &= \frac{\partial}{\partial\tau}\mathbb{E}_{F_0}[\phi(W,\gamma(F_\tau),\alpha(F_\tau),\theta)]\bigg|_{\tau=0^+} + \frac{\partial}{\partial\tau}\mathbb{E}_{F_0}[g(W,\gamma(F_\tau),\theta)]\bigg|_{\tau=0^+} \\ &= \frac{\partial}{\partial\tau}\mathbb{E}_{F_0}[\psi(W,\gamma(F_\tau),\alpha(F_\tau),\theta)]\bigg|_{\tau=0^+} \end{align*} $$

第二步利用了链式法则，第三步利用了 $\mathbb{E}_{F_0}[\phi(W,\gamma_0,\alpha_0,\theta)] = 0$。这个结论意味着 $\gamma$ 的局部扰动不会影响矩条件的成立，也就达到了正交化的目的。

技术附录：泛函的可微性

本附录来自 van der Vaart (1991)，为泛函的可微性做出定义。泛函的导数是方向导数的一般化。

设 $P$ 是一个概率测度，它对应真实的模型，$\mathscr{P}$ 是一个概率测度族，它包含了对 $P$ 的某些偏离的概率测度，一个偏离以 $P_t$ 表示，$t\in(0,\varepsilon)\subseteq\mathbb{R}$。令 $\mathscr{P}(P)$ 表示这种偏离路径的集合，即映射 $t\mapsto P_t$ 的集合，每个映射从一个区间 $(0,\varepsilon)\subseteq\mathbb{R}$ 映射到 $\mathscr{P}$，因此每个映射都代表了 $P$ 的一个偏离路径，而且每一个偏离路径都需要满足：存在某个 $g\in L^2(P)$ 使得

$$ \lim_{t\to 0^+} \int \biggl[\frac{1}{t}(dP_t^{1/2}-dP^{1/2}) - \frac12gdP^{1/2}\biggr]^2 = 0 $$

其中 $dP_t$ 和 $dP$ 分别是 $P_t$ 和 $P$ 的（关于某个支配测度的）密度函数。这个条件事实上对偏离路径 $t\mapsto P_t$ 做出了一些限制，它要求偏离路径具有某种意义上的光滑性。满足这个条件的路径也被称为「二次均值可微」(quadratic mean differentiability)。函数 $g$ 相当于我们熟悉的得分函数⁶。

从几何意义上说，得分函数 $g$ 可以理解为在 $t=0$ 处切于偏离路径 $t\mapsto P_t$ 的一个切向量。这使得 $\mathscr{P}(P)$ 可以引致一个所谓的「切空间」(tangent space) $T(P)$，它是由所有满足上述条件的函数 $g$ 张成的线性空间。

设 $(\bm{B},\|\cdot\|)$ 是一个巴拿赫空间⁷。称泛函 $\kappa\colon\mathscr{P}\to(\bm{B},\|\cdot\|)$ 在 $P$ 处相对于 $\mathscr{P}(P)$ 可微，如果它满足：存在一个连续的线性映射 $\kappa'_P\colon(T(P),\|\cdot\|_P)\to(\bm{B},\|\cdot\|)$ 使得对 $\mathscr{P}(P)$ 中的每一条路径 $t\mapsto P_t$ 及其相应的 $g\in T(P)$ 使得

$$ \lim_{t\to 0^+} \frac1t[\kappa(P_t)-\kappa(P)] = \kappa'_P(g) $$

$\kappa'_P$ 被称为 $\kappa$ 在 $P$ 处相对于 $\mathscr{P}(P)$ 的导数⁸。这个导数是一个泛函，而且是连续的线性泛函，它将切空间 $T(P)$ 中的元素 $g$ 映射为 $(\bm{B},\|\cdot\|)$ 中的元素 $\kappa'_P(g)$。连续线性是一个很关键的要求，只有这样才会有后面的 Riesz 表示。需要强调，这个定义不仅仅是定义左边极限的存在性，还说明了它能被表示成切空间上的泛函。

对于巴拿赫空间 $\bm{B}$，有其对偶空间 $\bm{B}^*$，它是由所有连续线性实值泛函 $b^*\colon\bm{B}\to\mathbb{R}$ 构成的空间。对每个 $b^*\in\bm{B}^*$，映射 $b^*\circ\kappa'_P$ 是从 $(T(P),\|\cdot\|_P)$ 到 $\mathbb{R}$ 的连续线性泛函。根据 Riesz 表示定理，存在一个唯一的 $\tilde{\kappa}_{P,b^*}\in \bar{T}(P)$ 使得，对每个 $g\in T(P)$ 都有⁹

$$ b^*\circ\kappa'_P(g) = \langle g,\tilde{\kappa}_{P,b^*} \rangle_P $$

特别地，对于正文中的泛函 $\theta(F_\beta)$，当 $\theta$ 是标量时，$\bm{B}$ 就是实数集 $\mathbb{R}$，因此我们就可以取 $b^*$ 为恒等映射，于是存在一个唯一的 $\psi\in \bar{T}(F_0)$ 使得，对每个 $S_\beta\in T(F_0)$ 都有

$$ \theta'(F_\beta) = \langle \psi,S_\beta \rangle_{F_0} = \mathbb{E}_{F_0}[\psi(W)S_\beta(W)] $$

这里的 Riesz 表示元 $\psi$ 正是 EIF。

以下定理是对 Hájek-Le Cam 卷积定理的推广，见 van der Vaart (1991) 的定理 2.1。

Theorem 1.

设对任意路径 $\{P_t\}\in\mathscr{P}(P)$ 和实数列 $h_n\to h\in\mathbb{R}$，有

$$ \begin{equation}\label{eq:regular} \sqrt{n}\bigl[T_n-\kappa(P_{h_n/\sqrt{n}})\bigr] \rightsquigarrow_{P_{h_n/\sqrt{n}}} L \end{equation} $$

其中 $L$ 是 $\bm{B}$ 上的一个固定的紧密分布。此外，设对任意 $g\in T(P)$ 都有

$$ \biggl(\sqrt{n}(T_n-\kappa(P)),n^{-1/2}\sum_{j=1}^n g(X_j)\biggr) $$

依 $P$ 在 $\bm{B}\times\mathbb{R}$ 上联合弱收敛。那么 (i) $\kappa\colon\mathscr{P}\to(\bm{B},\|\cdot\|)$ 在 $P$ 处相对于 $\mathscr{P}(P)$ 可微，且 (ii) 存在一个 $\bm{B}$ 上的紧密的概率测度 $N$ 满足：对任意 $b^*\in\bm{B}^*$

$$ N \circ b^{*-1} = \mathcal{N}(0,\|\tilde{\kappa}_{P,b^*}\|_P^2) $$

即 $N$ 是巴拿赫空间上的一个高斯分布，其由 $b^*$ 投影到实数轴上的一维边缘分布都是均值为 $0$，方差为 $\|\tilde{\kappa}_{P,b^*}\|_P^2$ 的高斯分布。此外，极限分布 $L$ 可以表示为 $N$ 和另一个 $\bm{B}$ 上的一个概率测度的卷积。

这里，满足条件 \eqref{eq:regular} 的估计量 $T_n$ 称为「正则」(regular) 估计量。这个条件和联合弱收敛条件一起保证了 $\kappa$ 的可微性，且导数能表述成影响函数和得分函数的内积，见 van der Vaart (1991) 的引理 A.1。结论 (ii) 即卷积定理，描述了估计量的渐进效率下界，$N$ 就代表了最优极限分布。

参考文献

Hampel, F. R. (1974): “The Influence Curve and its Role in Robust Estimation,” Journal of the American Statistical Association, 69(346), 383–393.
Ichimura, H. and W. K. Newey (2022): “The Influence Function of Semiparametric Estimators,” Quantitative Economics, 13(1), 29–61.
Kennedy, E. H. (2023): “Semiparametric Doubly Robust Targeted Double Machine Learning: A Review,” arXiv preprint, arXiv:2203.06469.
Newey, W. K. (1994): “The Asymptotic Variance of Semiparametric Estimators,” Econometrica, 62(6), 1349–1382.
van der Vaart, A. (1991): “On Differentiable Functionals,” Annals of Statistics, 19(1), 178–204.

严格来说，除了渐进线性展开，我们还要求估计量 $\hat{\theta}$ 是正则的，粗略的含义是，让真实分布 $F_0$ 产生微小扰动后，估计量的极限分布保持不变，见 \eqref{eq:regular} 的定义。满足正则性和渐进线性展开的估计量被称为 正则渐进线性估计量 (regular asymptotically linear estimator, RAL)。 ↩︎
这其实是一个稳健统计学中的经典概念，最早来自 Hampel (1974)。核心思想就是看数据分布的一阶扰动对估计量的影响，和半参数效率理论有紧密而深刻的联系。 ↩︎
$\theta(F_\beta)$ 是关于分布 $F_\beta$ 的泛函，其导数定义为 $\lim_{\beta\to 0^+} \beta^{-1}[\theta(F_\beta)-\theta(F_0)]$，它的存在性依赖于前面所说的正则渐进线性条件（还潜在地依赖于二次均值可微条件，见技术附录），当这个条件满足时，导数就存在，且一定可以表示成影响函数和得分函数的内积，见 van der Vaart (1991) 的引理 A.1 或 Newey (1994) 的定理 2.1。我们还可以更进一步，我们可以将这个泛函的导数看作是切空间（因为得分函数属于切空间）上的泛函，那么根据 Riesz 表示定理，存在该切空间上的一个唯一的元素 $\psi^*$，使得此泛函可以表示成 $\psi^*$ 和得分函数的内积。这个 $\psi^*$ 就是「有效率的影响函数」(efficient influence function, EIF)。其他的影响函数在切空间上的投影就是 $\psi^*$。 ↩︎
这种形式的分布扰动来自 Hampel (1974)。可以证明这种偏离路径是二次均值可微的。 ↩︎
这就是 Neyman 正交化。 ↩︎
怎么理解？它可以看成 $dP_t^{1/2}-dP^{1/2} \approx \frac{t}{2}gdP^{1/2}$。为什么要用平方根密度呢？而且还带有一个 $1/2$？我们考虑普通的得分函数 $s(w) = \partial\log p_t(w)|_{t=0}$，对 $p_t(w)$ 在 $p_0(w)$ 处做一阶展开：
$$ p_t(w) = p_0(w)[1 + t\cdot s(w) + o(t)] $$
两边开根号
$$ \sqrt{p_t(w)} \approx \sqrt{p_0(w)}\biggl[1 + \frac{t}{2}s(w)\biggr] $$
所以（当似然函数可导时）$g$ 就是得分函数。不过这里其实我们并不要求似然函数可导，因此 $g$ 是更一般的得分函数。 ↩︎
即完备的线性赋范空间。就我们考察的半参数问题而言，当参数 $\theta$ 是标量时，$\bm{B}$ 就是实数集 $\mathbb{R}$；当参数 $\theta$ 是向量时，$\bm{B}$ 就是欧几里得空间 $\mathbb{R}^k$。 ↩︎
如果 $\mathscr{P}(P)$ 是所有满足前面光滑性条件的路径的集合，那么这个导数就是 Hadamard 导数。但一般情况下，比如在半参数模型中，由于模型限制，我们并不会考虑这么多的路径。 ↩︎
通常我们还要加上规范化条件 $\mathbb{E}_P[\tilde{\kappa}_{P,b^*}] = 0$ 来保证唯一性，因为 $\mathbb{E}_P[g] = 0$。 ↩︎

最后修改于 2026-03-19