本文是阅读 Chen (2007) 的笔记,介绍了半参数模型中筛法估计的大样本理论。
如果一个计量模型的所有参数都在有限维空间中,则被称为参数模型 (parametric),如果所有参数都在无穷维空间中,则被称为非参数模型 (nonparametric),如果感兴趣的参数在有限维空间而冗余参数在无穷维空间中,则被称为半参数模型 (semiparametric),如果感兴趣的参数部分在有限维空间而部分在无穷维空间中,则被称为半非参模型 (semi-nonparametric)。
半非参模型包含了落在无穷维空间的参数,想要用有限样本去估计这类参数无疑是困难的。此外,即便能求解无穷维空间上的优化问题,得到的估计量通常不会具有良好的性质,譬如可能是不一致的或者收敛速度极慢,这是因为在一个不紧致的无穷维空间上的优化通常并不是适定的 (well-posed)。筛法就很好地克服了这种问题。它是在一列简单的、通常是有限维的空间上进行优化,这列空间就被称为筛 (sieve)。为确保一致性,我们要求筛的复杂度随着样本量的增加而增加,从而极限空间是原始空间的一个致密子集。
许多经济模型都会导出半非参的条件矩约束 (conditional moment restriction):
$$ \begin{equation} \mathbb{E}[\rho(Z_t;\theta_0)|X_t] = 0\quad\text{ with } \theta_0 = (\beta_0',h_0')' \label{eq:cond-moment-restr} \end{equation} $$其中 $\rho(\cdot;\theta)$ 是残差函数的一个列向量,函数形式已知,但参数 $\theta$ 未知,$\{Z_t = (Y_t',X_t')\}_{t=1}^n$ 是观测样本,$Y_t$ 是内生变量,$X_t$ 是条件变量。参数 $\theta_0$ 是感兴趣的参数,包括了有限维的未知参数 $\beta_0$ 和无穷维的未知函数 $h_0(\cdot) = (h_{01}(\cdot),\dots,h_{0q}(\cdot))'$,每个 $h_{0j}(\cdot)$ 都是一个未知函数,可以依赖于 $Y$、$X$、已知形式的函数 $\delta_j(Z,\beta_0)$、其他的 $h_{0k}(\cdot)$、乃至不可观测的某些随机变量。
由 \eqref{eq:cond-moment-restr} 描述的半非参模型可以被分为两个大类。第一类是没有内生性的模型,即 $\rho(\cdot;\theta) - \rho(\cdot;\theta_0)$ 不依赖于内生变量 $Y_t$,因此真实参数 $\theta_0$ 可被识别为 $Q(\theta) = -\mathbb{E}[\rho(Z_t;\theta)'\Sigma(X_t)^{-1}\rho(Z_t;\theta)]$ 的唯一最大值点,其中 $\Sigma(X_t)$ 是正定的权重矩阵。第二类是有内生性的模型,即 $\rho(\cdot;\theta) - \rho(\cdot;\theta_0)$ 依赖于内生变量 $Y_t$,此时真实参数 $\theta_0$ 可被识别为下述函数的唯一最大值点:
$$ Q(\theta) = -\mathbb{E}[m(X_t,\theta)'\Sigma(X_t)^{-1}m(X_t,\theta)] \quad\text{ with } m(X_t,\theta) = \mathbb{E}[\rho(Z_t;\theta)|X_t] $$值得注意的是,尽管第二类模型更加一般,但第一类模型更容易推导其渐进性质。
Sieve maximum estimation
Ill-posed vs. well-posed problem
令 $\Theta$ 表示一个无穷维的参数空间,其上有一个 (pseudo-)metric $d$。一个典型的半非参模型意味着有一个 population criterion function $Q\colon\Theta\to\mathbb{R}$,其唯一的最大值点就是真实参数 $\theta_0$。观测样本是 $\{Z_t\}_{t=1}^n$,$Z_t\in\mathbb{R}^{d_z}$,$1\leq d_z < \infty$。设 $\hat{Q}_n\colon \Theta\to\mathbb{R}$ 是 empirical criterion,它是数据 $\{Z_t\}_{t=1}^n$ 的函数,并且在某种意义上随着样本量趋于无穷而收敛到 $Q$。一种估计 $\theta_0$ 的方法是找到 $\hat{Q}_n$ 的最大值点 $\hat{\theta}_n$,这个估计量就被称为极值估计量 (extremum estimator)。
当 $\Theta$ 是无穷维且关于度量 $d$ 不是紧致的,则 $\hat{Q}_n$ 在 $\Theta$ 上可能并没有最大值,即便最大值存在,求解它可能异常困难,而且即便求解出来了,得到的估计量可能也不一致。如果对于任意 $\{\theta_k\}\in\Theta$,只要 $Q(\theta_0)-Q(\theta_k) \to 0$,就有 $d(\theta_0,\theta_k) \to 0$,则称 $Q$ 的最大化问题是 well-posed 的,否则称 $Q$ 的最大化问题是 ill-posed 的。
最大化问题是否紧致取决于度量 $d$ 的选取。这是因为在无穷维空间上,不同的度量之间并不等价,不同的度量下同一个集合可能是紧致的,也可能是非紧致的。筛法的好处就在于,不论半非参问题是否是适定问题,我们都可以绕开这个困难,在一列简单的有限维空间 $\Theta_n$ 上优化 $\hat{Q}_n$,这列空间是原始空间 $\Theta$ 的一个致密子集。常用的筛通常是紧致的、非降的($\Theta_n\subseteq\Theta_{n+1}$)并且满足对任意 $\theta\in\Theta$,存在 $\pi_n(\theta)\in\Theta_n$ 使得 $d(\pi_n(\theta),\theta)\to 0$,这里 $\pi_n(\cdot)$ 可视作从 $\Theta$ 到 $\Theta_n$ 的投影。
近似筛极值估计量 (approximate sieve extremum estimator) ,记作 $\hat{\theta}_n$,就定义为 $\hat{Q}_n$ 在 $\Theta_n$ 上的近似最大值点:
$$ \hat{Q}_n(\hat{\theta}_n) \geq \sup_{\theta\in\Theta_n}\hat{Q}_n(\theta) - O_p(\eta_n) \quad\text{with } \eta_n \to 0 \quad\text{as } n \to \infty $$该式只要求 $\hat{\theta}_n$ 取得的目标函数值距离上确界的差在概率意义下不超过一个趋于 0 的误差。当 $\eta_n = 0$ 时,$\hat{\theta}_n$ 就称为精确筛极值估计量 (exact sieve extremum estimator)。
Note
根据 White and Wooldridge (1991) 的定理 2.2,当以下条件满足时,近似筛极值估计量 $\hat{\theta}_n$ 是定义良好的且可测的:(i) 对任意 $\theta\in\Theta$,$\hat{Q}_n(\theta)$ 是 $\{Z_t\}_{t=1}^n$ 的可测函数;(ii) 对任意数据 $\{Z_t\}_{t=1}^n$,$\hat{Q}_n(\theta)$ 在 $\Theta_n$ 上以度量 $d$ 衡量是上半连续的;(iii) $\Theta_n$ 以度量 $d$ 衡量是紧致的。
设 $\theta_0 = (\beta_0',h_0')'\in B\times\mathcal{H}$,其中 $B$ 是有限维的紧致空间,$\mathcal{H}$ 是无穷维空间。一个很自然的筛就是 $\Theta_n = B\times\mathcal{H}_n$,其中 $\mathcal{H}_n$ 是 $\mathcal{H}$ 的一个筛。对应的估计量 $\hat{\theta}_n = (\hat{\beta}_n',\hat{h}_n')'$ 有时被称为联合筛极值估计量 (joint sieve extremum estimator)。我们也可以通过以下的两步法来估计 $(\beta_0,h_0)$,这被称为近似轮廓筛极值估计 (approximate profile sieve extremum estimation):
对给定的 $\beta\in B$,找到 $\tilde{h}(\beta)$ 使得 $\hat{Q}_n(\beta,\tilde{h}(\beta)) \geq \sup_{h\in\mathcal{H}_n}\hat{Q}_n(\beta,h) - O_p(\eta_n)$;
求解 $\hat{Q}_n(\hat{\beta},\tilde{h}(\hat{\beta})) \geq \max_{\beta\in B}\hat{Q}_n(\beta,\tilde{h}(\beta)) - O_p(\eta_n)$ 得到 $\hat{\beta}_n$。然后计算 $\hat{h}_n= \tilde{h}(\hat{\beta}_n)$。
两步法相比联合估计可能更容易计算。
Sieve M-estimation
特别地,当 $\hat{Q}_n$ 可被表示为样本平均的形式时:
$$ \sup_{\theta\in\Theta_n}\hat{Q}_n(\theta) = \sup_{\theta\in\Theta_n}\frac{1}{n}\sum_{t=1}^n\ell(\theta,Z_t) $$其中 $\ell\colon \Theta\times\mathbb{R}^{d_z}\to\mathbb{R}$ 为单个样本的 criterion 函数,我们称该问题的解 $\hat{\theta}_n$ 为近似筛 M 估计量 (approximate sieve M-estimator)。显然,筛极大似然估计量、筛最小二乘估计量、筛 GLS 和筛分位数回归都是近似筛 M 估计量的特例。
Series estimation
在本系列中,如果筛 M 估计的目标函数是一个凹函数且筛空间 $\Theta_n$ 是有限维的线性空间(可以被表示为基函数的线性组合),则筛估计量就被称为系列估计量 (series estimator)。这个定义和一些计量文献中的定义是不同的(通常只要用了基函数线性展开就称为系列估计量),主要是为了简化后面对大样本性质的描述。
Example 1.
我们想估计一个未知的多元条件均值函数 $\theta_0(\cdot) = h_0(\cdot) = \mathbb{E}[Y|X=\cdot]$,其中 $X$ 是 $d$ 维的解释变量,支撑集 $\mathcal{X}\subseteq\mathbb{R}^d$ 是有界的,$Y$ 是因变量。设 $h_0\in\Theta$, $\Theta$ 是所有满足 $\mathbb{E}[h(X)^2] < \infty$ 的函数 $h$ 构成的空间的一个子空间。令 $\ell(h,Z) = -(Y-h(X))^2$ 和 $Q(\theta) = - \mathbb{E}[(Y-h(X))^2]$,它们关于 $h$ 都是凹函数。
令 $\{p_j(X),j=1,2,\dots\}$ 表示一列能够逼近任意平方可积的实值函数的基函数,那么
$$ \Theta_n = \mathcal{H}_n = \biggl\{h\colon\mathcal{X}\to\mathbb{R} \bigg| h(X) = \sum_{j=1}^{k_n}a_jp_j(X), a_j\in\mathbb{R}\biggr\} $$这里 $\mathrm{dim}(\Theta_n) = k_n$ 随着样本量 $n$ 增加而缓慢增加,这个空间列就是 $\Theta$ 的一个有限维的线性筛,对应的筛估计量就是系列估计量,并且有闭式表达
$$ \hat{h}(x) = p^{k_n}(x)'(P'P)^{\dagger}\sum_{i=1}^{n}p^{k_n}(X_i)Y_i $$其中 $p^{k_n}(x) = (p_1(x),\dots,p_{k_n}(x))'$,$P = (p_1(X_1),\dots,p_{k_n}(X_n))'$,$P'P$ 是 $k_n\times k_n$ 的矩阵,$\dagger$ 表示伪逆。这个估计量也被称作系列最小二乘估计量或线性筛最小二乘估计量。
未完待续。
参考文献
Chen, X. (2007). Large Sample Sieve Estimation of Semi-Nonparametric Models. In Handbook of Econometrics, Volume 6B, Chapter 76, Pages 5549-5632. Elsevier.
最后修改于 2026-01-03