本文是阅读 Lancaster (2000) 的笔记,介绍了次要参数问题 (incidental parameter problem) 的历史和统计学者提出的一个通用解决方案。
1948 年,Econometrica 发表了统计学家 Jerzy Neyman 和他的学生 Elizabeth Scott 的论文 Consistent Estimates Based On Partially Consistent Observations,其中首次提出了次要参数问题。而这也是这位统计学巨擘唯一一篇发表在经济学杂志上的论文。这篇文章在很长一段时间里并未在计量经济学中引起太多关注,但进入新世纪后,次要参数问题逐渐成为计量经济学中的一个重要问题,并引发了广泛关注(Google Scholar 的引用次数逐年上升)。
他们的文章讲了什么
有一列独立的随机变量,它们的分布律取决于两类参数:第一类出现在每个随机变量的分布律中,而第二类只出现在有限个(可能是一个)随机变量的分布律中。按照 Neyman 和 Scott 的分类,前者被称为结构参数 (structural),后者被称为次要参数 (incidental)。不过鉴于 structural 一词在计量经济学中被广泛使用且有特定的含义,本文不采用这一术语,而用共同参数 (common parameter) 来指代第一类参数。直觉上,每一个额外的观测都会提供关于共同参数的信息,但关于次要参数的信息在有限个观测之后就不再增加,这被 NS 称为 inconsistent observations。
NS 考察了共同参数极大似然估计的一致性和效率,关于一致性的命题定义了“次要参数问题”,这也是本文所关注的问题。这个命题是说:利用非一致观测值的共同参数的极大似然估计量不必然是一致的。我们用一个例子来说明这一点。
Example 1.
$\{x_{i,j}\}$ 是一列独立的随机变量,概率密度为正态密度
$$ p(x_{i,j}) = \frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{(x_{i,j}-\alpha_i)^2}{2\sigma^2}\right)\quad i = 1,\dots,s \quad j = 1,\dots,n_i \quad s\to\infty $$其中 $\alpha_i$ 就是次要参数,它们只出现在 $n_i$ 个观测值中,$\sigma$ 是共同参数,它出现在每个随机变量的分布律中。注意,这里我们考虑的是固定的 $n_i$ 而 $s$ 趋于无穷。
假设 $n_i = n$。考虑 $\alpha_i$ 和 $\sigma^2$ 的极大似然估计量 $\hat{\alpha}_i = \bar{x}_i$ 和
$$ \hat{\sigma}^2 = \frac{1}{sn}\sum_{i=1}^s \sum_{j=1}^{n_i} (x_{i,j}-\bar{x}_i)^2 \sim \frac{\sigma^2}{sn}\chi^2(s(n-1)) $$我们有 $\mathbb{E}[\hat{\sigma}^2] = \sigma^2(n-1)/n$,因此尽管 $s\to\infty$,$\hat{\sigma}^2$ 却不是一致的。
他们的文章在领域中的状态
在统计学中,上述例子是对极大似然估计在冗余参数 (nuisance parameter) 情形下不一致性的一个经典例子。极大似然估计可以看作是消除冗余参数的一种方法,即在第一阶段得到冗余参数的极大似然估计,然后在第二阶段将似然函数中的冗余参数替换为其极大似然估计,最后得到主要参数的估计。但正如上面这个例子所示,某些情况下极大似然估计并不是一种消除冗余参数的完美方法。
在计量经济学中,这个问题很长时间都处于不温不火的状态。许多早期的面板模型文献中都只是提及但并未深入讨论。这可能是因为在那个年代,计量经济学对待误差的范式还没有形成。有两种方式,一种是 errors in variables,另一种是 errors in equations。包括 NS 在内的诸多统计文献都是把次要参数置于 errors in variables 的情形下讨论的。而后来计量经济学逐渐选择了 errors in equations 的方式,errors in variables 式微。这也许能部分解释为什么计以前量经济学文献中很少讨论次要参数问题。
后来随着固定效应模型逐渐成为计量经济学中的主流模型,次要参数模型越发显得重要了,在 Lancaster (2000) 发表的后 20 年里,关于次要参数问题的研究越来越多。
一些计量的例子
线性模型:外生协变量
在这个模型中,观测值是独立的正态分布,条件于 $\alpha_i$,$\lambda=(\beta,\sigma^2)$ 和 $x_{i1},\dots,x_{iT}$:
$$ \begin{align*} \mathbb{E}(y_{it}|\alpha_i,\lambda,\{x_{i1},\dots,x_{iT}\}) &= \alpha_i + \beta x_{it} \\ \mathrm{var}(y_{it}|\alpha_i,\lambda,\{x_{i1},\dots,x_{iT}\}) &= \sigma^2 \end{align*} $$不难推导出,$\beta$ 的极大似然估计量也是最小二乘估计量,是一致的,而 $\sigma^2$ 的极大似然估计量不是一致的。这个模型是 NS 例子的一个更一般版本。
计数模型
条件于 $\alpha_i$,$\beta$ 和 $x_{i1},\dots,x_{iT}$,$y_{it}$ 服从独立的泊松分布:
$$ \mathbb{E}(y_{it}|\alpha_i,\beta,\{x_{i1},\dots,x_{iT}\}) = \alpha_i\exp(\beta x_{it}) $$这个模型的 $\beta$ 的极大似然估计量是一致的。
Duration 模型
条件于 $\alpha_i$,$\lambda=(\beta,\theta)$ 和 $x_{i1},\dots,x_{iT}$,$y_{it}$ 服从独立的 Weibull 分布:
$$ y_{it}|\alpha_i,\lambda,\{x_{i1},\dots,x_{iT}\} \sim \text{Weibull}(\alpha_i\beta x_{it}, \theta) $$可以证明,$\theta$ 和 $\beta$ 的极大似然估计量都是不一致的(当 $T$ 固定但 $N\to\infty$ 时)。
动态线性模型
考虑模型
$$ y_{it}|y_{i,t-1},\dots,y_{i0},\alpha_i,\rho,\sigma^2 \sim \mathcal{N}(\alpha_i + \rho y_{i,t-1},\sigma^2) $$可以证明,$\rho$ 和 $\sigma^2$ 的极大似然估计量都是不一致的(当 $T$ 固定但 $N\to\infty$ 时)。这种情形的 bias 似乎和 Nickell bias 联系更紧密一点,因为违背了强外生性假设。
二元数据模型:外生协变量
响应变量 $y_{it}$ 是二元的:
$$ \mathbb{E}(y_{it}|\alpha_i,\beta,\{x_{i1},\dots,x_{iT}\}) = G(\alpha_i + \beta x_{it}) $$其中 $G$ 是某个已知形式的累积分布函数。对于这一类模型,$\beta$ 的极大似然估计量是不一致的。
特别地,当 $G$ 是 logistic 分布时,有一种利用充分统计量的解决方案。具体而言,$S_i = \sum_{t=1}^T y_{it}$ 是给定 $\beta$ 时 $\alpha_i$ 的充分统计量,于是 $y_{i1},\dots,y_{iT}$ 条件于 $S_i$ 的分布就不再取决于 $\alpha_i$。不过对于一般的分布 $G$,通常很难找到充分统计量。
令 $G$ 为 logistic CDF,记 $\Lambda(u)=\frac{e^u}{1+e^u}$。则对固定个体 $i$
$$ \mathbb{P}(y_{it}=1|\alpha_i,\beta,\{x_{it}\}_t)=\Lambda(\alpha_i+\beta x_{it}) $$给定 $(\alpha_i,\beta,\{x_{it}\}_t)$,$\{y_{it}\}_t$ 条件独立,因此联合概率为
$$ \mathbb{P}(y_{i1},\dots,y_{iT}|\alpha_i,\beta,\{x_{it}\}_t) =\prod_{t=1}^T \Lambda(\alpha_i+\beta x_{it})^{y_{it}}\bigl(1-\Lambda(\alpha_i+\beta x_{it})\bigr)^{1-y_{it}} $$利用 $\Lambda(u)=\frac{e^u}{1+e^u}$ 和 $1-\Lambda(u)=\frac{1}{1+e^u}$,可化简为
$$ \mathbb{P}(y_{i1},\dots,y_{iT}|\alpha_i,\beta,\{x_{it}\}_t) = \frac{\exp\bigl(\sum_{t=1}^T y_{it}(\alpha_i+\beta x_{it})\bigr)} {\prod_{t=1}^T \bigl(1+\exp(\alpha_i+\beta x_{it})\bigr)} $$把 $\alpha_i$ 的项单独拎出来,注意
$$ \sum_{t=1}^T y_{it}(\alpha_i+\beta x_{it}) = \alpha_i\underbrace{\sum_{t=1}^T y_{it}}_{S_i}+\beta\sum_{t=1}^T y_{it}x_{it} $$因此联合概率可以写成
$$ \mathbb{P}(y_{i1},\dots,y_{iT}|\alpha_i,\beta,\{x_{it}\}_t) = \exp(\alpha_i S_i) \cdot \frac{\exp\bigl(\beta\sum_{t=1}^T y_{it}x_{it}\bigr)}{\prod_{t=1}^T \bigl(1+\exp(\alpha_i+\beta x_{it})\bigr)} $$由 Fisher–Neyman 因子分解定理,$S_i=\sum_{t=1}^T y_{it}$(在给定 $\beta,\{x_{it}\}_t$ 时)是关于 $\alpha_i$ 的充分统计量。
更进一步,考虑给定 $S_i=s$ 的条件分布。对任意满足 $\sum_{t=1}^T d_t=s$ 的二元向量 $d=(d_1,\dots,d_T)$,上式在分子里都含有相同的因子 $\exp(\alpha_i s)$,因此在条件概率
$$ \mathbb{P}(y_{i1},\dots,y_{iT}|S_i=s,\beta,\{x_{it}\}_t,\alpha_i) = \frac{\mathbb{P}(y_{i1},\dots,y_{iT}|\beta,\{x_{it}\}_t,\alpha_i)}{\sum_{d:\,\sum_t d_t=s}\mathbb{P}(d|\beta,\{x_{it}\}_t,\alpha_i)} $$中该因子完全抵消,得到
$$ \mathbb{P}(y_{i1},\dots,y_{iT}|S_i=s,\beta,\{x_{it}\}_t) = \frac{\exp\bigl(\beta\sum_{t=1}^T y_{it}x_{it}\bigr)}{\sum_{d:\,\sum_t d_t=s}\exp\bigl(\beta\sum_{t=1}^T d_t x_{it}\bigr)} $$右边不再含 $\alpha_i$。因此可以用上述条件似然来估计 $\beta$,从而绕开估计 $\alpha_i$ 带来的不一致性问题。
动态二元模型
响应变量 $y_{it}$ 服从
$$ \mathbb{E}(y_{it}|\alpha_i,\beta,\{x_{it}\}_{t=1}^T,\{y_{is}\}_{s=0}^{t-1}) = G(\alpha_i + \rho y_{i,t-1} + \beta x_{it}) $$尚未有关于这个模型的极大似然估计的理论分析,但 Heckman (1981) 的模拟结果显示 $G$ 为正态分布时 MLE 有显著的偏误。
此问题在统计学中的研究
应对次要参数问题,统计学中有两个主流的方法:一个是贝叶斯方法,另一个是条件似然方法(频率学派)。这里只介绍条件似然方法,因为我并不是贝叶斯主义者,不过这两个方法在本质上是相通的,贝叶斯方法是对先验密度的更合理的选取。
条件似然
条件似然方法的基本思想是,将次要参数和共同参数的估计分离开来。设 $S$ 是一个统计量,似然函数可以分解为
$$ \begin{equation} \ell(y|\alpha,\lambda) = \ell_1(S|\alpha)\ell_2(y|S,\lambda) \label{eq:cond-lik-0} \end{equation} $$于是,对共同参数 $\lambda$ 的估计可以通过最大化 $\ell_2(y|S,\lambda)$ 得到。当这个分解成立时,称 $\alpha$ 和 $\lambda$ 是似然正交的 (likelihood orthogonal)。如果似然函数不能像上面那样分解,我们还可以寻找对次要参数的某个重参数化 (reparametrization),即从 $\alpha$ 到 $\alpha^*$,使得上述分解对新的参数成立。
注意到上述分解意味着
$$ \begin{equation} \frac{\partial^2\log\ell}{\partial\alpha\partial\lambda} = 0 \label{eq:partial-hessian} \end{equation} $$这会导致信息矩阵的块对角化(但反之则不一定成立,因为信息矩阵是期望),从而使得共同参数的估计量和次要参数的估计量是独立的。
如果 $\alpha,\lambda$ 不满足似然正交性,但似然函数可以分解为
$$ \begin{equation} \ell(y|\alpha,\lambda) = \ell_1(S|\alpha,\lambda)\ell_2(y|S,\lambda) \label{eq:cond-lik-1} \end{equation} $$此时我们仍可以通过最大化 $\ell_2$ 得到共同参数的一致估计量(这需要证明,因为最大化 $\ell_2$ 不再等价于最大化全似然函数 $\ell$)。
类似地,如果似然函数可分解为
$$ \begin{equation} \ell(y|\alpha,\lambda) = \ell_1(S|\lambda)\ell_2(y|S,\alpha,\lambda) \label{eq:cond-lik-2} \end{equation} $$那么我们可以基于 $\ell_1$ 得到 $\lambda$ 的估计量。基于 \eqref{eq:cond-lik-1} 和 \eqref{eq:cond-lik-2} 的估计被称作部分似然 (partial likelihood) 估计,即我们是基于似然函数中只依赖于共同参数的部分得到共同参数的估计量,从而排除了次要参数的影响。
然而,在许多情况下,上述的似然正交性 \eqref{eq:cond-lik-0} 和部分似然分解 \eqref{eq:cond-lik-1} \eqref{eq:cond-lik-2} 并不成立。为此,统计学家们提出了近似分离的办法,以 Cox and Reid (1987) 为代表。
我们可以讲固定效应 $\alpha_i$ 表示为 $\alpha_i = \alpha(\alpha_i^*,\lambda)$,其中 $\alpha_i^*$ 是一个待选择的参数,它要与共同参数 $\lambda$ 正交。换言之,我们希望找到一个重参数化使得
$$ \begin{equation} \mathbb{E}\biggl[\frac{\partial^2\log\ell_i}{\partial\alpha_i^*\partial\lambda}\biggr] = 0 \label{eq:partial-hessian-2} \end{equation} $$和 \eqref{eq:partial-hessian} 相比,\eqref{eq:partial-hessian-2} 只要求参数正交性在数据的平均意义上成立,而不是在每个数据点上成立。
我们对 $\ell_i(\alpha_i^*,\lambda)$ 求微分并取期望,并利用 $\mathbb{E}[\partial\ell_i/\partial\alpha_i] = 0$,得到
$$ \mathbb{E}\biggl[\frac{\partial^2\log\ell_i}{\partial\alpha_i^*\partial\lambda}\biggr] = \frac{\partial\alpha_i}{\partial\alpha_i^*} \biggl(\frac{\partial\alpha_i}{\partial\lambda}\mathbb{E}\biggl[\frac{\partial^2\log\ell_i}{\partial\alpha_i^2}\biggr]+\mathbb{E}\biggl[\frac{\partial^2\log\ell_i}{\partial\alpha_i\partial\lambda}\biggr]\biggr) $$再利用 \eqref{eq:partial-hessian-2},得到
$$ \frac{\partial\alpha_i}{\partial\lambda} = -\mathbb{E}\biggl[\frac{\partial^2\log\ell_i}{\partial\alpha_i\partial\lambda}\biggr]\bigg/\mathbb{E}\biggl[\frac{\partial^2\log\ell_i}{\partial\alpha_i^2}\biggr] $$这个微分方程描述了次要参数和共同参数之间的依赖关系。正交参数 $\alpha_i^*$ 可以选为上面这个方程的解的一个积分常数,因此不是唯一的。
Example 2.
我们选择泊松计数模型作为一个例子来说明如何找到正交参数。似然函数为
$$ \ell_i(y_i|\alpha_i,\beta) \propto e^{-\alpha_i\sum_t\exp(x_{it}\beta)} \alpha_i^{\sum_t y_{it}} e^{\beta\sum_t y_{it}x_{it}} $$于是(省略个体标识 $i$)
$$ \begin{align*} L &= -\alpha\sum_t\exp(x_t\beta) + \sum_t y_t\log(\alpha) + \beta\sum_t y_t x_t \\ \frac{\partial L}{\partial \alpha} &= -\sum_t\exp(x_t\beta) + \sum_t y_t\frac{1}{\alpha} \\ \frac{\partial^2 L}{\partial \alpha^2} &= -\frac{1}{\alpha^2}\sum_t y_t \\ \mathbb{E}\biggl[\frac{\partial^2 L}{\partial \alpha^2}\biggr] &= -\frac{1}{\alpha}\sum_t \exp(x_t\beta) \\ \frac{\partial^2 L}{\partial \alpha\partial \beta} &= -\sum_t x_t\exp(x_t\beta) = \mathbb{E}\biggl[\frac{\partial^2 L}{\partial \alpha\partial \beta}\biggr] \\ \end{align*} $$于是有微分方程
$$ \frac{1}{\alpha}\frac{\partial\alpha}{\partial\beta} = -\frac{\sum_t x_t\exp(x_t\beta)}{\sum_t \exp(x_t\beta)} $$其通解为
$$ \log\alpha = -\log\sum_t \exp(x_t\beta) + \log \alpha^* $$积分常数写作了 $\log \alpha^*$,这意味着正交参数是
$$ \alpha_i^* = \alpha \sum_t \exp(x_t\beta) $$当然,积分常数可以有很多种不同的表示形式,得到的正交参数也不是唯一的。
Cox 和 Reid 的方案是,先对给定的 $\lambda$,得到次要参数 $\alpha_i^*$ 的极大似然估计 $\hat{\alpha}_i^*(\lambda)$,然后条件于这个估计量,最大化共同参数 $\lambda$ 的似然函数。当存在 $\alpha_i^*$ 的充分统计量时,这种做法就等价于条件于充分统计量最大化共同参数的似然函数。不过一般情况下,得到精确的条件分布并非易事,Cox 和 Reid 提出了一种近似的方法,即采用条件似然的近似形式
$$ \begin{equation} \ell_M(\lambda) = \ell(\lambda,\hat{\alpha}^*(\lambda))|j_{\alpha^*\alpha^*}(\lambda,\hat{\alpha}^*(\lambda))|^{-1/2} \label{eq:approx-cond-lik} \end{equation} $$其中
$$ j_{\alpha^*\alpha^*}(\lambda,\alpha^*) = -\frac{\partial^2\log\ell(\lambda,\alpha^*)}{\partial\alpha_i^*\partial\alpha_i^*} $$即 Hessian 矩阵的 $\alpha_i^*\alpha_i^*$ 块。式 \eqref{eq:approx-cond-lik} 右边第一项是轮廓似然 (profile likelihood),其 maximum 就是共同参数的极大似然估计;第二项是一个校正因子(我们用 M 下标强调这一点)。理论上可以证明,\eqref{eq:approx-cond-lik} 的 score function 的期望是 $O(1/T)$,这会导致最大化 $\ell_M$ 得到的共同参数的估计量的偏误是 $O(1/T^2)$。
总结
次要参数问题是一个经典的问题,不过在上个世纪所引起计量经济学家的关注不多。计量学者对于这个问题的解决方案通常是模型特定的,很少有通用的方法。早期统计学家对这个问题的研究更为深入,当共同参数和次要参数在似然函数中可分时,只需要关注包含共同参数的那部分就行了,但当这种分解无法得到时,我们还可以通过重参数化和近似似然函数的方式来得到共同参数的一致估计量(更严谨地说,对偏误进行降阶)。
参考文献
Heckman, J.J. (1981). The incidental parameters problem and the problem of initial conditions in estimating a discrete time-discrete data stochastic process. In: Manski, C.F. & McFadden, D. (Eds.), Structural Analysis of Discrete Data with Econometric Applications. MIT Press.
Lancaster, T. (2000). The incidental parameter problem since 1948. Journal of Econometrics, 95(2), 391–413.
Lancaster, T. (2002). Orthogonal parameters and panel data. The Review of Economic Studies, 69(3), 647–666.
最后修改于 2025-12-27