非参数识别

这篇是阅读 Matzkin (2007) 的笔记,简要介绍了非参数识别的理论。这里只摘录可加模型和不可加模型的函数形式的识别,其他泛函形式(诸如导数和差值)和更多非参模型的识别请参考原文。

当我们在估计一个模型中的元素时,要做的第一件事就是确定此元素的可识别性,换句话说,我们要确定这个元素是否可以被唯一地确定出来。在参数模型中,这个问题相对简单,因为我们的目标事实上就是这些参数,我们可以对模型中的函数和分布施加参数化的限制,从而保证参数的唯一性,这在没有大数据集和计算机的能力没那么强的年代是一个标准做法。然而,随着计算机能力的提升和大数据的普及,我们不再满足于参数化的方法,考虑非参数的更复杂的函数和分布成为可能。此时,要问的问题不再是某几个参数是不是能被识别的,而是模型中的函数和分布在一个函数族或分布族中是不是能被识别的。

计量模型 

从经济模型到计量模型 

一个经济模型,通常描述了经济代理人 (agents) 及其目标函数、信息集和他们之间的交互作用。当我们计量人试图用这个模型去拟合现实数据时,需要确定哪些变量是可观测的和不可观测的,哪些变量是内生的和外生的。我们用 $X$ 表示所有的外生可观测变量,其长度为 $K$,用 $\varepsilon$ 表示所有的外生不可观测变量,其长度为 $L$,用 $Y$ 表示所有的内生可观测变量,其长度为 $G$,用 $\Upsilon$ 表示所有的内生不可观测变量,其长度为 $G^\Upsilon$。

除此之外,一个经济模型通常还包含了一些函数和分布,其中有一些函数和分布是基本的 (primitive),意思是它们被决定于模型之外。令 $\underline{h}$ 表示所有基本的函数,$\underline{F}$ 表示所有基本的分布。我们将这些基本函数和分布同前述变量的内在联系通过一个已知向量函数 $v$ 及如下方程(组)刻画:

$$ v(Y,\Upsilon,X,\varepsilon;\underline{h},\underline{F}) = 0 $$

此方程可用于导出可观测变量 $(Y,X)$ 的联合分布,作为模型的基本要素 $(\underline{h},\underline{F})$ 的函数。

Example 1.

考虑一个简单的需求模型,有两种商品,一种消费品和一种复合商品。令 $I$ 表示消费者收入,复合商品的价格为 1 而消费品的价格为 $p$。用 $y$ 和 $z$ 表示消费者对消费品和复合商品的需求量。假设经济模型描述了消费者的目标是在不花费超过其收入的情况下最大化其效用 $U$。这里 $U$ 是严格递增的、严格凹的、两次可导的,并且除了 $(y,z)$ 之外,$U$ 还依赖于消费者的可观测的其他社会经济特征,诸如年龄、婚姻状况等,这些因素记作 $w$,以及其他的观测不到的影响偏好的因素,记作 $\varepsilon$。那么,所观测到的需求 $(y,z)$ 满足

$$ (y,z) = \arg\max_{\tilde{y},\tilde{z}} \{U(\tilde{y},\tilde{z},w,\varepsilon) \mid p\tilde{y}+\tilde{z} \leq I\} $$

由单调性,所有的收入都会被花光,因此有

$$ \begin{align*} y &= \arg\max_{\tilde{y}} \{U(\tilde{y},I-p\tilde{y},w,\varepsilon) \mid \tilde{y} \leq I/p\} \\ z &= I-p\tilde{y} \end{align*} $$

再根据可微性、严格凹性和最优性,我们得到

$$ U_{\tilde{y}}(y,I-py,w,\varepsilon) - pU_{\tilde{z}}(y,I-py,w,\varepsilon) = 0 $$

在这个模型中,收入 $I$、特征 $w$ 和价格 $p$ 是外生可观测变量,而 $\varepsilon$ 是外生不可观测变量,需求量 $y$ 和 $z$ 则是内生可观测变量。效用函数 $U$ 是未知基本函数,而 $(p,I,w,\varepsilon)$ 是未知基本分布。给定任意满足可微性、单调性和凹性的效用函数 $U$,并给定任意 $(p,I,w,\varepsilon)$ 的分布,我们可以用以上方程导出可观测变量 $(y,z,p,I,w)$ 的联合分布:

$$ \begin{align*} v(Y,X,\varepsilon) &= v(y,z,p,I,w,\varepsilon) \\ &= U_y(y,I-py,w,\varepsilon) - pU_z(y,I-py,w,\varepsilon) \\ &= 0 \end{align*} $$

显然,对于给定的 $(p,I,w,\varepsilon)$,满足以上方程的 $y$ 是唯一的。用 $m(p,I,w,\varepsilon)$ 表示这个映射,它就是需求函数。我们将需求模型

$$ Y = m(p,I,w,\varepsilon) $$

称为 reduced form 模型,它将可观测和不可观测的外生变量映射到可观测的内生变量。这个表达不需要表明它背后所依赖的均衡条件,因此它被称为 reduced form。

识别 

我们将满足一个模型所施加限制的所有函数和分布的集合记作 $S$,将 $S$ 中的任意元素记作 $\zeta$,其真实值我们用 $\zeta^*$ 表示。对 $\zeta\in S$,将 $\zeta$ 所引致的可观测变量的分布记作 $F_{Y,X}(\cdot,\cdot;\zeta)$,而由 $\zeta^*$ 引致的可观测变量的分布 $F_{Y,X}(\cdot,\cdot;\zeta^*)$ 有时我们就简写作 $F_{Y,X}$。

给定一个模型和相应的 $\zeta^*$,以及一个满足了 $\zeta^*$ 被要求满足的所有限制的函数和分布向量的集合 $S$,我们想知道 $\zeta^*$ 中的哪些元素可以被 $F_{Y,X}$ 唯一地确定。更一般地,我们想知道 $\zeta^*$ 的哪些特征 (features) 可以被 $F_{Y,X}$ 唯一地确定。这里“特征”的意思是任意函数 $\Psi\colon S\to\Omega$,其中 $\Omega$ 是一个任意的集合。它可以是 $\zeta$ 的一个元素,也可以是某一个性质,例如 $\zeta^*$ 中某个函数的导数的符号。令 $\psi^* = \Psi(\zeta^*)$ 表示 $\zeta^*$ 的特征的真实值。由于 $\zeta\in S$,我们用 $\Psi(S)$ 表示所有可能的特征的集合。对于 $\psi\in\Psi(S)$,定义

$$ \Gamma_{Y,X}(\psi,S) = \{F_{Y,X}(\cdot,\cdot;\zeta) \mid \zeta\in S, \Psi(\zeta) = \psi\} $$

它表示所有满足 $\Psi(\zeta) = \psi$ 的 $\zeta$ 所引致的可观测变量的分布的集合。

一个重要的概念是观测等价 (observational equivalence)

Definition 2.

称特征 $\psi,\psi'\in\Omega$ 在模型 $S$ 中是观测等价的 (observationally equivalent),如果 $\Gamma_{Y,X}(\psi,S) \cup \Gamma_{Y,X}(\psi',S) \neq \emptyset$。

相对地,当没有观测等价时,我们就说 $\psi^*$ 是被识别的 (identified)

Definition 3.

称特征 $\psi^*\in\Omega$ 在模型 $S$ 中是被识别的 (identified),如果对任意 $\psi\in\Omega$ 且 $\psi\neq\psi^*$,都有 $\Gamma_{Y,X}(\psi,S) \cup \Gamma_{Y,X}(\psi^*,S) = \emptyset$。

可加模型的识别 

考虑模型

$$ Y = g^*(X) + \varepsilon $$

其中 $g^*$ 是一个未知的连续函数,$X\in\mathbb{R}^K$ 是可观测解释变量,$\varepsilon$ 是不可观测解释变量。

假设我们感兴趣的对象是 $g^*(\bar{x})$,其中 $\bar{x}$ 是 $X$ 的一个特定的值。对任意 $(\varepsilon,X)$ 的分布 $\tilde{F}_{\varepsilon,X}$,记 $\mathbb{E}[\varepsilon \mid X=x;\tilde{F}_{\varepsilon,X}]$ 为在给定 $X=x$ 时以 $\tilde{F}_{\varepsilon,X}$ 计算的 $\varepsilon$ 的条件期望。记 $\tilde{f}_X$ 为边缘分布 $\tilde{F}_X$ 的密度函数。函数 $g$ 是一个连续函数,分布 $\tilde{F}_{\varepsilon,X}$ 满足:(i) $\tilde{f}_X(\bar{x}) > 0$ 且 $\tilde{f}_X$ 在 $\bar{x}$ 处连续;(ii) $\mathbb{E}[\varepsilon \mid X=\bar{x};\tilde{F}_{\varepsilon,X}] = 0$ 且 $\mathbb{E}[\varepsilon\mid X=x;\tilde{F}_{\varepsilon,X}]$ 在 $\bar{x}$ 处连续。将满足上述限制的函数和分布的集合记作 $S$。令 $\Omega$ 表示 $\psi^* = g^*(\bar{x})$ 所有可能取值的集合。

Proposition 4.

$\psi^* = g^*(\bar{x})$ 在模型 $S$ 中是被识别的。

设 $(g^*,F_{\varepsilon,X}'),(\tilde{g},\tilde{F}_{\varepsilon,X})\in S$ 且 $\tilde{g}(\bar{x}) \neq g^*(\bar{x})$。我们有

$$ \begin{align*} \mathbb{E}[Y \mid X=\bar{x};\tilde{g},\tilde{F}_{\varepsilon,X}] &= \tilde{g}(\bar{x}) + \mathbb{E}[\varepsilon \mid X=\bar{x};\tilde{F}_{\varepsilon,X}] = \tilde{g}(\bar{x}) \\ \mathbb{E}[Y \mid X=\bar{x};g^*,F_{\varepsilon,X}'] &= g^*(\bar{x}) + \mathbb{E}[\varepsilon \mid X=\bar{x};F_{\varepsilon,X}'] = g^*(\bar{x}) \end{align*} $$

两个函数都在 $\bar{x}$ 处连续,于是

$$ F_{Y,X}(\cdot,\cdot;\tilde{g},\tilde{F}_{\varepsilon,X}) \neq F_{Y,X}(\cdot,\cdot;g^*,F_{\varepsilon,X}') $$

从而 $\psi^*$ 是识别的。简单来说就是条件均值不同,分布肯定就不同。

当 $g^*$ 可被识别,我们也能识别 $F_{\varepsilon,X}^*$。假设边缘分布 $F_X$ 有处处正的密度。令 $S$ 为满足以下限制的函数和分布的集合:$\tilde{g}$ 是连续函数,$\tilde{F}_{\varepsilon,X}$ 满足 $\mathbb{E}[\varepsilon \mid X=x;\tilde{F}_{\varepsilon,X}]$ 关于 $x$ 处处连续且处处等于 0。

Proposition 5.

$\psi^* = (g^*,F_{\varepsilon,X}^*)$ 在模型 $S$ 中是被识别的。

首先用和之前相同的方法我们可以证明对任意 $x$,$g^*(x)$ 都是被识别的。注意到

$$ \begin{align*} F_{Y|X=x}(y) &= \mathbb{P}(Y\leq y \mid X=x) \\ &= \mathbb{P}\bigl(g^*(X)+\varepsilon\leq y \mid X=x\bigr) \\ &= \mathbb{P}\bigl(\varepsilon\leq y-g^*(x) \mid X=x\bigr) \\ &= F_{\varepsilon|X=x}(y-g^*(x)) \end{align*} $$

由于边缘密度 $f_X^*$ 处处正且是被识别的(因为来自数据),所以 $F_{\varepsilon,X}^*$ 也是被识别的。

非可加模型的识别 

考虑非可加模型(nonadditive model):

$$ Y = m^*(X,\varepsilon) $$

由于比可加模型更加一般化,不难想到欲识别函数 $m^*$ 和分布 $F_{\varepsilon,X}^*$ 我们需要施加更强的限制。事实上,Matzkin (2003, Lemma 1) 证明了,即便 $m^*$ 关于 $\varepsilon$ 严格递增且 $X$ 和 $\varepsilon$ 独立,$m^*$ 也不一定被识别。

令 $S$ 为满足以下限制的 $(m,F_{\varepsilon})$ 的集合:$\tilde{m}\colon \Xi\times R\to R$ 在 $\Xi\times R$ 上连续且关于 $\varepsilon$ 严格递增,$\tilde{F}_{\varepsilon}$ 在 $R$ 上连续且严格递增。

Proposition 6.

$m,\tilde{m}\in\Omega$ 是观测等价的当且仅当对于某个连续且严格递增的函数 $s\colon R\to R$ 和任意 $x\in\Xi$ 及 $\varepsilon\in R$ 都有 $\tilde{m}(x,s(\varepsilon)) = m(x,\varepsilon)$。

设 $m,\tilde{m}\in\Omega$ 是观测等价的,则存在连续且严格递增的 $F_\varepsilon,\tilde{F}_\varepsilon$ 使得对任意的 $x\in\Xi$ 及 $\varepsilon\in R$ 都有

$$ F_{Y|X=x}(y;m,F_\varepsilon) = F_{Y|X=x}(y;\tilde{m},\tilde{F}_\varepsilon) $$

用 $r(x,\cdot)$ 和 $\tilde{r}(x,\cdot)$ 表示 $m(x,\cdot)$ 和 $\tilde{m}(x,\cdot)$ 的反函数。由于对所有的 $y,x$

$$ \begin{align*} F_{Y|X=x}(y;m,F_\varepsilon) &= \mathbb{P}(Y\leq y \mid X=x; m,F_\varepsilon) = F_{\varepsilon}(r(x,y)) \\ F_{Y|X=x}(y;\tilde{m},\tilde{F}_\varepsilon) &= \mathbb{P}(Y\leq y \mid X=x; \tilde{m},\tilde{F}_\varepsilon) = \tilde{F}_\varepsilon(\tilde{r}(x,y)) \end{align*} $$

这意味着

$$ F_{\varepsilon}(r(x,y)) = \tilde{F}_\varepsilon(\tilde{r}(x,y)) $$

因为 $F_\varepsilon$ 和 $\tilde{F}_\varepsilon$ 是严格递增的且连续的,所以 $s(t) = \tilde{F}^{-1}_\varepsilon(F_\varepsilon(t))$ 是严格递增的且连续的,且 $\tilde{r}(x,y) = s(r(x,y))$。记 $y = m(x,\varepsilon)$。利用 $\tilde{r}$ 是 $\tilde{m}$ 的反函数,有

$$ y = \tilde{m}(x,\tilde{r}(x,y)) = \tilde{m}(x,s(r(x,y))) = \tilde{m}(x,s(\varepsilon)) $$

因此 $m(x,\varepsilon) = \tilde{m}(x,s(\varepsilon))$。

另一方面,假设存在一个连续且严格递增的函数 $s$,对所有 $x\in\Xi$ 及 $\varepsilon\in R$ 都有 $m(x,\varepsilon) = \tilde{m}(x,s(\varepsilon))$。令 $\tilde{\varepsilon} = s(\varepsilon)$ 并以 $\tilde{F}_{\varepsilon}$ 表示 $\tilde{\varepsilon}$ 的分布。那么,对所有 $y,x$

$$ \begin{align*} F_{Y|X=x}(y;m,F_\varepsilon) &= \mathbb{P}(Y\leq y \mid X=x; m,F_\varepsilon) = F_{\varepsilon}(r(x,y)) \\ F_{Y|X=x}(y;\tilde{m},\tilde{F}_\varepsilon) &= \mathbb{P}(Y\leq y \mid X=x; \tilde{m},\tilde{F}_\varepsilon) = \tilde{F}_\varepsilon(\tilde{r}(x,y)) \end{align*} $$

这意味着 $m$ 和 $\tilde{m}$ 是观测等价的。

简单来说,这个命题表明,即便我们对 $m^*$ 和 $F_{\varepsilon,X}^*$ 施加了单调性限制,也无法识别出 $m^*$。只要有一个严格单调变化 $s$ 使得 $\tilde{m}(x,s(\varepsilon)) = m(x,\varepsilon)$,则 $Y|X$ 的分布在两个模型下完全相同。为了识别 $m^*$,我们需要额外的限制。一种简单的限制是进行归一化 (normalization)。选一个点 $\bar{x}$,要求 $f_X(\bar{x}) > 0$ 且在该点处连续,也就是说该点在数据集中“真的存在”。然后要求 $m(\bar{x},\varepsilon) = \varepsilon$,这一要求是为了固定 $\varepsilon$ 的坐标系。在这个限制下,反函数 $r$ 满足

$$ r(x,m(x,\varepsilon)) = \varepsilon \Rightarrow r(\bar{x},\varepsilon) = \varepsilon $$

根据前面的证明,如果 $m$ 和 $\tilde{m}$ 是观测等价的,则存在一个严格单调的 $s$ 使得

$$ \tilde{r}(x,\varepsilon) = s(r(x,\varepsilon)) $$

取 $x=\bar{x}$,则有

$$ \varepsilon = \tilde{r}(\bar{x},\varepsilon) = s(r(\bar{x},\varepsilon)) = s(\varepsilon) $$

这表明 $s$ 是一个恒等映射,因此 $m=\tilde{m}$,这就实现了识别。

显然,如果 $m^*$ 可识别,则 $F_{\varepsilon}^*$ 也可以被识别,因为对任意 $e,x$

$$ \begin{align*} F_\varepsilon^*(e) &= \mathbb{P}(\varepsilon\leq e) = \mathbb{P}(\varepsilon\leq e \mid X=x) \\ &= \mathbb{P}(m^*(X,\varepsilon)\leq m^*(x,e) \mid X=x) \\ &= F_{Y|X=x}(m^*(x,e)) \end{align*} $$

第二个等式利用了独立性,第三个是单调性。

从上面这个式子也可以看出,如果 $F_\varepsilon^*$ 被确定了,那么 $m^*$ 也就被识别了,因为

$$ m^*(x,e) = F_{Y|X=x}^{-1}(F_\varepsilon^*(e)) $$

换言之,一种实现对 $m^*$ 进行识别的归一化方法是假设 $\varepsilon$ 的分布。

参考文献 

Matzkin, V. (2007). Chapter 73 Nonparametric Identification. In Handbook of Econometrics, Volume 6B, Chapter 73, Pages 5307-5368. Elsevier.


最后修改于 2025-12-25