Blackwell 定理

个体在做决策时，虽然其效用（payoff）与现实世界的真实状态（state）有关，但往往无法观察到真实的状态。为了估计真实的状态，个体会考虑进行试验（experiment）以获取一些能够反应真实状态的信号（signal）。试验的好坏可以用其提供的信息量（或者更高的期望效用）来衡量。Blackwell 定理为试验之间的比较提供了建议一个简单的刻画。

Blackwell 定理由 David Blackwell 在 1951 年建立。值得一提的是，David Blackwell 是 UC Berkeley 第一个终身轨的黑人教授。

David Blackwell 1999

假设现实世界的真实状态有 $$n$$ 种可能 $$\omega_1$$，$$\omega_2$$，$$\ldots$$，$$\omega_n$$，同时假设 $$\omega_i$$ 出现的概率是 $$p_i$$。记 $$p = (p_1, p_2, \ldots, p_n)$$。

假设试验 $$P$$ 是一个 $$n \times m$$ 维的行随机矩阵（即每行的行和等于 1），其中 $$P_{ij}$$ 表示当真实状态是 $$\omega_i$$ 时观察的信号是 $$s_j$$ 的概率。不同的试验对应的可能的信号集合会不一样，因此维数 $$m$$ 也可能不一样。

在观察到信号 $$s_j$$ 之后，个体将在有限个选择 $$A = \{ a_1, a_2, \ldots, a_l \}$$ 中进行选择。个体的效用函数依赖于自己的选择和真实的状态，可以用一个 $$l \times n$$ 维的矩阵 $$U$$ 表示：$$U_{ki}$$ 表示真实状态是 $$\omega_i$$ 时选择 $$a_k$$ 的效用。

在决策问题中，个体的（混合）策略 $$D$$ 是一个 $$m \times l$$ 维的行随机矩阵，其中 $$D_{jk}$$ 表示个体观察到信号 $$s_j$$ 时选择 $$a_k$$ 的概率。

当真实状态是 $$\omega_i$$ 时，采用试验 $$P$$ 和策略 $$D$$ 得到的效用是

$$! \sum_{j=1}^{m} P_{ij} \sum_{k=1}^{l} D_{jk} \cdot U_{ki} = (PDU)_{ii}$$

于是，$$diag(PDU) = \big( (PDU)_{11}, (PDU)_{22}, \ldots, (PDU)_{nn} \big)$$ 表示的是效用向量（payoff vector）。随着 $$D$$ 变化，该效用向量也会改变，记所有可能的效用向量为 $$B(P, U) = \{ diag(PDU) \mid D \text{ is a stochastic matrix} \}$$。

因为真实状态的先验概率（prior）是 $$p$$，所以采用试验 $$P$$ 和策略 $$D$$ 得到的期望效用是

$$!\sum_{i=1}^{n} p_i \sum_{j=1}^{m} P_{ij} \sum_{k=1}^{l} D_{jk} \cdot U_{ki} = Trace(PDU \hat{p})$$

这里的 $$\hat{p}$$ 是一个 $$n \times n$$ 的矩阵，$$(i,i)$$ 位置元素是 $$p_i$$，非对角元素都是零。

因此最大的期望效用为 $$F(P,U,p) = \max_{D} Trace(PDU \hat{p})$$。

定义：如果对于每个 $$U$$，$$B(Q,U) \subseteq B(P,U)$$，那么称试验 $$P$$ 比试验 $$Q$$ 拥有更多的信息量（more informative）。

Blackwell 定理：考虑两个试验 $$P$$（$$n \times m$$ 维）和 $$Q$$（$$n \times m'$$ 维），以下三条等价：

试验 $$P$$ 比试验 $$Q$$ 拥有更多的信息量，即对于每个 $$U$$，$$B(Q,U) \subseteq B(P,U)$$。

对于每个 $$U$$ 和 $$p$$，$$F(P,U,p) \ge F(Q,U,p)$$。

存在一个行随机矩阵 $$M$$（合适的维数）使得 $$P = QM$$。

“3 → 1” 和 “1 → 2” 是显然的。以下证明 “2 → 3”：

假定对于每个 $$m \times m'$$ 维的行随机矩阵 $$M$$，$$Q \ne PM$$。于是 $$Q \not\in E$$，其中 $$E = \{ PM \mid M \text{ is a stochastic matrix} \}$$。由于 $$E$$ 是 $$\mathbb{R}^{n \times m'}$$ 中的凸闭子集。基于超平面分离定理，存在一个 $$n \times m'$$ 维的矩阵 $$G$$，使得对于每个 $$m \times m'$$ 维行随机矩阵 $$M$$，我们有

$$!Trace(G^t Q) > Trace(G^t PM)$$

（这里需要指出的是 $$n \times m'$$ 维矩阵空间上的线性泛函都是 $$Trace(G^t \cdot)$$ 的形式）

令 $$U^t = \hat{p}^{-1} G$$。所以，

$$!Trace(PDU \hat{p}) = Trace(PDG^t) = Trace(G^t PD) < Trace(G^t Q) = Trace(QU \hat{p})$$

因此我们有

$$!\max_{D} Trace(PDU \hat{p}) < Trace(QU \hat{p}) \le \max_D Trace(QDU \hat{p})$$

矛盾！

简单来说，Blackwell 定理说明了，如果试验 $$P$$ 比试验 $$Q$$ 拥有的信息量更丰富，那么 $$Q = PM$$。这个矩阵 $$M$$ 描述的是通过“篡改”试验 $$P$$ 的结果来得到试验 $$Q$$ 结果的过程，并且这一篡改过程与真实的状态毫无关系。由于矩阵 $$M$$ 是一个行随机矩阵，所以通过试验 $$P$$ 得到的后验概率（posterior）是通过试验 $$Q$$ 得到的后验概率（posterior）的保留均值的伸展（mean-preserving spread），这一意味着前者承受的期望风险更小。

参考文献

Moshe Leshno and Yishay Spector, An elementary proof of Blackwell's theorem, Mathematical Social Sciences 25 (1992), 95–98.
Tilman Borgers, Notes on Blackwell's Comparison of Experiments, 2009.

Xiang Sun

One thought on “Blackwell 定理”

Leave a Reply Cancel reply

Related posts:

One thought on “Blackwell 定理”

Leave a Reply Cancel reply