概率导论(8): 贝叶斯统计推断

系列导言, 本文是作者在学习 Dimitri 概率导论的读书笔记, 侧重于记录我当时没有看懂的部分, 以及对书中部分知识点的一些扩展. 非常零散, 不成系统. 对本系列的使用最好是读者也在学习 Dimitri 概率导论并且恰好有某处不太明白, 可以参考着本系列说不定这里就有答案. 本系列文章在写作时参考了互联网上零零散散非常多的资料在此表示感谢!

例 8.3, 略作补充

整个问题对应着什么背景?

设想现在有一个仪器值为随机变量 $\Theta$, 其服从均值为 $x_0$, 方差为 $\sigma_0^2$ 的正态分布. 现在仪器值固定为常数值 $\theta_0$. 之后我们以不同方式对这个仪器值进行测量, 每种测量方式对应着一个随机变量 $X_i$, 考虑到每种测量方式误差不一样, 即 $X_i$ 方差不会一样, 所以将 $X_i$ 假设为均值为 $\theta_0$, 方差为 $\sigma_i^2$ 正态分布很合理. 每种测量方式的每次测量结果便是 $X_i$ 的一个样本, 由于噪声的存在 $X_i = \theta_0 + W_i$. 则可以算得

\[E[W_i] = E[X_i] - \theta_0 = 0, \mathrm{var}(W_i) = \mathrm{var}(X_i) = \sigma_i^2\]

考虑到独立性也有如下等式成立:

\[E[W_i] = E[W_i \vert \Theta = \theta_0], \mathrm{var}(W_i) = \mathrm{var}(W_i \vert \Theta = \theta_0)\]

X, Y 独立. 则 $E[X \vert Y] = E[Y], \mathrm{var}[X \vert Y] = \mathrm{var}[Y]$

证明: $\mathrm{var}[X \vert Y] = E[\tilde{X}(X, y_0)^2 \vert Y=y_0] = E[\tilde{X}(X, y_0)^2] = \mathrm{var}(X)$.

$f_{X \vert \Theta}(x \vert \theta )$

解: 由于独立性 $f_{X \vert \Theta}(x \vert \theta ) = f_X(x) = f_{X_1}(x_1) \cdots f_{X_n}(x_1)$.

P.S. 这里 X 表示着 n 维向量.

递推推断

当面对 n = N, n = N + 1 时, 我们可以像原文一样从头计算出各自的后验分布. 但自然而言有一个问题, 能否基于 n = N 的结果直接计算 n = N+1 的结果:

\[\begin{align} n = 1, v_1 &= \frac{1}{1/\sigma_0^2 + 1/\sigma_1^2} \\ n = 2, v_2 &= \frac{1}{1/\sigma_0^2 + 1/\sigma_1^2 + 1/\sigma_2^2} \\ \end{align}\]

很明显我们可以观察到 $v_2 = \frac{1}{1/v_1 + 1/\sigma_2^2}$, 而且经过推导这也总是正确的, 同样的 m 也有类似的递推公式.

最大概率后验准则, 略作补充

\[\begin{align} E[I \vert X = x_0] &= 1 \times P_{I \vert X = x_0}(I = 1) + 0 \times P_{I \vert X = x_0}(I = 0) \\ &= P_{I \vert X = x_0}(I = 1) = P(g(X) = \theta_0 \vert X = x_0) \end{align}\]

这里继续接着例 8.3 的故事讲, $\theta_0$ 是正确值, $x_0$ 是一次测量值, $g(X)$ 是根据测量值作出的对 $\theta_0$ 的猜测 $g(X) = \theta_0$ 意味着猜对了!

关于 $P(g(X) = \theta_0 \vert X = x_0) \le P(g_{MAP}(X) = \theta_0 \vert X = x_0)$, 我之前有点迷惑, 迷惑点在于根据最大准则定义可知 $P(g(X)\vert X = x_0) \le P(g_{MAP}(X)\vert X = x_0)$. 但是 $P(g(X) = \theta_0 \vert X = x_0), P(g(X)\vert X = x_0)$ 这俩是一回事么? 其实是的啊, $ P(g(X)\vert X = x_0)$ 的语义就是在 $x = x_0$ 时 $\theta_0 = g(X)$ 的概率啊. 不对感觉不太对, $P_{X \vert Y}(x \vert y)$ 是 $Y = y$ 时 $X = x$ 的概率.

8.3 求证 $E[(\Theta - \hat{\theta})^2 \vert X = x_0]$ 在 $\hat{\theta} = E[\Theta \vert x = x_0]$ 时达到最小.

证明: 首先给出条件期望, 条件方差一些性质

\[\begin{align} E[aX + b \vert Y] &= \int_{-\infty}^{\infty} (aX + b) f_{X\vert Y}(x \vert y ) \mathrm{d}x \\ &= a \int_{-\infty}^{\infty} X f_{X\vert Y}(x \vert y ) \mathrm{d}x + b \int_{-\infty}^{\infty} f_{X\vert Y}(x \vert y ) \mathrm{d}x \\ &= a E[X\vert Y] + b \\ \mathrm{var}(X \vert Y) &= E[(X - E[X \vert Y])^2 \vert Y] = E[(X^2 + (E[X \vert Y])^2 - 2 E[X \vert Y] X) \vert Y] \\ &= E[(X^2 - 2 E[X \vert Y] X) \vert Y] + (E[X \vert Y])^2 \\ &= E(X^2 \vert Y) - (E[X \vert Y])^2 \\ \mathrm{var}(aX + b \vert Y) &= E[(aX + b)^2 \vert Y] - (E[aX + b \vert Y])^2 \\ &= E[(a^2 X^2 + b^2 + 2abX) \vert Y] - (a E[X \vert Y] + b)^2 \\ &= a^2 E[X^2 \vert Y] - a^2(E[X \vert Y])^2 = a^2 \mathrm{var}(X \vert Y) \end{align}\]

利用上述性质可以计算出:

\[E[(\Theta - \hat{\theta})^2 \vert X] = \mathrm{var}(\Theta \vert X) + (E[\Theta \vert X] - \hat{\theta})^2\]

P.S. 眼都花了.

8.1.zy1, $\forall g, E[( \Theta - E[\Theta \vert X] )^2] \le E[( \Theta - g(X) )^2]$

证明: 首先 $E[( \Theta - g(X) )^2]$ 意味着什么, 这里 $\Theta, X$ 都是随机变量, $E[( \Theta - g(X) )^2]$ 便是 3.5.3 全期望定理提到的 $E[g(X, Y)]$. 根据 3.5.3 这里公式可得:

\[E[h(\Theta, X)] = \int E[h(\Theta, X) \vert X] f_X(x) \mathrm{d}x\]

令 $h_1(\Theta, X) = ( \Theta - E[\Theta \vert X] )^2, h_2(\Theta, X) = ( \Theta - g(X) )^2$. 有上可得:

\[\begin{align} E[h_1(\Theta, X) \vert X] &\le E[h_2(\Theta, X) \vert X], \forall x \\ E[h_1(\Theta, X) \vert X] f_X(x) &\le E[h_2(\Theta, X) \vert X] f_X(x), \forall x \\ E[h_1(\Theta, X)] &\le E[h_2(\Theta, X)] \end{align}\]

P.S. 眼又花了.

8.1.zy5, 对于随机变量 X, $\mathrm{var}(X) = 0$ 意味着什么?

解: 由切比雪夫不等式, 可知此时 $\forall c, P(\vert x - E[X] \vert \ge c) = 0$, 即 $P(X = E[X]) = 1$. 此时一种情况是 X 为离散分布, 且 $P(X = k) = 1$, 这里 k 为常数, 容易计算 $E[X] = k$

例子 8.14, 由 8.1.zy5 可知 $\hat{\theta}$ 其分布是 $P(\hat{\theta} = k) = 1$, 这里 $k = E[\hat{\theta}] = E[E[\Theta \vert X]] = E[\Theta]$.

8.3.2, 回到 3.5.3, 如下 $x_1, \cdots, x_n$ 可以视为常数. $\theta$ 是变量.

\[\begin{align} E[\Theta \vert X_1=x_1, \cdots, X_n=x_n] &= \int \theta f_{\Theta \vert X_1 \cdots X_n}(\theta \vert x_1, \cdots, x_n) \mathrm{d} \theta \\ f_{\Theta \vert X_1 \cdots X_n}(\theta \vert x_1, \cdots, x_n) &= \frac{f_{\Theta, X_1 \cdots X_n}(\theta, x_1, \cdots, x_n)}{f_{X_1 \cdots X_n}(x_1, \cdots, x_n)} \end{align}\]

线性最小均方估计的公式, 略作补充

$\frac{\hat{\Theta} - E[\Theta]}{X - E[X]} = \rho \frac{\sigma_{\Theta}}{\sigma_X}$, 这意味着当 $\rho \gt 0$ 时, $\hat{\Theta} - E[\Theta], X - E[X]$ 同号. 反之异号. 这应该量化了图 4.11 例子, 我当时是不太明白 “趋向” 是指啥意思..:

粗略地说，一个正或者负的协方差表示在一个试验中的 $X-E[X]$和$ Y-E[Y]$的值“趋向”有相同或者相反的符号（见图4.11）.

均方估计误差为 $(1-\rho^2)\sigma_{\Theta}^2$, 这说明了 $\vert \rho \vert$ 越接近 1, 对 X 进行简单的线性估计就可以得到比较低的误差, 即 $X, \Theta$ 相关性很强.
有一个问题.

我们这里所求的 $a_0, b_0$ 满足 $E[\Theta - a_0 X - b_0] \le E[\Theta - a X - b], \forall a, b$. 但这是否意味着在 $X=x_0$ 条件下 $E[\Theta - a_0 X - b_0 \vert X = x_0] \le E[\Theta - a X - b \vert X = x_0]$ 成立呢? 在 8.1.zy1 中由全期望定理, 由 $E[\Theta - a_0 X - b_0 \vert X = x_0] \le E[\Theta - a X - b \vert X = x_0], \forall x_0$ 可得 $E[\Theta - a_0 X - b_0] \le E[\Theta - a X - b]$. 这里要探究反过来是否成立呢?

俺不知道.. 这个问题留着吧.

8.4.2 多次观测, 习题 22, 略作补充.

计算 $\frac{\partial h}{\partial b}$, 以 $h(a_1, a_2, b)$ 为例

\[\begin{align} h(a_1, a_2, b) &= E[((a_1 + a_2 - 1) \Theta + (a_1 W_1 + a_2 W_2) + b)^2] \\ &= (a_1 + a_2 - 1)^2 E[\Theta^2] + a_1^2 E[W_1^2] + a_2^2 E[W_2^2] + b^2 + 2(a_1 + a_2 - 1)b E[\Theta] \\ \frac{\partial h}{\partial b} &= 2(a_1 + a_2 - 1)E[\Theta] + 2b \end{align}\]

即 $b = E[ \Theta ] (1 - (a_1 + a_2))$ 时, $\frac{\partial h}{\partial b} = 0$. 这也是为啥在 8.4.1 中选择 $b = E[\Theta] - a E[X]$. 在习题 22 条件下 $E[X] = E[\Theta]$.

P.S. 我一开始是硬算的, 这之后才得出了 8.1.zy6 结论

8.1.zy6. $h(a) = E[g(a, X)]$, $\frac{\partial h}{\partial a} = E[\frac{\partial g}{\partial a}((a, X))]$

证明: 参见 Leibniz integral rule:

\[\begin{align} h(a) &= \int g(a, X) f_X(x) \mathrm{d}x \\ \frac{\partial h}{\partial a} &= \frac{\partial }{\partial a}\int g(a, X) f_X(x) \mathrm{d}x = \int \frac{\partial }{\partial a} (g(a, X) f_X(x)) \mathrm{d}x \\ &= \int \frac{\partial }{\partial a} (g(a, X)) f_X(x) \mathrm{d}x \end{align}\]

这里对 a 求偏导时, $f_X(x)$ 相当于常数.

P.S. 这里确定 $a = a_0, g(a_0, X)$ 是一个随机变量.

P.S. 不太严谨地将如上行为扩展到多元情况:

\[\begin{align} h(a, b) &= E[g(a, b, X, Y)] \\ \frac{\partial h}{\partial a} &= E[\frac{\partial }{\partial a}g(a, b, X, Y)] \end{align}\]

$E[X_i W_i]$

解: 我一开始认为 $E[X_i W_i] = E[(\Theta + W_i) W_i] = E[\Theta + W_i]E[W_i]$. 即我认为由 3.1.zy4 可得 $\Theta + W_i, W_i$ 相互独立, 这其实是不对的! 3.1.zy4 只是说 X, Y 独立时, $g(X), h(X)$ 也独立, 并不是 $g(X, Y), h(Y)$ 独立!!!

8.4.3 其条件均值 $E[\Theta \vert X_1 \cdots X_n]$ 是观测值的线性函数.

解: 回到例子 8.3, 结合 3.3, 3.5.3 可得 $E[\Theta \vert X_1 \cdots X_n] = m$, 即确实是观测值的线性函数.

8.4.4, 设 h 是双射, $X, Y = h(X), y_0 = h(x_0)$, 求证 $E[\Theta \vert Y = y_0] = E[\Theta \vert x = x_0]$

证明: 回到 3.5.3 $E[\Theta \vert A] = \int \theta f_{\Theta \vert A}(\theta) \mathrm{d}\theta$. 而 $Y = y_0, X = x_0$ 表示着相同事件. 所以可证.

CATALOG