概率导论(4): 随机变量的深入内容

Posted by w@hidva.com on August 11, 2024

系列导言, 本文是作者在学习 Dimitri 概率导论的读书笔记, 侧重于记录我当时没有看懂的部分, 以及对书中部分知识点的一些扩展. 非常零散, 不成系统. 对本系列的使用最好是读者也在学习 Dimitri 概率导论并且恰好有某处不太明白, 可以参考着本系列说不定这里就有答案. 本系列文章在写作时参考了互联网上零零散散非常多的资料在此表示感谢!

4.1.zy1 $P(X+Y \le z \vert X = x) = P(x + Y \le z)$, 这个成立前提是 X, Y 相互独立.

解: 如下 $C=\lbrace(s, t) \mid s \le [x, x + \delta], s + t \le z \rbrace$ 为 $t = z-s, s = x, s = x + \delta, t = -\infty$ 围成的梯形.

\[\begin{align} P(X+Y \le z \vert X = x) &\approx P(X+Y \le z \vert x \le X \le x + \delta) = \frac{P(X+Y \le z, x \le X \le x + \delta)}{P(x \le X \le x + \delta)} \\ &= \frac{1}{P(x \le X \le x + \delta)} \int_C f_{X,Y} \mathrm{d}y \mathrm{d}x \\ \int_C f_{X,Y} \mathrm{d}y \mathrm{d}x &= \int_{x}^{x + \delta} \int_{-\infty}^{z - x} f_X(x) f_Y(y) \mathrm{d}y \mathrm{d}x \quad \leftarrow tag1 \\ &= \int_{x}^{x + \delta} f_X(x) \int_{-\infty}^{z - x} f_Y(y) \mathrm{d}y \mathrm{d}x \approx \delta f_X(x) \int_{-\infty}^{z - x} f_Y(y) \mathrm{d}y \\ P(X+Y \le z \vert X = x) &= \int_{-\infty}^{z - x} f_Y(y) \mathrm{d}y \end{align}\]

P.S. tag1 公式来自史数分定理 10.5.1, 有点不太严谨, 10.5.1 并未证明对 $y_1(x) = -\infty$ 也是成立的==

P.S. 要不是原文提一嘴独立我还以为这个等式是很自然的呢.

P.S. 别忘了 $P(Z \le z \vert X = x) = \int_{-\infty}^z f_{Z \vert X} (z\vert x) \mathrm{d}z$, 之后使用微积分第一基本定理可得原文结论.


4.1.zy2 $E[g(X, Y) + h(X, Y)] = E[g] + E[h]$. 证明比较简单.

P.S. $\mathrm{cov}(X, Y) = E[XY] - E[X][Y]$ 依赖该等式.

4.1.zy3 已知 $E[X \vert Y=y] = E[X], \forall y$, 求证 $E[XY] = E[X] E[Y]$

证: 首先考虑 X, Y 均为离散变量情况, 参考 2.6.3 “关于条件期望的小结”, 令 $Z = XY$, 则 $E[Z] = \sum_y P_Y(y) E[Z \vert Y=y]$, 这里 $E[Z \vert Y=y] = \sum_z z P_{Z \vert Y}(z \vert y) = \sum_x xy P_{X \vert Y}(x \vert y)$. 所以 $E[XY] = \sum_y y P_Y(y) \sum_x x P_{X \vert Y}(x \vert y) = \sum_y y P_Y(y) E[X \vert Y=y]$.

再考虑 X, Y 均为连续变量情况: 这里记 $h(x) = f_{X \vert Y}(x \vert y)$, 其对应 CDF $H(x), H’(x) = h(x)$. 记 $g(z) = f_{Z \vert Y}(z \vert y)$, 易知其为合法的 PDF, 其对应 CDF $G(z) = P(Z \le z) = H(\frac{z}{y})$, 这里我们假设 $y \gt 0, Z \le z \to X \le \frac{z}{y}$. 所以 $g(z) = G’(z) = h(\frac{z}{y})\frac{1}{y}$.

\[\begin{align} E[Z] &= \int_{-\infty}^{\infty} E[Z \vert Y = y] f_Y(y) \mathrm{d}y \\ E[Z \vert Y = y] &= \int_{-\infty}^{\infty} z f_{Z \vert Y}(z \vert y) \mathrm{d}z = \int_{-\infty}^{\infty} \frac{z}{y} h(\frac{z}{y}) \mathrm{d}z \\ &= \int_{-\infty}^{\infty} x h(x) y \mathrm{d} x \quad \leftarrow tag1 \end{align}\]

代入运算可得结论.

P.S. $E[XY] = E[X] E[Y]$ 只是意味着 X, Y 不相关.

P.S. 话说能不能通过建立期望与 CDF 的联系, 使得可以以一种方式同时考察离散/连续随机变量?

P.S. tag1 处是指积分变量替换, 可参考史数分定理 6.4.2;


习题 20, 核心在于定理 4.1.zy4: 非负随机变量 X 有 $E[X] \ge 0$ 且 $E[X] = 0$ 当且仅当 $P(X = 0) = 1$

证明: 离散情况比较好证. 主要是连续时情况, $E[X] = \int_{-\infty}^{\infty} x f_X(x) \mathrm{d}x$, 这里 $x f_X(x) \ge 0, \forall x$, 易证 $E[X] \ge 0$.

$E[X] = 0$ 意味着 $xf(x) = 0$ 几乎处处成立, 即不严谨认为 $\forall x \gt 0, f(x) = 0$, 所以 $P(X \gt x_0) = \int_{x_0}^{\infty} f(t) \mathrm{d}t = 0, \forall x_0 \gt 0$, 即不严谨认为 $P(X \gt 0) = 0$, 所以 $P(X = 0) = 1$.

P.S. 严谨点证法感觉需要测度论知识, 比如 这个.

P.S. 这里好像可以看到施瓦茨不等式等号成立当且仅当 $X = kY$, 这里 k 是个常数.


重期望法则, 令 $Z(y) = E[X \vert Y=y]$, 则 $Z(Y)$ 也是一个随机变量, $E[E[X \vert Y]] = E[Z(Y)] = \sum_y Z(y) P_Y(y) = \sum_y P_Y(y) E[X \vert Y=y]$ . 连续随机变量同理.

P.S. 这个推导很简单的, 我一开始想复杂了


4.3.1 $E[\tilde{X} \vert Y = y_0] = 0, \forall y_0$

解: 这里 $\hat{X}$ 我将其理解为 $Z_1(Y)$, 其中 $\hat{X}(y_0) = Z_1(y_0) = E[X \vert Y = y_0]$. $\tilde{X}$ 我将其理解为 $Z_2(X, Y), \tilde{X}(x_0, y_0) = Z_2(x_0, y_0) = \hat{X}(y_0) - x_0$. 则:

\[\begin{align} E[\tilde{X} \vert Y = y_0] &= E[Z_2(X, Y) \vert Y=y_0] = \int Z_2(x, y_0) f_{X \vert Y}(x \vert y_0) \mathrm{d}x \\ &= \int \hat{X}(y_0) f_{X \vert Y}(x \vert y_0) \mathrm{d}x - \int x f_{X \vert Y}(x \vert y_0) \mathrm{d}x \\ &= \hat{X}(y_0) \int f_{X \vert Y}(x \vert y_0) \mathrm{d}x - E[X \vert Y = y_0] \\ &= \hat{X}(y_0) - E[X \vert Y = y_0] \quad \leftarrow \int f_{X \vert Y}(x \vert y_0) \mathrm{d}x = 1 \\ &= E[X \vert Y = y_0] - E[X \vert Y = y_0] = 0 \end{align}\]

P.S. 这里不知道是原文印刷问题还是我没有理解对. 不过 $E[\hat{X} \vert Y=y_0] = \hat{X}(y_0)$ 确实成立, 因为在 $Y=y_0$ 条件下, $P(\hat{X} = \hat{X}(y_0)) = 1$. 这也是 $E[Y \vert Y=y_0] = y_0$ 的原因一样.


4.3.2 $\mathrm{var}(X \vert Y) = E[(X - E[X \vert Y])^2 \vert Y] = E[\tilde{X}^2 \vert Y]$

我将其理解为定义, 就人为定义 $\mathrm{var}(X \vert Y) = E[\tilde{X}^2 \vert Y]$, 而不是推导出来的, 就像 3.5.3 中理解一样.


4.4.1 矩母函数到矩这里交换求导与积分顺序, 我们之前在 多元微积分基本定理 中研究过.

4.4.2 矩母函数可逆, 这个定理使用如下描述更直观. Uniqueness theorem: If two random variables $Y_1$ and $Y_2$ have the same moment generating functions, i.e., if $\exists a, M_{Y_1}(t) = M_{Y_2}(t) \lt \infty, \forall t \in [-a, a]$ then they have the same distribution. In particular, if $Y_1$ is discrete, then so is $Y_2$, and $Y_1$ and $Y_2$ have the same support and the pmf. If $Y_1$ is continuous, then so is $Y_2$, and $Y_1$ and $Y_2$ have the same pdf

P.S. 这个定理证明与 Laplace Transform uniqueness 有关, 这块好像是复分析的内容. 以后再学习吧.


4.5 $E[X_1 + \cdots + X_N \vert N = n] = E[X_1 + \cdots + X_n \vert N = n]$ 如何理解? 这里 $X_1 + \cdots + X_N$ 可以视为 $G(X_1, \cdots, X_N, N)$ 的函数, 如同 3.5.3.zy3 在 $N = n$ 条件下, 将 $G(X_1, \cdots, X_N, N)$ 视为 $X_1, \cdots, X_n$ 的函数, 考虑到 $X_1, \cdots, X_n, N$ 相互独立, 根据 3.1.zy5 可知对于任意函数 $H(X_1, \cdots, X_n)$ 与 N 都是独立的, 所以 $E[X_1 + \cdots + X_n \vert N = n] = E[X_1 + \cdots + X_n]$.