概率导论(3): 一般随机变量

Posted by w@hidva.com on August 11, 2024

系列导言, 本文是作者在学习 Dimitri 概率导论的读书笔记, 侧重于记录我当时没有看懂的部分, 以及对书中部分知识点的一些扩展. 非常零散, 不成系统. 对本系列的使用最好是读者也在学习 Dimitri 概率导论并且恰好有某处不太明白, 可以参考着本系列说不定这里就有答案. 本系列文章在写作时参考了互联网上零零散散非常多的资料在此表示感谢!

习题 3.1.3/习题 3.1.4 略作补充

  • 求证 $\int_0^{\infty} (\int_x^{\infty} f(y) \mbox{d} y) \mbox{d}x = \int_0^{\infty} (\int_0^{y} f(y) \mbox{d} x) \mbox{d}y$

解: 定义 $I(x, y) = 1, y \ge x; 0, y \gt x$, 则

\[\begin{align} \int_0^{\infty}f(y)I(x,y) \mbox{d}y &= \int_0^{x}f(y)I(x,y) \mbox{d}y + \int_x^{\infty}f(y)I(x,y) \mbox{d}y \\ &= \int_x^{\infty} f(y) \mbox{d} y \end{align}\]

之后:

\[\begin{align} \int_0^{\infty}f(y)I(x,y) \mbox{d}x &= \int_0^{y}f(y)I(x,y) \mbox{d}x + \int_y^{\infty}f(y)I(x,y) \mbox{d}x \\ &= \int_0^{y}f(y) \mbox{d}x = f(y)y \\ \int_0^{\infty} (\int_x^{\infty} f(y) \mbox{d} y) \mbox{d}x &= \int_0^{\infty} (\int_0^{\infty}f(y)I(x,y) \mbox{d}y) \mbox{d}x \\ &= \int_0^{\infty} (\int_0^{\infty}f(y)I(x,y) \mbox{d}x) \mbox{d}y \quad \leftarrow \text{Fubini} \\ &= \int_0^{\infty} yf(y) \mbox{d}y \end{align}\]

P.S. 如上公式中 “Fubini” 表示 Fubini 定理, 即积分顺序可以交换. 这里根据 PDF 定义, f 非负且可积, 即 $f(y)I(x,y)$ 绝对可积, 符合 Fubini 定理前提条件.

  • 记 $B_t = \lbrace x \mid g(x)>t\rbrace, A_x = \lbrace t \mid 0 \le t<g(x)\rbrace$, 求证
\[\int_{0}^{\infty} \int_{B_t} f(x) \mbox{d}x \mbox{d}t = \int_{-\infty}^{\infty} f(x)g^+(x) \mbox{d}x\]

解: 定义 $I(x, t) = 1, x \in B_t; 0, x \notin B_t$, 则 $\int_{B_t} f(x) \mbox{d}x = \int_{-\infty}^{\infty} f(x) I(x, t) \mbox{d}x$:

\[\begin{align} \int_{0}^{\infty} f(x) I(x, t) \mbox{d}t &= \int_{0}^{g^+(x)} f(x) I(x, t) \mbox{d}t + \int_{g^+(x)}^{\infty} f(x) I(x, t) \mbox{d}t \\ &= \int_{0}^{g^+(x)} f(x) I(x, t) \mbox{d}t = f(x)g^+(x) \\ \int_{0}^{\infty} \int_{B_t} f(x) \mbox{d}x \mbox{d}t &= \int_{0}^{\infty} (\int_{-\infty}^{\infty} f(x) I(x, t) \mbox{d}x) \mbox{d}t \\ &= \int_{-\infty}^{\infty} (\int_{0}^{\infty} f(x) I(x, t) \mbox{d}t) \mbox{d}x \\ &= \int_{-\infty}^{\infty} f(x)g^+(x) \mbox{d}x \end{align}\]

3.1.zy1, 设 X 是随机变量, h(X), g(X) 也是随机变量且有 $h(X) \le g(X)$ 总成立, 求证 $E[h(X)] \le E[g(X)]$

证明: $E[g(X)] - E[h(X)] = \int_{-\infty}^{\infty} (g(x) - h(x)) f(x) \mbox{d}x$. 这里 $(g(x) - h(x)) f(x) \ge 0, \forall x$, 所以 $E[g(X)] - E[h(X)] \ge 0$.

P.S. 别忘了作为 PDF f(x) 非负.

3.1.zy2, 设 X 是随机变量, g(x) 是凸函数, g(X) 也是随机变量, 且 $E[g(X)] \ge g(E[X])$.

证明: 对于任意 $x_0, h(x) = g(x_0) + b(x - x_0)$ 为 g 在 $x_0$ 点的切线, 这里 b 为斜率. 由凸函数性质可知 $g(x) \ge h(x), \forall x$. 令 $x_0 = E[X], h(x) = g(E[X]) + b(x - E[X])$, 由 3.1.zy1 可知 $g(E[X]) = E[h(X)] \le E[g(X)]$.

P.S. $\mbox{var}(X) = E[X^2] - (E[X])^2$, 由 3.1.zy2 令 $g(x) = x^2$ 可知 $\mbox{var}(X) \ge 0$.


CDF 是连续的. 根据 Tao analysis 定理 11.9.1 微积分第一基本定理可知 CDF 总是连续的. 但仅当 PDF 在 $x_0$ 点是连续时, CDF 才是可微的, 且 $f_X(x_0) = \frac{\mathrm{d} F_X}{\mathrm{d}x}(x_0)$. 从原文备注 “第二个等式只在分布函数可微的那些点上成立” 可以看到 PDF 并不要求是连续的.

P.S. 所以连续随机变量的 “连续” 是指 CDF 是连续的. 而不是 PDF.


标准正态随机变量 $P(Y \le -y) = P(Y \ge y), \forall y \gt 0$ 成立, 是因为标准正态 PDF 关于 0 对称, 易证 $\int_{-\infty}^{-y} f(t) \mathrm{d}t = \int_{y}^{\infty} f(t) \mathrm{d}t$.


3.4.2 期望 $\text{E}[g(X,Y)] = \int_{-\infty}^\infty \int_{-\infty}^\infty g(x,y) f_{X,Y}(x,y) \mathrm{d}x \mathrm{d}y$, 这个可以参考单随机变量时证法一样. 从这里可以看到 $E[X] = \int_{-\infty}^{\infty}x f_X(x) \mathrm{d}x$, 这里 $f_X(x)$ 为 x 的边缘概率密度函数, 可以看到 $\int_{-\infty}^{\infty} f_X(x) \mathrm{d}x = 1$, 即此时可以将 X 视为单个随机变量.


3.5.2 $\int_{-\infty}^{\infty} f_{X \vert Y}(x \vert y_0) \mathrm{d}x = 1$ 为啥还要用全概率公式来暗示? 如下所示不是直接推出来了么=

\[\begin{align} f_{X \vert Y}(x \vert y_0) &= \frac{f_{X,Y}(x, y_0)}{f_Y(y_0)} \\ \int_{-\infty}^{\infty} f_{X \vert Y}(x \vert y_0) \mathrm{d}x &= \frac{1}{f_Y(y_0)} \int_{-\infty}^{\infty} f_{X,Y}(x, y_0) \mathrm{d}x \\ \int_{-\infty}^{\infty} f_{X,Y}(x, y_0) \mathrm{d}x &= f_Y(y_0) \end{align}\]

3.5.3 “条件期望性质的小结”, 若干补充.

  • $E[X \vert A] = \int_{-\infty}^{\infty} x f_{X \vert A}(x) \mathrm{d}x$.

我的理解是: 由之前信息可知 $f_{X \vert A}(x)$ 是个合法的 PDF, 不妨将其视为随机变量 Y 的 PDF $h(y) = f_{X \vert A}(y)$, 则 $E[Y] = \int_{-\infty}^{\infty} y h(y) \mathrm{d}y$. 之后我们再定义 $E[X \vert A] = E[Y]$.

  • 3.5.3.zy2 $E[g(X) \vert A] = \int_{-\infty}^{\infty} g(x) f_{X \vert A}(x) \mathrm{d}x$.

也如上理解, 已知 $E[g(Y)] = \int_{-\infty}^{\infty} g(y) h(y) \mathrm{d}y$. 定义 $E[g(X) \vert A] = E[g(Y)]$.

  • 3.5.3.zy3 $E[g(X, Y) \vert Y=y] = \int g(X, Y)f_{X \vert Y}(x \vert y) \mathrm{d}x$

这个公式如果能写成如下形式, 就比较好理解了.

\[E[g(X, Y) \vert Y=y_0] = \int g(x, y_0)f_{X \vert Y}(x \vert y_0) \mathrm{d}x\]

此时 $g(X,Y)$ 就等同于 $g(X, y_0)$ 其就是 X 的函数, 套用 3.5.3.zy2 公式即可.

  • $E[g(X, Y)] = \int E[g(X, Y) \vert Y=y] f_Y(y) \mathrm{d}y$
\[\begin{align} E[g(X, Y)] &= \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} g(x, y) f_{X, Y}(x, y) \mathrm{d} x \mathrm{d}y \\ &= \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} g(x, y) f_Y(y) f_{X \vert Y}(x \vert y) \mathrm{d} x \mathrm{d}y \\ &= \int_{-\infty}^{\infty} f_Y(y) \left( \int_{-\infty}^{\infty} g(x, y) f_{X \vert Y}(x \vert y) \mathrm{d} x \right) \mathrm{d}y \end{align}\]

习题 32, emm. 这里默认相关函数总是可微的了..

3.1.zy4, X, Y 相互独立, 则对任意函数 g, h; g(X), h(Y) 也相互独立

证明: 定义随机变量 $U = g(X), V=h(Y), F_{U,V}(u,v) = P(U \le u, V\le v) = \int_C f_{X,Y}(x, y)\mathrm{d}y \mathrm{d}x$, 这里 $A = \lbrace x \mid g(x) \le u\rbrace, B = \lbrace y \mid h(y) \le v \rbrace, C = A \times B$. 则

\[\begin{align} \int_C f_{X,Y}(x, y)\mathrm{d}y \mathrm{d}x &= \int_A \int_B f_{X,Y}(x, y)\mathrm{d}y \mathrm{d}x \quad \leftarrow tag1 \\ &= \int_A f_X(x) \mathrm{d}x \int_B f_Y(y) \mathrm{d}y \\ &= P(U \le u) P(V \le v) \end{align}\]

P.S. tag1 处公式感觉是富比尼定理, 我稀里糊涂套的..

P.S. $\mathrm{var}(X+Y) = \mathrm{var}(X) + \mathrm{var}(Y)$, 证明同离散变量

3.1.zy5, 设 X, Y, Z 相互独立, 则对于任意函数 g, h; g(X, Y), h(Z) 也是相互独立.

证明: 同上.


3.6.1 $P(A\vert Y=y)$ 公式推导. 略作补充

  • 根据 2.6.1 节条件概率的定义
\[\begin{align} P(y \le Y \le y + \delta \vert A) &= \frac{P(A, y \le Y \le y + \delta)}{P(A)} \\ P(A \vert y \le Y \le y + \delta) &= \frac{P(A, y \le Y \le y + \delta)}{P(y \le Y \le y + \delta)} = \frac{P(y \le Y \le y + \delta \vert A) P(A)}{P(y \le Y \le y + \delta)} \end{align}\]

2.6.1 节在定义事件 A 发生情况下事件 B 的条件概率是 $\frac{P(B, A)}{P(A)}$. 虽然 2.6.1 是在离散随机变量背景下定义的条件概率, 但我认为无论 A, B 关联随机变量是连续/离散这里定义都适用的.

  • $f_{Y\vert A}(y)$ 的理解,

解: 回到 3.5.1 节, 这一节在介绍 $f_{X \vert A}$ 时, 我一直以为事件 A 是形如 $\lbrace X \in A \rbrace$ 这种事件, 即我一直以为 A 是随机变量 X 关联的事件. 但实际上并不是, 这里 A 更广义一点, 可以是任意随机变量对应的事件.

  • 这里能精确定义么? 我来尝试一下:
\[\begin{align} P(A \vert Y = y) &= \lim_{\delta \to 0} P(A \vert y \le Y \le y + \delta) = \lim_{\delta \to 0} \frac{P(y \le Y \le y + \delta \vert A) P(A)}{P(y \le Y \le y + \delta)} \\ &= \lim_{\delta \to 0} \frac{P(A) \int_y^{y+\delta} f_{Y\vert A}(t) \mathrm{d}t}{\int_y^{y+\delta} f_{Y}(t) \mathrm{d}t} = \lim_{\delta \to 0} \frac{P(A) f_{Y\vert A}(y + \epsilon_2) \delta}{f_{Y}(y + \epsilon_1) \delta } \quad \leftarrow tag1 \end{align}\]

如上 $0 \lt \epsilon_1, \epsilon_2 \lt \delta$, 由夹逼可知 $\delta \to 0, \epsilon_1, \epsilon_2 \to 0$. $f_{Y}(t), h(\epsilon_1) = y + \epsilon_1$ 均是连续函数所以 $g(\epsilon_1) = f_{Y}(y + \epsilon_1)$ 也是连续函数. $\lim_{\epsilon_1 \to 0} g(\epsilon_1) = g(0) = f_{Y}(y)$.

P.S. tag1 公式来自史数分推论 6.2.1.

P.S. 这里假设 $f_{Y}(t), f_{Y\vert A}(t)$ 连续.


3.6.2 $f_{Y \vert A}(y)$ 公式推导

\[\begin{align} P(y \le Y \le y + \delta \vert A) &= f_{Y \vert A}(y) \delta = \frac{P(A \vert y \le Y \le y + \delta) P(y \le Y \le y + \delta)}{P(A)} \\ &= \frac{f_Y(y) \delta P(A \vert y \le Y \le y + \delta)}{P(A)} \\ f_{Y \vert A}(y) &= \frac{f_Y(y) P(A \vert Y=y)}{P(A)} \\ \int_{-\infty}^{\infty} f_{Y \vert A}(y) \mathrm{d} y = 1 &\to P(A) = \int_{-\infty}^{\infty} f_Y(y) P(A \vert Y=y) \mathrm{d} y \end{align}\]

P.S. 原文把 $f_Y(y)$ 印刷成 $f_{A}(y)$ 了!