概率导论(9): 经典统计推断

Posted by w@hidva.com on August 11, 2024

系列导言, 本文是作者在学习 Dimitri 概率导论的读书笔记, 侧重于记录我当时没有看懂的部分, 以及对书中部分知识点的一些扩展. 非常零散, 不成系统. 对本系列的使用最好是读者也在学习 Dimitri 概率导论并且恰好有某处不太明白, 可以参考着本系列说不定这里就有答案. 本系列文章在写作时参考了互联网上零零散散非常多的资料在此表示感谢!

总的来说,在我们的记号中,概率和期望都标明了相应的 $\theta$ 的值.比如记 $E_{\theta}[h(X)]$ 随机变量 $h(X)$ 的期望.

经典统计, 这里 $\theta$ 是未知参数, 其每次取值都对应着一次概率模型. 比如 $\theta = \theta_1$ 时, X 的 PDF 是 $f_{\theta_1}(x)$, 其与 $\theta = \theta_2$ 时对应的 PDF $f_{\theta_2}(x)$ 可能是两回事.

相合估计序列. 在 $\theta$ 取值确定时, $\hat{\Theta}_n = g(X_1, \cdots, X_n)$, 就变成了一个普通的随机变量:

\[\lim_{n \to \infty} P(\vert \hat{\Theta}_n - \theta \vert \ge \epsilon) = 0. \forall \epsilon\]

最大似然不变性. 现在有未知参数 $\theta$, 以及若干观测样本, 现在想计算 $h(\theta)$ 的最大似然估计. 我一开始想法, 这不简单么, 先用样本计算出 $\theta$ 的最大似然估计, 之后代入函数 $h$ 不就行了. 但其实好像不是这样, 对于 $h(\theta)$, 定义其对应的诱导似然函数 $L^(\zeta ; x) = \sup_{\lbrace\theta \mid h(\theta) = \zeta \rbrace} L(\theta; x)$, 这里 $L(\theta; x) = \arg \max_{\theta} p_X(x ; \theta)$. $h(\theta)$ 的最大似然估计 $\zeta_0$ 是指使 $L^(\zeta ; x)$ 最大的点. 我们现在证明 $\zeta_0 = h(\hat{\Theta}), \hat{\Theta}$ 是 $\theta$ 的极大似然估计.

证明: 由如下两个等式可证:

\[\begin{align} L^*(\zeta_0 ; x) &= \sup_{\zeta} \sup_{\lbrace\theta \mid h(\theta) = \zeta \rbrace} L(\theta ; x) = L(\hat{\Theta}; x) \\ L(\hat{\Theta}; x) &= \sup_{ \lbrace\theta \mid h(\theta) = h(\hat{\Theta}) \rbrace } L(\theta ; x) = L^*(h(\hat{\Theta}) ; x) \end{align}\]

P.S. 这里对 h 没啥要求, 不需要一一对应.

P.S. 最大似然的相合性以及渐进正态好像需要高等概率论知识了==


例 9.6, 这个故事讲得不好, 我重新叙述下. 现在我们得到了极大似然估计 $\hat{\Theta}_n$, 希望在此基础之上确定一个区间, 使得这个区间是 $\theta$ 的 $1 - \alpha$ 置信区间. 由原文可知, $\hat{\Theta}_n$ 为正态分布, 定义 $Y = \frac{\hat{\Theta}_n - \theta}{\sqrt{v/ n}}$, 明显 Y 为标准正态分布. 我们现在需要一个 y 使得:

\[\begin{align} P(\vert Y \vert \le y) = P(\vert \frac{\hat{\Theta}_n - \theta}{\sqrt{v/ n}} \vert \le y) &= 1 - \alpha \\ P(-y \sqrt{v / n} + \hat{\Theta}_n \le \theta \le y \sqrt{v / n} + \hat{\Theta}_n) &= 1 - \alpha \end{align}\]

则明显 $-y \sqrt{v / n} + \hat{\Theta}_n, y \sqrt{v / n} + \hat{\Theta}_n$ 便是 $\theta$ 的 $1 - \alpha$ 置信区间. 由例 3.7 可知 $P(\vert Y \vert \le y) = 2 \Phi(y) - 1$, 即我们需要在正态分布表中找到 y 使得 $\Phi(y) = 1 - \alpha/2$.

P.S. 置信区间啥意思呢, 以这个例子为例, 我们进行 M 次实验, 每次实验都进行 n 次采样, 得到 $x_1, \cdots, x_n$ 代入可以计算得一个区间. 95% 置信区间意味着有 M 次实验中百分之 95 中的实验计算得来的区间包含 $\theta$ 真实值.

t-分布. 继续以例 9.6 说到, 在 v 未知时, 我们使用 $\hat{S}_n$ 近似 v, 此时 $Y = \frac{\hat{\Theta}_n - \theta}{\hat{S}_n /\sqrt{n}}$. 此时 Y 并不是正态分布, 当然在 v 已知时, 如 9.6 所示, 此时 Y 是 $\hat{\Theta}_n$ 的线性函数, 其自然是正态的. 而实际上这里 Y 是服从 t-分布的, 因此在计算 $P(\vert Y \vert \le y)$ 要使用 t-分布对应的分布函数.

P.S. 注意根据上下文不同我们这里 Y 表示不同的随机变量==


p-值, 是针对一个特定的样本 s 定义的. 如上所示, 对于每一个 $\alpha$ 都对应着一个拒绝域 $R_{\alpha}$, 若 $s \in R_{\alpha}$ 则拒绝 $H_0$, p-值定义如下:

\[p = \inf \lbrace \alpha \mid s \in R_{\alpha} \rbrace\]

简单来说就是若 $\alpha$ 为 0.1, 0.001 都有 $s \in R_{\alpha} $, 那么 $p = 0.001$.