陶哲轩实分析: 多元微积分链式法则

定理 17.4.1, 原文解答有几处笔误, 修正如下: 对于 $x \in B(x_0, \delta)$, 此时:

\[\begin{align} & \frac{\lVert g(f(x)) - g(f(x_0)) - L_2L_1(x-x_0) \rVert}{\lVert x-x_0 \rVert} \\ & \le \frac{\lVert g(f(x)) - g(f(x_0)) - L_2(f(x) - f(x_0)) \rVert}{\lVert x - x_0 \rVert} + \frac{\lVert L_2(f(x) - f(x_0)) - L_2L_1(x-x_0) \rVert}{\lVert x - x_0 \rVert} \\ & = \frac{\lVert g(f(x)) - g(f(x_0)) - L_2(f(x) - f(x_0)) \rVert} {\lVert f(x) - f(x_0) \rVert} \cdot \frac{\lVert f(x) - f(x_0) \rVert}{\lVert x - x_0 \rVert} + \frac{\lVert L_2(f(x) - f(x_0) - L_1(x-x_0)) \rVert}{\lVert x - x_0 \rVert} \end{align}\]

这接下来就和原文一样了. 另外 $g’(f(x_0))f’(x_0)$ 这里 $g’(f(x_0)), f’(x_0)$ 都是线性变换, 是函数, 按照引理 17.1.16 说法这里 $g’(f(x_0))f’(x_0) = g’(f(x_0))\circ f’(x_0)$

17.2.2.zy1; 接着定义 17.2.2, $f=(f_1, \cdots, f_m)$, 则 f 在 $x_0$ 处可微当且仅当 $f_j$ 在 $x_0$ 处可微, j 从 1 取到 m. 且

\[f'(x_0)(v) = (f_1'(x_0)(v), \cdots, f_m'(x_0)(v))\]

证明: f 在 $x_0$ 处可微, 意味着:

\[\begin{align} & \lim_{x \to x_0} \frac{\lVert f(x) - f(x_0) - f'(x_0)(x-x_0) \rVert}{\lVert x-x_0 \rVert} = 0 \\ & f(x) = (f_1(x), \cdots, f_m(x)) \\ & f(x_0) = (f_1(x_0), \cdots, f_m(x_0)) \\ & f'(x_0)(x-x_0) = (f_1'(x_0)(x-x_0), \cdots, f_m'(x_0)(x-x_0)) \\ & \lVert f(x) - f(x_0) - f'(x_0)(x-x_0) \rVert = \sqrt{\sum_{j=1}^{n} (f_j(x) - f_j(x_0) - f_j'(x_0)(x-x_0))^2} \end{align}\]

即如下不等式成立, 从该不等式便可证得结论. $\begin{align} |f_j(x) - f_j(x_0) - f_j'(x_0)(x-x_0)| &\le \lVert f(x) - f(x_0) - f'(x_0)(x-x_0) \rVert \\ & \le \sum_{j=1}^{n} |f_j(x) - f_j(x_0) - f_j'(x_0)(x-x_0)| \end{align}$

定理 17.3.8 导数矩阵, 定理 17.3.8 告诉我们若偏导数存在且连续, 则可微, 且可以写成导数矩阵形式. 那么有个问题, 若 f 在 x 点可微, 是否意味着其所有偏导数存在且连续, 且能写成导数矩阵形式呢?

f 在 x 点可微, 是很明显推出 f 偏导数存在.
偏导数连续, 这点我理解无法推测. 毕竟 $f: R \to R$ 时有过导数存在但不连续的例子的.
f 是否仍能写成导数矩阵形式? 答案是: 可以的. 由下等式可以很明显地推出来.

\[f'(x)((v_1, \cdots, v_n)) = f'(x)(\sum_{j=1}^n v_je_j) = \sum_{j=1}^n v_j f'(x)(e_j) = \sum_{j=1}^n v_j \frac{\partial f}{\partial x_j}(x)\]

例 17.4.2 这样我们就推导出乘积法则, 这里展开下, 即:

\[\begin{align} & \nabla(fg)(x) = (\frac{\partial fg}{\partial x_1}(x), \cdots, \frac{\partial fg}{\partial x_n}(x)) \\ & \nabla(f)(x) = (\frac{\partial f}{\partial x_1}(x), \cdots, \frac{\partial f}{\partial x_n}(x)) \\ & \nabla(g)(x) = (\frac{\partial g}{\partial x_1}(x), \cdots, \frac{\partial g}{\partial x_n}(x)) \\ \end{align}\]

这样便可以推出:

\[\frac{\partial fg}{\partial x_1}(x) = g(x)\frac{\partial f}{\partial x_1}(x) + f(x)\frac{\partial g}{\partial x_1}(x)\]

将 fg, f, g 视为仅与 $x_1$ 有关的单变量函数, 则此时便可以得到定理 10.1.13(d) 乘积法则.

引理 17.2.1.zy3, 对于 $f: R^n \to R^m$, $f’(x_0)$ 是一个线性变换函数, 其定义域值域: $R^n \to R^m$. 那么当 n = m = 1 时, 理论上这时 $f’(x_0)$ 也是一个线性变换函数, 其定义域值域: $R \to R$. 但此时 $f’(x_0)$ 是一个具体的值 L. 如何将这两个概念结合起来呢? 我们可以定义 $f’(x_0)(v) = L * v$. 这样可以很自然地把定义 17.2.2 的定义与引理 17.2.1(b)合为一起.

或者虽然 $f: R^n \to R^m$, $f’(x_0)$ 是一个线性变换函数, 但我们可以视为对应的矩阵表示, 而矩阵表示则像是一个值. 这里 n = m = 1 时, $f’(x_0)$ 就是一个 1 * 1 的矩阵.

引理 17.2.1.zy2, 对于函数 $f(x): R \to R^m$, 原文并未定义过符号 $\frac{df}{dx}$, 但好几处却直接使用了这个符号. 我这里令:

\[\begin{align} L = \frac{df}{dx}(x_0) &= \lim_{x \to x_0}\frac{f(x) - f(x_0)}{x - x_0} \\ &= \lim_{x \to x_0} \frac{(f_1(x), \cdots, f_n(x)) - (f_1(x_0), \cdots, f_n(x_0))}{x - x_0} \\ &= \lim_{x \to x_0}(\frac{f_1(x) - f_1(x_0)}{x - x_0}, \cdots, \frac{f_n(x) - f_n(x_0)}{x - x_0}) \\ & = (\lim_{x \to x_0}\frac{f_1(x) - f_1(x_0)}{x - x_0}, \cdots, \lim_{x \to x_0}\frac{f_n(x) - f_n(x_0)}{x - x_0})L1\\ &= (f_1'(x_0), \cdots, f_n'(x_0)) \end{align}\]

即 $\frac{df}{dx}(x_0)$ 也是一个 m 维行向量. L1 标注的等式来自于命题 12.1.18(d). 此时也可以很容易推出其对应的引理 17.2.1:

\[\lim_{x \to x_0}\frac{\lVert f(x) - f(x_0) - L(x - x_0) \rVert}{|x - x_0|} = 0\]

那么此时定义 17.2.2 引入的 $f’(x_0)$ 与 L 有什么关系, 要知道这里 $f’(x_0)$ 是一个 $R \to R^m$ 的线性变换函数. 真相是此时 $L^\intercal$ 是 $f’(x_0)$ 这个线性变化的矩阵表示, 证明如下:

\[\begin{align} \frac{\lVert f(x) - f(x_0) - (L^\intercal(x - x_0)^\intercal)^\intercal \rVert}{|x - x_0|} &= \\ \frac{\lVert f(x) - f(x_0) - (L^\intercal(x - x_0))^\intercal \rVert}{|x - x_0|} &= \\ \frac{\lVert f(x) - f(x_0) - L(x - x_0) \rVert}{|x - x_0|} \end{align}\]

即 $L^\intercal$ 对应的线性变换是符合定义 17.2.2 导数定义的, 结合引理 17.2.4, 导数的唯一性便得证.

例 17.4.2.zy2, 如下等式的证明:

\[\frac{d}{dt}f(x_1(t),x_2(t),\cdots,x_n(t)) = \sum_{j=1}^nx_j'(t)\frac{\partial f}{\partial x_j}(x_1(t),x_2(t),\cdots,x_n(t))\]

令 $h(t) = (x_1(t), \cdots, x_n(t))$, 则由 17.2.2.zy1, 17.2.1.zy3 可知 $h’(t)(v) = (x_1’(t) * v, \cdots, x_n’(t) * v)$, 此时 $\frac{d}{dt}f(x_1(t),x_2(t),\cdots,x_n(t))$ 是 $(f \circ h)’(t)$ 的矩阵表示的转置. 且:

\[\begin{align} (f \circ h)'(t)(v) &= f'(h(t))(h'(t)(v)) \\ &= f'(h(t))(x_1'(t) * v, \cdots, x_n'(t) * v) \\ &= v\sum_{j=1}^n x_j'(t) \frac{\partial f}{\partial x_j}(h(t)) \end{align}\]

CATALOG