导数
设函数 $f: \mathbf{R}^{n} \rightarrow \mathbf{R}^{m}$,$x \in \operatorname{int} \operatorname{dom} f$。如果存在矩阵 $Df(x) \in \mathbf{R}^{m \times n}$,满足
$$ \begin{align*} \lim _{z \in \operatorname{dom} f, z \neq x, z \rightarrow x} \frac{\|f(z)-f(x)-D f(x)(z-x)\| _{2}}{\|z-x\| _{2}}=0 \end{align*} $$则称函数 $f$ 可微,并称 $Df(x)$ 为 $f$ 在 $x$ 处的导数(或 Jacobian 矩阵)。
我们将 $z$ 的仿射函数
$$ \begin{align*} f(x) + Df(x)(z-x) \end{align*} $$称为 $f$ 在 $x$ 处(或附近)的一次逼近。当 $z$ 接近 $x$ 时,该仿射函数非常接近 $f$。
$Df(x)$ 可以通过计算偏导数的方式求得:
$$ \begin{align*} D f(x) _{ij}=\frac{\partial f _{i}(x)}{\partial x _{j}}, \quad i=1, \cdots, m, \quad j=1, \cdots, n \end{align*} $$梯度
$$ \begin{align*} \nabla f(x)=D f(x)^{\top} \end{align*} $$梯度是一个列向量,它的分量是 $f$ 的偏导数。
$$ \begin{align*} \nabla f(x) _{i}=\frac{\partial f(x)}{\partial x _{i}}, \quad i=1, \cdots, n \end{align*} $$链式规则
设复合函数 $h(x) = g(f(x))$,则
$$ \begin{align*} \nabla h(x) &= g'(f(x))f(x) \\ &= \nabla g(f(x))^{\top} f(x) \end{align*} $$仿射函数
设仿射函数 $g(x) = f(Ax+b)$,其中 $f: \mathbf{R}^{n} \rightarrow \mathbf{R}^{m}$,$A \in \mathbf{R}^{n \times p}$,$b \in \mathbf{R}^{n}$,则 $g: \mathbf{R}^{p} \rightarrow \mathbf{R}^{m}$。当 $f$ 是实函数时(即 $m=1$),仿射函数 $g$ 的梯度公式为:
$$ \begin{align*} \nabla g(x) = A^{\top} \nabla f(Ax+b) \end{align*} $$仿射
从 $\mathbf{R}^{n}$ 到 $\mathbf{R}^{m}$ 的映射 $x \rightarrow Ax+b$ 称为仿射变换。当 $m=1$ 时,称上述仿射变换为仿射函数。若仿射函数的 $b=0$,则称之为线性函数。
方向导数
设 $f: \mathbf{R}^{n} \rightarrow \mathbf{R}^{m}$,$x, v \in \mathbf{R}^{n}$。定义函数 $\tilde{f} = f(x+tv)$。(粗略地说,$\tilde{f}$ 是将 $f$ 限制在直线 ${x+tv \mid t \in \mathbf{R}}$ 上的函数。)则
$$ \begin{align*} D \tilde{f}(t)=\tilde{f}^{\prime}(t)=\nabla f(x+t v)^{\top} v \end{align*} $$并称标量 $\tilde{f}^{\prime}(0)$ 为函数 $f$ 在 $x$ 处沿方向 $v$ 的方向导数。
二阶导数
设函数 $f: \mathbf{R}^{n} \rightarrow \mathbf{R}$,$x \in \operatorname{int} \operatorname{dom} f$。那么 $f$ 在 $x$ 处的二阶导数(或 Hessian 矩阵)为
$$ \begin{align*} \nabla^{2} f(x) _{ij}=\frac{\partial^{2} f(x)}{\partial x _{i} \partial x _{j}}, \quad i=1, \cdots, n, \quad j=1, \cdots, n \end{align*} $$函数 $f$ 在(或接近)$x$ 处以 $z$ 为变量的二次逼近为
$$ \begin{align*} \widehat{f}(z)=f(x)+\nabla f(x)^{\top}(z-x)+\frac{1}{2}(z-x)^{\top} \nabla^{2} f(x)(z-x) \end{align*} $$二阶导数的链式规则
标量复合函数
设 $f: \mathbf{R}^{n} \rightarrow \mathbf{R}$,$g: \mathbf{R} \rightarrow \mathbf{R}$,$h(x)=g(f(x))$。我们有
$$ \begin{align*} \nabla^{2} h(x)=g^{\prime}(f(x)) \nabla^{2} f(x)+g^{\prime \prime}(f(x)) \nabla f(x) \nabla f(x)^{\top} \end{align*} $$复合仿射函数
设 $f: \mathbf{R}^{n} \rightarrow \mathbf{R}$,$A \in \mathbf{R}^{n \times m}$,$b \in \mathbf{R}^{n}$,定义 $g: \mathbf{R}^{m} \rightarrow \mathbf{R}$ 为 $g(x) = f(Ax+b)$。我们有
$$ \begin{align*} \nabla^{2} g(x)=A^{\top} \nabla^{2} f(Ax+b) A \end{align*} $$