定义
如果 $\operatorname{dom} f$ 是凸集,且对于任意的 $x, y \in \operatorname{dom} f$ 和任意的 $0 \leqslant \theta \leqslant 1$,若有
$$ f(\theta x+(1-\theta) y) \leqslant \theta f(x)+(1-\theta) f(y) $$则称函数 $f: \mathbf{R}^n \rightarrow \mathbf{R}$ 是凸的。
从几何意义上看,上述不等式意味着点 $(x, f(x))$ 和点 $(y, f(y))$ 之间的线段,即从 $x$ 到 $y$ 的弦,在函数 $f$ 图像的上方。如果不等式中当 $x \ne y$ 时 $0 \leqslant \theta \leqslant 1$ 严格成立,则称函数 $f$ 是严格凸的。
扩展值延伸
通常可以定义凸函数的定义域外的值为 $\infty$,从而将这个凸函数延伸至全空间 $\mathbf{R}^n$。我们定义凸函数 $f$ 的扩展值延伸:$\tilde{f}: \mathbf{R}^n \rightarrow \mathbf{R} \cup {\infty}$ 如下:
$$ \tilde{f}(x)=\left\{\begin{array}{ll} f(x) & x \in \operatorname{dom} f \\ \infty & x \notin \operatorname{dom} f \end{array}\right. $$一阶条件
假设 $f$ 可微(即其梯度 $\nabla f$ 在开集 $\operatorname{dom} f$ 内处处存在),则函数 $f$ 是凸函数的充要条件是 $\operatorname{dom} f$ 是凸集,且对于任意的 $x, y \in \operatorname{dom} f$,有
$$ f(y) \geqslant f(x)+\nabla f(x)^{\top}(y-x) $$由此得出的仿射函数 $y$ 即为函数 $f$ 在点 $x$ 附近的 Taylor 近似。上面的不等式表明,对于一个凸函数,其一阶 Taylor 近似实质上是原函数的一个全局下估计。反之,如果某个函数的一阶 Taylor 近似总是其全局下估计,那么这个函数是凸的。
同理,可以定义凹函数及其一阶条件。
二阶条件
现在假设函数 $f$ 二阶可微(即对于开集 $\operatorname{dom} f$ 内的任意一点,它的 Hessian 矩阵或者二阶导数 $\nabla ^2 f$ 存在),则函数 $f$ 是凸函数的充要条件是,其 Hessian 矩阵是半正定矩阵,即对所有的 $x \in \operatorname{dom} f$,有
$$ \nabla ^2 f(x) \succeq 0 $$下水平集
函数 $f: \mathbf{R}^n \rightarrow \mathbf{R}$ 的 α-下水平集定义为
$$ C_\alpha = \{ x \in \operatorname{dom} f \mid f(x) \leqslant \alpha \} $$上境图
函数 $f: \mathbf{R}^n \rightarrow \mathbf{R}$ 的图像定义为
$$ \{ (x, f(x)) \mid x \in \operatorname{dom} f \} $$它是 $\mathbf{R}^{n+1}$ 空间的一个子集。
函数 $f: \mathbf{R}^n \rightarrow \mathbf{R}$ 的上镜图定义为
$$ \operatorname{epi} f = \{ (x, f(x)) \mid x \in \operatorname{dom} f, f(x) \leqslant t \} $$上镜图的概念很像是下水平集和函数图像二者的结合。从几何上看,上镜图即为在函数图像之上。
定义在 $\mathbf{R}^n$ 上的凸函数 $f$ 的上镜图是 $\mathbf{R}^{n+1}$ 空间的一个凸集,其支撑超平面和一阶条件有着如下图所示的联系:
从图中可以直观地看到,凸函数 $f$ 在点 $x$ 处的一阶 Taylor 近似即为其上镜图在 $x$ 处的支撑超平面。
Jensen 不等式及其扩展
基本不等式
$$ f(\theta x+(1-\theta) y) \leqslant \theta f(x)+(1-\theta) f(y) $$有时也称作 Jensen 不等式。此不等式可以很方便地扩展至更多点的凸组合:如果函数 $f$ 是凸函数,$x_1, \cdots, x_k \in \operatorname{f}$,$\theta_1, \cdot, \theta_k \geqslant 0$ 且 $\theta_1 + \cdots + \theta_k = 1$,则下式成立
$$ f(\theta_1 x_1 + \cdots + \theta_k x_k) \leqslant \theta_1 f(x_1) + \cdots + \theta_k f(x_k) $$考虑凸集时,此不等式还可以扩展至无穷项和、积分以及期望。
例如,若在 $S \subseteq \operatorname{dom} f$ 上 $p(x) \geqslant 0$ 且 $\int_{S} p(x) \mathrm{d} x = 1$,则
$$ f\left(\int_{S} p(x) x \mathrm{~d} x\right) \leqslant \int_{S} f(x) p(x) \mathrm{d} x $$再比如,设 $x$ 是随机变量,若函数 $f$ 是凸函数,则
$$ f(\mathbf{E}x) \leqslant \mathbf{E} f(x) $$我们不妨来回忆以下高中时期我们接触到的凸函数定义,如下
$$ f\left(\frac{x+y}{2}\right) \leqslant \frac{f(x)+f(y)}{2} $$
其实这就是由 Jensen 提出的最初的一个最简单的不等式。现在,我们可以称上述所有的不等式为 Jensen 不等式。