深入理解 KKT 条件
本节将对上一小节
最优性条件中提出的 KKT 条件进行深入的理解和分析。
KKT 条件究其本质,是优化问题取得最优解的必要条件。下面我们首先从我们最熟悉的知识开始。
等式约束优化问题
我们在《高等数学》课程中学习过多元函数的极值问题,其中提到了 Lagrange 乘子法。其本质就是运用《凸优化》课程当中讲的 Lagrange 函数,求解等式优化问题。只不过《高等数学》课程中不涉及不等式约束,仅仅只有等式约束。为了更贴近也更容易回忆起《高等数学》所学内容,我们在这里仅考虑二元函数,并且只有一个等式约束。此时,这个约束优化问题记为
mins.t.f(x,y)g(x,y)=0这里只有一个等式约束,因此只需要引入一个 Lagrange 乘子 λ 即可
L(x,y,λ)=f(x,y)+λg(x,y)计算 L 对 x、y 和 λ 的偏导数,并令它们都等于零,就可以得到最优解的必要条件
⎩⎨⎧∂x∂L∂y∂L∂λ∂L=fx(x,y)+λgx(x,y)=0=fy(x,y)+λgy(x,y)=0=g(x,y)=0解上面的方程组就可以得到最优解 (x⋆,y⋆)。
不等式约束优化问题
我们注意到,在刚才在求解的过程中,我们其实一点也不关心 λ 的取值,因为那是我们引入的新变量,我们只关心原问题当中 (x,y) 的取值。实际上,按照《高等数学》当中的方法求解出的 λ 是无法判断其符号的。对于只含有等式约束的问题,这个问题并不重要。但是,对于含有不等式约束的问题来说,不等号的方向和引入的 Lagrange 乘子之间则是具有一定联系的。
我们先考虑仅含有一个不等式的约束的二元函数优化问题
mins.t.f(x,y)g(x,y)⩽0我们先来讨论最优解 (x⋆,y⋆) 的情况,它应该有且仅有如下两种:
- g(x⋆,y⋆)<0,说明最优解位于可行域的内部,称为内部解。此时约束条件是无效的。
- g(x⋆,y⋆)=0,说明最优解位于可行域的边界,称为边界解。此时约束条件是有效的。
这两种情况的最优解具有不同的必要条件:
- 内部解:原问题退化为无约束优化问题,只要驻点 (x⋆,y⋆) 满足 ∇f=0 且 λ=0。
- 边界解:原问题转变为等式约束优化问题,这与之前讨论的情况相同。可以证明的一点是,最优解处的 f 和 g 的梯度方向是反向,即 ∃λ 使得 ∇f=−λ∇g。这里 λ 的正负性是有意义的。由于我们希望最小化 f,梯度 ∇f 的值表示函数值上升最快的方向,因而负梯度方向 −∇f 应该指向可行域的内部。∇g 指向可行域的外部,即 g(x,y)>0 的区域,因为约束 g(x,y)⩽0。因此这里的 λ⩾0,这就是之前几节讲的对偶可行性。

边界解的情况可以通过上图加深理解。图中表示的是二元函数 f(x,y) 在不等式约束 g(x,y)⩽0 下的优化问题,并且最优解在边界的情况。如图所示,最优点即为平面 π(方程 z=f(x,y))和平面 σ(方程 g(x,y)=0)的交点。约束 g(x,y)⩽0 说明了可行域在平面 σ 的下侧。梯度 ∇f 指向上方,负梯度 −∇f 指向下方可行域内部。在最优解 (x⋆,y⋆) 处,∇f 和 ∇g 共线。
更一般地,如果有多个不等式约束,对应到上图中就是有若干平面 σ1,⋯,σp,并且在最优点处 ∇f(x⋆,y⋆) 可由有效约束对应的平面的支撑超平面的法向量的线性表示。即 ∃μ1,⋯,μp⩾0,使得
∇f(x⋆,y⋆)=−(μ1∇g1(x⋆,y⋆)+⋯+μp∇gp(x⋆,y⋆))而不论是内部解还是边界解,λg(x,y)=0 恒成立,这就是互补松弛性。
小结
回顾了等式约束优化和不等式约束优化之后,我们可以从中提炼出一种转化的思想:
- 无约束优化问题:令梯度向量为零即可。
- 等式约束优化问题:引入 Lagrange 乘子,将原目标函数转化为 Lagrange 函数,将原问题转化为无约束优化问题。
- 不等式约束优化问题:引入松弛变量,将原不等式约束函数转化为等式约束函数,将原问题转化为等式约束优化问题。
KKT 条件的本质
综合上面的讨论与分析,我们再来看看 KKT 条件:
fi(x⋆)hi(x⋆)λi⋆λi⋆fi(x⋆)∇f0(x⋆)+i=1∑mλi⋆∇fi(x⋆)+i=1∑pνi⋆∇hi(x⋆)⩽0,=0,⩾0,=0,=0iiii=1,⋯,m=1,⋯,p=1,⋯,m=1,⋯,m其中一个包含了四个条件,它们分别是:
- Lagrange 函数的定常方程式:上式最后一行 ∇L=0。
- 原始可行性:即满足等式约束和不等式约束,上式第一行 fi(x⋆)⩽0 和第二行 hi(x⋆)=0。
- 对偶可行性:即上式第三行 λi⋆⩾0。
- 互补松弛性:即上式第四行 λi⋆fi(x⋆)=0。
简单的例子
考虑下面的问题
mins.t.x2+y2x+y=1y⩽α写出 Lagrange 函数
L(x,y,λ,ν)=x2+y2+λ(1−x−y)+ν(y−α)KKT 条件方程组如下
⎩⎨⎧2x−λ2y−λ+ννν(y−α)=0=0⩾0=0(1)(2)(3)(4)分别由 (1) 式和 (2) 式求出
⎩⎨⎧xy=21λ=21λ−21ν(5)(6)代入等式约束 x+y=1,得到 λ 和 ν 的函数关系
λ=21ν+1再代入式 (5) 和 (6) 中,消去 λ
⎩⎨⎧xy=41ν+21=−41ν+21(7)(8)最后再加入不等式约束,得到
{νν⩾2−4α⩾0下面对参数 α 进行分类讨论:
- 若 α>21,不难验证 ν=0>2−4α。此时满足所有的 KKT 条件,约束不等式是无效的。x⋆=y⋆=21 是内部解。
- 若 α=21,ν=0=2−4α。此时满足所有的 KKT 条件,约束不等式是有效的。x⋆=y⋆=21 是边界解。
- 若 α<21,ν=2−4α>0。此时约束不等式是有效的。x⋆=1−α,y⋆=α。

本题的几何意义如图所示。目标函数对应的曲面 Γ 是(椭)圆抛物面,等式约束对应平面 π,不等式约束对应以平面 σ 为边界的左半空间。曲面 Γ 和平面 π 的交线为图中的红色曲线(该曲线实际上是一个抛物线)。不考虑不等式约束,该优化问题的最优解为 (x⋆,y⋆)=(21,21),最优值为 f(x⋆,y⋆)=21,对应图中红点的坐标 (21,21,21)。不等式约束实际上是让平面 α 沿 y 轴方向平移,以 α=21 为界,可以分三种情况讨论。
参考