Lagrange 对偶函数
Lagrange 函数
考虑标准形式的优化问题
minimizesubject tof0(x)fi(x)⩽0,i=1,⋯,mhi(x)=0,i=1,⋯,p定义该问题的 Lagrange 函数 L:Rn×RmRp→R 为
L(x,λ,ν)=f0(x)+i=1∑mλifi(x)+i=1∑pνihi(x)其中定义域 domL=D×Rm×Rp。λi 称为第 i 个不等式约束 fi(x)⩽0 对应的 Lagrange 乘子;类似地,νi 称为第 i 个等式约束 hi(x)=0 对应的 Lagrange 乘子。向量 λ 和 ν 称为对偶变量或者问题的 Lagrange 乘子向量。
Lagrange 对偶函数
定义 Lagrange 对偶函数 g:Rm×Rp→R 为 Lagrange 函数关于 x 取得的最小值:即对 λ∈Rm,ν∈Rp,有
g(λ,ν)=x∈DinfL(x,λ,ν)=x∈Dinf(f0(x)+i=1∑mλifi(x)+i=1∑pνihi(x))如果 Lagrange 函数关于 x 无下界,则对偶函数取值为 −∞。因为对偶函数是一族关于 (λ,ν) 的仿射函数的逐点下确界,所以即使原问题不是凸的,对偶函数也是凹函数。
最优值的下界
对偶函数构成了原问题最优值 p⋆ 的下界:即对 ∀λ,ν⪰0 有
g(λ,ν)⩽p⋆几何意义
为了便于理解,我们考虑只有一个变量 x∈R 并且只有一个不等式约束的简单情形。如下图所示:

图中表示的是对偶可行点给出的下界。粗的实线表示目标函数 f0,下方的虚线表示约束函数 f1。可行集是图中两个红点之间的部分所在区间。细的点线表示一系列 Lagrange 函数 L(x,λ),其中 λ=λ1,λ2,λ3,⋯。该问题的最优点是左边的红点所在位置,可以看到每个 Lagrange 函数的极小值均小于之。
通过线性逼近来理解
可以通过对集合 {0} 和 −R+ 的示性函数进行线性逼近来理解 Lagrange 函数和其给出下界的性质。首先将原问题重新描述成一个无约束问题
minimizef0(x)+i=1∑mI−(fi(x))+i=1∑pI0(hi(x))其中,I−:R→R 是非正实数集的示性函数
I−(u)={0∞u⩽0u>0类似地,I0 是集合 {0} 的示性函数。打一个形象的比喻,可以将函数 I−(u) 理解为我们对约束函数值 u=fi(x) 的一种恼怒或不满。类似地,I0(u) 表达了我们对等式约束值 u=hi(x) 的不满。
如果我们用线性函数 λi(u) 替代函数 I−(u),其中 λi⩾0,用函数 νiu 替代 I0(u)。那么,目标函数就变成了 Lagrange 函数 L(x,λ,ν),且对偶函数值是该问题的最优值。实际上,使用线性函数太“软”,没有示性函数“硬”。用线性函数去逼近示性函数是远远不够的,不过至少可以将线性函数看作是示性函数的一个下估计。
用“软”约束代替“硬”约束的思想在后文考虑内点法时会再次提到。
举例
线性方程组的最小二乘解
minimizesubject tox⊤xAx=b其中 A∈Rp×n,说明这个问题共有 p 个等式约束。其 Lagrange 函数和对偶函数分别为
L(x,ν)g(ν)=x⊤x+ν⊤(Ax−b)=xinfL(x,ν)由于 L(x,ν) 是关于 x 的二次凸函数,可以通过求解如下最优性条件得到函数的最小值
∇xL(x,ν)=2x+A⊤νx=0=−21A⊤ν因此,对偶函数为
g(ν)=−41ν⊤AA⊤ν−b⊤ν它是一个二次凹函数,定义域为 Rp。
Lagrange 对偶函数和共轭函数
共轭函数和 Lagrange 对偶函数紧密相关。下面的问题说明了一个简单的联系。
minimizesubject tof(x)x=0虽然这个问题没有什么挑战性,但是我们还是可以很容易地得到 Lagrange 函数为 L(x,ν)=f(x)+ν⊤x,则其对偶函数为
g(ν)=xinf(f(x)+ν⊤x)=−xsup((−ν)⊤x−f(x))=−f∗(−ν)即,我们得到了结论
g(ν)=−f∗(−ν)