用户: Rushcheyo/对偶性

对偶性是我们研究凸优化问题的重要工具, 在优化和算法设计等领域应用广泛. 本文将以几何直观的方式较为自然的引入对偶性, 并且证明一些比较重要的对偶定理.

1基本定义

是一个线性空间, 扩展实数 , 为了方便我们使用如下的凸函数定义:

定义 1.1.

我们称 凸函数当且仅当:

(1)

上式只在 不是不同号的无穷大时作要求.

我们定义函数 图像 (英文: epigraph) 是集合 . 注意这里我们并不考虑 .

命题 1.2. 函数 是凸函数当且仅当 是凸集.

证明. 由于 “仅当” 的方向比较简单, 下面只证 “当” 的方向.

任取 . 如果 , (1) 式明显成立, 否则取实数 , 由于 是凸集, , 于是:

(2)

如果 不是 即可, 否则令 .

从而, 凸集 的一个截面 也是凸集. 反过来, 若 是凸集, 其示性函数 也是凸函数.

凸优化问题是指在凸集 上求解凸函数 的最小值 (确切地说, ) . 由上面的讨论, 我们可以只考虑优化问题 , 其中 都是 上的凸函数.

2凸集的对偶

后面的讨论中, 我们总假设 Banach 空间, 记 的对偶空间, 即 上的连续线性函数集合配备算子范数.

定义 2.1. 对于 , 我们把 称为一个仿射函数, 分别是斜率截距, 集合 则是超平面; 相应的, 则是半平面. 我们不加区分的使用这几个词.

对于两个不交的凸集, 我们总可以用一个超平面将它们分离开, 于是有下面的定理.

定理 2.2 (超平面分离定理). 上两个不交的非空凸子集, 存在不同时为 使得:

注意两个等号都是取得到的, 考虑 , , . 对两个闭子集, 则可以建立严格的分离, 但我们不需要.

该定理的完整证明需要许多铺垫且与主题无关, 我们难以收录, 读者可在任何泛函分析教材上找到, 也可参考 Hahn–Banach theorem. Hilbert 空间的证明可以见维基百科 (另外, 我们知道 上的线性映射都可以表为内积) .

下面的命题是上述定理的简单推论:

命题 2.3. 对于闭的凸集 , 所有包含 的半平面之交 恰好为 .

证明. 显然 . 若 , 则有包含 的小球 不交, 对 使用定理 2.2 得到分离超平面 . 该仿射函数在 上的取值不可能是 , 否则以 为原点其是非零线性函数, 在球内取值有正有负, 与分离的同号要求相悖. 从而 同样不在 内.

命题 2.3 给我们这样的启发: 为了研究凸集, 我们可以转而研究包含它的所有超平面, 后者包含了前者的全部信息. 这一思想是所谓的对偶原理的核心.

3共轭函数

现在, 我们考虑包含凸函数 的图像 的半平面 , 需满足:

这也就是:

我们显然只用考虑最紧的那些半平面, 这使得如下定义顺理成章:

定义 3.1. 共轭函数 定义为:

(3)

有了 “对偶”、“共轭” 的暗示, 下面的关系成立也并不奇怪:

命题 3.2. 的自然保距同构. 如果 闭 (即 闭) , 那么 .

证明. 我们只需证 .

依定义,

这说明 . 由命题 2.3, , 故只需证 .

任取满足 的超平面, 需证 , 在 号中取 归约到证明:

的选取立得.

4优化问题的对偶

读者或许已经知道 (我们也将会提及) , 同一优化问题的不同写法会导致对偶问题不同, 实际上对偶问题的确定需要我们指定一个扰动方式.

对两个 Banach 空间 , 有函数 , 优化目标是 , 那么扰动后的问题便是 , 而对偶问题, 正是求 . 如果 是凸函数且闭, 那么由命题 3.2 , 这叫做强对偶原理, 否则只能得到 (命题 3.2 证明的前半段) , 这叫做弱对偶原理. 此时 被叫做对偶间隙 (英文: duality gap) .

先处理一下 的凸性. 至于闭性 (约等于在值不取无穷部分的连续性) 则比较复杂, 后面再说.

命题 4.1. 如果 是凸函数, 那么 是凸函数.

证明., 我们必须证明:

上式的右边如果是 或无定义, 没什么好证明的. 否则任取 , 存在 , 从而:

即证.

我们写出对偶问题的具体形式:

总结一下:

定义 4.2. 优化问题 的对偶问题是 .

以下命题正当化了 “对偶” 一词的使用.

命题 4.3. 如果 自反, 凸且闭, 优化问题 的对偶问题是 .

证明. 为了让对偶问题有定义, 我们改写成 , 对偶后就是 , 由命题 3.2 立得.

5Lagrange 对偶

我们现在讨论优化问题 , 其中 , 是元素为 映射的实 Banach 空间, 这里 的含义是一族限制的交, 这些限制以 为指标集.

扰动方式很直接: . 于是定义 , 计算 :

注意里面的 号如果 不成立 ( 是指 ) , 可以取 使得 , 最终得到:

(4)

上面的形式相信读者并不陌生: 便是所谓的 Lagrange 乘数. 处理形如 的限制则拆成 , 重算一遍:

于是:

最后一步是由于 中每个元素都能拆成两个非负元素之差: .

为了使用命题 3.2, 我们需要验证两个条件. 首先 凸时, 的凸性等价于 是凸集, 由 的凸性立得. 现在整理成如下定理:

定理 5.1 (Lagrange 对偶). 对于凸函数 , 若扰动函数 在某个包含 的邻域上连续, 则成立:

(5)

请注意, 再光滑都不能推出 连续, 事实上 的连续性是优化问题本身的正则性. 如果 是一个局部的同胚, 即 的包含 的开集和 中的一个开集之间的连续双射, 那么 自然连续. 然而, 如果我们的限制有 (譬如说) 很大的冗余性, 一些限制必须取到 , 那么将 扰动一下就一定会远离最小值, 不可能连续, 不过我们也不是没有办法. 我们考虑 (5) 式左边如果在 处取到最小值, 若向量 中已经有一些限制是紧的 (即取到 ) , 无法再扰动, 我们可以进入不紧的那些限制构成的子空间扰动, 这样我们便可能继续使用定理 5.1.

下面看几个经典例子.

例 5.2 (线性规划). 线性规划是指 都是仿射函数的情形, 即 ( 的常数没多少意义) , 其中 , 是连续线性映射.

回忆对偶映射 的定义: .

我们化简对偶问题:

最后一步是因为当仿射 不为 时, 值必定无下界. 如果原始问题里有 的要求, 这里自然就是 .

例 5.3 (算子范数). 给定复 Hilbert 空间 上的连续线性算子 , 求解优化问题 .

改写成 , 计算对偶问题 (注意需要验证凸且连续) :

不成立时, 里面的 号是 , 因此答案就是:

集合 的一个后部. 由连续性, 取到该 必然不严格, 即 不是单射, 或者说 的特征值. 这样 就是 的最小特征值开根号.

例 5.4 (半正定规划). 考虑有限维复 Hilbert 空间 , 设 上的单位球, 在例 5.2 中取 上所有自伴算子组成的有限维 Hilbert 空间, 是紧集 上的连续函数组成的 Banach 空间 (配备 范数) . , 容易验证 的确是 的连续线性映射.

除了由这里 给出的 的限制外, 还可以加一些 的线性限制 , 现在对偶:

最后一步的集合相等关系的解释: 若 非半正定, 可以找到与 交换的半正定的 使得内积为负, 然而等式右边非负; 若 , 设其谱分解为 , 则 . 那么我们定义 , 则容易验证 上连续线性映射, , 且 .

6Minimax 定理

我们仍然让底空间是 , 其中 是自反的 Banach 空间. 为了避免琐碎的正则性讨论喧宾夺主, 我们考虑一个较弱的版本:

定理 6.1 (Minimax 定理 (弱) ). 是两个紧凸集, 若连续函数 满足:

1.

, 是凸函数,

2.

, 是凹函数,

那么成立:

和弱对偶性类似, 我们有以下的命题:

命题 6.2. 对任意实值函数 , 成立:

证明.

.

容易验证, 是连续凸函数, 是连续凹函数. 下面证明较难的另一半:

定理 6.1 的证明. 考虑优化问题 : 这是一个线性规划问题, 限制空间取紧集 上的连续函数组成的 Banach 空间 (配备 范数) , 那么限制函数 自然是 的连续线性映射.

对偶: , 其中 将实数映至对应的常函数. 那么我们必须证明:

然而

考虑到 , 两边用 作用即证.

然而这个证明肯定是错的. . 因为没用到凸函数条件, 看来还得将无穷维 LP 对偶的正则性问题处理好, 有限维是没这个问题的

参考文献

[ET99]

Ekeland and Témam (1999). Convex Analysis and Variational Problems. Society for Industrial and Applied Mathematics.