37. Hesse 矩阵与极值点, 凸函数

Hesse 矩阵与极值点的二阶导数判定

为了避免张量的概念, 我们考虑 中的开集 并假设 中已经选取坐标 . 我们假设 上至少两次连续可微的函数. 对于给定的点 , 我们定义 处的 Hesse 矩阵为根据 Clairaut-Schwarz 的定理, 这是一个对阵矩阵. 另外, 根据线性代数中所学的知识, 我们还可以将 Hesse 矩阵看成是 上的二次型: 我们假设在 给了内积 , 使得 恰好是标准正交基. 那么上面的二次型还可以写成另外, 我们的 Taylor 公式在 阶的时候可以写成

对于实对称矩阵, 我们可以讨论它是否正定/负定. 我们简单回忆线性代数中的概念: 矩阵/二次型 是正定 (半正定) 的, 指的是它满足如下条件之一:

1)

对任意的 , () ;

2)

矩阵 的特征值都是正 (非负) 的.

我们用 表示正定和半正定的二次型; 负定的情形类似.

命题 37.1. 给定 , 其中 是开集, 如果 的最小值点, 那么, 并且 (半正定) .

证明. 首先, , 这是明显的. 为了说明 , 我们用反证法, 假设 有一个负特征值 , 我们用 表示相应的一个特征向量 (非零) . 考虑 并利用 Taylor 公式 (一阶导数项自动为零) : 根据 的定义, 存在 , 当 时, 我们有 . 根据 , 从而这与 是最小值矛盾.

这个证明可以用来证明一个接近于上述命题逆命题的命题:

命题 37.2. 给定 , 其中 是开集, 如果 满足 并且 (正定) , 那么, 的局部最小值点, 即存在开集 , 使得 上的最小值.

证明. 由于 , 我们令 是它的特征值, 其中 是最小的特征向量. 根据线性代数的知识, 我们可以选取相应于上述特征值的特征向量 , 其中它们都是单位向量并且两两正交. 据此, 对任意的 , 我们可以把 写成由于 , 所以, 我们有根据 Taylor 公式 (一阶导数项自动为零) , 我们有根据 的定义, 存在 , 当 时 (我们就选取 ) , 我们有 . 从而这说明 中的最小值点.

二阶导数与凸函数

给定凸集 (即对任意的 , 对任意的 , ) , 在凸集上定义的函数, 如果对任意的 , 对任意的 , 都有我们就称 凸函数. (如果 是凸函数, 就称 凹函数)

另外, 如果对任意的 , 对任意的 , 都有我们就称 严格凸的.

换而言之, 对于任意 中的线段, 在这个线段上的限制是 维的凸函数. 另外, 我们可以同样地证明 Jensen 不等式 (请参见上学期第十八次课, 证明完全可以照搬) :

命题 37.3 (Jensen 不等式). 假设 是凸函数, 其中 为凸集, 那么对任意的 和任意的 , 其中 , 我们有

例子. 我们先看几个凸函数的例子 (我们总假设 是凸集)

1)

上的线性函数.

2)

假设 是任意一个范数, 那么, 这是一个凸函数, 因为

3)

假设 是一个 的半正定矩阵, 那么, 二次型是凸函数. 实际上, 我们可以验证代数恒等式: 右边的值是非负的.

定理 37.4 (凸函数在开集上的连续性). 假设 是凸的开集, 是凸函数, 那么, 是连续函数.

证明. 假设 , 我们只要证明 处连续即可, 其余的点类似. 我们不妨假设如下的向量都在 中 (否则做适当的放缩即可, 或者选取 来代替这些向量) . 我们注意到, 当 足够小的时, 任意的 , 如果 在第一相限 (即坐标都是非负的) , 存在 使得如果 足够小, 我们还可以要求 , 这是因为选定这样一个 . 此时, 我们令 , 所以根据凸函数的性质 (Jensen 不等式) , 我们就有从而, 即 (对其他相限类似可以证明) 我们还可以用 的凸组合来表示 , 实际上, 利用 的坐标, 我们选取此时, 我们有所以, 从而, 对于第一项, 我们有从而, 综合之前的不等式, 我们就得到不妨假设选取的 使得 , 从而, 这就说明了 是连续的 (实际上是局部 Lipschitz 的) .

如果 具有一阶导数的话, 我们可以用几何的方式 (大约是切平面) 来描述凸函数 (请参考上学期第十八次课中凸函数的五个等价定义) :

MathAnalysis N0801.svg

命题 37.5. 假设 是凸的开集, 是可微函数 (即微分 逐点存在) , 我们用 表示 中的图像: 该图像在 处的切平面我们定义为那么, 如下命题是等价的:

1)

上的凸函数;

2)

对任意的 , 函数图像 都在切平面 , 即其中 , .

证明. 证明分两个方向:

1)

假设 是凸函数, 所以对任意的 , 函数 是凸函数并且另外, 根据 Taylor 公式以及可微性, 我们有, 我们就得到, , 整理就得到 2) 中的等式.

2)

反过来, 我们假设 2) 中不等式成立, 对于给定的 , , 我们令 . 对 用不等式, 我们有, 我们得到将第一个不等式乘 , 将第二个不等式乘 , 然后相加就得到所要的结论.

我们还可以将函数限制到线段上用 1 维结论直接说明等价性, 这留给同学思考.

如果我们的函数是二阶可微的, 类似于 维的情况, 我们也有对凸函数的二阶导数的判定:

命题 37.6. 假设 是凸的开集, 的函数, 那么, 是凸函数当且仅当 在每个点处的 Hesse 矩阵都是半正定的. 进一步, 如果在每个点处 Hesse 矩阵都是正定的, 那么 是严格凸的.

证明. 首先假设 是凸函数. 我们在 处将 进行 Taylor 展开: 从而, 对任意的 , 我们有, , 其中 是任意的长为 的向量, 从而, 我们就得到了其中 是任意的长为 的向量, 所以 是正定的.

反过来, 我们假设在任何一点 处, 我们有 . 此时, 根据 Talyor 展开公式 (Lagrange 余项) , 我们有其中 位于 之间. 根据前面一阶导数的命题, 是凸的.