5. 算法的稳定性

稳定性的分析由矩阵的扰动理论给出. 这也将给出上述算法 3 中归一化行向量的需要.

5.1特征空间的扰动理论

此小节参考自 Rajendra Bhatia 的 Matrix Analysis 一书中 Section VII.1-3.

对复规范阵 [normal matrix/operator] () 及 , 以 表示到 中特征值对应特征向量所张成子空间的正交投影 [orthogonal projection] .

对于不相交的 , 由复规范变换的特征分解, 可知 的像是正交的. 当另一个复规范阵 接近 时, 我们理所当然地期待 的像接近正交.

若确实如此, 这两个投影算子复合应当得到接近于 0 的算子. 因此我们考虑用 进行估计, 有如下结果:

定理 5.1.1. 被一个宽为 的圆环分离, 则对矩阵的任一保酉变换的范数 , 我们有

注 5.1.2. 常见的 Frobenius 范数 (数值分析中讲过在 Givens 变换下不变) 、2-范数 (矩阵的最大奇异值) 都是保酉变换的.

证明. 首先, 根据 的特征分解 , 我们可以将 中的任意向量表示为从而于是 同理可以得到 , 从而要证明的第一个不等式即为, , , , 则由被一宽为 的圆环分离, 可设 , 从而 , 因此 可逆, 有由此, 根据正交投影的性质, 我们有这就证明了 式, 第一个不等式成立; 第二个不等式由 即可得到.

此外, 上述 “接近正交” 也可以通过它们的 “夹角” 来表述, 这将给出两个子空间的距离定义, 详见参考书, 此处不再赘述.

5.2稳定性分析

此小节参考自文章 A Tutorial on Spectral Clustering 的 Section 7.

最简单的情形: 当相似度图恰好有 个连通分支时, 其 Laplace 矩阵 恰好有 个 0 特征向量, 由此直接给出了聚类方式. 加上扰动之后, 设新的 Laplace 矩阵为 , 我们希望当 较小时, 其前 个特征向量比较接近原来 个分支的指示向量.

一般而言, 由于 都是实对称阵, 其特征值均为实数 ( 具有相同的特征值, 也都是实数) , 因此要利用上述定理, 我们需要找到一个有限区间 同时包含 的前 个特征值. 直观上看, 当 越小、 的第 个特征值与第 个特征值的距离 [eigengap] 越大时, 区间 就越容易取. 一旦取出, 的特征空间之距离即可被上界 所控制, 故可见扰动越小、特征值距离越大, 算法的误差越小, 从而越稳定.

根据这个观察, 我们可以得到:

选取聚类数 的一个准则: 尽量让 较大. 为此, 我们经常画出 的特征值图 (俗称手肘图/崖底碎石图) , 通过图象的 “拐点” 来确定较好的 ;

在上述最简单的情形中, 的前 个特征向量确实接近于 , 故可以按照分量的大小 (接近 1 或者接近 0) 有效地给出聚类方式; 同理, 我们由可以得到 的前 个特征向量为 , 从而 的前 个特征向量为 (见 2.4 末尾的推导) . 由此可见, 当图中存在度很小的顶点 时, 虽然 有一个特征向量 使得 , 但其值很小, 会导致扰动之后与其余 的扰动混淆, 从而会出现误判. 因此, 若使用 进行谱聚类, 我们要求对特征向量组成矩阵 的各行进行归一化, 以减弱这种不稳定性因素 (对 3.2 的补充) . 然而在实际中, 可能其余 在扰动后还是与 相当, 归一化之后会变得更大, 因此在这种极端情形下, 用 进行谱聚类的方法是不稳定的.