6.2. 规范方法的收敛性

有了前面的准备, 我们开始看谱聚类方法的相合性. 首先看规范方法, 由于 的第二特征向量之间只差一个变换 , 而其是对角元为正的对角阵, 故在 的情形下的算法是等价的. 这里我们只考虑前者的收敛性, 对后者类似.

6.2.1第一步: 构造与 对应的 上算子

注意到 , 我们以相似度函数 连续化, 则可作如下构造:

定义 6.2.1.1.

度函数 [degree functions]

规范化相似度函数 [normalized similarity functions]

积分算子 [integral operators]

最后得到 上的算子 其中 为恒等映射.

以上构造具有如下性质:

命题 6.2.1.2. 在问题的预先假设下, 有

1.

, 并且有一致的下界 及上界 ;

2.

的算子范数具有一致的上界 , 且是 上的紧算子;

3.

关系式 成立.

6.2.2第二步: 算子 与矩阵 的谱关系

按照前面的分析, 我们希望 是算子 的一个特征函数, 即 , 这样就有 关于特征值 的特征向量. 因此, 我们的目标是找到 关于 第二特征值 的特征函数 : 将该特征值问题写成故只要 , 我们就有由于 在每次抽样后可由 的第二特征向量给出, 故上式给出了 的确切定义.

上述推导过程可以在任意特征值上进行, 结合算子 的紧性与矩阵 的对称半正定性, 我们可以总结得到:

命题 6.2.2.1. 算子 与矩阵 的谱具有如下对应关系:

1.

具有相同的特征值;

2.

关于同一个特征值 的特征函数 及特征向量 具有如下的一一对应关系:

3.

的谱 由有限个重数有限的非负特征值和 组成.

对于特征值的非负性, 与矩阵 的半正定性类似地, 我们也可以将 视为 函数空间上的算子, 利用函数内积直接得到算子 的非负性.

同理, 由空间 的紧性有 , 于是可以推知, 的谱由至多可数个重数有限的非负特征值组成. 此外还可以得到其本性谱为

6.2.3第三步: 随机算子序列 的收敛性

由于紧收敛性能够带来谱的收敛性, 我们考虑证明 紧收敛到 首先需要证明逐点收敛性, 即对任意的 , 应有 为此, 我们先考虑几个具有较好性质的函数集:

命题 6.2.3.1. 在预先假设下, 以下 的子集均为 Glivenko-Cantelli 类, 即成立

证明. 为例进行证明, 另两个类似: 首先由 是紧度量空间 上的连续函数, 可知 上一致连续, 从而对任意 , 都存在 , 只要 的距离小于 , 就有而由 的紧性可知存在有限个点 , 使得若记括号 表示满足 的函数 , 则有其中每个括号的 -长度均为 , 故子集 -括号数 [bracketing number] 的任意性, 结合 Glivenko-Cantelli 定理 (参考书 Weak Convergence and Empirical Processes 中定理 2.4.1) 即可得到结论.

借助此命题我们可以证明:

命题 6.2.3.2. 在预先假设下, a.s.

证明. 对任意的 , 我们有

第二项由定义即为 根据 是 Glivenko-Cantelli 类可知其 a.s. 收敛到 0;

对于第一项, 由定义及命题 1.2 中对度函数的下界估计, 我们有 而用同样的拆项技巧, 借助命题 1.2 中对度函数的上界估计, 可以进一步得到 进而根据 是 Glivenko-Cantelli 类, 可知该项也 a.s. 收敛到 0.

进一步我们可以得到:

命题 6.2.3.3. 在预先假设下, a.s.

证明. 由命题 3.2 我们已经得到逐点收敛性, 故只需证明存在 , 使得 a.s. 是相对紧的. 注意到这是一个连续函数集合, 我们考虑利用 Arzela-Ascoli 定理加以证明:

一致有界性: 根据命题 1.2 中对 的范数估计, 可以得到

等度连续性: 我们需要对足够大的 及所有 , 估计

先看第一项, 按照定义以及各函数的上下界估计可以得到 从而对任意 , 存在 , 使得只要 的距离小于 , 就有

对于第二项, 作同样的处理可得 进一步我们需要将含 的项关于足够大的 作一致估计

总之有 其中前两项由空间 的紧性, 可知连续函数 都是一致连续的; 最后一项在命题 3.2 的证明中已经得到 a.s. 收敛到 0 (由 是 Glivenko-Cantelli 类) .

最后, 根据各收敛性的关系, 可知:

推论 6.2.3.4. 在预先假设下, a.s.

6.2.4第四步: 谱的收敛性

现在我们已经得到了算子序列的紧收敛性, 我们的最终目的是得到其特征函数的收敛性.

首先由上一节的结论, 可知对任意 , 有 a.s., 由此我们称算子 的近似序列 在所有 处是稳定的 [stable] .

由此, 对于 的孤立特征值 , 存在其邻域 使得

但是文章中给出了更强的结果:

定理 6.2.4.1. 在预先假设下, 对于 的孤立特征值 , 存在其邻域 , 使得当 时, , 且 a.s.

进一步, 令算子 是关于 的谱投影, 是关于 的谱投影, 则 a.s.

是一个单特征值, 则还有特征向量的收敛性: 设 关于 的特征向量, 关于 的特征函数, 则存在一列 , 使得特别地, 对任意 , 集合 收敛到 , 即它们的对称差满足

没有搞明白的问题:

1. 怎么保证在 足够大时, 这个邻域就只交出 的一个特征值?

2. 怎么保证 是单根时, 也是单根? 这样才能通过算子序列的强稳定性给出特征向量的收敛性.