6. 算法的相合性

本节参考自文章 Consistency of Spectral Clustering 的 Section 3-8.

假设数据点 是从一个潜在的概率分布中提取的, 目标是对数据空间 进行划分. 为此, 我们需要分析上述谱聚类方法的相合性, 即当样本量 时, 结果是否存在好的极限行为.

以下分析都在 的情形下进行, 且为了明晰样本量, 给以上所用的矩阵记号加上下标 :

非规范 Laplace 矩阵

规范 Laplace 矩阵

此时我们关注 Laplace 矩阵的第二特征向量 , 以它们的正负来分成两类. 为了研究极限行为, 我们将这个聚类过程抽象为: 给出离散空间 上的一个函数 , 使得 , 并根据其函数值的正负我们希望函数列 在某种意义下趋于整个数据空间 上的函数 , 从而通过其函数值的正负来给出数据空间的划分.

我们预先假设:

数据空间 紧度量空间, 是其上的 Borel 代数 (即 Borel 集构成的 -代数) ;

是空间 中的概率测度, 是从 独立抽取的样本点, 它们形成离散概率测度 (经验分布) 序列 ;

相似度函数 对称、连续的, 其中 为正常数.

为了收敛性讨论和计算的方便, 我们采用连续函数空间 , 我们知道它是一个 Banach 空间 (由 是紧度量空间) . 于是, 我们想要得到一个连续的极限函数 , 需要函数列 也在相同的空间中, 故需要定义一个限制算子 [restriction operator] 来达到上述效果 , 从而通过来证明算法的收敛性. 于是问题的关键在于:

由 Laplace 矩阵的第二特征向量 构造出相应的 ;

证明 中收敛.

在进行分析之前, 我们需要一些预备知识. 由于分析的篇幅也比较大, 我们分多个页面进行展示.

目录

1泛函分析基础

2规范方法的收敛性

3规范方法的收敛速度

4非规范方法的收敛性