2. 从图的分割出发

此部分主要参考自文章 A Tutorial on Spectral Clustering 的 Section 2, 3, 5.

建模: 将数据点 $x_{1}, \dots, x_{N}$ 之间的相似度 [similarity] , 可以表示为一个 $N$ 阶的带权无向图 [similarity graph] $G = (V, E)$ , 其每条边 $v_{i} v_{j}$ 的权重 $s_{ij}$ 表示 $x_{i}, x_{j}$ 的相似程度.

目的: 给出图 $G$ 的一个分割, 使得组间边的权重尽可能低, 同时各组内边的权重尽可能高.

2.1图的基本概念
2.2图的分割
2.3对 RatioCut 的松弛
基础情形: $K = 2$
一般情形: $K > 2$
2.4对 Ncut 的松弛
2.5评价

2.1图的基本概念

给定一个带权的无向图 $G = (V, E)$ , 其权重可以排成一个对称矩阵 $W = (w_{ij})$ , 称为带权邻接矩阵 [Weighted adjacency matrix] . 由此可以定义顶点 $v_{i}$ 的度 $d_{i} = \sum_{j = 1}^{N} w_{ij}$ , 排成一个对角阵 $D = diag (d_{1}, \dots, d_{N})$ , 称为度矩阵 [Degree matrix] .

对于 $V$ 的子集 $A$ , 我们可以定义其指示向量 [Indicator vector] 为 $1_{A} = (f_{1}, \dots, f_{N})^{T}$ , 其中 $f_{i} = 1$ 当且仅当 $v_{i} \in A$ , 简记为 $i \in A$ . 其在 $V$ 中的补集表为 $\overset{ˉ}{A}$ . 两个子集之间连边的权重之和

$W (A, B) = i \in A, j \in B \sum w_{ij} = 1_{A}^{T} W 1_{B} .$

2.2图的分割

最简单直接的方式是最小割方法 [mincut approach] : $min cut (A_{1}, \dots, A_{K}) := \frac{1}{2} k = 1 \sum K W (A_{k}, \overline{A_{k}})$ 其中的 $1/2$ 是因为每条边都计算了两遍.

这样定义的问题往往较为简单 (特别当 $K = 2$ 时) , 可以被高效解决. 但它往往将单点分割开, 这并不是 “聚类” 所希望得到的结果!

因此, 我们希望得到的 $A_{i}$ 都适当大, 而子集的大小一般有两种衡量方式:

•	顶点个数 $∣ A ∣ = \sum_{i = 1}^{N} f_{i}$
•	顶点度的和, 即与之相关联边的权重之和, 也称 “体积” $vol (A) = \sum_{i \in A} d_{i} = W (A, V)$

故引入如下两个目标函数 RatioCut 和 normalized cut: $RatioCut (A_{1}, \dots, A_{K}) := \frac{1}{2} k = 1 \sum K \frac{W ( A _{k} , A _{k} )}{∣ A _{k} ∣} = \frac{1}{2} k = 1 \sum K \frac{cut ( A _{k} , A _{k} )}{∣ A _{k} ∣} Ncut (A_{i}, \dots, A_{K}) := \frac{1}{2} k = 1 \sum K \frac{W ( A _{k} , A _{k} )}{vol ( A _{k} )} = \frac{1}{2} k = 1 \sum K \frac{cut ( A _{k} , A _{k} )}{vol ( A _{k} )}$

注意到 $\frac{1}{K} k = 1 \sum K \frac{1}{∣ A _{k} ∣} \geq \frac{1}{( \prod _{k = 1}^{K} ∣ A _{k} ∣ ) ^{1/ K}} \geq \frac{K}{\sum _{k = 1}^{K} ∣ A _{k} ∣} = \frac{K}{N} \frac{1}{K} k = 1 \sum K \frac{1}{vol ( A _{k} )} \geq \frac{K}{\sum _{k = 1}^{K} vol ( A _{k} )} = \frac{K}{W ( V , V )}$ 其中等式成立 (取得最小值) 分别当且仅当 $∣ A_{k} ∣$ 都相等、 $vol (A_{k})$ 都相等. 因此直观上看, 这两个目标函数都是希望让 “聚类” 的结果更加 “平衡” [balanced] . 这就是我们想要的!

然而, 这两个优化问题都是 NP-hard 的, 这意味着我们目前普遍相信不能在多项式时间内准确求解. 因此我们考虑对它们作近似求解. 谱聚类就是对这两个目标函数作松弛 [relaxation] 的近似求解方法.

2.3对 RatioCut 的松弛

基础情形: $K = 2$

我们的目标函数是 $RatioCut (A, \overset{ˉ}{A}) = \frac{1}{2} (\frac{W ( A , A ˉ )}{∣ A ∣} + \frac{W ( A , A ˉ )}{∣ A ˉ ∣}) = \frac{W ( A , A ˉ )}{2} (\frac{1}{∣ A ∣} + \frac{1}{∣ A ˉ ∣})$ 先尝试将其计算出来. 其中 $W (A, \overset{ˉ}{A}) = i \in A, j \in \overset{ˉ}{A} \sum w_{ij} = 1_{A}^{T} W 1_{\overset{ˉ}{A}} = 1_{A}^{T} W (1 - 1_{A})$ 其中 $W 1$ 是由 $W$ 各行和组成的向量, 即 $(d_{1}, \dots, d_{N})$ , 于是 $1_{A}^{T} W 1 = 1_{A}^{T} D 1 = 1_{A}^{T} D 1_{A}$ 因此 $W (A, \overset{ˉ}{A}) = 1_{A}^{T} (D - W) 1_{A}$ , 于是 $RatioCut (A, \overset{ˉ}{A}) = \frac{1 _{A}^{T} L 1 _{A}}{2} (\frac{1}{∣ A ∣} + \frac{1}{∣ A ˉ ∣})$

为了方便求解其最小值, 我们考虑将与 $A$ 有关的系数和指示向量 $1_{A}$ 合并, 从而用一个向量 $f$ 来表示 $A$ 这个极小化变量. 我们看 $f^{T} L f = f^{T} D f - f^{T} W f = i = 1 \sum N d_{i} f_{i}^{2} - i, j = 1 \sum N w_{ij} f_{i} f_{j} = i = 1 \sum N j = 1 \sum N w_{ij} f_{i}^{2} - i, j = 1 \sum N w_{ij} f_{i} f_{j} = \frac{1}{2} i, j = 1 \sum N w_{ij} f_{i}^{2} - i, j = 1 \sum N w_{ij} f_{i} f_{j} + \frac{1}{2} i, j = 1 \sum N w_{ij} f_{j}^{2} = \frac{1}{2} i, j = 1 \sum N w_{ij} (f_{i} - f_{j})^{2}$ 只要 $f$ 仍是某种 “指示向量”, 那么当 $i, j$ 同属于 $A$ 或 $\overset{ˉ}{A}$ 时, 应有 $f_{i} = f_{j}$ , 从而 $f^{T} L f = \frac{1}{2} i \in A, j \in \overset{ˉ}{A} \sum w_{ij} (f_{i} - f_{j})^{2}$ 其中的 $(f_{i} - f_{j})^{2}$ 一项应是常值, 先记为 $C^{2}$ , 则 $2 f^{T} L f = C^{2} W (A, \overset{ˉ}{A})$ , 从而 $RatioCut (A, \overset{ˉ}{A}) = \frac{f ^{T} L f}{C ^{2}} (\frac{1}{∣ A ∣} + \frac{1}{∣ A ˉ ∣})$ 根据我们的目的, 注意到 $N = ∣ A ∣ + ∣ \overset{ˉ}{A} ∣$ , 我们将上式化为 $RatioCut (A, \overset{ˉ}{A}) = \frac{f ^{T} L f}{C ^{2} N} (\frac{∣ A ∣ + ∣ A ˉ ∣}{∣ A ∣} + \frac{∣ A ∣ + ∣ A ˉ ∣}{∣ A ˉ ∣}) = \frac{f ^{T} L f}{C ^{2} N} (\frac{∣ A ˉ ∣}{∣ A ∣} + \frac{∣ A ∣}{∣ A ˉ ∣})^{2}$ 因此只需让 $C = \frac{∣ A ˉ ∣}{∣ A ∣} + \frac{∣ A ∣}{∣ A ˉ ∣}$ 即可.

这仍然使得 $f$ 有不同选择, 我们再由上述得到的 $W 1 = D 1 ⟹ L 1 = 0$ 可知 $1$ 是 $L$ 关于特征值 0 的特征向量. 又 $Lg = 0 ⟹ g^{T} Lg = 0 ⟹ w_{ij} (g_{i} - g_{j})^{2} = 0, \forall i \neq = j$ 而一般来说, 图 $G$ 是连通的 (否则问题平凡) , 从而每个 $w_{ij} > 0$ , 故有 $g_{i} = g_{j}$ , 即 $g \in Span {1}$ . 而 $L$ 是对称阵, 故 0 是其单特征值. 因此, 只要我们取 $f ⊥ 1$ , 就有 $f^{T} L f$ 的最小值在 $f$ 为第二特征向量 (第二小特征值对应的特征向量) 时取到.

因此我们取 $f = \frac{∣ A ˉ ∣}{∣ A ∣} 1_{A} - \frac{∣ A ∣}{∣ A ˉ ∣} 1_{\overset{ˉ}{A}}, i.e. f_{i} = ⎩ ⎨ ⎧ \frac{∣ A ˉ ∣}{∣ A ∣}, - \frac{∣ A ∣}{∣ A ˉ ∣}, i \in A; i \in \overset{ˉ}{A} .$ 则有 $f^{T} 1 = ∣ A ∣∣ \overset{ˉ}{A} ∣ - ∣ A ∣∣ \overset{ˉ}{A} ∣ = 0,$ 并且 $∥ f ∥^{2} = f^{T} f = ∣ \overset{ˉ}{A} ∣ + ∣ A ∣ = N .$ 从而原优化问题可以等价地表为 $min s.t. f^{T} L f f ⊥ 1, ∥ f ∥ = N, f = \frac{∣ A ˉ ∣}{∣ A ∣} 1_{A} - \frac{∣ A ∣}{∣ A ˉ ∣} 1_{\overset{ˉ}{A}} (A \subset V)$ 这仍然是一个离散的优化问题, 仍是 NP-hard 的. 最简单的松弛就是去掉离散的约束, 成为 $min s.t. f^{T} L f f ⊥ 1, ∥ f ∥ = N$ 正如刚才所说, 其最优解 $f^{*}$ 即为模为 $N$ 的第二特征向量. 为了最终得到图的分割, 我们还需要回到离散的原问题, 最简单的方式是看 $f^{*}$ 各分量的符号, 将符号为正的指标归入 $A$ . 但是, 为了将这个算法推广到一般的 $K$ , 这个方式显然过于简单. 因此在谱聚类算法中, 我们采用 K-means 方法对 $f^{*}$ 的分量在 $R$ 中进行聚类, 从而形成图的分割.

一般情形: $K > 2$

显然我们不能像一开始那样去化简目标函数, 但我们仍然想用 $L$ 的二次型来表示目标函数. 我们已经有 $W (A_{k}, \overline{A_{k}}) = 1_{A_{k}}^{T} L 1_{A_{k}}$ 故只要取 $h_{k} = \frac{1}{∣ A _{k} ∣} 1_{A_{k}} ⟹ h_{k}^{T} L h_{k} = \frac{W ( A _{k} , A _{k} )}{∣ A _{k} ∣}$ 从而目标函数化为 $RatioCut (A_{1}, \dots, A_{K}) = \frac{1}{2} k = 1 \sum K \frac{W ( A _{k} , A _{k} )}{∣ A _{k} ∣} = \frac{1}{2} k = 1 \sum K h_{k}^{T} L h_{k} = \frac{1}{2} tr (H^{T} L H)$ 其中 $H = (h_{1}, \dots, h_{K}) \in R^{N \times K}$ 各列相互正交, 从而 $H^{T} H = I_{K}$ . 仍然去掉对 $H$ 的离散约束, 得到松弛的优化问题 $min s.t. \frac{1}{2} tr (H^{T} L H) H^{T} H = I_{K}, H \in R^{N \times K}$

这是一个等式约束问题, 我们可以用 Lagrange 乘子法求解之: 先将约束条件写成向量形式 $H^{T} h_{k} = e_{k}, k = 1, \dots, K,$ 然后得到 Lagrange 函数为 $L (H, μ) = \frac{1}{2} tr (H^{T} L H) - k = 1 \sum K μ_{k}^{T} (H^{T} h_{k} - e_{k}) = tr (H^{T} L H) - tr (μ^{T} (H^{T} H - I_{K})),$ 其中 $μ = (μ_{1}, \dots, μ_{K}) \in R^{K \times K}$ . 其驻点 $(H^{*}, μ^{*})$ 满足 $\frac{\partial}{\partial h _{jk}} L (H^{*}, μ^{*}) = 0, k = 1, \dots, K, j = 1, \dots, N .$ 将这些条件写成一个矩阵 (其实就是矩阵函数的微分记号) , 即为 $L H^{*} + H^{*} (μ^{*} + μ^{*}^{T}) = 0.$ 其中 $μ^{*} + μ^{*}^{T}$ 是 $K$ 阶对称阵, 可作对角化, 即存在同阶正交阵 $O$ 及对角阵 $Λ$ 使得 $μ^{*} + μ^{*}^{T} = O Λ O^{T} ⟹ L H^{*} O + H^{*} O Λ = 0.$ 令 $H^{*} O = U$ , 则 $U^{T} U = O^{T} H^{*}^{T} H^{*} O = O^{T} O = I_{K}$ , 并且 $tr (U^{T} LU) = tr (LU U^{T}) = tr (L H^{*} O O^{T} H^{*}^{T}) = tr (H^{*}^{T} L H^{*}) = H^{T} H = I_{K} min tr (H^{*} L H)$ 故 $U$ 也是松弛优化问题的解. 最优化条件化为 $LU = U Λ$ , 故 $U$ 的列即为 $L$ 的 $K$ 个互相正交的特征向量, 并且 $tr (U^{T} LU) = tr (U^{T} U Λ) = tr (Λ)$ 的最小值当 $Λ$ 的对角元是 $L$ 的前 $K$ 个特征值时取到, 故最优解 $U$ 由 $L$ 的前 $K$ 个特征向量组成. 最后, 和上述同理, 我们对 $U$ 的 $N$ 个行向量作 K-means 聚类, 形成图的分割. 此即非规范的谱聚类算法 [Unnormalized Spectral Clustering] .

回到上述 $K = 2$ 的情形, $L$ 的前两个特征向量为 $1, f^{*}$ , 其 $N$ 个二维的行向量其实只有第二个分量是不同的, 确实只需对该分量在 $R$ 上作聚类.

2.4对 Ncut 的松弛

将上面的 $∣ A_{k} ∣$ 都换成 $vol (A_{k})$ 就可以得到相应的结果. 直接看一般情形: 取 $h_{k} = \frac{1}{vol ( A _{k} )} 1_{A_{k}}, k = 1, \dots, K,$ 则由 $vol (A_{k}) = i \in A_{k} \sum d_{i} = 1_{A_{k}}^{T} D 1_{A_{k}},$

可知 $h_{k}^{T} D h_{k} = 1$ . 易见 $h_{k}^{T} D h_{k} = 0, \forall k \neq = l$ , 故有 $H^{T} DH = I_{K}$ . 仍然去掉对 $H$ 的离散约束, 并作换元 $U = D^{1/2} H$ , 得到松弛的优化问题 $min s.t. \frac{1}{2} tr (U^{T} D^{- 1/2} L D^{- 1/2} U) = \frac{1}{2} tr (U^{T} L_{sy m} U) U^{T} U = I_{K}, U \in R^{N \times K}$ 利用前面的结果, 可知其最优解 $U$ 由 $L_{sym}$ 的前 $K$ 个特征向量组成. 此即 $D^{- 1/2} L D^{- 1/2} U = L_{sy m} U = U Λ_{sy m} ⟺ D^{- 1} L (D^{- 1/2} U) = (D^{- 1/2} U) Λ_{sy m} ⟺ L_{r w} H = H Λ_{sy m},$ 由此也可见 $L_{sy m}$ 与 $L_{r w}$ 具有相同的特征值, 并且相应的特征向量只差一个坐标变换 $D^{1/2}$ . 故最优解对应的 $H$ 由 $L_{rw}$ 的前 $K$ 个特征向量组成, 也即广义特征值问题 $Lu = λDu$ 的前 $K$ 个广义特征向量. 回到离散问题的方式与上一方法相同, 此即规范的谱聚类算法 [Normalized Spectral Clustering] .

2.5评价

“松弛 + 离散化” 这个过程不能保证得到原问题的最优解, 甚至可能距离很远. 看一个例子:

例 (蟑螂图 [The cockroach graph] ).

作 $K = 2$ 聚类:

•

原 RatioCut 问题的最优解: 竖直从中间劈开, 有 $∣ A ∣ = ∣ \overset{ˉ}{A} ∣ = 2 k, W (A, \overset{ˉ}{A}) = 2$ ;

•

非规范松弛方法: $W = ⎝ ⎛ J_{2 k} 00 0 I_{k} 00 0 I_{k} J_{2 k} ⎠ ⎞, J_{2 k} = ⎝ ⎛ 010 ⋮ 0 101 ⋱ \dots 01 ⋱ ⋱ 0 \dots ⋱ ⋱ ⋱ 1 0 ⋮ 010 ⎠ ⎞ D = diag (1, 2 I_{k - 1}, 3 I_{k - 1}, 2, 1, 2 I_{k - 1}, 3 I_{k - 1}, 2) .$ 简单用 $L$ 的第二特征向量分量的正负来分类, 可以得到最优解为: 水平从中间劈开, 有 $∣ B ∣ = ∣ \overset{ˉ}{B} ∣ = 2 k, W (B, \overset{ˉ}{B}) = k$ ;

当 $k$ 很大时, 这两个解的差别是巨大的!

虽然如此, 我们还是对谱松弛的方法感兴趣. 之所以这样, 不是因为它给出很好的结果, 而是因为它给出了易于求解的标准线性代数问题.

名字空间

视图

2. 从图的分割出发

2.1图的基本概念

2.2图的分割

2.3对 RatioCut 的松弛

基础情形: $K = 2$

一般情形: $K > 2$

2.4对 Ncut 的松弛

2.5评价

2.1图的基本概念

2.2图的分割

2.3对 RatioCut 的松弛

基础情形: K=2

一般情形: K>2

2.4对 Ncut 的松弛

2.5评价

基础情形: $K = 2$

一般情形: $K > 2$