๊ด€๋ฆฌ ๋ฉ”๋‰ด

๐˜š๐˜ญ๐˜ฐ๐˜ธ ๐˜ฃ๐˜ถ๐˜ต ๐˜ด๐˜ต๐˜ฆ๐˜ข๐˜ฅ๐˜บ

A Tutorial on Spectral Clustering - ์ŠคํŽ™ํŠธ๋Ÿด ํด๋Ÿฌ์Šคํ„ฐ๋ง ๋ณธ๋ฌธ

machine learning

A Tutorial on Spectral Clustering - ์ŠคํŽ™ํŠธ๋Ÿด ํด๋Ÿฌ์Šคํ„ฐ๋ง

.23 2023. 3. 21. 15:22

https://arxiv.org/abs/0711.0189

Von Luxburg, U. (2007). A tutorial on spectral clustering. Statistics and computing, 17, 395-416.

๋‚ด์šฉ ์ •๋ฆฌ

 

1. Introduction

Spectral clustering : ๊ณ ์œ ๊ฐ’์„ ์‚ฌ์šฉํ•œ ๊ทธ๋ž˜ํ”„ ๊ธฐ๋ฐ˜ ํด๋Ÿฌ์Šคํ„ฐ๋ง

Spectrum : ํ–‰๋ ฌ์˜ ๊ณ ์œ ๊ฐ’๋“ค์˜ ์ง‘ํ•ฉ

⇒ ์ฆ‰, ๊ทธ๋ž˜ํ”„์˜ ์ŠคํŽ™ํŠธ๋Ÿผ์„ ๋ถ„์„ํ•˜๊ฒ ๋‹ค๋Š” ์˜๋ฏธ

 

๋ฐ์ดํ„ฐ์˜ feature๊ฐ’์„ ํ•˜๋‚˜์˜ ์ขŒํ‘œ๋กœ ์ƒ๊ฐํ•˜์—ฌ ์œ ํด๋ฆฌ๋””์•ˆ ๊ณต๊ฐ„์—์„œ ํด๋Ÿฌ์Šคํ„ฐ๋ง์„ ํ•˜๋Š” k-means ํด๋Ÿฌ์Šคํ„ฐ๋ง๊ณผ ๋‹ฌ๋ฆฌ ์—ฐ๊ฒฐ ์ •๋ณด๋ฅผ ํŒ๋‹จํ•˜๋Š” ๊ทธ๋ž˜ํ”„ ๊ธฐ๋ฐ˜์˜ ์ŠคํŽ™ํŠธ๋Ÿด ํด๋Ÿฌ์Šคํ„ฐ๋ง์„ ์‚ฌ์šฉํ•˜๋ฉด convex ๋ชจ์–‘์˜ ํด๋Ÿฌ์Šคํ„ฐ ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ๋” ๋ณต์žกํ•œ ๋ชจ์–‘์˜ ํด๋Ÿฌ์Šคํ„ฐ์˜ ๊ฒฝ์šฐ์—๋„ ์‰ฝ๊ฒŒ ํด๋Ÿฌ์Šคํ„ฐ๋ง์„ ์ง„ํ–‰ํ•  ์ˆ˜ ์žˆ๋‹ค.

์‹ธ์ธํ•จ์ˆ˜ ๋ชจ์–‘์˜ ๋‘ ๊ฐœ์˜ ํด๋Ÿฌ์Šคํ„ฐ์—์„œ k-means๋ฅผ ์ ์šฉํ–ˆ์„ ๊ฒฝ์šฐ ๊ฐ€์šด๋ฐ์™€ ๊ฐ™์ด ํด๋Ÿฌ์Šคํ„ฐ๊ฐ€ ๋‚˜๋ˆ„์–ด์ง€๋Š” ๋ฐ˜๋ฉด, ์ŠคํŽ™ํŠธ๋Ÿด ํด๋Ÿฌ์Šคํ„ฐ๋ง์„ ์ ์šฉํ•˜๋ฉด ์˜ค๋ฅธ์ชฝ ๋์„ ์ œ์™ธํ•˜๊ณ  ์˜ฌ๋ฐ”๋ฅด๊ฒŒ ํด๋Ÿฌ์Šคํ„ฐ๊ฐ€ ๋‚˜๋ˆ„์–ด์ง„ ๊ฒƒ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ๋‹ค.

 

์ „๋ฐ˜์ ์ธ ๋‚ด์šฉ์„ ์ดํ•ดํ•˜๋Š” ๋ฐ ๊ฐœ์ธ์ ์œผ๋กœ ์ƒ๋‹นํžˆ ์˜ค๋ž˜๊ฑธ๋ ธ๋Š”๋ฐ, spectral clustering์„ ๊ฐ„๋‹จํ•˜๊ฒŒ ์ •๋ฆฌํ•˜๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

- ์œ ์‚ฌ๋„ ๊ทธ๋ž˜ํ”„๋ฅผ ์ƒ์„ฑํ•˜๊ณ ,

- ํด๋Ÿฌ์Šคํ„ฐ๋ง์„ ์‰ฝ๊ฒŒ ๋Œ๋ฆด ์ˆ˜ ์žˆ๋„๋ก ์œ ์‚ฌ๋„ ํ–‰๋ ฌ์„ ๊ฐ€๊ณต(๋ผํ”Œ๋ผ์‹œ์•ˆ ํ–‰๋ ฌ์„ ์ƒ์„ฑ → ๊ณ ์œ ๊ฐ’์— ๋Œ€ํ•œ ๊ณ ์œ ๋ฒกํ„ฐ๋กœ ๊ณ ์œ ๋ฒกํ„ฐ์— ๋Œ€ํ•œ ํ–‰๋ ฌ์„ ์ƒ์„ฑ)ํ•˜์—ฌ

- ์ƒ์„ฑ๋œ ์ƒˆ๋กœ์šด ํ–‰๋ ฌ์„ ๊ธฐ๋ฐ˜์œผ๋กœ k-means ํด๋Ÿฌ์Šคํ„ฐ๋ง์„ ์ ์šฉํ•œ๋‹ค.

2. Similarity graphs

clustering์˜ ๋ชฉํ‘œ๋Š”

 

  • ๋น„์Šทํ•œ ํฌ์ธํŠธ๋“ค์€ ๊ฐ™์€ ๊ทธ๋ฃน์œผ๋กœ ๋ฌถ์ด๋„๋ก
  • ๋น„์Šทํ•˜์ง€ ์•Š์€ ํฌ์ธํŠธ๋“ค์€ ๋‹ค๋ฅธ ๊ทธ๋ฃน์œผ๋กœ ๋ฌถ์ด๋„๋ก

๋ฐ์ดํ„ฐ ํฌ์ธํŠธ๋“ค์„ ์—ฌ๋Ÿฌ ๊ทธ๋ฃน์œผ๋กœ ๋‚˜๋ˆ„๋Š” ๊ฒƒ์ด๋‹ค.

 

์œ ์‚ฌ๋„ ์™ธ์˜ ๋‹ค๋ฅธ ์ •๋ณด๊ฐ€ ์—†๋‹ค๋ฉด ๋ฐ์ดํ„ฐ ํ‘œํ˜„์œผ๋กœ ์ข‹์€ ๋ฐฉ์‹์€ ์œ ์‚ฌ๋„ ๊ทธ๋ž˜ํ”„ $G=(V,E)$๋ฅผ ํ˜•์„ฑํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ๊ทธ๋ž˜ํ”„์˜ ๊ฐ ์ •์  $v_{i}$๋Š” ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ $x_{i}$์— ํ•ด๋‹น๋˜๊ณ , $x_{i}$์™€ $x_{j}$์‚ฌ์ด ์ผ์ • ์ž„๊ณ„๊ฐ’ ์ด์ƒ์˜ ์œ ์‚ฌ๋„ $s_{ij}$๊ฐ€ ์กด์žฌํ•œ๋‹ค๋ฉด ๋‘ ์ •์ ์„ ์—ฐ๊ฒฐํ•œ๋‹ค.

์ด๋ ‡๊ฒŒ ์„ค๊ณ„๋œ ์œ ์‚ฌ๋„ ๊ทธ๋ž˜ํ”„๋ฅผ ์ด์šฉํ•˜์—ฌ clustering ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐ ๊ฐ€๋Šฅํ•˜๋‹ค.

 

2.1 Different similarity graphs

ํด๋Ÿฌ์Šคํ„ฐ๋ง์„ ํ•˜๊ธฐ ์ „, ์œ ์‚ฌ๋„ $s_{ij}$๋˜๋Š” ๊ฑฐ๋ฆฌ $d_{ij}$๋ฅผ ๊ทธ๋ž˜ํ”„๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ์ ˆ์ฐจ์ด๋‹ค.

๋ฐ์ดํ„ฐ ํฌ์ธํŠธ ๊ฐ„ ๊ทผ์ ‘ํ•œ ์ด์›ƒ๊ด€๊ณ„๋ฅผ ๋ชจ๋ธ๋ง ํ•˜๋Š” ๊ฒƒ์ด ๋ชฉ์ ์œผ๋กœ, spectral clustering์—์„œ ๊ฐ€์žฅ ๋งŽ์ด ์“ฐ์ด๋Š” 3๊ฐ€์ง€ ๋ฐฉ๋ฒ•์ด ์†Œ๊ฐœ๋œ๋‹ค.

 

  1. ε-neighborhood graph
    ์ž„๊ณ„๊ฐ’ ε๋ณด๋‹ค ๋” ๊ฐ€๊นŒ์šด ๊ฑฐ๋ฆฌ์— ์žˆ๋Š” ๋ชจ๋“  ํฌ์ธํŠธ๋ฅผ ์—ฐ๊ฒฐํ•œ๋‹ค.
  2. $k$-nearest neighbor graphs(kNN ๊ทธ๋ž˜ํ”„)
    $v_{j}$๊ฐ€ $v_{i}$์˜ $k$๋ฒˆ์งธ ๊ฐ€๊นŒ์šด ์ด์›ƒ ์ค‘ ํ•˜๋‚˜์ผ ๋•Œ ๋‘ ์ •์ ์„ ์—ฐ๊ฒฐํ•œ๋‹ค. ์ด ๋•Œ, ์ด์›ƒ ๊ด€๊ณ„๋Š” ๋Œ€์นญ์˜ ํ˜•ํƒœ๊ฐ€ ์•„๋‹ ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์— ๋ฐฉํ–ฅ ๊ทธ๋ž˜ํ”„๋กœ ๊ณ ๋ ค๋˜๋Š”๋ฐ, ๋Œ€์นญ ํ–‰๋ ฌ ํ˜•ํƒœ์˜ ์œ ์‚ฌ๋„ ํ–‰๋ ฌ์„ ๋งŒ๋“ค๊ธฐ ์œ„ํ•ด ๋ฌดํ–ฅ ๊ทธ๋ž˜ํ”„๋กœ ๋งŒ๋“ ๋‹ค.

    1. $k$-nearest neighbor graph
      $v_{j}$๊ฐ€ $v_{i}$์˜ kNN์ด๊ฑฐ๋‚˜ $v_{i}$๊ฐ€ $v_{j}$์˜ $k$NN์ผ ๋•Œ ์—ฐ๊ฒฐ
    2. mutual $k$-nearest neighbor graph
      ๋‘˜ ๋‹ค ์„œ๋กœ์˜ $k$-nearest neighbor์ผ ๋•Œ๋งŒ ์—ฐ๊ฒฐ
  3. Fully connected graph
    ์–‘์˜ ์œ ์‚ฌ๋„๋ฅผ ๊ฐ–๋Š” ์ •์  ์ „๋ถ€๋ฅผ ์—ฐ๊ฒฐํ•œ๋‹ค. ๊ทธ๋ž˜ํ”„๋Š” ๊ทผ์ ‘ํ•œ ์ด์›ƒ ๊ด€๊ณ„๋ฅผ ํ‘œํ˜„ํ•ด์•ผ ํ•˜๋‚˜ ์ด ๋ฐฉ๋ฒ•์€ ๋ชจ๋“  ๋…ธ๋“œ๊ฐ€ ์—ฐ๊ฒฐ๋  ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์— ์œ ์‚ฌ๋„ ํ•จ์ˆ˜๊ฐ€ ๊ทผ์ ‘ํ•œ ์ด์›ƒ๊ด€๊ณ„๋ฅผ ๋ชจ๋ธ๋งํ•  ๊ฒฝ์šฐ์—๋งŒ ์œ ์šฉํ•˜๋‹ค.
    ex) Gaussian similarity function
    $$ s(x_{i} ,x_{j})=e^{-\frac{||x_{i} - x_{j}||^2}{(2\sigma)^2}} $$
    $\sigma$๋Š” $\varepsilon$-neighbor graph์—์„œ์˜ $\varepsilon$๊ณผ ์œ ์‚ฌํ•œ ์—ญํ• ์„ ํ•œ๋‹ค.

 

3. Graph Laplacians and their basic properties

๋ผํ”Œ๋ผ์‹œ์•ˆ ๊ทธ๋ž˜ํ”„๋Š” spectral clustering์—์„œ ๊ฐ€์žฅ ํ•ต์‹ฌ์ด ๋˜๋Š” tool์ด๋ผ ํ•  ์ˆ˜ ์žˆ๋‹ค.

์ˆ˜ํ•™์ ์ธ ๋‚ด์šฉ์ด ๋งค์šฐ ์–ด๋ ต๊ธฐ ๋•Œ๋ฌธ์—.... ํ•˜๋‚˜ํ•˜๋‚˜ ์ดํ•ดํ•˜๋Š” ๊ฒƒ ๋ณด๋‹ค ๋ช‡ ๊ฐ€์ง€ ํŠน์„ฑ๋งŒ ๊ธฐ์–ตํ•˜๋Š” ๊ฒƒ์ด ์ข‹์„ ๊ฒƒ ๊ฐ™๋‹ค.

 

ํ‘œ๊ธฐ๋ฒ•

  • $W$ : ๊ฐ€์ค‘์น˜ ์ธ์ ‘ ํ–‰๋ ฌ
  • $D$ : ๊ทธ๋ž˜ํ”„์˜ ํฌ์ธํŠธ ๋ณ„ ์—ฐ๊ฒฐ๋œ edge์˜ ๊ฐ ๊ฐ€์ค‘์น˜๋ฅผ ํ•ฉํ•œ ์ฐจ์ˆ˜ํ–‰๋ ฌ

3.1 The unnormalized graph Laplacian

์ •๊ทœํ™”๋˜์ง€ ์•Š์€ ๋ผํ”Œ๋ผ์‹œ์•ˆ ๊ทธ๋ž˜ํ”„๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์ •์˜ํ•œ๋‹ค.

$$L=D-W$$

์œ„์™€ ๊ฐ™์ด ์ •์˜๋œ ํ–‰๋ ฌ $L$์€ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์„ฑ์งˆ์„ ๋งŒ์กฑํ•œ๋‹ค.

๋”๋ณด๊ธฐ
  1. ๋ชจ๋“  ๋ฒกํ„ฐ $f \in \mathbb{R}^n$์— ๋Œ€ํ•ด ๋‹ค์Œ ์‹์„ ๋งŒ์กฑํ•œ๋‹ค.
    $$ f'Lf=\frac{1}{2} \sum_{i,j=1}^n w_{ij}(f_{i}-f_{j})^2$$
  2. $L$์€ ๋Œ€์นญํ–‰๋ ฌ์ด๊ณ  ์–‘์˜ ์ค€์ •๋ถ€ํ˜ธ(positive semi-definite) ํ–‰๋ ฌ์ด๋‹ค.
  3. $L$์€ ํ•ญ์ƒ 0์„ ๊ฐ€์žฅ ์ž‘์€ ๊ณ ์œ ๊ฐ’์œผ๋กœ ๊ฐ€์ง€๊ณ , ์ด์— ํ•ด๋‹นํ•˜๋Š” ๊ณ ์œ ๋ฒกํ„ฐ $u$๋Š” constant one vector์ด๋‹ค.
    $$u=\begin{bmatrix}1&1&\ldots&1\end{bmatrix} ^T$$
  4. $L$์€ ์Œ์ˆ˜๊ฐ€ ์•„๋‹Œ ์‹ค์ˆ˜ ๊ณ ์œ ๊ฐ’์„ ๊ฐ€์ง„๋‹ค.
    $$ 0=\lambda_{1} \leq \lambda_{2} \leq \cdots \leq \lambda_{n} $$

์ธ์ ‘ํ–‰๋ ฌ $W$๋Š” block diagonal ํ˜•ํƒœ์ด๊ณ , $D$ ์—ญ์‹œ ๋Œ€๊ฐํ–‰๋ ฌ์ด๊ธฐ ๋•Œ๋ฌธ์— $L$์€ block diagonal ํ˜•ํƒœ๊ฐ€ ๋œ๋‹ค.

block diagonal ํ–‰๋ ฌ ์˜ˆ์‹œ

์ด๋Ÿฌํ•œ block diagonal์˜ $L$์ด ๋‹ค์Œ๊ณผ ๊ฐ™์€ ํ˜•ํƒœ๋ผ๊ณ  ๊ฐ„๋‹จํžˆ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ์„ ๋•Œ,

$$L= \begin{bmatrix}L_{1} & && \\ & L_{2} \\&&\ddots& \\&&&L_{k} \end{bmatrix} $$

๊ฐ $L_{i}$๋“ค์€ sub-Laplacian์ด๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ๋‹ค.

๋ชจ๋“  $L_{i}$๋Š” ๊ณ ์œ ๊ฐ’ 0์„ ํ•˜๋‚˜์”ฉ ๊ฐ–๊ธฐ ๋•Œ๋ฌธ์—(๋‹ค์ค‘๋„๊ฐ€ 1์ด๋ผ๋Š” ์„ฑ์งˆ), $L$์€ $k$๊ฐœ์˜ ๊ณ ์œ ๊ฐ’์„ ๊ฐ€์ง„๋‹ค.

 

 

3.2 The normalized graph Laplacian

๊ฐ ํ•ญ์„ ์ฐจ์ˆ˜๋กœ ๋‚˜๋ˆ ์ฃผ์–ด ์ •๊ทœํ™”ํ•œ ๋ผํ”Œ๋ผ์‹œ์•ˆ ๊ทธ๋ž˜ํ”„๋Š” ์ฐจ์ˆ˜๋ฅผ ๋‚˜๋ˆ ์ฃผ๋Š” ๋ฐฉ์‹์— ๋”ฐ๋ผ $L_{sym}$ ๋˜๋Š” $L_{rw}$ ๋‘๊ฐ€์ง€๋กœ ๋‚˜๋ˆŒ ์ˆ˜ ์žˆ๋‹ค.

๊ฐ๊ฐ์˜ ์ •์˜๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

 

1. Symmectric graph Laplacian

$$L_{sym}:= D^{-1/2}LD^{-1/2}=I-D^{-1/2}WD^{-1/2}$$

์ด๊ณ , ํ–‰๋ ฌ์˜ ๊ฐ ์›์†Œ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์„ฑ์งˆ์„ ๋งŒ์กฑํ•œ๋‹ค.

$$ L_{sym} =\begin{cases}1 & i=j\\ -\frac{1}{\sqrt{deg(v_{i})deg(v_{j})}} & i \neq j, v_{i} \,is\, adjacent\,to\, v_j\\0 & otherwise\end{cases} $$

$L_{sym}$์˜ ์˜ˆ์‹œ

2. Random walk graph Laplacian

$$L_{rw}:=D^{-1}L=I-D^{-1}W$$

$$L_{rw}=\begin{cases}1 & i=j\\ -\frac{1}{\deg(v_i)} & i \neq j, v_{i} \,is\, adjacent\,to\, v_j\\0 & otherwise\end{cases} $$

$L_{rw}$์˜ ์˜ˆ์‹œ

 

4. Spectral clustering algorithms

spectral clustering์€ ์–ด๋–ค ๋ผํ”Œ๋ผ์‹œ์•ˆ ๊ทธ๋ž˜ํ”„๋ฅผ ์‚ฌ์šฉํ–ˆ๋Š”๊ฐ€์— ๋”ฐ๋ผ unnormalized spectral clustering๊ณผ normalized spectral clustering ๋‘๊ฐ€์ง€๋กœ ๋‚˜๋ˆŒ ์ˆ˜ ์žˆ๋‹ค.

์‚ฌ์šฉํ•˜๋Š” ๊ทธ๋ž˜ํ”„ ์ œ์™ธ ์ž‘๋™ ๋ฐฉ์‹์€ ๋ชจ๋‘ ๋™์ผํ•˜๋ฏ€๋กœ ์ •๊ทœํ™”๋˜์ง€ ์•Š์€ ์ŠคํŽ™ํŠธ๋Ÿด ํด๋Ÿฌ์Šคํ„ฐ๋ง ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์ค‘์‹ฌ์œผ๋กœ ์„ค๋ช…ํ•œ๋‹ค.

 

Unnormalized spectral clustering

  1. ์ฃผ์–ด์ง„ ์œ ์‚ฌ๋„ ๊ทธ๋ž˜ํ”„๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ $L=D-W$๋ฅผ ์ด์šฉํ•˜์—ฌ Laplacian ํ–‰๋ ฌ $L$ ์—ฐ์‚ฐ
    $$ L= \begin{bmatrix}L_1&\cdots&0 \\ \vdots&\ddots&\vdots \\ 0&\cdots&L_k\end{bmatrix}$$
  2. $L$์˜ ์ฒ˜์Œ $k$๊ฐœ์˜ ๊ณ ์œ ๋ฒกํ„ฐ(๊ณ ์œ ๊ฐ’์ด 0์— ํ•ด๋‹นํ•˜๋Š” ๊ณ ์œ ๋ฒกํ„ฐ) $u_1,u_2,\ldots,u_k$ ์—ฐ์‚ฐ
  3. ๋ฒกํ„ฐ $u_1,u_2,\ldots,u_k$๋กœ ๊ตฌ์„ฑ๋œ ํ–‰๋ ฌ $U$ ์ƒ์„ฑ
    $$U= \begin{bmatrix} |&|&&| \\ u_1&u_2&\cdots&u_k \\ |&|&&| \end{bmatrix} $$
  4. ํ–‰๋ ฌ U์˜ ๊ฐ ํ–‰๋ฒกํ„ฐ $v_1,v_2,\cdots,v_n$ ์„ ํƒ
  5. $v_1,v_2,\cdots,v_n$ ํด๋Ÿฌ์Šคํ„ฐ๋ง($k$-means ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์ด์šฉ)

Normalized spectral clustering์€ ์–ด๋–ค ์ •๊ทœํ™”๋œ ๋ผํ”Œ๋ผ์‹œ์•ˆ์„ ์‚ฌ์šฉํ–ˆ๋Š”๊ฐ€์— ๋”ฐ๋ผ ๋‘๊ฐ€์ง€๋กœ ๋ถ„๋ฅ˜ํ•œ๋‹ค.

$L_{sym}$์„ ์‚ฌ์šฉํ•œ ๋‘๋ฒˆ์งธ ๋ฐฉ๋ฒ•์˜ ๊ฒฝ์šฐ, ์ด์™€ ๊ฐ™์ด ์—ฐ์‚ฐ๋œ ๊ณ ์œ ๋ฒกํ„ฐ๋Š” ๊ณ ์œ ๊ฐ’ ๋ณ„ ๊ฐ๊ธฐ ๋‹ค๋ฅธ ๊ฐ’์„ ๊ฐ–๊ธฐ ๋•Œ๋ฌธ์— ์ถ”๊ฐ€์ ์œผ๋กœ ํ–‰ ์ •๊ทœํ™” ๋‹จ๊ณ„๊ฐ€ ์‹œํ–‰๋œ๋‹ค.

 

5. Graph cut point of view

ํด๋Ÿฌ์Šคํ„ฐ๋ง์€ ์„œ๋กœ ๋‹ค๋ฅธ ๊ทธ๋ฃน๋“ค์„ ๋ถ„๋ฆฌํ•˜๊ณ ์ž ํ•œ๋‹ค. ๋”ฐ๋ผ์„œ ์œ ์‚ฌ๋„ ๊ทธ๋ž˜ํ”„๋ฅผ ํ˜•์„ฑํ•  ๋•Œ

 

  • ๋‹ค๋ฅธ ๊ทธ๋ฃน๋“ค๊ฐ„์˜ edge๋Š” ๋งค์šฐ ๋‚ฎ์€ ๊ฐ€์ค‘์น˜๋ฅผ ๊ฐ€์ง€๋„๋ก(external separation)
  • ๊ทธ๋ฃน ๋‚ด์—์„œ์˜ edge๋Š” ๋งค์šฐ ๋†’์€ ๊ฐ€์ค‘์น˜๋ฅผ ๊ฐ€์ง€๋„๋ก(internal cohesion)

๊ทธ๋ž˜ํ”„๋ฅผ ๋ถ„ํ• ํ•˜๊ณ ์ž ํ•œ๋‹ค.

์ด๋Ÿฌํ•œ ๋ฌธ์ œ์˜ ๊ฐ€์žฅ ๋‹จ์ˆœํ•˜๊ณ  ์ง์ ‘์ ์ธ ํ•ด๊ฒฐ ๋ฐฉ๋ฒ•์€ ๋ฐ”๋กœ mincut ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š” ๊ฒƒ์ด๋‹ค.

 

Mincut approach?

$$cut(A_1, \cdots, A_k) := \frac{1}{2} \sum_{i=1}^k W(A,\bar{A})$$

์ฆ‰, ํด๋Ÿฌ์Šคํ„ฐ๋“ค ์‚ฌ์ด์— ์—ฐ๊ฒฐ๋œ edge๋“ค์˜ ๊ฐ€์ค‘์น˜์˜ ํ•ฉ์ด ์ตœ์†Œํ™”๋˜๋Š” partition์„ ์„ ํƒํ•˜๋Š” ๋ฌธ์ œ๋กœ, ๊ฐ€์žฅ ๋งŽ์ด ์‚ฌ์šฉ๋˜๋Š” ๋ชฉ์ ํ•จ์ˆ˜๋กœ๋Š” RatioCut๊ณผ Ncut(Normalized Cut)์ด ์žˆ๋‹ค.

 

1. RatioCut

subset $A$์˜ ํฌ๊ธฐ๋Š” ์ •์ ์˜ ์ˆ˜ $|A|$๋กœ ๊ฒฐ์ •ํ•œ๋‹ค.

$$ RatioCut(A_1,\ldots,A_k):=\frac{1}{2} \sum_{i=1}^k \frac{W(A_i, \bar{A_i})}{|A_i|} \\= \sum_{i=1}^{k} \frac{cut(A_i, \bar{A_i})}{|A_i|}$$

2. Ncut

subset $A$์˜ ํฌ๊ธฐ๋Š” ๊ฐ€์ค‘์น˜์˜ ํ•ฉ $vol(A)$๋กœ ๊ฒฐ์ •ํ•œ๋‹ค.

$$Ncut(A_1, \ldots, A_k):= \frac{1}{2} \sum_{i=1}^k \frac{W(A_i, \bar{A_i})}{vol(A_i)} = \sum_{i=1}^k \frac{cut(A_i, \bar{A_i})}{vol(A_i)}$$

 

๋‘ ๋ชฉ์ ํ•จ์ˆ˜๋Š” ํด๋Ÿฌ์Šคํ„ฐ์˜ ๋ชฉ์ ์„ ๋‹ฌ์„ฑํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•˜์ง€๋งŒ, NP-hard ๋ฌธ์ œ์— ์†ํ•œ๋‹ค.

๋”ฐ๋ผ์„œ ๋ฌธ์ œ๋ฅผ ๊ทผ์‚ฌํ•˜์—ฌ ํ•ด๊ฒฐํ•˜๋„๋ก ํ•œ๋‹ค.

 

5.1 Approximating RatioCut for $k=2$

๋ชฉํ‘œ : $\min_{A\subset V}RatioCut(A,\bar{A})$

ํ•˜๋‚˜์˜ ๊ทธ๋ž˜ํ”„๋ฅผ ๋‘ ํด๋Ÿฌ์Šคํ„ฐ $A$์™€ $\bar{A}$๋กœ ๋ถ„๋ฆฌํ•˜๋Š” ๊ฒƒ

 

์—ฌ๋Ÿฌ ์ฐจ์›์˜ ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ $v_i$๋ฅผ ํ•˜๋‚˜์˜ ์‹ค์ˆ˜๊ฐ’ $f_i$๋กœ ๋งคํ•‘ํ•˜๋Š” ๊ณผ์ •์„ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์ •์˜ํ•œ๋‹ค.

$$f=\begin{cases} \sqrt{\frac{|\bar{A}|}{|A|}} \,if\, v_i \in A\\ -\sqrt{\frac{|A|}{|\bar{A}|}} \,if\,v_i\in \bar{A} \end{cases}$$

์ด๋ ‡๊ฒŒ ์ •์˜๋œ $f=(f_1,...,f_n)'$์„ ๋ผํ”Œ๋ผ์‹œ์•ˆ ๊ทธ๋ž˜ํ”„์˜ ์„ฑ์งˆ์— ์ด์šฉํ•˜๋ฉด

์ด๋Ÿฌํ•œ ์ฆ๋ช…์„ ํ†ตํ•ด $\min_{A\subset V}RatioCut(A,\bar{A})$ ๋ฌธ์ œ๋Š” $\min_{f\in \mathbb{R}^n}f'Lf$๋กœ ๊ทผ์‚ฌ๊ฐ€ ๊ฐ€๋Šฅํ•˜๋‹ค.

๋”ฐ๋ผ์„œ $f'Lf$๋ฅผ ์ตœ์†Œํ™”ํ•˜๋Š” ๋ฒกํ„ฐ $f$๋ฅผ ์ฐพ๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•œ๋‹ค.

 

์ด ๋•Œ์˜ $f$๋Š” Rayleigh-Ritz ์•Œ๊ณ ๋ฆฌ์ฆ˜์— ์˜ํ•ด $L$์˜ ๋‘๋ฒˆ์งธ๋กœ ์ž‘์€ ๊ณ ์œ ๊ฐ’์˜ ๊ณ ์œ ๋ฒกํ„ฐ๊ฐ€ ๋œ๋‹ค.

(์—ฌ๊ธฐ์„œ์˜ $L$์˜ ๊ฐ€์žฅ ์ž‘์€ ๊ณ ์œ ๊ฐ’์€ 0์ธ๋ฐ, ๋ผํ”Œ๋ผ์‹œ์•ˆ ์„ฑ์งˆ์— ์˜ํ•ด ๊ทธ์— ๋Œ€์‘ํ•˜๋Š” ๊ณ ์œ ๋ฒกํ„ฐ๋Š” 1๋ฒกํ„ฐ($\begin{matrix}[1&1&...&1]\end{matrix}$)์ด๊ธฐ ๋•Œ๋ฌธ)

์ฆ‰, $L$์˜ ๋‘๋ฒˆ์งธ ๊ณ ์œ ๋ฒกํ„ฐ๋กœ $RatioCut$์„ ๋Œ€๋žต ์ตœ์†Œํ™”ํ•  ์ˆ˜ ์žˆ๋‹ค.

 

์ด๋ ‡๊ฒŒ ๊ตฌํ•œ $f$๋ฅผ ์ง€์‹œ ํ•จ์ˆ˜๋กœ์„œ ์‚ฌ์šฉํ•˜์—ฌ ํด๋Ÿฌ์Šคํ„ฐ๋ง์„ ์‰ฝ๊ฒŒ ์ ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค.

$$\begin{cases}v_i \in A, \,if\,f_i \geq 0 \\ v_i \in \bar{A}, \,if\, f_i<0 \end{cases}$$

 

์œ„์˜ ๊ณผ์ •์„ ์˜ˆ์‹œ๋กœ ๋“ค๋ฉด ๋‹ค์Œ ๊ทธ๋ฆผ๊ณผ ๊ฐ™๋‹ค.

๊ทธ๋ž˜ํ”„ ํ•˜๋‚˜์— ๋Œ€ํ•˜์—ฌ $L$๋ฅผ ์ •์˜ํ•˜์—ฌ ๊ทธ์— ๋”ฐ๋ฅธ ๊ณ ์œ ๊ฐ’๊ณผ ๊ณ ์œ ๋ฒกํ„ฐ๋ฅผ ๊ตฌํ•œ ๋‹ค์Œ

๋‘๋ฒˆ์งธ ๊ณ ์œ ๋ฒกํ„ฐ $\begin{matrix}[0.3&0.6&0.3&-0.3&-0.3&-0.6]^T\end{matrix}$๋กœ k-means clustering์„ ์ง„ํ–‰ํ•˜๋ฉด

์œ„์™€ ๊ฐ™์€ ๊ฒฐ๊ณผ๋กœ ํด๋Ÿฌ์Šคํ„ฐ๋ง์ด ์™„๋ฃŒ๋  ๊ฒƒ์ด๋‹ค.

 

5.2 Approximating RatioCut for arbitrary $k$

$k$๊ฐ€ 2๋ณด๋‹ค ํฐ ๋ชจ๋“  ๊ฒฝ์šฐ์— ์ ์šฉํ•  ์ˆ˜ ์žˆ๋Š” 5.1์˜ ์ผ๋ฐ˜ํ™”๋œ ๊ฒฝ์šฐ์ด๋‹ค.

๋ชฉํ‘œ : $\min_{A_1,...A_k}RatioCut(A_1,...,A_k)$

์ „์ฒด ๋ฐ์ดํ„ฐ๋ฅผ $k$๊ฐœ์˜ ํด๋Ÿฌ์Šคํ„ฐ $(A_1,A_2,...,A_k)$๋กœ ๋ถ„๋ฆฌํ•˜๊ณ ์ž ํ•œ๋‹ค.

 

๋ฐ์ดํ„ฐ๋“ค์˜ ์ „์ฒด ์ง‘ํ•ฉ $V$๋ฅผ $k$๊ฐœ์˜ ํด๋Ÿฌ์Šคํ„ฐ๋กœ ๋‚˜๋ˆˆ partition์„ $A_1, ... ,A_k$๋ผ๊ณ  ํ•  ๋•Œ, $k$๊ฐœ์˜ ์ง€์‹œ๋ฒกํ„ฐ $h_j=(h_{1,j},h_{2,j},...,h_{n,j})'$๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์ •์˜ํ•œ๋‹ค.

$$h_{i,j} = \begin{cases} \sqrt{\frac{1}{|A_j|}} \quad if\,v_i \in A_j\\0 \quad otherwise \end{cases}$$

์ฆ‰, ์ „์ฒด ํ–‰๋ ฌ $H$๋Š” $k$๊ฐœ์˜ ์ง€์‹œ๋ฒกํ„ฐ๋ฅผ ์—ด๋ฒกํ„ฐ๋กœ ๊ฐ–๋Š” ํ–‰๋ ฌ๋กœ ์ •์˜๊ฐ€ ๊ฐ€๋Šฅํ•˜๋‹ค.

 

์ •์˜๋œ ํ–‰๋ ฌ $H$๋ฅผ ๋ผํ”Œ๋ผ์‹œ์•ˆ ์„ฑ์งˆ์— ์ด์šฉํ•˜๋ฉด

$k=2$์ผ ๋•Œ์™€ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ $\min_{A_1,...A_k}RatioCut(A_1,...,A_k)$๋ฅผ $\min_{H\in \mathbb{R}^{n\times k}} \textrm{Tr}(H'LH)$๋กœ ๊ทผ์‚ฌํ•  ์ˆ˜ ์žˆ๋Š”๋ฐ, ์ด๋Ÿฌํ•œ $H'LH$์˜ ๋Œ€๊ฐํ•ฉ์„ ์ตœ์†Œํ™”ํ•˜๋Š” ํ–‰๋ ฌ $H$๋Š” $L$์˜ ์ฒซ $k$๊ฐœ์˜ ๊ณ ์œ ๋ฒกํ„ฐ์— ํ•ด๋‹นํ•œ๋‹ค.(4๋ฒˆ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์„ค๋ช… ๋‹จ๊ณ„์—์„œ์˜ $U$ ํ–‰๋ ฌ)

 

์˜ˆ๋ฅผ ๋“ค์–ด, $k=3$์ผ ๋•Œ์˜ ํ–‰๋ ฌ $L$๊ณผ ๊ทธ์— ๋”ฐ๋ฅธ ์ฒซ $k$๊ฐœ์˜ ๊ณ ์œ ๋ฒกํ„ฐ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

์ด ๋•Œ ์„ธ๊ฐœ์˜ ๊ณ ์œ ๋ฒกํ„ฐ ํ–‰๋ ฌ $H$๋กœ๋ถ€ํ„ฐ ๊ฐ ํ–‰๋ณ„ k-means ํด๋Ÿฌ์Šคํ„ฐ๋ง์„ ์ง„ํ–‰ํ•˜๋ฉด $n$๊ฐœ์˜ ๋ฐ์ดํ„ฐ๋“ค์ด ๊ฐ๊ฐ 3๊ฐœ์˜ ํด๋Ÿฌ์Šคํ„ฐ์— ํ• ๋‹น๋  ๊ฒƒ์ด๋‹ค.

 

์กฐ๊ธˆ ๋” ์ž์„ธํ•œ ์˜ˆ์‹œ๋กœ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ๋ถ€ํ„ฐ ์ธ์ ‘ ๊ทธ๋ž˜ํ”„๋ฅผ ์ƒ์„ฑํ•˜๊ณ , ์ธ์ ‘ํ–‰๋ ฌ๋กœ ์ •์˜๋œ ๋ผํ”Œ๋ผ์‹œ์•ˆ ํ–‰๋ ฌ์ด ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค๊ณ  ํ•œ๋‹ค.

์œ„์˜ ๋ผํ”Œ๋ผ์‹œ์•ˆ ํ–‰๋ ฌ์˜ ๊ณ ์œ ๊ฐ’๊ณผ ๊ณ ์œ ๋ฒกํ„ฐ๋ฅผ ๊ตฌํ•˜๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๋‚˜์˜ค๋Š”๋ฐ,

์ด ๋•Œ ๊ณ ์œ ๊ฐ’์ด 0์ธ ์ฒซ 3๊ฐœ์˜ ๊ณ ์œ ๋ฒกํ„ฐ๋กœ ํด๋Ÿฌ์Šคํ„ฐ๋ง์„ ์ง„ํ–‰ํ•˜๊ฒŒ ๋˜๋ฉด ์œ„์˜ ๊ทธ๋ž˜ํ”„์™€ ์œ ์‚ฌํ•˜๊ฒŒ ์˜ฌ๋ฐ”๋ฅธ ํด๋Ÿฌ์Šคํ„ฐ๋ง ๊ฒฐ๊ณผ๊ฐ€ ๋‚˜์˜ฌ ๊ฒƒ์ž„์„ ์˜ˆ์ƒํ•  ์ˆ˜ ์žˆ๋‹ค.(๊ณ ์œ ๋ฒกํ„ฐ ํ–‰๋ ฌ์—์„œ ์ง€์‹œ๋ฒกํ„ฐ๋“ค์˜ ๊ฐ’์ด 1์ด ์•„๋‹Œ ์ด์œ ๋Š” ํŒŒ์ด์ฌ์—์„œ numpy๋กœ ๊ณ ์œ ๋ฒกํ„ฐ๋ฅผ ๊ณ„์‚ฐํ•  ๋•Œ ์—ด๋ณ„๋กœ ์ •๊ทœํ™”๋ฅผ ํ•˜์—ฌ ๋‚˜์˜ค๊ธฐ ๋•Œ๋ฌธ์—...๊ทธ๋ƒฅ ์—ฐ์‚ฐํ•˜๋ฉด ๊ณ ์œ ๊ฐ’์ด 0์ธ ๊ณ ์œ ๋ฒกํ„ฐ๋“ค์€ ๋ชจ๋‘ 0๊ณผ 1๋กœ ์ด๋ฃจ์–ด์ง„ ์ง€์‹œ๋ฒกํ„ฐ์˜ ์„ฑํ–ฅ์„ ๋ ๋Š” ๊ฒƒ์ด ๋งž๋‹ค..ใ… ใ… )

 

5.3 Approximating Ncut

RatioCut๊ณผ ์œ ์‚ฌํ•˜๊ฒŒ ์ž‘๋™ํ•˜๋‚˜, ๊ทธ๋ž˜ํ”„์—์„œ์˜ ์ธ์ ‘ ๋…ธ๋“œ ์ˆ˜๋กœ ์—ฐ์‚ฐํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹Œ ๊ฐ€์ค‘์น˜๋กœ ์—ฐ์‚ฐํ•˜๋Š” ์ ์ด ๋‹ค๋ฅด๋‹ค.

$k=2$์—์„œ, ๋งคํ•‘ํ•จ์ˆ˜ $f$๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์ •์˜ํ•œ๋‹ค.

$$f_i=\begin{cases} \sqrt{\frac{vol(\bar{A})}{vol(A)}} \quad if\, v_i \in A\\ -\sqrt{\frac{vol(A)}{vol(\bar{A})}} \quad if \, v_i \in \bar{A}\end{cases}$$

Ncut ์ตœ์†Œํ™”๋Š” $min_A f'Lf$์™€ ๋™์ผํ•œ ๋ฌธ์ œ์ด๋‹ค.

์—ฌ๊ธฐ์„œ $f$๋Š” $L_{rw}$์˜ ๋‘ ๋ฒˆ์งธ ๊ณ ์œ ๋ฒกํ„ฐ์ด๊ณ , $g:=D^{1/2}f$๋ผ๊ณ  ์ •์˜ํ•  ๋•Œ, $g$๋Š” $L_{sym}$์˜ ๋‘ ๋ฒˆ์งธ ๊ณ ์œ ๋ฒกํ„ฐ์ด๋‹ค.

 

$k>2$์—์„œ ์ง€์‹œ๋ฒกํ„ฐ $h_{i,j}$๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์ •์˜ํ•œ๋‹ค.

$$h_{i,j}=\begin{cases} \frac{1}{\sqrt{vol(A_j)}} \quad if\, v_i \in A_j \\0 \quad otherwise\end{cases}$$

$H$๋Š” $k$๊ฐœ์˜ ์ง€์‹œ๋ฒกํ„ฐ๋ฅผ ์—ด๋ฒกํ„ฐ๋กœ ๊ฐ–๋Š” ํ–‰๋ ฌ์ด๊ณ ,

$min_{A_1,...,A_k} \textrm{Tr}(H'LH)$๋Š” $min_{T\in \mathbb{R}^{n \times k}} \textrm{Tr}(T'D^{-1/2}LD^{-1/2}T), T=D^{1/2}H$๋กœ ๊ทผ์‚ฌํ•˜์—ฌ ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ๋‹ค.

$L_{sym}$์˜ ๊ณ ์œ ๋ฒกํ„ฐ $k$๊ฐœ๋กœ ๊ตฌ์„ฑ๋œ ํ–‰๋ ฌ $T$์— ์˜ํ•ด ๋Œ€๊ฐํ•ฉ์„ ์ตœ์†Œํ™”ํ•  ์ˆ˜ ์žˆ๊ณ , $H=D^{-1/2}T$๋กœ ๋Œ€์ฒดํ•˜์—ฌ $L_{rw}$์—์„œ์˜ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ๋‹ค.

5.4 Comments on the relaxation approach

๋‹น์—ฐํ•œ ์–˜๊ธฐ์ง€๋งŒ, ์ด๋ ‡๊ฒŒ ๊ทผ์‚ฌํ•˜๋Š” ๋ฐฉ๋ฒ•์ด ์ •ํ™•ํ•œ solution์ด๋ผ๋Š” ๋ณด์žฅ์€ ์—†๋‹ค. ์‹ค์ œ RatioCut์˜ ์ •๋‹ต์ด $A_1, A_2,...,A_k$์ด๊ณ , ํด๋Ÿฌ์Šคํ„ฐ๋ง์˜ ๊ฒฐ๊ณผ๊ฐ€ $B_1,B_2,...,B_k$๋ผ๊ณ  ๊ฐ€์ •ํ–ˆ์„ ๋•Œ, $RatioCut(B_1,B_2,...B_k)-RatioCut(A_1,A_2,...,A_k)$์˜ ํด ์ˆ˜๋„ ์žˆ๋‹ค๋Š” ์˜๋ฏธ์ด๋‹ค. ๊ทธ๋ ‡๋‹ค๋ฉด ์™œ ๊ทผ์‚ฌํ•˜์—ฌ ํ‘ธ๋Š” ๊ฒƒ์ผ๊นŒ?

ํ’€๊ธฐ ๊ฐ„๋‹จํ•œ ํ‘œ์ค€์ ์ธ ์„ ํ˜•๋Œ€์ˆ˜ ๋ฌธ์ œ๋กœ ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์— ์ด๋Ÿฌํ•œ ๋ฐฉ๋ฒ•์„ ์‚ฌ์šฉํ•œ๋‹ค.

 

Comments