์ผ | ์ | ํ | ์ | ๋ชฉ | ๊ธ | ํ |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- db
- ์๋ฃ๊ตฌ์กฐ
- ๊ทธ๋ฆฌ๋
- ๋ฐฑ์ค
- ํฐ์คํ ๋ฆฌ์ฑ๋ฆฐ์ง
- ๋์ ํฉ
- ๋์ ๊ณํ๋ฒ
- BFS
- ์์ํ์
- ์ ๋ ฌ
- ํ๋ก๊ทธ๋๋จธ์ค
- ๊ทธ๋ํ
- ๊น์ด์ฐ์ ํ์
- ์๊ณ ๋ฆฌ์ฆ
- DP
- ๋ณํฉ์ ๋ ฌ
- ์ค๋ธ์
- ๋จธ์ง์ํธ
- ์ฐ์ ์์ํ
- DFS
- ๋๋น์ฐ์ ํ์
- ๊ตฌํ
- ํ์ด์ฌ
- ์์๊ตฌํ๊ธฐ
- ๋ค์ด๋๋ฏนํ๋ก๊ทธ๋๋ฐ
- SQL
- ๋ฐ์ดํฐ๋ฒ ์ด์ค
- LIS
- ๊ทธ๋ํํ์
- ์ํ
๐๐ญ๐ฐ๐ธ ๐ฃ๐ถ๐ต ๐ด๐ต๐ฆ๐ข๐ฅ๐บ
A Tutorial on Spectral Clustering - ์คํํธ๋ด ํด๋ฌ์คํฐ๋ง ๋ณธ๋ฌธ
A Tutorial on Spectral Clustering - ์คํํธ๋ด ํด๋ฌ์คํฐ๋ง
.23 2023. 3. 21. 15:22https://arxiv.org/abs/0711.0189
Von Luxburg, U. (2007). A tutorial on spectral clustering. Statistics and computing, 17, 395-416.
๋ด์ฉ ์ ๋ฆฌ
1. Introduction
Spectral clustering : ๊ณ ์ ๊ฐ์ ์ฌ์ฉํ ๊ทธ๋ํ ๊ธฐ๋ฐ ํด๋ฌ์คํฐ๋ง
Spectrum : ํ๋ ฌ์ ๊ณ ์ ๊ฐ๋ค์ ์งํฉ
⇒ ์ฆ, ๊ทธ๋ํ์ ์คํํธ๋ผ์ ๋ถ์ํ๊ฒ ๋ค๋ ์๋ฏธ
๋ฐ์ดํฐ์ feature๊ฐ์ ํ๋์ ์ขํ๋ก ์๊ฐํ์ฌ ์ ํด๋ฆฌ๋์ ๊ณต๊ฐ์์ ํด๋ฌ์คํฐ๋ง์ ํ๋ k-means ํด๋ฌ์คํฐ๋ง๊ณผ ๋ฌ๋ฆฌ ์ฐ๊ฒฐ ์ ๋ณด๋ฅผ ํ๋จํ๋ ๊ทธ๋ํ ๊ธฐ๋ฐ์ ์คํํธ๋ด ํด๋ฌ์คํฐ๋ง์ ์ฌ์ฉํ๋ฉด convex ๋ชจ์์ ํด๋ฌ์คํฐ ๋ฟ๋ง ์๋๋ผ ๋ ๋ณต์กํ ๋ชจ์์ ํด๋ฌ์คํฐ์ ๊ฒฝ์ฐ์๋ ์ฝ๊ฒ ํด๋ฌ์คํฐ๋ง์ ์งํํ ์ ์๋ค.
์ธ์ธํจ์ ๋ชจ์์ ๋ ๊ฐ์ ํด๋ฌ์คํฐ์์ k-means๋ฅผ ์ ์ฉํ์ ๊ฒฝ์ฐ ๊ฐ์ด๋ฐ์ ๊ฐ์ด ํด๋ฌ์คํฐ๊ฐ ๋๋์ด์ง๋ ๋ฐ๋ฉด, ์คํํธ๋ด ํด๋ฌ์คํฐ๋ง์ ์ ์ฉํ๋ฉด ์ค๋ฅธ์ชฝ ๋์ ์ ์ธํ๊ณ ์ฌ๋ฐ๋ฅด๊ฒ ํด๋ฌ์คํฐ๊ฐ ๋๋์ด์ง ๊ฒ์ ํ์ธํ ์ ์๋ค.
์ ๋ฐ์ ์ธ ๋ด์ฉ์ ์ดํดํ๋ ๋ฐ ๊ฐ์ธ์ ์ผ๋ก ์๋นํ ์ค๋๊ฑธ๋ ธ๋๋ฐ, spectral clustering์ ๊ฐ๋จํ๊ฒ ์ ๋ฆฌํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
- ์ ์ฌ๋ ๊ทธ๋ํ๋ฅผ ์์ฑํ๊ณ ,
- ํด๋ฌ์คํฐ๋ง์ ์ฝ๊ฒ ๋๋ฆด ์ ์๋๋ก ์ ์ฌ๋ ํ๋ ฌ์ ๊ฐ๊ณต(๋ผํ๋ผ์์ ํ๋ ฌ์ ์์ฑ → ๊ณ ์ ๊ฐ์ ๋ํ ๊ณ ์ ๋ฒกํฐ๋ก ๊ณ ์ ๋ฒกํฐ์ ๋ํ ํ๋ ฌ์ ์์ฑ)ํ์ฌ
- ์์ฑ๋ ์๋ก์ด ํ๋ ฌ์ ๊ธฐ๋ฐ์ผ๋ก k-means ํด๋ฌ์คํฐ๋ง์ ์ ์ฉํ๋ค.
2. Similarity graphs
clustering์ ๋ชฉํ๋
- ๋น์ทํ ํฌ์ธํธ๋ค์ ๊ฐ์ ๊ทธ๋ฃน์ผ๋ก ๋ฌถ์ด๋๋ก
- ๋น์ทํ์ง ์์ ํฌ์ธํธ๋ค์ ๋ค๋ฅธ ๊ทธ๋ฃน์ผ๋ก ๋ฌถ์ด๋๋ก
๋ฐ์ดํฐ ํฌ์ธํธ๋ค์ ์ฌ๋ฌ ๊ทธ๋ฃน์ผ๋ก ๋๋๋ ๊ฒ์ด๋ค.
์ ์ฌ๋ ์ธ์ ๋ค๋ฅธ ์ ๋ณด๊ฐ ์๋ค๋ฉด ๋ฐ์ดํฐ ํํ์ผ๋ก ์ข์ ๋ฐฉ์์ ์ ์ฌ๋ ๊ทธ๋ํ $G=(V,E)$๋ฅผ ํ์ฑํ๋ ๊ฒ์ด๋ค. ๊ทธ๋ํ์ ๊ฐ ์ ์ $v_{i}$๋ ๋ฐ์ดํฐ ํฌ์ธํธ $x_{i}$์ ํด๋น๋๊ณ , $x_{i}$์ $x_{j}$์ฌ์ด ์ผ์ ์๊ณ๊ฐ ์ด์์ ์ ์ฌ๋ $s_{ij}$๊ฐ ์กด์ฌํ๋ค๋ฉด ๋ ์ ์ ์ ์ฐ๊ฒฐํ๋ค.
์ด๋ ๊ฒ ์ค๊ณ๋ ์ ์ฌ๋ ๊ทธ๋ํ๋ฅผ ์ด์ฉํ์ฌ clustering ๋ฌธ์ ๋ฅผ ํด๊ฒฐ ๊ฐ๋ฅํ๋ค.
2.1 Different similarity graphs
ํด๋ฌ์คํฐ๋ง์ ํ๊ธฐ ์ , ์ ์ฌ๋ $s_{ij}$๋๋ ๊ฑฐ๋ฆฌ $d_{ij}$๋ฅผ ๊ทธ๋ํ๋ก ๋ณํํ๋ ์ ์ฐจ์ด๋ค.
๋ฐ์ดํฐ ํฌ์ธํธ ๊ฐ ๊ทผ์ ํ ์ด์๊ด๊ณ๋ฅผ ๋ชจ๋ธ๋ง ํ๋ ๊ฒ์ด ๋ชฉ์ ์ผ๋ก, spectral clustering์์ ๊ฐ์ฅ ๋ง์ด ์ฐ์ด๋ 3๊ฐ์ง ๋ฐฉ๋ฒ์ด ์๊ฐ๋๋ค.
- ε-neighborhood graph
์๊ณ๊ฐ ε๋ณด๋ค ๋ ๊ฐ๊น์ด ๊ฑฐ๋ฆฌ์ ์๋ ๋ชจ๋ ํฌ์ธํธ๋ฅผ ์ฐ๊ฒฐํ๋ค. - $k$-nearest neighbor graphs(kNN ๊ทธ๋ํ)
$v_{j}$๊ฐ $v_{i}$์ $k$๋ฒ์งธ ๊ฐ๊น์ด ์ด์ ์ค ํ๋์ผ ๋ ๋ ์ ์ ์ ์ฐ๊ฒฐํ๋ค. ์ด ๋, ์ด์ ๊ด๊ณ๋ ๋์นญ์ ํํ๊ฐ ์๋ ์ ์๊ธฐ ๋๋ฌธ์ ๋ฐฉํฅ ๊ทธ๋ํ๋ก ๊ณ ๋ ค๋๋๋ฐ, ๋์นญ ํ๋ ฌ ํํ์ ์ ์ฌ๋ ํ๋ ฌ์ ๋ง๋ค๊ธฐ ์ํด ๋ฌดํฅ ๊ทธ๋ํ๋ก ๋ง๋ ๋ค.
- $k$-nearest neighbor graph
$v_{j}$๊ฐ $v_{i}$์ kNN์ด๊ฑฐ๋ $v_{i}$๊ฐ $v_{j}$์ $k$NN์ผ ๋ ์ฐ๊ฒฐ - mutual $k$-nearest neighbor graph
๋ ๋ค ์๋ก์ $k$-nearest neighbor์ผ ๋๋ง ์ฐ๊ฒฐ
- $k$-nearest neighbor graph
- Fully connected graph
์์ ์ ์ฌ๋๋ฅผ ๊ฐ๋ ์ ์ ์ ๋ถ๋ฅผ ์ฐ๊ฒฐํ๋ค. ๊ทธ๋ํ๋ ๊ทผ์ ํ ์ด์ ๊ด๊ณ๋ฅผ ํํํด์ผ ํ๋ ์ด ๋ฐฉ๋ฒ์ ๋ชจ๋ ๋ ธ๋๊ฐ ์ฐ๊ฒฐ๋ ์ ์๊ธฐ ๋๋ฌธ์ ์ ์ฌ๋ ํจ์๊ฐ ๊ทผ์ ํ ์ด์๊ด๊ณ๋ฅผ ๋ชจ๋ธ๋งํ ๊ฒฝ์ฐ์๋ง ์ ์ฉํ๋ค.
ex) Gaussian similarity function
$$ s(x_{i} ,x_{j})=e^{-\frac{||x_{i} - x_{j}||^2}{(2\sigma)^2}} $$
$\sigma$๋ $\varepsilon$-neighbor graph์์์ $\varepsilon$๊ณผ ์ ์ฌํ ์ญํ ์ ํ๋ค.
3. Graph Laplacians and their basic properties
๋ผํ๋ผ์์ ๊ทธ๋ํ๋ spectral clustering์์ ๊ฐ์ฅ ํต์ฌ์ด ๋๋ tool์ด๋ผ ํ ์ ์๋ค.
์ํ์ ์ธ ๋ด์ฉ์ด ๋งค์ฐ ์ด๋ ต๊ธฐ ๋๋ฌธ์.... ํ๋ํ๋ ์ดํดํ๋ ๊ฒ ๋ณด๋ค ๋ช ๊ฐ์ง ํน์ฑ๋ง ๊ธฐ์ตํ๋ ๊ฒ์ด ์ข์ ๊ฒ ๊ฐ๋ค.
ํ๊ธฐ๋ฒ
- $W$ : ๊ฐ์ค์น ์ธ์ ํ๋ ฌ
- $D$ : ๊ทธ๋ํ์ ํฌ์ธํธ ๋ณ ์ฐ๊ฒฐ๋ edge์ ๊ฐ ๊ฐ์ค์น๋ฅผ ํฉํ ์ฐจ์ํ๋ ฌ
3.1 The unnormalized graph Laplacian
์ ๊ทํ๋์ง ์์ ๋ผํ๋ผ์์ ๊ทธ๋ํ๋ ๋ค์๊ณผ ๊ฐ์ด ์ ์ํ๋ค.
$$L=D-W$$
์์ ๊ฐ์ด ์ ์๋ ํ๋ ฌ $L$์ ๋ค์๊ณผ ๊ฐ์ ์ฑ์ง์ ๋ง์กฑํ๋ค.
- ๋ชจ๋ ๋ฒกํฐ $f \in \mathbb{R}^n$์ ๋ํด ๋ค์ ์์ ๋ง์กฑํ๋ค.
$$ f'Lf=\frac{1}{2} \sum_{i,j=1}^n w_{ij}(f_{i}-f_{j})^2$$ - $L$์ ๋์นญํ๋ ฌ์ด๊ณ ์์ ์ค์ ๋ถํธ(positive semi-definite) ํ๋ ฌ์ด๋ค.
- $L$์ ํญ์ 0์ ๊ฐ์ฅ ์์ ๊ณ ์ ๊ฐ์ผ๋ก ๊ฐ์ง๊ณ , ์ด์ ํด๋นํ๋ ๊ณ ์ ๋ฒกํฐ $u$๋ constant one vector์ด๋ค.
$$u=\begin{bmatrix}1&1&\ldots&1\end{bmatrix} ^T$$ - $L$์ ์์๊ฐ ์๋ ์ค์ ๊ณ ์ ๊ฐ์ ๊ฐ์ง๋ค.
$$ 0=\lambda_{1} \leq \lambda_{2} \leq \cdots \leq \lambda_{n} $$
์ธ์ ํ๋ ฌ $W$๋ block diagonal ํํ์ด๊ณ , $D$ ์ญ์ ๋๊ฐํ๋ ฌ์ด๊ธฐ ๋๋ฌธ์ $L$์ block diagonal ํํ๊ฐ ๋๋ค.
์ด๋ฌํ block diagonal์ $L$์ด ๋ค์๊ณผ ๊ฐ์ ํํ๋ผ๊ณ ๊ฐ๋จํ ํํํ ์ ์์ ๋,
$$L= \begin{bmatrix}L_{1} & && \\ & L_{2} \\&&\ddots& \\&&&L_{k} \end{bmatrix} $$
๊ฐ $L_{i}$๋ค์ sub-Laplacian์ด๋ผ๊ณ ํ ์ ์๋ค.
๋ชจ๋ $L_{i}$๋ ๊ณ ์ ๊ฐ 0์ ํ๋์ฉ ๊ฐ๊ธฐ ๋๋ฌธ์(๋ค์ค๋๊ฐ 1์ด๋ผ๋ ์ฑ์ง), $L$์ $k$๊ฐ์ ๊ณ ์ ๊ฐ์ ๊ฐ์ง๋ค.
3.2 The normalized graph Laplacian
๊ฐ ํญ์ ์ฐจ์๋ก ๋๋ ์ฃผ์ด ์ ๊ทํํ ๋ผํ๋ผ์์ ๊ทธ๋ํ๋ ์ฐจ์๋ฅผ ๋๋ ์ฃผ๋ ๋ฐฉ์์ ๋ฐ๋ผ $L_{sym}$ ๋๋ $L_{rw}$ ๋๊ฐ์ง๋ก ๋๋ ์ ์๋ค.
๊ฐ๊ฐ์ ์ ์๋ ๋ค์๊ณผ ๊ฐ๋ค.
1. Symmectric graph Laplacian
$$L_{sym}:= D^{-1/2}LD^{-1/2}=I-D^{-1/2}WD^{-1/2}$$
์ด๊ณ , ํ๋ ฌ์ ๊ฐ ์์๋ ๋ค์๊ณผ ๊ฐ์ ์ฑ์ง์ ๋ง์กฑํ๋ค.
$$ L_{sym} =\begin{cases}1 & i=j\\ -\frac{1}{\sqrt{deg(v_{i})deg(v_{j})}} & i \neq j, v_{i} \,is\, adjacent\,to\, v_j\\0 & otherwise\end{cases} $$
2. Random walk graph Laplacian
$$L_{rw}:=D^{-1}L=I-D^{-1}W$$
$$L_{rw}=\begin{cases}1 & i=j\\ -\frac{1}{\deg(v_i)} & i \neq j, v_{i} \,is\, adjacent\,to\, v_j\\0 & otherwise\end{cases} $$
4. Spectral clustering algorithms
spectral clustering์ ์ด๋ค ๋ผํ๋ผ์์ ๊ทธ๋ํ๋ฅผ ์ฌ์ฉํ๋๊ฐ์ ๋ฐ๋ผ unnormalized spectral clustering๊ณผ normalized spectral clustering ๋๊ฐ์ง๋ก ๋๋ ์ ์๋ค.
์ฌ์ฉํ๋ ๊ทธ๋ํ ์ ์ธ ์๋ ๋ฐฉ์์ ๋ชจ๋ ๋์ผํ๋ฏ๋ก ์ ๊ทํ๋์ง ์์ ์คํํธ๋ด ํด๋ฌ์คํฐ๋ง ์๊ณ ๋ฆฌ์ฆ์ ์ค์ฌ์ผ๋ก ์ค๋ช ํ๋ค.
Unnormalized spectral clustering
- ์ฃผ์ด์ง ์ ์ฌ๋ ๊ทธ๋ํ๋ฅผ ๋ฐํ์ผ๋ก $L=D-W$๋ฅผ ์ด์ฉํ์ฌ Laplacian ํ๋ ฌ $L$ ์ฐ์ฐ
$$ L= \begin{bmatrix}L_1&\cdots&0 \\ \vdots&\ddots&\vdots \\ 0&\cdots&L_k\end{bmatrix}$$ - $L$์ ์ฒ์ $k$๊ฐ์ ๊ณ ์ ๋ฒกํฐ(๊ณ ์ ๊ฐ์ด 0์ ํด๋นํ๋ ๊ณ ์ ๋ฒกํฐ) $u_1,u_2,\ldots,u_k$ ์ฐ์ฐ
- ๋ฒกํฐ $u_1,u_2,\ldots,u_k$๋ก ๊ตฌ์ฑ๋ ํ๋ ฌ $U$ ์์ฑ
$$U= \begin{bmatrix} |&|&&| \\ u_1&u_2&\cdots&u_k \\ |&|&&| \end{bmatrix} $$ - ํ๋ ฌ U์ ๊ฐ ํ๋ฒกํฐ $v_1,v_2,\cdots,v_n$ ์ ํ
- $v_1,v_2,\cdots,v_n$ ํด๋ฌ์คํฐ๋ง($k$-means ์๊ณ ๋ฆฌ์ฆ ์ด์ฉ)
Normalized spectral clustering์ ์ด๋ค ์ ๊ทํ๋ ๋ผํ๋ผ์์์ ์ฌ์ฉํ๋๊ฐ์ ๋ฐ๋ผ ๋๊ฐ์ง๋ก ๋ถ๋ฅํ๋ค.
$L_{sym}$์ ์ฌ์ฉํ ๋๋ฒ์งธ ๋ฐฉ๋ฒ์ ๊ฒฝ์ฐ, ์ด์ ๊ฐ์ด ์ฐ์ฐ๋ ๊ณ ์ ๋ฒกํฐ๋ ๊ณ ์ ๊ฐ ๋ณ ๊ฐ๊ธฐ ๋ค๋ฅธ ๊ฐ์ ๊ฐ๊ธฐ ๋๋ฌธ์ ์ถ๊ฐ์ ์ผ๋ก ํ ์ ๊ทํ ๋จ๊ณ๊ฐ ์ํ๋๋ค.
5. Graph cut point of view
ํด๋ฌ์คํฐ๋ง์ ์๋ก ๋ค๋ฅธ ๊ทธ๋ฃน๋ค์ ๋ถ๋ฆฌํ๊ณ ์ ํ๋ค. ๋ฐ๋ผ์ ์ ์ฌ๋ ๊ทธ๋ํ๋ฅผ ํ์ฑํ ๋
- ๋ค๋ฅธ ๊ทธ๋ฃน๋ค๊ฐ์ edge๋ ๋งค์ฐ ๋ฎ์ ๊ฐ์ค์น๋ฅผ ๊ฐ์ง๋๋ก(external separation)
- ๊ทธ๋ฃน ๋ด์์์ edge๋ ๋งค์ฐ ๋์ ๊ฐ์ค์น๋ฅผ ๊ฐ์ง๋๋ก(internal cohesion)
๊ทธ๋ํ๋ฅผ ๋ถํ ํ๊ณ ์ ํ๋ค.
์ด๋ฌํ ๋ฌธ์ ์ ๊ฐ์ฅ ๋จ์ํ๊ณ ์ง์ ์ ์ธ ํด๊ฒฐ ๋ฐฉ๋ฒ์ ๋ฐ๋ก mincut ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๊ฒ์ด๋ค.
Mincut approach?
$$cut(A_1, \cdots, A_k) := \frac{1}{2} \sum_{i=1}^k W(A,\bar{A})$$
์ฆ, ํด๋ฌ์คํฐ๋ค ์ฌ์ด์ ์ฐ๊ฒฐ๋ edge๋ค์ ๊ฐ์ค์น์ ํฉ์ด ์ต์ํ๋๋ partition์ ์ ํํ๋ ๋ฌธ์ ๋ก, ๊ฐ์ฅ ๋ง์ด ์ฌ์ฉ๋๋ ๋ชฉ์ ํจ์๋ก๋ RatioCut๊ณผ Ncut(Normalized Cut)์ด ์๋ค.
1. RatioCut
subset $A$์ ํฌ๊ธฐ๋ ์ ์ ์ ์ $|A|$๋ก ๊ฒฐ์ ํ๋ค.
$$ RatioCut(A_1,\ldots,A_k):=\frac{1}{2} \sum_{i=1}^k \frac{W(A_i, \bar{A_i})}{|A_i|} \\= \sum_{i=1}^{k} \frac{cut(A_i, \bar{A_i})}{|A_i|}$$
2. Ncut
subset $A$์ ํฌ๊ธฐ๋ ๊ฐ์ค์น์ ํฉ $vol(A)$๋ก ๊ฒฐ์ ํ๋ค.
$$Ncut(A_1, \ldots, A_k):= \frac{1}{2} \sum_{i=1}^k \frac{W(A_i, \bar{A_i})}{vol(A_i)} = \sum_{i=1}^k \frac{cut(A_i, \bar{A_i})}{vol(A_i)}$$
๋ ๋ชฉ์ ํจ์๋ ํด๋ฌ์คํฐ์ ๋ชฉ์ ์ ๋ฌ์ฑํ ์ ์๊ฒ ํ์ง๋ง, NP-hard ๋ฌธ์ ์ ์ํ๋ค.
๋ฐ๋ผ์ ๋ฌธ์ ๋ฅผ ๊ทผ์ฌํ์ฌ ํด๊ฒฐํ๋๋ก ํ๋ค.
5.1 Approximating RatioCut for $k=2$
๋ชฉํ : $\min_{A\subset V}RatioCut(A,\bar{A})$
ํ๋์ ๊ทธ๋ํ๋ฅผ ๋ ํด๋ฌ์คํฐ $A$์ $\bar{A}$๋ก ๋ถ๋ฆฌํ๋ ๊ฒ
์ฌ๋ฌ ์ฐจ์์ ๋ฐ์ดํฐ ํฌ์ธํธ $v_i$๋ฅผ ํ๋์ ์ค์๊ฐ $f_i$๋ก ๋งคํํ๋ ๊ณผ์ ์ ๋ค์๊ณผ ๊ฐ์ด ์ ์ํ๋ค.
$$f=\begin{cases} \sqrt{\frac{|\bar{A}|}{|A|}} \,if\, v_i \in A\\ -\sqrt{\frac{|A|}{|\bar{A}|}} \,if\,v_i\in \bar{A} \end{cases}$$
์ด๋ ๊ฒ ์ ์๋ $f=(f_1,...,f_n)'$์ ๋ผํ๋ผ์์ ๊ทธ๋ํ์ ์ฑ์ง์ ์ด์ฉํ๋ฉด
์ด๋ฌํ ์ฆ๋ช ์ ํตํด $\min_{A\subset V}RatioCut(A,\bar{A})$ ๋ฌธ์ ๋ $\min_{f\in \mathbb{R}^n}f'Lf$๋ก ๊ทผ์ฌ๊ฐ ๊ฐ๋ฅํ๋ค.
๋ฐ๋ผ์ $f'Lf$๋ฅผ ์ต์ํํ๋ ๋ฒกํฐ $f$๋ฅผ ์ฐพ๋ ๊ฒ์ ๋ชฉํ๋ก ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ค.
์ด ๋์ $f$๋ Rayleigh-Ritz ์๊ณ ๋ฆฌ์ฆ์ ์ํด $L$์ ๋๋ฒ์งธ๋ก ์์ ๊ณ ์ ๊ฐ์ ๊ณ ์ ๋ฒกํฐ๊ฐ ๋๋ค.
(์ฌ๊ธฐ์์ $L$์ ๊ฐ์ฅ ์์ ๊ณ ์ ๊ฐ์ 0์ธ๋ฐ, ๋ผํ๋ผ์์ ์ฑ์ง์ ์ํด ๊ทธ์ ๋์ํ๋ ๊ณ ์ ๋ฒกํฐ๋ 1๋ฒกํฐ($\begin{matrix}[1&1&...&1]\end{matrix}$)์ด๊ธฐ ๋๋ฌธ)
์ฆ, $L$์ ๋๋ฒ์งธ ๊ณ ์ ๋ฒกํฐ๋ก $RatioCut$์ ๋๋ต ์ต์ํํ ์ ์๋ค.
์ด๋ ๊ฒ ๊ตฌํ $f$๋ฅผ ์ง์ ํจ์๋ก์ ์ฌ์ฉํ์ฌ ํด๋ฌ์คํฐ๋ง์ ์ฝ๊ฒ ์ ์ฉํ ์ ์๋ค.
$$\begin{cases}v_i \in A, \,if\,f_i \geq 0 \\ v_i \in \bar{A}, \,if\, f_i<0 \end{cases}$$
์์ ๊ณผ์ ์ ์์๋ก ๋ค๋ฉด ๋ค์ ๊ทธ๋ฆผ๊ณผ ๊ฐ๋ค.
๊ทธ๋ํ ํ๋์ ๋ํ์ฌ $L$๋ฅผ ์ ์ํ์ฌ ๊ทธ์ ๋ฐ๋ฅธ ๊ณ ์ ๊ฐ๊ณผ ๊ณ ์ ๋ฒกํฐ๋ฅผ ๊ตฌํ ๋ค์
๋๋ฒ์งธ ๊ณ ์ ๋ฒกํฐ $\begin{matrix}[0.3&0.6&0.3&-0.3&-0.3&-0.6]^T\end{matrix}$๋ก k-means clustering์ ์งํํ๋ฉด
์์ ๊ฐ์ ๊ฒฐ๊ณผ๋ก ํด๋ฌ์คํฐ๋ง์ด ์๋ฃ๋ ๊ฒ์ด๋ค.
5.2 Approximating RatioCut for arbitrary $k$
$k$๊ฐ 2๋ณด๋ค ํฐ ๋ชจ๋ ๊ฒฝ์ฐ์ ์ ์ฉํ ์ ์๋ 5.1์ ์ผ๋ฐํ๋ ๊ฒฝ์ฐ์ด๋ค.
๋ชฉํ : $\min_{A_1,...A_k}RatioCut(A_1,...,A_k)$
์ ์ฒด ๋ฐ์ดํฐ๋ฅผ $k$๊ฐ์ ํด๋ฌ์คํฐ $(A_1,A_2,...,A_k)$๋ก ๋ถ๋ฆฌํ๊ณ ์ ํ๋ค.
๋ฐ์ดํฐ๋ค์ ์ ์ฒด ์งํฉ $V$๋ฅผ $k$๊ฐ์ ํด๋ฌ์คํฐ๋ก ๋๋ partition์ $A_1, ... ,A_k$๋ผ๊ณ ํ ๋, $k$๊ฐ์ ์ง์๋ฒกํฐ $h_j=(h_{1,j},h_{2,j},...,h_{n,j})'$๋ ๋ค์๊ณผ ๊ฐ์ด ์ ์ํ๋ค.
$$h_{i,j} = \begin{cases} \sqrt{\frac{1}{|A_j|}} \quad if\,v_i \in A_j\\0 \quad otherwise \end{cases}$$
์ฆ, ์ ์ฒด ํ๋ ฌ $H$๋ $k$๊ฐ์ ์ง์๋ฒกํฐ๋ฅผ ์ด๋ฒกํฐ๋ก ๊ฐ๋ ํ๋ ฌ๋ก ์ ์๊ฐ ๊ฐ๋ฅํ๋ค.
์ ์๋ ํ๋ ฌ $H$๋ฅผ ๋ผํ๋ผ์์ ์ฑ์ง์ ์ด์ฉํ๋ฉด
$k=2$์ผ ๋์ ๋ง์ฐฌ๊ฐ์ง๋ก $\min_{A_1,...A_k}RatioCut(A_1,...,A_k)$๋ฅผ $\min_{H\in \mathbb{R}^{n\times k}} \textrm{Tr}(H'LH)$๋ก ๊ทผ์ฌํ ์ ์๋๋ฐ, ์ด๋ฌํ $H'LH$์ ๋๊ฐํฉ์ ์ต์ํํ๋ ํ๋ ฌ $H$๋ $L$์ ์ฒซ $k$๊ฐ์ ๊ณ ์ ๋ฒกํฐ์ ํด๋นํ๋ค.(4๋ฒ ์๊ณ ๋ฆฌ์ฆ ์ค๋ช ๋จ๊ณ์์์ $U$ ํ๋ ฌ)
์๋ฅผ ๋ค์ด, $k=3$์ผ ๋์ ํ๋ ฌ $L$๊ณผ ๊ทธ์ ๋ฐ๋ฅธ ์ฒซ $k$๊ฐ์ ๊ณ ์ ๋ฒกํฐ๋ ๋ค์๊ณผ ๊ฐ๋ค.
์ด ๋ ์ธ๊ฐ์ ๊ณ ์ ๋ฒกํฐ ํ๋ ฌ $H$๋ก๋ถํฐ ๊ฐ ํ๋ณ k-means ํด๋ฌ์คํฐ๋ง์ ์งํํ๋ฉด $n$๊ฐ์ ๋ฐ์ดํฐ๋ค์ด ๊ฐ๊ฐ 3๊ฐ์ ํด๋ฌ์คํฐ์ ํ ๋น๋ ๊ฒ์ด๋ค.
์กฐ๊ธ ๋ ์์ธํ ์์๋ก ๋ค์๊ณผ ๊ฐ์ ๋ฐ์ดํฐ์ ์ผ๋ก๋ถํฐ ์ธ์ ๊ทธ๋ํ๋ฅผ ์์ฑํ๊ณ , ์ธ์ ํ๋ ฌ๋ก ์ ์๋ ๋ผํ๋ผ์์ ํ๋ ฌ์ด ๋ค์๊ณผ ๊ฐ๋ค๊ณ ํ๋ค.
์์ ๋ผํ๋ผ์์ ํ๋ ฌ์ ๊ณ ์ ๊ฐ๊ณผ ๊ณ ์ ๋ฒกํฐ๋ฅผ ๊ตฌํ๋ฉด ๋ค์๊ณผ ๊ฐ์ด ๋์ค๋๋ฐ,
์ด ๋ ๊ณ ์ ๊ฐ์ด 0์ธ ์ฒซ 3๊ฐ์ ๊ณ ์ ๋ฒกํฐ๋ก ํด๋ฌ์คํฐ๋ง์ ์งํํ๊ฒ ๋๋ฉด ์์ ๊ทธ๋ํ์ ์ ์ฌํ๊ฒ ์ฌ๋ฐ๋ฅธ ํด๋ฌ์คํฐ๋ง ๊ฒฐ๊ณผ๊ฐ ๋์ฌ ๊ฒ์์ ์์ํ ์ ์๋ค.(๊ณ ์ ๋ฒกํฐ ํ๋ ฌ์์ ์ง์๋ฒกํฐ๋ค์ ๊ฐ์ด 1์ด ์๋ ์ด์ ๋ ํ์ด์ฌ์์ numpy๋ก ๊ณ ์ ๋ฒกํฐ๋ฅผ ๊ณ์ฐํ ๋ ์ด๋ณ๋ก ์ ๊ทํ๋ฅผ ํ์ฌ ๋์ค๊ธฐ ๋๋ฌธ์...๊ทธ๋ฅ ์ฐ์ฐํ๋ฉด ๊ณ ์ ๊ฐ์ด 0์ธ ๊ณ ์ ๋ฒกํฐ๋ค์ ๋ชจ๋ 0๊ณผ 1๋ก ์ด๋ฃจ์ด์ง ์ง์๋ฒกํฐ์ ์ฑํฅ์ ๋ ๋ ๊ฒ์ด ๋ง๋ค..ใ ใ )
5.3 Approximating Ncut
RatioCut๊ณผ ์ ์ฌํ๊ฒ ์๋ํ๋, ๊ทธ๋ํ์์์ ์ธ์ ๋ ธ๋ ์๋ก ์ฐ์ฐํ๋ ๊ฒ์ด ์๋ ๊ฐ์ค์น๋ก ์ฐ์ฐํ๋ ์ ์ด ๋ค๋ฅด๋ค.
$k=2$์์, ๋งคํํจ์ $f$๋ ๋ค์๊ณผ ๊ฐ์ด ์ ์ํ๋ค.
$$f_i=\begin{cases} \sqrt{\frac{vol(\bar{A})}{vol(A)}} \quad if\, v_i \in A\\ -\sqrt{\frac{vol(A)}{vol(\bar{A})}} \quad if \, v_i \in \bar{A}\end{cases}$$
Ncut ์ต์ํ๋ $min_A f'Lf$์ ๋์ผํ ๋ฌธ์ ์ด๋ค.
์ฌ๊ธฐ์ $f$๋ $L_{rw}$์ ๋ ๋ฒ์งธ ๊ณ ์ ๋ฒกํฐ์ด๊ณ , $g:=D^{1/2}f$๋ผ๊ณ ์ ์ํ ๋, $g$๋ $L_{sym}$์ ๋ ๋ฒ์งธ ๊ณ ์ ๋ฒกํฐ์ด๋ค.
$k>2$์์ ์ง์๋ฒกํฐ $h_{i,j}$๋ ๋ค์๊ณผ ๊ฐ์ด ์ ์ํ๋ค.
$$h_{i,j}=\begin{cases} \frac{1}{\sqrt{vol(A_j)}} \quad if\, v_i \in A_j \\0 \quad otherwise\end{cases}$$
$H$๋ $k$๊ฐ์ ์ง์๋ฒกํฐ๋ฅผ ์ด๋ฒกํฐ๋ก ๊ฐ๋ ํ๋ ฌ์ด๊ณ ,
$min_{A_1,...,A_k} \textrm{Tr}(H'LH)$๋ $min_{T\in \mathbb{R}^{n \times k}} \textrm{Tr}(T'D^{-1/2}LD^{-1/2}T), T=D^{1/2}H$๋ก ๊ทผ์ฌํ์ฌ ํด๊ฒฐํ ์ ์๋ค.
$L_{sym}$์ ๊ณ ์ ๋ฒกํฐ $k$๊ฐ๋ก ๊ตฌ์ฑ๋ ํ๋ ฌ $T$์ ์ํด ๋๊ฐํฉ์ ์ต์ํํ ์ ์๊ณ , $H=D^{-1/2}T$๋ก ๋์ฒดํ์ฌ $L_{rw}$์์์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ์ ์๋ค.
5.4 Comments on the relaxation approach
๋น์ฐํ ์๊ธฐ์ง๋ง, ์ด๋ ๊ฒ ๊ทผ์ฌํ๋ ๋ฐฉ๋ฒ์ด ์ ํํ solution์ด๋ผ๋ ๋ณด์ฅ์ ์๋ค. ์ค์ RatioCut์ ์ ๋ต์ด $A_1, A_2,...,A_k$์ด๊ณ , ํด๋ฌ์คํฐ๋ง์ ๊ฒฐ๊ณผ๊ฐ $B_1,B_2,...,B_k$๋ผ๊ณ ๊ฐ์ ํ์ ๋, $RatioCut(B_1,B_2,...B_k)-RatioCut(A_1,A_2,...,A_k)$์ ํด ์๋ ์๋ค๋ ์๋ฏธ์ด๋ค. ๊ทธ๋ ๋ค๋ฉด ์ ๊ทผ์ฌํ์ฌ ํธ๋ ๊ฒ์ผ๊น?
ํ๊ธฐ ๊ฐ๋จํ ํ์ค์ ์ธ ์ ํ๋์ ๋ฌธ์ ๋ก ํด๊ฒฐํ ์ ์๊ธฐ ๋๋ฌธ์ ์ด๋ฌํ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๋ค.
'machine learning' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding - BERT ๋ฐ๋ฅ๊น์ง ์ดํดํ๊ธฐ (1) | 2025.02.24 |
---|