๋ ผ๋ฌธ
1๏ธโฃ Abstract
โ ๋ฌธ์ ์ ์ ์
• graph clustering ์์ "๋น์ง๋ํ์ต" ์ ๊ดํ ๋ฐ์ ์ด ๋๋๊ฒ ์ด๋ฃจ์ด์ง๊ณ ์๋ค.
• graph clustering ๊ธฐ๋ฒ์ด ๋ฎ์ ์ฑ๋ฅ์ ๋ณด์ธ๋ค.
โก ํด๊ฒฐ ๋ฐฉ์
• DMoN : Deep Modularity Networks : ๋น์ง๋ ํ๋ง ํ์ต ๋ฐฉ๋ฒ
โธ graph pooling : https://greeksharifa.github.io/machine_learning/2021/09/09/GraphPooling/
โช ๋ ธ๋ ์๋ฒ ๋ฉ๋ค๋ก๋ถํฐ ๊ทธ๋ํ ์๋ฒ ๋ฉ์ ์ป๋ ๊ณผ์ ์ ์๋ฏธํ๋ค. ๊ฐ๋จํ๊ฒ ๋งํ์๋ฉด, full graph, ์ฆ ์ ์ฒด ๊ทธ๋ํ์์ ํฌ๊ธฐ์ ๋ฐ๋๋ฅผ ์ค์ฌ subgraph ๋ฅผ ์์ฑํ๋ ๊ณผ์ ์ผ๋ก ์๊ฐํด๋ณผ ์ ์๋ค. ์ด๋ subgraph ๋ ์ผ๋ฐ์ ์ผ๋ก ์ ์ฒด ๊ทธ๋ํ์์ ์ผ๋ถ๋ถ์ ๋ปํจ๊ณผ ํท๊ฐ๋ฆฌ์ง ์์์ผ ํ๋ค.
โธ Modularity Clustering : ๊ทธ๋ํ๋ฅผ ๊ณ์ธต์ ์ผ๋ก ํด๋ฌ์คํฐ๋งํ๋ ๋ฐฉ๋ฒ์ผ๋ก, ํด๋์คํฐ ๋ด๋ถ์ ๋งํฌ์ ๊ทธ ๋งํฌ๋ค๊ฐ์ ๋ฐ์ง๋๋ฅผ ๊ธฐ๋ฐ์ผ๋ก modularity ๋ฅผ ๊ณ์ฐํด ๊ฐ์ฅ ๋์ modularity ๋ฅผ ๊ฐ๋ ํด๋ฌ์คํฐ๋ค๋ก ๊ตฌ์ฑํ๊ธฐ ์ํด ์ฌ์ฉ๋๋ ๋ฐฉ๋ฒ
โช modularity : measures the strength of division of a network into modules (also called groups, clusters or communities). Networks with high modularity have dense connections between the nodes within modules but sparse connections between nodes in different modules.
2๏ธโฃ Introduction
โ Cluster in Graph
• ๊ทธ๋ํ๋ cluster (= communities = modules) ๋ค์ ํ์ฑํ๋ฉฐ ์ง์ญ์ ์ผ๋ก ๋น๋์ง์ (inhomogeneous) edge ๋ถํฌ๋ฅผ ๋ณด์ธ๋ค.
• cluster ๋ ๋์ edge (link) ๋ฐ์ง๋๋ฅผ ๋ณด์ด๋ ๋ ธ๋๋ค์ ์งํฉ์ ์๋ฏธํ๋ค.
• cluster ๋ฅผ ์ ์ํจ์ผ๋ก์จ ๊ต์ก์ด๋ ๊ณ ์ฉ ๋ถ์ผ์ ๊ฐ์ social graph ์์ ํฅ๋ฏธ๋ก์ด ํ์๋ค์ ๋ฐ๊ฒฌํด๋ผ ์ ์๋ค.
โก Problem of Recent works about GNNs (in Clustering)
• ๊ณ ์ฐจ์ ๊ตฌ์กฐ๋ฅผ ํ์ฉํ๋ GNN ์ ๋๋ถ๋ถ์ ๊ดํ ์ฐ๊ตฌ๋ node partitioning ์ด๋ clustering ์ ์ง์ ์ ์ผ๋ก ๊ด์ฌํ๋ ๊ฒฝ์ฐ๊ฐ ๋๋ฌผ๋ค. ํนํ ๋น์ง๋ํ์ต์ ๊ทธ๋ํ ํด๋ฌ์คํฐ๋ง ๋ฐฉ๋ฒ์ ์ ์ธํ๊ณ semi-supservised ํน์ supervised ํ๋ ์์ํฌ๋ง์ ๋ค๋ฃจ๋ ์ฌ๋ก๊ฐ ๋ง๋ค.
โป semi-supervised learning : ์๋์ labeled data์๋ supervised learning์ ์ ์ฉํ๊ณ ๋์ฉ๋ unlabeled data์๋ unsupervised learning์ ์ ์ฉํด ์ถ๊ฐ์ ์ธ ์ฑ๋ฅํฅ์์ ๋ชฉํ๋ก ํ๋ ๋ฐฉ๋ฒ๋ก . unlabeled data ๋ฅผ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ generalization ์ ์ ๋ฆฌํ๋ค.
• ํ์กดํ๋ ๋น์ง๋ํ์ต ์๊ณ ๋ฆฌ์ฆ ๋๋ถ๋ถ์ multi-step optimization ๋ฐฉ์์ ์์กดํ๊ณ ์์ผ๋ฉฐ, ์ข ๋จ์ ๋ฏธ๋ถ๊ฐ๋ฅํ ๋ชฉ์ ํจ์ (end-to-end differentiable objective) ๋ฅผ ์ฌ์ฉํ์ง ์๋๋ค๋ ๋ฌธ์ ์ ์ด ์๋ค.
โข Solution
• Conntection between Graph Pooling ( supervised GNN ) and fully unsupervised Clustering ๐ DMoN
โช GNN ์ ํ์ฉํ ๋น์ง๋ํ์ต ํด๋ฌ์คํฐ๋ง ๋ชจ๋์ธ DMoN ์ ํด๋ฌ์คํฐ๋ง ๊ณผ์ ์์ ์ข ๋จ์ ๋ฏธ๋ถ๊ฐ๋ฅํ ๋ฐฉ์์ผ๋ก ์ต์ ํ ๋ฐฉ์์ ์ฌ์ฉํ ์ ์๋๋ก ํ๋ค.
3๏ธโฃ Related Works
โ GNNs
• allow end-to-end differentable losses over data with arbiturary structure
• applications : social networks, recommender systems, computational chemistry
• GNN ์ ๋น์ง๋ํ์ต์ ์์คํจ์๋ฅผ ์ฌ์ฉํด๋ ๋ ๋งํผ ์ ์ฐํ ๋คํธ์ํฌ์ ํด๋นํ์ง๋ง, node classification ๋ฑ์ ๋๋ถ๋ถ์ ์ฐ๊ตฌ๋ semi-supervised ํ๊ฒฝ์์ task ๋ค์ ๋ค๋ฃจ๊ณ ์๋ค.
โก Unsupervised training of GNNs
• GNN ์ ๋น์ง๋ํ์ต์ ๋ณดํต mutual information ์ ์ต๋ํ ํ๋ ๋ฐฉํฅ์ผ๋ก ํ์ต๋๋ค.
โป mutual information : ํ๋์ random variable ์ด ๋ค๋ฅธ random variable ์ ์ผ๋ง๋ dependent ํ์ง๋ฅผ ๋ํ๋ด๋ ์งํ๋ก P(X,Y) ๊ฐ P(X)P(Y) ์ ์ผ๋ง๋ ๋น์ทํ์ง๋ฅผ ์ธก์ ํ๋ค. independent ๊ด๊ณ๋ผ๋ฉด ๋ ๊ฐ์ด ๊ฐ์ผ๋ฉฐ MI ๊ฐ์ 0์ด ๋๋ค.
• ๊ด๋ จ ์ฐ๊ตฌ : Deep Graph Informax(2019), InfoGraph (2020)
โข Graph Pooling
• Graph Pooling ์ ๋ฐ๋ณต์ ์ธ data coarsening (๋ฒ์ฃผ๋ฅผ ๊ฐ๋จํ ์ํค๋ ๊ฒ์ฒ๋ผ ๋ฐ์ดํฐ๋ฅผ ํจ์ถ์ํค๋ ๊ฒ์ด๋ผ ์๊ฐํ๋ฉด ๋จ) ์ ํตํด ๊ทธ๋ํ์ ๊ณ์ธต์ ํน์ง์ ๋ฐ๊ฒฌํด๋ด๋ ๊ฒ์ด ๋ชฉํ
• ์ด๊ธฐ์ ๊ตฌ์กฐ๋ ํด๋ฌ์คํฐ๋ง ์ต์ ํ ๊ณผ์ ์ด ์๋ ๊ณ ์ ๋ axiomatic pooling ๋ฐฉ์์ ์์กดํ๋ค๊ฐ DiffPool (2018) ์ ์ ์ํ ๋ ผ๋ฌธ์์ ์ฒ์์ผ๋ก GNN ๊ตฌ์กฐ์์ ํ์ต๊ฐ๋ฅํ ํ๋ง์ ์ ์ํ ๋ฐ๊ฐ ์๋ค.
• MinCutPool (2020) ์ ์ ์ํ ์ฐ๊ตฌ์์๋ ํ๋ง ์ ๋ต์ผ๋ก์ spectral clustering ์ ๋ฏธ๋ถ๊ฐ๋ฅํ ๊ณต์์ ๋ํด ์๊ฐํ ๋ฐ๊ฐ ์๋ค. MinCutPool ์ ๋ณต์กํ ๊ทธ๋ํ์์ ์ฃผ์ํ ๋ ธ๋๋ฅผ ์ถ์ถํ๊ณ ์ ํ ์ฌ๋ฌ ์๋๋ค ์ค ํ๋๋ก eigenvector ๋ฅผ ํ์ฉํด์ผํ๋ spectral clustering ์ ๋จ์ ์ ํด์ํ๋ฉด์ node feature ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํด๋ฌ์คํฐ๋ง์ ํ๋ ๋ฐฉ๋ฒ๋ก ์ ์ ์ํ๋ค.
โป Spectral clustering : ๊ทธ๋ํ ๊ธฐ๋ฐ์ ํด๋ฌ์คํฐ๋ง ๊ธฐ๋ฒ์ผ๋ก, k-means clustering ๊ณผ ๊ฐ์ด ๋ฐ์ดํฐ ๊ฐ์ ๊ฑฐ๋ฆฌ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๊ตฐ์งํ๋ฅผ ์งํํ๋ ๊ฒ์ด ์๋๋ผ, ๊ฐ ๋ ธ๋๋ณ๋ก ์ฐ๊ฒฐ์ด ๋์ด์๋์ง, ์ฐ๊ฒฐ๋์ด ์๋ค๋ฉด ์ผ๋ง๋งํผ์ ๊ฐ๋๋ก ์ฐ๊ฒฐ๋์ด ์๋์ง๋ฅผ ์ค์ฌ์ผ๋ก ๊ตฐ์งํ๋ฅผ ์งํํ๋ ์๊ณ ๋ฆฌ์ฆ์ ํด๋นํ๋ค.
๐ ์ฐธ๊ณ : https://velog.io/@tobigs-gnn1213/5.-Spectral-Clustering#1-spectral-clustering-algorithms
๐ ์ฐธ๊ณ : https://seungwooham.github.io/machine%20learning/MinCutPool1/
๐ก Graph pooling ์ ๊ดํ properties
End-to-End training | ์ข ๋จํ์ต์ ๊ทธ๋ํ ๊ตฌ์กฐ์ ๋ ธ๋ ํน์ฑ์ ๋์์ ํฌ์ฐฉํ ์ ์๋๋ก ํ๋ค. |
Unsupervised | ๋น์ง๋ํ์ต์ ํด๋ฌ์คํฐ๋ง ๋ชจ๋ธ๋ง์ ์์ด desirable ํ ํ์ต๋ฐฉ๋ฒ์ด๋ค. |
Node aggregation | ํด๋ฌ์คํฐ๋ง์์ graph pooling ์ ํด์ํ๋๋ฐ ์์ด ์ค์ํ ๋ถ๋ถ์ด๋ค. |
Sparse | ์ค์ ๊ทธ๋ํ ๋ฐ์ดํฐ๋ size ๋ ๋ค์ํ๋ฉฐ sprsity ๊ฐ ์กด์ฌํ๋ค. |
Soft aassignment | cluster ๋ฅผ ๊ฒฐ์ ํ๋ ๊ฒ์ ์์ด soft ํ ๋ฐฉ์์ ๋์ ํ๋ฉด ํด๋ฌ์คํฐ ๊ฐ ์ํธ์์ฉ์ ํด์ํ๋๋ฐ์๋ ์ ์ฐํ ์ถ๋ก ์ ๊ฐ๋ฅํ๊ฒ ํ๋ค. |
Stable | ๊ทธ๋ํ ๊ตฌ์กฐ์ ๊ดํ์ฌ, ํด๋ฌ์คํฐ๋ง์ ์งํํ ๋ ์ฌ์ฉํ๋ ํจ์๋ stable ํด์ผ ํ๋ค. |
โป DMoN ์ subsampling ๋ก ์ธํ ์ ๋ณด์ ์์ค ์์ด, Graph scalability ์ธก๋ฉด์์ ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ์ ์ ์งํ๋ค.
4๏ธโฃ Preliminaries
โ Notation
• V : set of nodes
• E : set of edges
• A : nxn adjacency matrix of G
• di : degree of vi
• F : graph partitioning function → V ๋ฅผ k ๊ฐ์ ์ง๋จ์ผ๋ก ๋ถํ ํ๋ ํจ์ (for data clustering)
• X : node attributes
โก Graph Clustering Quality Functions
• DMoN ์ spectral ์ ๊ทผ์ ์ฌ์ฉํด gradient ๊ธฐ๋ฐ์ ์ต์ ํ ๋ฐฉ์์ ์ ํฉํ ๋ชฉ์ ํจ์๋ฅผ ์ฌ์ฉํ๋ค.
• spectral Clustering : Graph adjacency matrix ์ eigenvalue, eigenvector ๋ฅผ ์ฌ์ฉํด ํด๋ฌ์คํฐ๋ง์ ์งํํ๋ ๋ฐฉ์
(1) Cut based metrics
๐ ์ฐธ๊ณ : https://techblog-history-younghunjo1.tistory.com/93
๐ ๋ ๊ทธ๋ฃน์ผ๋ก ๋๋๋ (Cut) ๋ฐฉ์ 2๊ฐ์ง
• cut minimal (minimum cut) : ์ฃผ์ด์ง ๋ฐ์ดํฐ๋ค ์ฌ์ด์ ์ ์ฌ๋ ๊ฐ๋ค ์ค ๊ฐ์ฅ ์์ ๊ฐ์ผ๋ก ๊ฐ๊ฐ ํด๋ฌ์คํฐ๋ก ๋๋๋ค. ์ฒซ๋ฒ์งธ ๊ณ ์ ๊ฐ์ ๋ณดํต ๋ฌด์๋ฏธํ ํด์ด๊ธฐ ๋๋ฌธ์ ๋๋ฒ์งธ ๊ณ ์ณ๊ฐ๋ถํฐ ์ฌ์ฉํ๋ค. (second eigenvector ๋ฅผ ์ฌ์ฉํ๋ ๊ฒ๊ณผ ๋น์ทํ ๋งฅ๋ฝ)
• ratio cut (normalized cut) : minimal cut ๋ฐฉ๋ฒ์ ๊ฐ์ค์น ๊ฐ์ด ์์ ์ฃ์ง๊ฐ ํด๋ฌ์คํฐ ๋ด๋ถ์ ์กด์ฌํ๊ฒ ๋๋ค๋ฉด ๋ถ๋ฅ๊ฐ ์๋ชป ์ด๋ฃจ์ด์ง๋ค๋ ๋จ์ ์ด ์๋ค. ๋ฐ๋ผ์ ๊ฐ partition ์ total edge volume ์ ์ด์ฉํด normalized cut ๋ฐฉ์์ ๋์ ํ๋ค. ๋ณด๋ค ๊ท ํ์ ์ธ partition ์ ์ํด MinCutPool ์๊ณ ๋ฆฌ์ฆ์์๋ normalized cut ๋ฐฉ์์ ๋์ ํ๋ค.
(2) Modularity
• Modularity ๋ชฉ์ ํจ์๋ "ํต๊ณํ์ " ๊ด์ ์ผ๋ก ํด๋ฌ์คํฐ๋ง ๋ฌธ์ ๋ฅผ ์ ๊ทผํ๋ ๋ฐฉ๋ฒ์ผ๋ก, ๋คํธ์ํฌ๊ฐ community ๋ก ์ผ๋ง๋ ์ ๋๋์ด์ก๋๊ฐ์ ๋ํ ์์น๋ฅผ ๋ํ๋ธ๋ค. ๋๋คํ ๊ทธ๋ํ๋ฅผ ํตํด ์ป์ด์ง expectation ๊ฐ์ ๊ธฐ๋ฐ์ผ๋ก ์์น๋ฅผ ๊ณ์ฐํ๋ null model ์ ๋์ ํ์ฌ ํด๋ฌ์คํฐ๋ง์ ํธ์ฐจ๋ฅผ ์๋ํ ํ๋ค.
๐น Modularity measure
โช Fully Random Graph with given degrees, node u and v with degrees d(u) and d(v) are connected with probability d(u)โฆd(v)/2m
โช n is # of nodes and m is # of edges
Undirected Graph ๋ผ๊ณ ๊ฐ์ ํ์ ๋, ๋ชจ๋ ์ฃ์ง๋ 2๋ฒ์ฉ ์ธ์ด์ง ์ ์๊ณ , ๋ฐ๋ผ์ ์ด๋์ d(v)/2m ์ ํน์ ๋ ธ๋๊ฐ ๋ ธ๋ v ์ ์ฐ๊ฒฐ๋ ํ๋ฅ ๋ก ๋ณผ ์ ์์ผ๋ฉฐ (๊ฐ๋ฅํ ์ ์ฒด ์ฃ์ง์ ๊ฐ์ ๋ถ์ v ์ ์ฐ๊ฒฐ๋ ์ฃ์ง์ ๊ฐ์), multi-graph (๋ ๋ ธ๋ ์ฌ์ด์ ์ฃ์ง์ ๊ฐ์๊ฐ ์ฌ๋ฌ ๊ฐ ํ์ฑ๋ ์ ์๋ ๊ทธ๋ํ) ์ด๋ฏ๋ก ๋ ธ๋ u ์ ์ฐจ์๋ฅผ ๊ณฑํด์ฃผ๋ฉด ๋ ธ๋ u ์ v ์ฌ์ด์ ๊ธฐ๋ํ ์ ์๋ ์ฃ์ง์ ๊ฐ์๊ฐ ๋์ถ๋๋ ๊ฒ์ด๋ค.
Modularity ๋ ์ค์ ๋ ๋ ธ๋ ์ฌ์ด์ ์ฃ์ง ๊ฐ์๋ฅผ ์๋ฏธํ๋ Aij ์ ๊ทธ ๊ธฐ๋๊ฐ์ ์ฐจ์ด๋ฅผ ๊ณ์ฐํจ์ผ๋ก์จ ๊ฒฐ๊ณผ๊ฐ ์ป์ด์ง๋ฉฐ, Normalizing ์ ์ํด 2m ์ ๋๋์ด์ค์ผ๋ก์จ -1๊ณผ 1์ฌ์ด์ ๊ฐ์ ๊ฐ๊ฒ ๋๋ค. ์ด๋ ๊ฐ์ด ์์๋ฅผ ๊ฐ์ง๋ฉด, Aij < didj/2m ์ผ๋ก ์ฐ๊ฒฐ๋ ๊ฒ์ผ๋ก ๊ธฐ๋ํ ์ฃ์ง ๊ฐฏ์๋ณด๋ค ์ค์ ์ฐ๊ฒฐ๋ ๊ฒฝ์ฐ๊ฐ ๋ ์์ ๊ฒ์ผ๋ก ๋ ธ๋ u์ v ๊ฐ ์ํ cluster ๋ week group ์ด๋ผ ๋ณผ ์ ์๋ค. ๋ฐ๋ฉด 1์ ๊ฐ๊น์ด ์์๊ฐ์ ๊ฐ์ง๋ค๋ฉด, ํ๊ท ์ ์ธ ์ฐ๊ฒฐ๋ณด๋ค ๋ ๋ง์ ์ฃ์ง์ ์ฐ๊ฒฐ์ด ์ด๋ฃจ์ด์ง ๊ฒ์ด๊ธฐ์ ํด๋น cluster ๋ strong group ์ด๋ผ ํด์ํด๋ณผ ์ ์๋ค.
• Modularity metric ์ graph clustering metric ์ผ๋ก ๊ฐ์ฅ ์์ฃผ ์ ์ฉํ๊ฒ ์ฌ์ฉ๋๋ ์งํ์ ํด๋นํ๋ค.
โข Spectral Modularity Maximization
Modularity ๋ฅผ ์ต๋ํ ํ๋ ๊ฒ์, ๊ทธ๋ํ ๋ด์ ์ฃ์ง๋ฅผ ์ ๋ถ ๋น๊ตํด์ผ ํ๊ธฐ ๋๋ฌธ์ ๋คํญ์๊ฐ ๋ด์ ํ ์ ์๋ NP-hard ๋ฌธ์ ๋ฅผ ๊ฐ์ง๊ฒ ๋๋ค. ๋ฐ๋ผ์ ํจ์จ์ ์ผ๋ก ๊ณ์ฐํ๊ธฐ ์ํด eigenvector ๋ฅผ ํตํด ๋ถํ ํ๋ ๋ฐฉ๋ฒ์ธ Spectral modularity ๋ฐฉ๋ฒ์ ๊ณ ์ํ๊ฒ ๋๋ค.
โธ C : cluster assignment matrix (nxk) , k is # of clusters
โธ d : degree vector
โธ B : modularity matrix, B = A - dd' / 2m , A is adjacency matrix
Modularity ๋ฅผ ์ต๋ํ ํ๋ฉด์ Optimal ํ C ๋ modularity matrix B ์ Top-k eigenvector ์ด๋ค.
โป eigenvalue, eigenvector
5๏ธโฃ Method
โ DMoN : Deep Modularity Networks
• attributed graph clustering with GNN
โช Propse fully differentiable unsupervised clustering objective which optimize soft cluster assignments
โช Propse collapse regularization method
• DMoN architecture ์ ํต์ฌ์์ 2๊ฐ์ง
(1) cluster assignments C ๋ฅผ encode ํ๋ ๊ฒ
์ํํธ๋งฅ์ค ํจ์๋ฅผ ํต๊ณผ์์ผ ์ธ์ฝ๋ฉ ํจ์ผ๋ก์จ ๋ฏธ๋ถ ๊ฐ๋ฅํ๊ฒ ๋ง๋ ๋ค. soft ํ ๋ฐฉ์์ ํด๋ฌ์คํฐ ํ ๋น์ ์ํด Graph Convolutional Network ๋ฅผ ์ฌ์ฉํ๋ค. A' ๋ normalized adjacency matrix (์ ๊ทํ๋ ์ธ์ ํ๋ ฌ) ๋ฅผ ์๋ฏธํ๋ฉฐ X ๋ node attributes (node features) ๋ฅผ ์๋ฏธํ๋ค. (n x s). D ๋ A ์ degree matrix ๋ฅผ ์๋ฏธํ๋ค.
(2) C ๋ฅผ ์ต์ ํํ๋ objective function
→ ( spectral modularity maximization + collapse reularization ) ์ด๋ ์ ์นํ ๋ถ๋ถ์ ์ถ๊ฐํ ์ด์ ๋ ์ต์ ํ ๋๋ฌธ!
โธ B : modularity matrix (nxn), C : cluster assignment matrix (nxk), A : adjacency matrix (nxn)
โธ Frobenius norm (Uclidean norm) ๋ฐฉ์์ผ๋ก L2 norm ์ ์นํ์ ๋น์ทํ ํํ๋ฅผ ๋๋ค.
โธ Tr( ) ์์์ ํ๋ ฌ A ์ ๋๊ฐ ์์๋ค์ ๋ชจ๋ ๋ํ๋ ์ฐ์ฐ์ ์๋ฏธํ๋ค.
โก Collapse Regularization
• spectral clustering ์ ๋จ์ ์ ๊ทน๋ณตํด์ ๋์จ ๊ทธ๋ํ ํด๋ฌ์คํฐ๋ง ๊ธฐ๋ฒ์ด MinCutPool
MinCutPool ์ objective function ์ ๋ ๊ฐ์ง ์์คํจ์๋ก ์ด๋ฃจ์ด์ ธ ์๋๋ฐ, ์ฒซ๋ฒ์งธ๋ Cut loss Lc ์ด๊ณ ๋๋ฒ์งธ๋ Orthogonality loss Lo ์ด๋ค. Lc ์ ์์์ 'cluster ๋ด๋ถ์ ์ฐ๊ฒฐ์ฑ' / 'graph ์ ์ฒด์ ์ฐ๊ฒฐ์ฑ' ์ผ๋ก ๊ทธ๋ํ ์ ์ฒด์ ์ฐ๊ฒฐ์ฑ๊ณผ ๋น๊ตํด ํด๋น ํด๋ฌ์คํฐ ๋ด๋ถ๊ฐ ์ผ๋ง๋ ๊ฐํ๊ฒ ์ฐ๊ฒฐ๋์ด ์๋์ง ์๋ ค์ค๋ค. ๊ฐํ๊ฒ ์ฐ๊ฒฐ๋์ด์๋ ๋ ธ๋๋ค์ด ์๋ก ํจ๊ป cluster ๊ฐ ๋๋๋ก ํ๋ค. Cut loss ๋ง ๊ณ ๋ คํ๊ฒ ๋๋ค๋ฉด node feature ๋ฅผ uniform ํ๊ฒ ๋ง๋ค์ด local minima ์ ๋น ์ง ์ํ์ด ๋์์ง๋ค. ๋ฐ๋ผ์ Lo ๋ฅผ ๋์ ํ๋๋ฐ, ์ด๋ฅผํตํด ํด๋ฌ์คํฐ ํ ๋น์ด orthogonal ํ๋๋ก ํ์ฌ ๋ชจ๋ ๋ ธ๋๊ฐ ๋ชจ๋ ํด๋ฌ์คํฐ์ ๊ฐ์ ์ ๋๋ก ์ํ๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ณ , ํด๋ฌ์คํฐ์ ํฌ๊ธฐ๊ฐ ๋น์ทํ๋๋ก ์ ๋ํ๋ค.
๋ณธ ๋ ผ๋ฌธ์์๋ MinCutPool ์ soft-orthogonality regularization ์ด softmax class assignment ์ ๊ฒฐํฉ๋์์ ๋, C ๊ฐ์ ๋ฒ์ฃผ๋ฅผ ์์ ํ ์ ํํ์ฌ loss ๋ฅผ ์ฆ๊ฐ์ํค๋ ๋ฌธ์ ๋ฅผ ์ ๊ธฐํ๋ค.
CORA dataset (๋ ผ๋ฌธ DB) ์ ๋ํด 200 epoch ์ training ์ ์งํํ์์ ๋, Orthogonality regularization term ์ด MinCutPool ์ ์ต์ ํ๋ฅผ ์ข์ฐํ์ฌ objective function ์ด ์ ๋๋ก ๋์ํ์ง ๋ชปํ๊ณ ์์์ ๋ณด์ฌ์ค๋ค.
ํด๋ฌ์คํฐ๋ง ๊ณผ์ ์์ MinCutPool objective function (joint optimization) ์ ์ฌ์ฉํ์ ๋์ ๋จ์ํ feature orthogonalization ์ ํ์ ๋๋ฅผ ๋น๊ตํ ๊ฒฐ๊ณผ์ด๋ค. 5๊ฐ์ dataset ์์ 3๊ฐ์ ๊ฒฝ์ฐ๊ฐ orthogonality ๋ง์ ์ฌ์ฉํ์ ๋ label correlation ์ด ๋ ์ข์๋ค. ์ด์ฒ๋ผ Regularization term ์ ์์นซํ๋ค ์ฑ๋ฅ์ ์ข์ฐํ ์ ์์์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค.
๋ฐ๋ผ์ DMoN ์ MinCutPool ์ Lc + Lo joint optimization ๋ฐฉ์์ด ์๋, collapse regularization ๋ฐฉ๋ฒ์ ๋์ ํด, Regularization ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ณ ์ ํ๋ค. ์ด๋ฅผํตํด ๋ชฉ์ ํจ์์ ์ต์ ํ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์งํ์ํฌ ์ ์๋๋ก ํ๋ค.
โข Theoretical insights
• ์ ์ํ objective function ์ ํ๋น์ฑ์ ์ ์ฆํ๊ธฐ ์ํด, ํนํ ์๋กญ๊ฒ ์ ์ํ๋ 'collapse regularization' ๋ฐฉ์์ ๋ํ ์ค๋ช ์ ์ํด ์ ๋ฆฌํ ์ด๋ก ๊ณผ ์ฆ๋ช ์ ์ ์ํ๋ค.
(1) ์ฒซ๋ฒ์งธ ์ด๋ก
โจ cluster assignments matrix C ๊ฐ positive modularity ๋ฅผ ๊ฐ์ง๋ค๋ฉด, objective score L(DMoN) ์ ๊ฐ์ด ๋ ์์์ง ๊ฒ์ด๋ค. (smaller loss)
(2) ๋๋ฒ์งธ ์ด๋ก (๊ทธ๋ํ ํด๋ฌ์คํฐ๋ง ์๊ณ ๋ฆฌ์ฆ์ ์ผ๊ด์ฑ consistency ์ ๊ดํ ๋ด์ฉ์ ์๊ฐ)
โช λn : average degree of the network (n ํ๊ธฐ๋ ํน์ ๋ ธ๋๋ฅผ ์๋ฏธํจ)
clustering ์๊ณ ๋ฆฌ์ฆ์ด consistent ํ๋ค๋ ๊ฒ์ error rate ์ vanishing ํ๊ฒ ๋ง๋ ๋ค๋ ๋ป์ด๋ฉฐ, compatiable ํธํ ๊ฐ๋ฅํ ๋ชฉ์ ํจ์๋ ์ด๋ฌํ ์ผ๊ด์ฑ์ ํน์ง์ ๊ฐ์ง๊ณ ์๋ค. DMoN ์ collapse constraints part ๋ฅผ ๋์ ํ๋๋ผ๋ ์ผ๊ด์ ์ธ prediction ์ฑ๋ฅ์ ์ ์งํ๋ค.
6๏ธโฃ Experiments
๐ ์ฝ๋ : https://github.com/google-research/google-research/tree/master/graph_embedding/dmon
synthetic data (์ธ์์ ์ผ๋ก ์์ฑํ ๋ฐ์ดํฐ) ์ real-world data ๋ฐ์ดํฐ์ ์ ํ์ฉํด ์คํ์ ์งํํ์์ผ๋ฉฐ, ํ๊ฐ์งํ๋ก๋ graph clustering ์ ๊ดํ ์งํ์ label alignment ์ ๊ด๋ จํ ์งํ๋ฅผ ์ฌ์ฉํ์๋ค.
๐น Datasets
โข Synthetic data
โข Real datasets
• |X| : node feature , |Y| : labels
• Cora, Citeseer, Pubmed → Citation network
๋ ธ๋ | ์ฃ์ง | features | labels |
papars | citation | bag of words of abstracts | papaer topics |
• Amazon PC, Photo → subsets of Amazon co-purchase graph for the pc and photo sections of the web
๋ ธ๋ | ์ฃ์ง | features | labels |
goods | frequently purchased together | bag of words of reviews | product catecory |
• Coauthor CS, Coauthor Phys, Coauthor Med, Coauthor Chem, and Coauthor Eng → co-authorship networks
๋ ธ๋ | ์ฃ์ง | features | labels |
authors | co-authored | collection of paper keywords | most common fields of study |
๐น Baselines
๊ทธ๋ํ ๊ตฌ์กฐ ํน์ ๋ ธ๋ ์์ฑ์ ๋ํ ์ ๋ณด๋ฅผ ์ด์ฉํ์ฌ ํด๋ฌ์คํฐ๋ง์ ํ ์ ์๋ baseline model ์ ์ฌ์ฉํจ
โป SBM : ํน์ ๋ ธ๋๋ผ๋ฆฌ community structure ์ ๊ฐ์ง๋ ๊ทธ๋ํ๋ฅผ ๋ง๋ค ์ ์๋ generative model
๊ฐ ๋ฒ ์ด์ค๋ผ์ธ ๋ชจ๋ธ์ ๋ํ์ฌ, ๊ธฐ๋ณธ์ ์ธ GNN ๋ชจ๋ธ๊ตฌ์กฐ๋ one hidden layer with 512 neurons for real world datasets and 64 neurons for synthetic datasets ๋ก ๊ณ ์ ํ๊ณ ์ต๋ 16๊ฐ์ cluster ๋ก ํ ๋นํ ์ ์๋๋ก setting ์ ์งํํ ๋ค์, Parameter tuning (e.g # of random walks, window size, loss coefficient, dropout...) ์ ์งํํ๋ค.
๐น Metrics
• graph based clustering metrics : graph modularity (๊ฐ์ด ํด์๋ก ์ข์), average cluster conductance (๊ฐ์ด ์์์๋ก ์ ํ์ฑ๋ ํด๋ฌ์คํฐ๋ผ ๋ณผ ์ ์์)
• label based metrics : normalized mutual information (๊ฐ์ด ํด์๋ก ์ข์), pairwise F1 score
โ cf) ๋ชจ๋ ์งํ๊ฐ์ 100์ ๊ณฑํ์ฌ ์ฑ๋ฅ ๋น๊ต๋ฅผ ์งํํจ
๐น Results
(1) Synthetic data
(2) Real world data
๐ ๊ตต์ ํ์๊ฐ ๊ฐ์ฅ best score ๋ฅผ ๋ณด์ธ ๋ถ๋ถ์ด๋ผ ๋ณผ ์ ์์
7๏ธโฃ Conclusions
โ DMoN ์ attributed graph clustering ์๊ณ ๋ฆฌ์ฆ์ผ๋ก, unsupervised objective ํจ์๋ฅผ ์ฌ์ฉํด ํ๋ จ์ ์งํํ๋ค.
โก DMoN ์ graph ๊ตฌ์กฐ์ node feature ๋ฅผ ๋ชจ๋ ๊ณ ๋ คํ์ฌ ํ๋ จ์ ์งํํ ์ ์์ผ๋ฉฐ, synthetic data ์ real world data ์์ ๋ชจ๋ baseline model ๋ณด๋ค ์ข์ ์ฑ๋ฅ์ ๋ณด์๋ค.
๋๊ธ