Introduction to ERGM
Exponential Random Graph Models
What Is a Network?
:= “relational data” 를 수학적 그래프로 나타낸 것. node의 set과 edge set의 복합이며, edge는 일부 node를 이음.
Exponential Random Graph Model (ERGMs)
- : adjacency Matrix 로 서술된 랜덤 네트워크
- : node 로부터 node 로의 edge 여부 indicator
- : 연구자의 관심대상인 네트워크 statistics 의 vector
- : vector 에서의 상응하는 entry 들의 strengths of the effects 를 측정 (measure) 하는 패러미터 들의 vector. ERGM 을 해석하는 방법은 이하와 같다.
- : 값이 0에서 1로 변할 때 를 형성하는 경향이 있음을 의미
- : 값이 0에서 1로 변할 때 를 형성하지 않는 경향이 있음을 의미. 형성의 역방향.
- : A normalizing constant
ERGM 은 네트워크의 전체 구조를 형성하는 로컬적인 selection force를 간략하게 설명함. 네트워크 데이터셋은 리그레션에서의 response 같은 것으로 간주될 수 있으며, 이때 predictor들은 “파트너십에서 개인들이 삼각형을 형성하는 성향” 과 같은 것임. 즉, ERGM은 local transtivity의 정도, 위력을 량화하는데 도움을 줌. EGRM을 사용해 획득하는 정보는 특정 현상을 이해하거나 특정 네트워크로부터의 랜덤한 실현값을 시뮬레이션하는데에 쓰일 수 있음. 이때 랜덤한 실현값은 당연히 원본의 성질을 유지해야 하고.
Network Statistics
knitr::include_graphics('images/knit-logo.png')Degree and Shared Partnership Distribution
- Degree: 특정 node 가 다른 node 와 연결되어 있는, 즉 보유하고 있는 edge 의 수
- : degree 가 인 node 들의 갯수. 이때 .
unordered pair
- Shared Partnership Distribution:
- 와 가 정확히 개의 공통된 neighbor 를 가지고, 이와 동시에 이하의 각각의 조건을 만족한다면, unordered pair 의 갯수는 이하로 notation.
- : . 즉 픽된 서로가 connected.
- : . 즉 픽된 서로가 unconnected.
- : regardless of value . 픽된 서로의 connect 여부 무관.
- (edge counts) 이며, (dyad counts).
- 와 가 정확히 개의 공통된 neighbor 를 가지고, 이와 동시에 이하의 각각의 조건을 만족한다면, unordered pair 의 갯수는 이하로 notation.
knitr::include_graphics('images/knit-logo.png')Geometrically Weighted Statistics (GW statistics) for degree and shared partnership distribution 는 이하와 같이 정의된다. 여기에 추가된 패러미터 는 higher order terms 때 부과되는 weight의 decreasing rate를 나타냄. 위에서 언급한 statistics 들 중 만 안쓰였음.
이들을 통해 우리는 can capture high-order interaction.
can be either
- pre-specified (general exponential families)
- estimated (curved exponential families)
Difficulty in Parameter Estimation
Intractable Normalizing Constants
ERGMs의 normalizing constant 는 .
undirected 인 경우에조차도 개의 네트워크가 존재하므로, 를 직접 계산하는건 불가능함. 이렇게 직접 계산하는게 불가능하기 때문에 MCMC 가 시뮬레이션과 통계적 추론 양쪽에 있어서 핵심이 된다. 하지만 일반적은 MH 알고리즘에 있어서는 acceptance probability에 알려지지 않은 constant ratio 인 가 끼어있으므로 이를 직접적으로 계산하는 것 또한 실패하게 됨. 이때 denotes the proposed value.
Model Degeneracy
를 어떻게 설정하느냐에 따라서 ERGM은 full (모든 연결이 존재하는, ) 혹은 empty (연결이 없는, ) 네트워크를 거의 1에 가까운 확률로 생산하기도 한다.
- Example: Basic Markovian Statistics. 네트워크에서 하나의 edge가 추가되거나 제거될때, 다른 통계량들이 비교적 크게 변하지 않을 때 basic Markovian 통계량만 엄청나게 요동치는 상황 발생할 수 있음. 따라서 dyadic dependence effects만 빠르게 뻥튀기되어서 모델이 degenerate 될 수 있음.
현재 사용되는 방법인 MCMLE and stochastic approximation 는 시작값이 degeneracy 영역에 있었다면 의 degenerate 추정값을 생산하기도 한다. 이러한 문제점을 일컫는 용어가 Local convergence property.
knitr::include_graphics(rep('images/knit-logo.png',3))