060. Parameter Estimation of ERGM

Parameter Estimation of ERGM

Current Methods for ERGM

Approximation-based Algorithm:
MCMC 샘플들로 likelihood function 을 최대화. typically used in finding MLE.
- Maximum Pseudo-likelihood Estimation (MPLE, 1974).
- Markov Chain Monte Carlo Maximum Likelihood Estimation (MCMCMLE, 1994).
- Markov Chain Monte Carlo Stochastic Approximation (MCMCSA, 2002).
  - 이 위까지로는 model degeneracy issue 를 해결하지 못했음. 아래의 VTSAMCMC 가서야 해결함.
- Varying Truncation Stochastic Approximation MCMC Method with Trajectory Averaging (VTSAMCMC, 2013).
Auxiliary Variable Markov Chain Monte Carlo (MCMC) Algorithm:
normalizing constant 를 근사하거나, normalizing constant ratio $\frac{κ ( θ )}{κ ( θ ^{'} )}$ 를 cancel 하기 위해 auxiliary variable 들을 도입 (introduce). 베이지안 추론을 위해 사용. Bayesian inference.
- The Exchange Algorithm.
- Auxiliary Variable Metropolis-Hasting Algorithm (AVMH).
- Adaptive Exchange Monte Carlo Algorithm (AEXMC).

Approximation-based Algorithm

Maximum Pseudo Likelihood Estimation (MPLE)

$A$ 내부의 성분 간의 의존성 (high-order dependence wihin network) 을 무시한 채로, conditional independence 를 가정하여 조건부 likelihood 함수들의 series를 곱하는 것으로 pseudo-likelihood 함수를 근사함. ERGMS 의 조건부이며 pseudo-likelihood 는 아래와 같음. 이렇게 근사한 pseudo-likelihood 로 maximum likelihood estimator 를 approximate. 물론 이건 어디까지나 가장 간단한 방법으로서 제시되었을 뿐이고, 이 방법론은 의존성 구조를 완전히 무시했기 때문에 퍼포먼스가 구림.

⟺ l o g i t {P_{θ} (X_{ij} = 1 X_{ij}^{c} = x_{ij}^{c})} lo g P L (θ, x) = θ^{'} g (x_{ij}^{c}) = ij \sum θ^{'} g (x_{ij}^{c}) \cdot x_{ij} - ij \sum lo g {1 + θ^{'} g (x_{ij}^{c})}

⟺ l o g i t {P_{θ} (X_{ij} = 1 y_{ij}^{c})} lo g P L (θ, y) = log of unnormalized density with y_{ij}^{c} i = 1 \sum P θ_{i}^{'} S_{i} (y_{ij}^{c}) = not a proper likelihood ij \sum θ^{'} S (y_{ij}^{c}) \cdot y_{ij} - ij \sum lo g {1 + θ^{'} S (y_{ij}^{c})}

advantage: simple one / don’t need to generate auxiliary networks
disadvantage: parameter estimates is not good because MPLE ignores high-order depedence

MCMC MLE

with initial guess of parameter → generate auxiliary networks
with auxiliary networks → update parameter estimates

패러미터 $θ^{(0)}$ 에 대해 이하와 같은 initial guess 가진다고 하자.

l (θ) = θ^{'} S (y) - lo g k (θ) l (θ^{(0)}) = θ^{(0)}^{'} S (y) - lo g k (θ^{(0)})

l (θ) - l (θ^{(0)}) = (θ - θ^{(0)})^{t} S (y) - lo g \frac{κ ( θ )}{κ ( θ ^{(0)}}

distribution $f (x ∣ θ^{(0)})$ 에서 생산된 MC 샘플들로부터 $κ (θ)$ 근사. 이때 $θ^{(0)}$ 는 $θ$ 의 initial 측정값. MCMC 시뮬레이션을 통해 $f (x_{o b s} ∣ θ^{(0)}$ 으로부터 랜덤샘플 $x_{1}, \dots, x_{m}$ 을 draw. 이 경우 log-ratio likelihood 는 $m \to \infty$ 에서 이하와 같이 근사 가능.

I (θ) - I (θ^{(0)}) = (θ - θ^{(0)})^{t} g (x_{obs}) - lo g [\frac{1}{m} i = 1 \sum m exp {(θ - θ^{(0)})^{t} g (x_{i})}]

따라서 $θ$ 를 경유해서 $I (θ) - I (θ^{(0)})$ 를 극대화하는 작업을 통해 결국 $\hat{θ}_{M L E}$ 를 근사할 수 있게 된다.

MCMLE 의 퍼포먼스는 $θ^{(0)}$ 의 선택에 좌우된다. $θ^{(0)}$ 이 MLE 의 참값의 attraction region 에 존재하지 않는다면, 해당 방법론은 suboptimal 해로 수렴해버리거나, 최악으로는 converge 실패 가능성도 있음.

MCMC Stochastic Approximation

exponential family 에 대한 이론을 통해, 우리는 ERGMs을 maximize 하는 것은 $E_{\hat{θ}} {g (X)} = g (x_{o b s})$ 라는 system 을 푸는 것과 동일하다는 것을 알 수 있다. 이 system 의 성립 여부는 이하와 iff ( $⟺$ ).

$\hat{θ} = \hat{θ}_{M L E}$
Independent network generation
Parameter estimation update with stochastic approximation

이 방법론은 independent 네트워크 샘플을 생산하는데에는 비효율적이다. 각 샘플 $x_{k + 1}$ 을 생산하기 위해 요구되는 이터레이션 스텝의 갯수는 order of $100 n^{2}$ . 이때 $n$ 은 node 의 갯수.

Auxiliary Variable MCMC-based Approaches

Exchange Algorithm

normalizing constant ratio $\frac{κ ( θ )}{κ ( θ ^{'} )}$ 따위의 auxiliary 변수로 분포 $f (x ∣ θ)$ 를 augment. 이는 시뮬레이션 중에 canceled.

후보 point $θ^{'} \sim q (θ^{'} ∣ θ, x)$ 를 생산
perfect sampler 사용해서 auxiliary 변수 $y \sim f (y ∣ θ^{'})$ 를 생산
$θ^{'}$ 를 with probability $1 \land r (θ, θ^{'} x)$ 로 채택. 이때

r (θ, θ^{'} x) = \frac{π ( θ ^{'} )}{π ( θ )} \cdot \frac{f ( x θ ^{'} )}{f ( x θ )} \cdot \frac{f ( y θ )}{f ( y θ ^{'} )} \cdot \frac{q ( θ θ ^{'} , x )}{q ( θ ^{'} θ , x )}

exchange 알고리즘은 Ising 이나 autologistic 과 같은 일부 discrete 모델에는 잘 작동. 하지만 perfect sampling 이 적용되지 않는 많은 다른 모델에는 적용할 수 없다. 우리는 MCMC 샘플을 통해 auxiliary 변수 $y$ 를 생산할 수 있지만, 수렴 문제 부분에서 이론적인 흠결이 있음. 만약 MCMC 샘플의 mixing이 매우 느리다면 딴놈이 아니라 $θ_{0}$ 가 매우 높은 확률로 채택되어버림. 그리고 이 MCMC 샘플의 mixing 이 느린 것 자체가 ERGMs 의 일반적인 특징임. 이래서 문제.

Monte Carlo MH Algorithm

MH 알고리즘의 MC 버전. 각 이터레이션에서 MCMH 알고리즘은 unknown normalizing constant ratio $\frac{κ ( θ )}{κ ( θ ^{'} )}$ 를 MC estimate와 importance 샘플링 접근법으로 대체한다.

exchange 알고리즘과 다르게, MCMH 알고리즘은 perfect sampler 요구조건을 빗겨간다. 따라서 perfect sampler 를 못 쓰는 다수의 통계문제에 대해서도 얘를 쓸 수 있음. 하지만 얘도 여전히 수렴 문제가 존재함. 얘의 경우에는 importance sampling estimator 가 유한한 숫자의 샘플로는 ratio의 참값 $\frac{κ ( θ )}{κ ( θ ^{'} )}$ 에 수렴하지 못할 수도 있음.

knitr::include_graphics('pics/network/06/01.png')

Varying Trunction Stochastic Approximation MCMC

ERGM 의 likelihood 함수는

f (y ∣ θ) = \frac{1}{κ ( θ )} exp {θ^{'} S (y)}, θ = (θ_{1}, \dots, θ_{d})^{'}, S (y) = (S_{1} (y), \dots, S_{d} (y))^{'}

이때 $κ (θ)$ 를 특정할 수 없다 (intractability)는 점과 모델 degeneracy 때문에, $θ$ 를 정확하게 추정하는 것은 어렵다. 이 문제는 varying truncation stochastic approximation MCMC 를 사용하는 것으로 해결 가능.

Normalizing constant 는 $κ (θ) = \sum_{all possible y} exp {θ^{'} S (y)}$ .

이로 인해 촉발되는 문제는?

MPLE: dyadic 독립이 가정되어 있다. 이건 observed 네트워크가 무엇이냐에 대해 과하게 의존.
MCMLE: $θ^{(0)}$ 을 어떻게 고르느냐에 대해 과하게 의존. local 최적해로 수렴해버리거나 모델 degeneracy 로 수렴 자체가 실패하기도.

MCMC Stochastic Approximation

$h (θ) = 0$ 형의 system 을 풀자. 고전적인 SA 알고리즘은 이하와 같은 형태를 띈다. ( $a_{k}$ , $h$ , $ω_{k}$ 에 대한) 적절한 조건 하에서, 이 알고리즘은 해로 수렴한다는 것을 실제로 보이는 것이 가능하다.

θ_{k + 1} = θ_{k} + a_{k} Y_{k} = θ_{k} + a_{k} {h (θ_{k}) + ω_{k}}, k \geq 0

$Y = h (θ) + ω$ 는 noisy estimate
$ω$ 는 mean-zero noise.

$θ_{M L E}$ 를 찾는 것은 exponential family 안에서 $E_{θ} {S (Y)} = S (y_{o b s})$ 의 해를 찾는 것과 equivalent. 이는 이하의 단계를 거친다. 다만 이는 independent 네트워크 샘플을 생산하는데 있어 비효율적일 수밖에 없음. order of $100 n^{2}$ 이라 연산을 엄청 먹으니까.

$y^{k + 1} \sim f (y ∣ θ^{(k)}$ 를 샘플링 (independence 네트워크 생산)

각 arc 변수 $Y_{ij}$ 가 독립적으로 정해지는 랜덤 그래프에서 시작. 이 변수에는 0 혹은 1이 0.5 확률로 할당. 이 랜덤 그래프를 Gibbs 샘플러든 MH 알고리즘이든 써서 업데이트.

SA 를 통해 패러미터 estimate $θ^{(k + 1)} = θ^{(k)} - a_{k} D^{- 1} {U (y_{k + 1}, \overset{ˉ}{y}_{k + 1}) - S (y_{o b s})}$ 절차 따라서 업데이트. where

U (y_{k + 1}, \overset{ˉ}{y}_{k + 1}) - S (y_{o b s})} \overset{ˉ}{y}_{k + 1} = P (\overset{ˉ}{y}_{k + 1} y_{k + 1}) \cdot S (\overset{ˉ}{y}_{k + 1}) {1 - P (\overset{ˉ}{y}_{k + 1} y_{k + 1})} \cdot S (\overset{ˉ}{y}_{k + 1}) = 1 - y_{k + 1}

Model Degeneracy

$θ$ 을 어떻게 정하느냐에 따라 모델은 그것의 확률을 (Complete (fully connected) 거나 empty (entirely unconnected) 네트워크와 같은) 1개 혹은 소수의 그래프에만 한정시켜서 부어버릴 수도 있다. (탐색 효율 쓰레기됨) 이 문제를 해결하기 위해선 탐색 전에 degeneracy 리전을 거의 포함하지 않는 패러미터 스페이스를 가지는 모델로 특정할 필요가 있다. 근데 이게 진짜 드럽게 어려움.

Varying Truncation SAMCMC for ERGMs

알고리즘 proceeds 전 Setup: for some constants $k_{0} > 1$ , $η \in (\frac{1}{2}, 1)$ , $ξ \in (\frac{1}{2}, η)$ , $C_{a} > 0$ , $C_{b} > 0$ , set as below.

tag: C1

a_{k} = C_{a} (\frac{k _{0}}{( k _{0} \lor k )})^{η}, b_{k} = C_{b} (\frac{k _{0}}{( k _{0} \lor k )})^{ξ}

Next,

tag: C2

s \geq 0 ⋃ K_{s} = Θ, where K_{s} \subset int (K_{s + 1})

And also,

$X$ : a space of social network
$T$ : $X \times Θ \to X_{0} \times K_{0}$ (reinitialization mechanism)
$σ_{k}$ : 이터레이션 $k$ 까지 수행되는 reinitialization 의 숫자. ( $σ_{0} = 0$ )

Proceeds:

Gibbs 샘플러 사용해 $m$ sweeps 번 interate 해서 auxiliary network $y_{k + 1} \sim f (y ∣ θ^{(k)})$ 생산
Set $θ^{(k + \frac{1}{2})} = θ^{(k)} + a_{k} {S (y_{k + 1}) - S (y_{o b s})}$
Set

{σ_{k + 1} = σ_{k} and (y_{k + 1}, θ^{(k + 1)}) = (y_{k + 1}, θ^{(k + \frac{1}{2})}) σ_{k + 1} = σ_{k} + 1 and (y_{k + 1}, θ^{(k + 1)}) = T (y_{k}, θ^{(k)}) ∥ θ^{(k + \frac{1}{2})} - θ^{(k)} ∥ \leq b_{k}, θ^{(k + \frac{1}{2})} \in K_{σ_{k}} o . w .

Trajectory averaging estimator

trajectory averaging estimator $\overset{ˉ}{θ}_{n} = \frac{1}{n} \sum_{k = 1}^{n} θ^{(k)}$ 에 의해 $θ$ 를 estimate 가능.

실전에서는 estimate 의 variation 을 줄이기 위해 대신 $θ$ estimate 에 $\overset{ˉ}{θ} (n_{0}, n) = \frac{1}{n - n _{0}} k = n_{0} + 1 \sum n θ^{(k)}$ 을 자주 사용함. 이 때 $n_{0}$ 는 burn-in 이터레이션의 숫자.

Free parameters
- Free parameters: ${a_{k}}$ , ${b_{k}}$ , ${K_{s}, s \leq 0}$ , $m$
- $k_{0} = 100$ , $η = 0.65$ , $ξ = \frac{0.5 + η}{2}$ .
- $C_{a}$ , $C_{b}$ : adjusted for different examples
- choose $K_{0}$ to be around MPLE.
- 이 article 에선 $K_{s, 1} = [- 4 (s + 1), 4 (s + 1)]$ , $K_{s, 2} = \dots = K_{s, d} = [- 2 (s + 1), 2 (s + 1)]$ 로 설정.
- $m = 1$

Numerical Examples

Methods: MCMLE, SAA (Stochastic Approximation Algorithm), Varying truncation SAMCMC SAMCMC: independent 5 runs(each of 200,000 iterations) (m=1, Ca = 0.01, Cb = 1000, η, ξ, κs are defalut)

?????????????????\?????????????????\?????????????????\?????????????????\?????????????????\?????????????????\?????????????????\?????????????????\?????????????????\?????????????????\?????????????????\?????????????????\?????????????????\?????????????????\?????????????????\?????????????????\?????????????????\?????????????????\?????????????????\?????????????????\?????????????????\?????????????????\?????????????????\?????????????????\?????????????????\?????????????????\?????????????????\?????????????????\?????????????????\?????????????????\?????????????????\?????????????????\?????????????????\?????????????????\?????????????????\?????????????????\?????????????????\?????????????????\

Conclusion

SAMCMC 알고리즘의 varying truncation 은 ERGM 에 적용 가능. 여기서는 estimator 가 degeneracy region 으로 향하는 걸 reinitialization 에 의해 방지. estimator 는 ERGM 의 MLE로 converge 하며, 이는 asymptotic 하게 $N$ 을 따르며 asymptotic 하게 efficient. 이는 normalizing constant 를 감당하고서라도 model degeneracy problem 를 해결할 수 있다는 점에서 유용.

Quartz 4

Explorer

060. Parameter Estimation of ERGM

Parameter Estimation of ERGM

Current Methods for ERGM

Approximation-based Algorithm

Maximum Pseudo Likelihood Estimation (MPLE)

MCMC MLE

MCMC Stochastic Approximation

Auxiliary Variable MCMC-based Approaches

Exchange Algorithm

Monte Carlo MH Algorithm

Varying Trunction Stochastic Approximation MCMC

MCMC Stochastic Approximation

Model Degeneracy

Varying Truncation SAMCMC for ERGMs

Trajectory averaging estimator

Numerical Examples

Conclusion

Graph View

Table of Contents