ERGM for Dynamic Networks

However, a need for statistical models representing the evolving phenomena ⇒ ”Dynamic Models” with a temporal structure

  • ERGM → TERGM → STERGM

One-step transition probability (Markov Assumption)

Temporal ERGM (TERGM, T ERGM)

시간 t에서의 네트워크는, t-1 시점의 (어쩌면 t-2도 가능하고) 네트워크로 조건을 건 ERGM 으로부터의 단일 생산으로 생각될 수 있음. 소셜 네트워크의 변화를 간단히 하기 위해 Markov assumption 적용.

이는 곧, 가 t 시점에서의 단일-관계 소셜 네트워크의 weight 매트릭스를 표현하고, 우리에게 의 값이 주어져 있다면, 으로부터는 독립임을 의미한다는 뜻. 수식으로 표현하면 아래와 같다.

마르코프 가정이 주어져 있음을 고려하면, evolving 네트워크 전반에 대해 ERGM 을 일반화하는 방법이란 가 ERGM 표현법을 채택했음을 가정하는 것. to assume admits an ERGM representation.

함수 를 생각해보자. 이는 시간적으로 인접한 2개의 네트워크 (, 등) 에 걸친 cliques 들의 잠재적은 potential로 인지될 수 있다. 이때 패러미터 벡터 는 이하와 같은 conditional pdf를 가지며, 는 곧 tendency to have more network statistics as time evolves.

joint likelihood 에서 는, as time evolves, how likely to have this network statistics.

특히 우리는 해당 모델에서 이하와 같은 특수한 경우에 관심이 있다.

이 형의 temporal potential 함수는 의 조건부 분포의 This form of the temporal potential function represents situations where the conditional distribution of factors over the entries of .

Network Statistics for Temporal ERGM

여기서 4개의 network Statistics 를 제안하자. 여기서 은 # of dyad.

\begin{align} S_D = \Psi_D \left ( A^t , A^{t-1}\right) &= \frac{1}{n-1} \sum_{ij = (i<j)} A^t_{ij} \tag{Density} \\ \Psi_S \left ( A^t , A^{t-1}\right) &= \frac{1}{n-1} \sum_{ij} \left \{ A^t_{ij} A^{t-1}_{ij} + \left (1-A^t_{ij} \right) \left (1-A^{t-1}_{ij} \right) \right \} \tag{Stability} \\ \Psi_R \left ( A^t , A^{t-1}\right) &= n \left ( \frac{\sum_\limits{ij} A_{ij}^t A_{ij}^{t-1}}{\sum_\limits{ij}A_{ij}^{t-1}}\right ) \tag{Reciprocity} \\ \Psi_T \left ( A^t , A^{t-1}\right) &= n \left ( \frac{\sum_\limits{ijk} A_{ik}^t A_{ij}^{t-1}A_{jk}^{t-1}} {\sum_\limits{ijk}A_{ij}^{t-1}A_{jk}^{t-1}}\right ) \tag{Transitivity} \end{align}
  1. Density : 전체 네트워크에 들어있는 총 tie의 숫자. 단순 density.
  2. Stability : 시점에 존재했던 link가 시점에도 여전히 존재하는 경향성
  3. Reciprocity : 시점에 에서 로 향하는 link가 있었다면 시점에 링크가 생겨날 경향
  4. Transitivity : 시점에 인 tie가 존재한다면, tie의 발생으로 이어지는 경향

Claim TERGM can avoid the model degeneracy problem: NOT CORRECT!!

Estimation

  • Notation & Algorithm & Convergence

observed 네트워크의 sequence 를 사용하자. 무엇을 위해? 실제 패러미터값 에 가까운 estimator 을 찾기 위해. normalizing constant 는 보통 계산해내는 것이 불가능하여 MLE 방법론의 도입은 불가. 따라서 MCMC stochastic approximation 를 사용해 패러미터 estimate. 이하와 같이 notation 한다. 이때 t 시점의 네트워크인 랜덤변수 에 대해 기댓값들이 계산되었음을 notice.

이때 이하의 기댓값들은 조건부 분포로부터 Gibbs 샘플링을 돌리는 것으로 근사 가능. Newton 방법론과 유사한 과정을 통해 unconstrained optimization 을 하자. 기댓값을 근사하고, Likelihood를 증가시키는 방향으로 패러미터값을 업데이트. 이 과정을 수렴하기까지 반복.

  • algorithm

randomly initialize .

Degeneracy of Temporal ERGMs

간단한 케이스에는, where the transition distribution factors over the edges, 이 모델들은 그러한 문제들에서 완전히 자유롭다는 것이 알려져 있음.

이는 직관적으로도 와닿음. 의 개개의 조건부 분포가 과하게 극단적이지 않은 한, 이 주어졌을 때 의 edge는 조건부 독립이기 때문이지. 따라서 의 조건부 엔트로피는 커야 하며, 이에 의해 의 조건부 엔트로피도 커야 할테니까.

물론 이 명제는 에 대한 의 의존이 그렇게 강하지 않을 때만 성립하는 것임. 이때 이 의존의 위력은 패러미터들의 위력에 의해 결정되지. 그러니까 패러미터가 이상하게 잡히면 해당 명제의 전제가 깨진다는 거.

동일한 확률값을 가진다는 것을 analytic 하게 보일 수 있는 그래프들의 class들, 즉 equivalence 클래스들에 대해서 이를 계산해보고, 엔트로피 계산에서 각각의 클래스의 크기에 따라서 weight를 부여하자.

첫 플랏의 경우를 생각해보자. 의 조건부 분포는 결국 에 존재하는 edge의 갯수와, 얼마나 많은 값들에게서 가 성립하고 있느냐, 의 2개의 값에 대한 함수일 뿐이다. 이에 더해 의 edge들은 exchangeable 하다는 점도 있다. 이들을 모두 생각해보면 결국 우리는 의 marginal 분포를 순수하게 edge의 숫자를 통해서만 서술하는 것이 가능하다.

따라서 우리는 의 확률값만 계산해내면 되며, 따라서 엔트로피는 weighted sum이다. 이때 weight는 각각의 edge 숫자에 대해, that many edges 를 가지고 있는 그래프의 숫자가 반영된 combinatorial quantities 가 된다.

Assessing Statistic Importance and Quality of Fit

Description of Network Statistics - 108th U.S. Senate Network Example

Three Parameter Model, Seven, Nine

Reverse-Transitivity: Co-Supported: Co-Supporting: Popularity Generosity

Separable Temporal ERGM (STERGM, ST ERGM)

  • STERGM = A Separable Model for Dynamic Network
  • Dynamic: social networks that evolve over time
  • Time(discrete):

Shows longitudinal properties based on the ERGM

  • Separable Temporal ERGM
    • formation of an edge: new ties
    • duration of an edge: lasting ties
  • 즉, model formation / duration seperatively.

Temporal ERGM Interpretation

하지만 이때 패러미터 해석할 때 주의해야할 부분이 있음.

  1. Property1: incidence of ties / tie formation (the rate at which new ties are formed)
  1. Property2: duration of ties / tie dissolution (how long they tend to last once they do)

given , we assume and are conditionally independent.

  • , 사이의 difference.
  • 는 ERGM 상에서의 아무 network statistics
  • Network statstic

(ex) edge count

coefficient on possibility of a network with many ties. 따라서 의 계수가 올라가면 tie가 많은 네트워크의 발생 확률 올라감.

But, this term simultaneously increases the weight of preservation of extant ties (fewer dissolved) ⇒ Both incidence and duration ↑

The two-sided nature of these effects tends to muddle parameter interpretation. ⇒ STERGM which separates the incidence and duration of ties and allows for the separate interpretation.

  • : incidence/tie formation – : duration/tie dissolution

:::{.definition name = “1”} Definition 1 We say that a dynamic model is separable if Y+ is conditionally independent of Y− given Y t−1 and the parameter space of θ is the product of the individual parameter spaces of θ+ and θ−.

:::

  • Assumption: During a given discrete time step, the process by which the ties form does not interact with the process by which they dissolve.
  1. Lost: In the parameterization in terms of formation and dissolution, some flexibility(formation and dissolution processes interact within a given time step) is lost

  2. Gain: Ease of specification, tractability of the model and substantial improvement in interpretability of TERGM

Now the parameter and its interpretation have an implicit direction. (formation or duration)

  • Formation network (+) is related to formation network only

  • Duration network (or Dissolution network)

(-) is related to duration network only

  • Example of Parameter Interpretation (Edge Count)

Now the parameter and its interpretation have an implicit direction. (formation or duration) Formation network Edge count g + (y + , y t−1 ) = |y + |, y

  • = y t−1 ∪ y t Recall, y

is network about formation θ

  • means log-odds of gaining new tie from y t−1 =⇒ y t Dissolution network Edge count g −(y −, y t−1 ) = |y −| , y − = y t−1 ∩ y t Recall, y − is network about duration θ − means log-odds of existing tie to survive at y t−1 =⇒ y
  • Likelihood-based Inference for STERGM

Fit STERGM by finding conditional MLE under an order 1 Markov assumption:

  • where

In practical, MLE can be obtained by maximizing the log-likelihood using numerical optimization.

The normalizing constant 는 계산 불가. 각각은 시뮬레이션을 통해 (e.g. MCMCMLE) 를 통해 획득됨

i.e. maximizing

Application Study

Conclusion

  1. Introduce statistical model for networks that evolve over time.
  2. Separable parameterization of incidence and duration.
  3. Greatly improve interpretability of model parameters, with sacrificing a little.
  4. Identify the structure of incident and durational structure