Link Search Menu Expand Document

켤레류와 지수족

Chapter 6: Conjugacy and the Exponential Family

Edited by / 김윤종 (kyj098707) kyj098707



여러가지 분포(Distribution With Names)


지수족(exponetial family)은 기본적으로 베르누이 분포, 이항 분포, 베타 분포 등이 속한 집합군이라고 할 수 있다. 베르누이 분포, 이항 분포, 베타 분포등이 속한 지수족은 공통된 특징을 내포하며 이번 절에서는 이에 대한 일반화를 하여 설명을 진행하고자 한다. 지수족을 소개하기에 앞서, 이 파트에서 간단하게 Bernoulli(베르누이 분포), Binomial(이항 분포), Beta(베타 분포)를 추가적으로 살펴보자.

베르누이 분포(Bernoulli)

베르누이 분포란 state $x \subseteq $ {0,1} 를 갖는 하나의 이진 확률변수 X에 대한 분포이다. 이는 $ X=1 $ 일때의 확률을 의미하는 하나의 파라미터 $ \mu \subseteq $ [0,1]를 통해 표현할 수 있다. 베르누이 분포 $ Ber(\mu) $ 는 다음과 같이 정의 된다.

\[\begin{align} p(x|\mu) = \mu^x(1-\mu)^{1-x}, x \subseteq \{0,1\}, \\ \mathbb{E}[x] = \mu, \\ \mathbb{V}[x] = \mu(1-\mu), \\ \end{align}\]

또한 0 또는 1, 실패 또는 성공 같이 두 가지의 시행만을 가지는 것을 우리는 베르누이 시행이라고 한다.


이때 $\mathbb{E}[x]$ 와 $\mathbb{V}[x]$ 는 각각 랜덤 변수 $X$ 의 평균과 분산이 된다.

추가설명

이 텍스트북에서는 조금 수식들에 대한 전개와 이해가 많이 담겨있지 않다. 조금 더 풀어서 확률, 기대값, 변수의 수식을 나열 해보려고한다. 베르누이 분포는 0과 1 두개의 값을 가지며 한 개 확률이 P이면 다른 하나는 1-P가 된다. 이를 떠올리며 수식을 이해하면 좀 더 수월하게 진행될 것이다. 해당 텍스트 북에서는 $ \mu $ 로 표현하고 있지만 필자는 P로 하나의 확률값을 나타내려고 한다.

\[P(0) = 1-P\\ P(1) = P\\ P(x) = P^x * (1-P)^{1-x}\\\] \[E(x) = \Sigma x * P(x)\\ = 0 * p(0) + 1*P(1)\] \[V(x) = E( x^2 ) - {E(x)}^2\\ = \Sigma x^2(P(x))- P^2\\ = 0 * P(0) + 1*P(1) - P^2\\ = P - P^2\\ = P(1-P)\\\]

이항 분포(Binomial)

이항분포는 베르누이 분포를 정수에 대해 일반화하는 것이다. 이항분포는 N번의 사건에서 X=1이 m번 발생할 확률을 설명할 때 사용된다. 이항분포 $Bin(N,\mu)$는 다음과 같이 정의된다.

\[\begin{align} p(m|N,\mu) = {N \choose m} \mu^m (1-\mu)^{N-m}, \\ \mathbb{E}[m] = N \mu, \\ \mathbb{V}[m] = N \mu(1-\mu), \\ \end{align}\]


이때 $\mathbb{E}[m]$ 와 $\mathbb{V}[m]$ 는 각각 랜덤 변수 $m$ 의 평균과 분산이 된다.
대표적인 이항 분포의 예시로는 앞면이 나올 확률이 $\mu$ 인 $N$ 개의 동전 던져 m개의 앞면을 나올 확률이 있다.

추가설명

이항 분포의 개념은 예시로 들면 좀 더 쉽게 이해할 수 있다.
예를들어 자유투 성공률이 80%인 농구선수가 있을 때 이 선수가 10번의 자유투를 던지려고 한다. x번 만큼 자유투를 성공 시킬 확률을 $ P(x) $ 로 가정하면 다음과 같은 수식이 나온다.

\[P(0) = (0.2)^{10} \\ P(1) = 10 \ * \ (0.8) * \ (0.2)^9 \\ P(2) = _{10}\mathrm{C}_{2} \ * \ (0.8)^2 * \ (0.2)^8 \\ P(x) = _{10}\mathrm{C}_{x} \ * \ (0.8)^x * \ (0.2)^{10-x} \\\]

최종적으로 확률, 기대값, 분산은 다음과 같다.

\[P(x) = _{n}\mathrm{C}_{x} \ P^x \ (1-P)(n-x) \\ = {n \choose x} \ P^x \ (1-P)(n-x)\\\] \[E(x) = \Sigma \ x \ P(x) \\ = \sum_{x=0}^n x {n \choose x} \ P^x \ (1-P)(n-x)\\ = \sum_{x=1}^n x \ \frac {n!}{x!(n-x)!} \ P^x \ (1-P)^{n-x}\\ = \sum_{x=1}^n x \ \frac { n \ (n-1)! }{x \ (n-x)! \ (x-1)! } \ P^x \ (1-P)^{n-x} \ P \ P^{x-1} \ (1-P)^{n-x} \\ = n \ P \ \sum_{x=1}^n x \ \frac { (n-1)! }{ (n-x)! \ (x-1)! } \ P^{x-1} \ (1-P)^{n-1}\]

이때 치환을 하여 $ n-1 = m, x-1 = r, n-x = m-r $ 로 바꿔서 계산을 하게 되면 최종적으로 다음과 같은 수식을 도출 할 수 있다.

\[n \ P \sum_{r=0}^m \ {m \choose r} \ P^r \ (1-P)^{m-r}\]

이때 $ nP $ 를 제외한 나머지 수식들은 시행회수가 m이고 확률이 P인 이항분포의 확률의 모든 값을 더한 값, 즉 1이 됩니다.

\[E(x) = nP\]

분산도 위와같은 방법으로 치환적분을 사용하면 쉽게 값을 도출할 수 있습니다.

베타 분포(Beta)

베타분포는 무한한 공간에서 연속확률변수 $ \mu \subseteq [0,1] $ 에 대한 분포이다. 이는 이진사건의 확률을 나타낼 때 유용하다. 베타분포 $ Beta( \alpha, \beta ) $ 는 두 개의 파라미터 $ \alpha > 0 , \beta > 0 $ 일 때 성립되며 다음과 같이 정의한다.

\[\begin{align} p( \mu | \alpha , \beta) = \frac{ \Gamma ( \alpha + \beta )}{ \Gamma (\alpha) \Gamma (\beta) } \mu^{ \alpha - 1 } ( 1 - \mu )^{ \beta - 1}, \\ \mathbb{E}[ \mu ] = \frac{ \alpha }{ \alpha + \beta } , \\ \mathbb{V}[\mu] = \frac{ \alpha \beta }{ ( \alpha + \beta )^2( \alpha + \beta + 1 ) } , \\ \end{align}\]


이때 $ \Gamma() $ 는 감마함수로, 다음과 같이 정의 된다.

\[\begin{align} \Gamma (t) := \int_{0}^{ \infty } x^{t-1}e(-x) dx , t > 0 \\ \Gamma (t+1) = t \Gamma (t) \end{align}\]


위의 식에 있는 감마함수에 대한 분수는 베타 분포를 normalize하는데 사용하는 것이다.


직관적으로 $ \alpha $ 는 확률밀도는 1로 이동한다. 반면 $ \beta $ 확률밀도는 0으로 이동한다. 베타 분포의 파라미터에는 몇몇 특별한 케이스가 존재한다.

  • $ \alpha = 1 , \beta = 1 $ 이면 uniform distribution(균등분포) $ \mathcal{U} $ [0,1]을 얻는다.
  • $ \alpha , \beta < 1 $ 이면, 0 과 1에서 최빈값을 갖는 bimdodal distribution(다봉분포)을 얻는다.
  • $ \alpha , \beta > 1 $ 이면 unimodal distribution(단봉분포)을 얻는다.
  • $ \alpha , \beta > 1 이고, \alpha = \beta $ 이면, 분포는 구간 [0,1]에서 unimodal, symmetric, centered하다. 즉 최빈값과 평균이 $ \frac{1}{2} $ 이 된다.

Conjugacy


Bayes’theorem 에 따르면 posterior는 prior과 likelihood의 곱에 비례한다. prior을 특정하는 것은 두 가지 이유에서 까다롭다.

  1. prior은 우리가 어떤 데이터를 보기 전에 그 문제에 대한 우리의 지식을 담고 있어야 하기 때문에 어렵다.
  2. posterior distribution을 분석적으로 계산하는게 불가능하다. 그러나 계산하기 편한 priors이 있으며 이를 conjugate prior(켤레사전분포)라 부른다

켤레 사전 분포(Definition of Conjugate Prior)

만약 posteior가 prior와 같은 형태라면, prior가 likelihood function에 대한 conjugate(켤레)라 부른다.


Conjugate prior를 이항분포와 베타분포를 통해 예제로 소개하면 다음과 같다.

Example of Beta-Binomial Conjugacy


이항분포를 따르는 확률변수 x ~ Bin( $ N , \mu $ ) 을 생각해보자.

\[\begin{align} p(x|N ,\mu) = { N \choose x } = \mu_x (1-\mu)^{N-x}, x = 0, 1, ..., N \end{align}\]

위 식은 $ \mu $ 가 앞이 나올 확률이다. $ N $개의 동전던지기에서 $x$ 개의 앞을 얻을 확률이다. 파라미터 $ \mu $ 를 베타 prior $ \mu $ 로 대입하면,즉 $ \mu∼Beta( \alpha , \beta) $ 가 되고, 이는 다음과 같다.

\[\begin{align} p( \mu | \alpha , \beta ) = \frac{ \Gamma ( \alpha + \beta )}{ \Gamma( \alpha )( \beta )} \mu^{ \alpha -1 } (1- \mu )^{ \beta - 1} \end{align}\]


만약 우리가 outcome $ x = h $ 인 것을 알 수 있다면, 즉, N번의 동전던지기에서 h개의 앞면을 나왔을 경우, 우리는 $ \mu $ 의 posterior distribution은 다음과 같이 계산할 수 있다.

\[\begin{align} p( \mu | x = h, N, \alpha, \beta ) \propto p( x | N, \mu) p( \mu | \alpha , \beta) \\ \propto \mu^h(1- \mu )^{N-h} \mu^{ \alpha - 1}(1 - \mu )^{ \beta -1}\\ = \mu^{h+ \alpha -1} (1- \mu)^{(N-h)+ \beta -1 }\\ \end{align}\]

Example of Beta-Bernoulli Conjugacy

$ x \subseteq [0,1] $ 이 파라미터 $ \theta \subseteq [0,1] $ 을 갖는 베르누이 분포를 따른다고 했을 때, $ p(x=1 | \theta ) = \theta $ 가 된다. 또한 이는 $ p(x | \theta ) = \theta^x(1- \theta )^{1-x} $ 로 표현할 수 있다. $ \theta $ 가 베타 분포를 따른다고 해보자. 즉, $ p( \theta | \alpha , \beta) \propto \theta^{ \alpha -1}(1- \theta )^{ \beta -1} $ 이 된다.

베타분포와 베르누이 분포를 곱하면, 다음과 같다.

\[\begin{align} p( \theta | x , \alpha, \beta ) = p( x | \theta ) p( \theta | \alpha , \beta) \\ \propto \theta^x(1- \theta )^{1-x} \theta^{ \alpha - 1}(1 - \theta )^{ \beta -1}\\ = \theta^{ \alpha +x-1} (1- \theta)^{ \beta +(1-x)-1 }\\ \propto p( \theta | \alpha + x, \beta + (1-x))\\ \end{align}\]

마지막의 식은 파라미터 $ { \alpha_x , \beta + (1-x)} $ 를 갖는 베타분포가 된다.

Sufficient Statics

Ronald Fisher이 발견한 충분통계량은 어떤 분포에서 얻은 데이터로 부터 가능한 모든 정보를 포함하고 있는 통계량이다. 이는 충분통계량은 모수를 추론하는데 필요한 모든 정보를 담고있어 분포를 표현하기 충분한 통계량을 말한다. 이론과 수식은 다음과 같다.

피셔 네이만 정리(Fisher - Neyman theorem)

$ X $ 를 pdf $ p(x | \theta ) $ 라고 했을 때 통계량 $ \varnothing (x) $ 가 $ \theta $ 에 대한 충분통계량이 되기 위한 필요충분조건은 $ p( x | \theta ) $ 을 다음과 같이 분해할 수 있는 것이다.

\[p( x| \theta ) = h(x)g_\theta ( \varnothing (x) )\]

여기서 h(x)는 $ \theta $ 에 독립적인 분포이며, $ g_\theta $ 는 충분통계량 $ \varnothing (x) $ 를 통해 $ \theta $ 에 의존하는 모든 정보를 포함한다.

우리가 데이터를 더 관측할 경우 분포를 설명하기 위해 더 많은 파라미터 $ \theta $ 가 일반적으로 필요하다. 이에 대한 반대 질문은 어떤 분포가 유한한 차원의 충분통계량을 가지고 있는가이다. 이를 우리는 exponential family에서 다루려고 한다.

지수족(Exponential Family)

지수족은 확률분포의 일종으로 $ \theta \subseteq \mathbb{R}^D $ 에 의해 parameterize되어 있고, 다음과 같은 형태를 갖는다.

\[p( x | \theta) = h(x)exp(< \theta, \phi (x)> - A ( \theta ))\]

$ \theta (x) $ 는 충분 통계량의 벡터이다. 일반적으로 어떤 내적이든 위의 식처럼 쓸 수 있다.

인수 $ h(x) $ 는 내적항안에 충분통계량의 벡터 $ \phi (x) $ 에 $ log h(x) $ 를 더함으로써 흡수되게 만들 수 있으며, 그 결과 이에 해당하는 파라미터 $ \theta_0 = 1 $ 을 제약하게 된다. $ A( \theta ) $ 항은 확률분포의 영역/합이 1이 되게 만드는 normalization constant이며, log partition function으로 부른다. 이 없이는 확률분포가 되지 않는다. 지수족에 대해 직관적으로 좋은 표현법은 이 두 항을 무시하고 지수족을 다음과 같은 확률분포로 생각하는 것이다.

\[p(x| \theta ) \propto exp( \theta^T \phi (x))\]

이러한 형태의 parameterization에 대해, $ \theta $는 natural parameters라고 부른다.

Gaussian as Exponential Family

단변량 가우스 분포 $ \mathcal{N} ( \mu, \sigma^2) $ 을 생각해보자 $ \phi (x) = ( x \choose x^2 ) $ 라 하자, 그러면 지수족 정의에 의하여 다음과 같다.

\[p(x | \theta ) \propto exp( \theta_1 x + \theta_2 x^2 )\]

가 된다. 그런 후 다음과 같이 $ \theta $ 를 세팅한다.

\[\theta = [ \frac{ \mu } { \sigma^2 } - - \frac{1}{2 \sigma^2 } ]^T\]

앞 서정의한 식에 해당 $ \theta $ 를 대입하면 다음과 같은 식을 얻게 된다.

\[p(x | \theta ) \propto exp ( \frac{ \mu x }{ \sigma^2 } - \frac { x^2 } { 2 \sigma^2 } ) \propto exp( - \frac{1}{2 \sigma^2 }(x- \mu )^2)\]

따라서 가우스 분포는 충분통계량 $ \phi (x) = [ x \quad x^2] $ 을 갖는 지수족의 일종이며, natural paramater는 위의식 $ \theta $ 를 주된 값으로 가지게 된다.

Bernoulli as Exponential Family

베르누이 분포는 다음과 같다.

\[p(x|\mu) = \mu^x(1-\mu)^{1-x}, x \subseteq \{0,1\}\]

이는 지수족 형태로는 다음과 같다.

\[p( x| \mu ) = exp[log( \mu^x (1- \mu )^{1-x} )]\\ = exp [x log \mu + (1-x) log (1- \mu )]\\ = exp [x log \mu + xlog (1- \mu ) + log ( 1- \mu )]\\ = exp [x log \frac { \mu }{ 1- \mu } + log(1- \mu )]\]

위의 식으로 우리는 다음 것들을 도출해 낼 수 있다.

\[h(x) = 1 \\ \theta = log frac{ \mu }{ 1- \mu } \\ \phi (x) = x \\ A( \theta ) = -log(1 - \mu ) = log( 1+ exp( \theta ))\]

$ \theta $ 와 $ \mu $ 의 관계는 다음과 같으며 invertible하다.

\[\mu = \frac{1}{ 1+ exp(- \theta ) }\]

원래의 베르누이 분포의 파라미터 $ \mu $ 와 natural parameter $ \theta $ 의 관계는 sigmoid 혹은 로지스틱 함수로 알려져있다. 이때 $ \mu \subseteq [0,1] , \theta \subseteq \mathbb{R} $ 일 때, 시그모이드 함수는 실수값을 (0,1)의 값으로 압축한다. 이러한 성질은 머신러닝에서 로지스틱 회귀를 사용한거나 신경망 네트워크에서 활성화함수를 사용하는데 유용하다.


'확률 분포' 카테고리의 다른 글
  1. 요약 통계와 독립
  2. 가우시안 분포
  3. 켤례류와 지수족
  4. 변수 변환과 역변환
  5. 더 읽을거리

```