잠재 변수 관점에서의 PCA
Chapter 7 : Latent Variable Perspective
Latent Variable Perspective
이전까지 [10.2]부터 [10.6]에 걸쳐 설명한 PCA의 과정에는 선형대수학적인 접근 외에 다른 내용을 필요로 하지 않는다.
즉, 확률 모델의 관점에서 어려운 데이터들도 PCA를 통해 쉽게 해석할 수 있는 여지가 있다.
그러나 일반적인, 노이즈가 많은 데이터에서는 노이즈를 처리할 방법이 없기 때문에 사용이 어렵다는 단점이 있다.
따라서 이러한 문제를 해결하기 위해 PCA와 확률 모델을 결합시켜 사용하기도 한다.
연속적인 잠재 변수 $z \in \mathbb{R}^M$을 사용함으로써 PCA 를 확률적 잠재 변수 모델로 표현할 수 있는데,
이렇게 확률적인 모델을 이용하여 PCA 를 수행하는 것을 PPCA(probabilistic PCA) 라고 부른다.
이렇게 PPCA 를 사용할 경우에는 노이즈가 많은 일반적인 경우에도 사용가능한 점이 특징적이다.
이 책에서는 이러한 PPCA를 배우고 사용하면 얻는 이점을 다음과 같이 나열하고 있다.
- 우도 함수(likelihood function)를 이용해 노이즈가 많은 관측치를 명시적으로 처리할 수 있다.
- Marginal likelihood를 통해 베이지안 모델 비교를 수행할 수 있다.
- PCA를 생성 모델로 보고 새로운 데이터를 시뮬레이션할 수 있다.
- 관련된 알고리즘에 직접적인 연결이 가능하게 한다.
- 베이즈 정리를 적용하여 무작위로 누락된 데이터 차원을 처리한다.
- 새로운 데이터 포인트가 가지는 정보들에 대해 깨달음을 준다.
- 더 다양한 PCA 모델로 확장할 수 있는 원칙적인 방법을 제시한다.
- 이전에 배웠던 PCA가 일반적인 경우가 아닌 특수한 경우에만 사용되는 방식임을 알 수 있다.
- 모델 매개 변수를 아예 배제하고 오직 베이지안 처리만으로만 가능하게 한다.
Generative Process and Probabilistic Model
PPCA 에서는 선형 차원 감소를 위한 확률론적 모델을 명시적으로 적는다.
예를 들어, 연속 잠재 변수 $z \in \mathbb{R}^M$ 가 있고, $p(z) = \mathcal{N}(0,\boldsymbol{I})$ 일 때,
$z$ 와 관측된 데이터 $x$ 의 선형적인 관계를 다음과 같이 표기할 수 있다.
\[x=Bz+\mu+\epsilon \in \mathbb{R}^D,\]이 때, 가우시안 노이즈 $\epsilon \sim \mathcal{N}(0,\sigma^2\boldsymbol{I})$ 이고, $B \in \mathbb{R}^{D \times M}$ , $\boldsymbol{\mu} \in \mathbb{R}^{D }$ 이므로,
PPCA 를 통해 잠재 변수와 관측 변수를 다음과 같이 표현할 수 있다.
\[p(x|z,B,\mu,\sigma^2)= \mathcal{N}(x|Bz+\mu,\sigma^2I).\]그러므로 다음과 같은 생성과정을 따르면,
\[z_n \sim \mathcal{N}(z|0,I)\] \[x_n|z_n \sim \mathcal{N}(x|Bz+\mu,\sigma^2I)\]아래와 같이 생성모델을 만들 수 있다.
\[p(x, z|B, \mu,\sigma^2) = p(x|z, B, \mu,\sigma^2)p(z)\]